Big data: Fuentes de Datos

Ya en el módulo anterior vimos que una de las partes más importantes de un sistema de BI son las fuentes de datos. En este módulo revisaremos en profundidad el concepto de fuente de datos y veremos cómo afecta el nuevo contexto de Big Data a la naturaleza de las mismas.

 

  1. Definición

 

En primer lugar, ¿Qué es una fuente de datos?

 

  • En BI, una fuente de datos es un punto de abastecimiento de datos con información potencialmente útil para el análisis de un proceso de negocio de nuestra organización
  • Los datos pueden proporcionarse de distintas formas y en una gran variedad de formatos…(por ejemplo)
    • Conjuntos de datos (archivos, consultas a bases de datos,…) o generados de forma continua (datos procedentes de sensores)
    • Formatos: CSV, XML, JSON, texto, vídeo, audio, imagen, relacional (conjuntos de filas y columnas),…
  • Cuando hablamos de fuentes de datos nos referimos a información digital o que es digitalizada para su procesamiento.

 

  1. Fuentes de datos Big Data

 

  • Una de las ventajas del uso de Big Data es que permite enriquecer la información interna disponible en una organización con información de fuentes externas
  • De esta forma, en Big Data es frecuente disponer de:
    • Información interna
      • Data Warehouses o repositorios de tipo Big Data (ej. BD NoSQL) con información interna de la actividad de la organización recopilada en el tiempo
      • No solo tenemos información estructurada en forma de filas y columnas: texto, imagen, vídeo, XML, JSON…
    • Información externa
      • Proporcionada por otras empresas de la competencia mediante conexión privada (ej. en caso de sinergias)
      • Proporcionada por otras organizaciones a través de internet, ya sea de forma pública o comercial.

 

  1. Fuentes de datos Big Data

 

Precisamente, este último tipo de fuentes ha sido el que más aumentado en los últimos años y las responsables (en gran medida) del nuevo de contexto de Big Data (como ya vimos en el Módulo 1)

 

  • Amplio abanico de fuentes externas disponibles a través de la red
    • Open Data, Redes Sociales, Internet of the Things (IoT)….
  • En Big Data el objetivo es aprovechar este tipo de fuentes para complementar el resto de información de la que disponemos
  • Dos de las más usadas para el desarrollo de aplicaciones Big Data para BI son:
    • Open Data
    • Redes Sociales

 

  1. Fuentes externas Big Data. Open Data

 

Con una gran acogida en los últimos tiempos tenemos el….

 

  • Fenómeno Open Data: Muchas instituciones y comunidades han decidido publicar y compartir en Internet la información que manejan.
    1. datos de PIB de países, encuestas, consumo energético, precios de energía, paradas de autobús de una ciudad y otros servicios, restaurantes y muchos más.
  • Es habitual que la información…
    1. Se proporcione en distintos formatos (ej. Excel, XML, JSON)
    2. Sea accesible a través de API’s que nos permiten consultar y recibir los datos en nuestras aplicaciones
    3. Soporte para lenguajes de consulta estándares como SPARQL
  • Algunos ejemplos:
    1. Catálogo de Información Pública del Sector Público http://datos.gob.es/
    2. Santander Datos Abiertos http://datos.santander.es/

 

Datos de Solicitud de Licencias de Obras (Fuente: http://datos.santander.es/ )

 

  1. Fuentes externas Big Data. Redes sociales

 

Otras de las fuentes Big Data más relevantes son las….

 

  • Redes sociales: Millones de usuarios generan a diario una gran cantidad de información útil que podemos aprovechar
    1. Texto, imágenes, audio, vídeo…
    2. Opiniones, sentimientos, localizaciones…
  • Facebook, Twitter, Instagram, Foursquare, Google + o Linkedin son algunos ejemplos.
  • Acceso a los datos públicos y a los privados (de nuestra cuenta)
    1. API datos históricos, API streaming, SPARQL…
  • Algunos ejemplos
    1. API’s de Twitter: https://dev.twitter.com/
    2. Facebook Graph API: https://developers.facebook.com/docs/graph-api

 

  1. Importancia en la selección de las fuentes

 

  • La combinación de la información disponible en fuentes como las anteriores con la información interna de nuestra organización puede ser de gran utilidad para:
    • Estudios de mercado sobre un determinado producto
    • Marketing personalizado
    • Campañas políticas
    • Análisis y detección de comunidades sociales y sus flujos de movimiento
    • …entre muchas otras posibles aplicaciones. (infinitas?)
  • Por ello, es importante rastrear exhaustivamente la red en busca de fuentes de información que puedan ser útiles en el análisis de nuestro proceso de negocio objetivo.
  • Sin embargo, no toda la información externa es útil o tiene la calidad suficiente para satisfacer nuestros objetivos de análisis y permitir la extracción de conocimiento fiable.
    • Más aún en los casos en los que la información proviene de proveedores ajenos a la actividad de nuestra organización.
  • Si el conocimiento extraído no es fiable puede llevar a la toma de decisiones errónea respecto al proceso de negocio que pretendemos mejorar
    • Puede dar lugar a pérdidas económicas y al fracaso empresarial
  • Por ello es importante verificar la calidad de las fuentes de datos externas usadas, así como la correlación con los datos internos con los que se combinan para el análisis.

garbage.PNG

2 thoughts on “Big data: Fuentes de Datos

  1. coach Pourquoi dans l&i©217;Ã8qu#pe ils mettent Bastos à droite et Govou à gauche ??? les articles sont ils fait par des pigistes ou Puel aurait il perdu la raison ? Ouhra Torres ne joue pas !!! cest une sacré bonne nouvelle, avec un peu de chance, bcp même, Gerrard sera à court de forme … svp pas Clerc :!

    Like

Leave a comment