12 Jun 2018

«Big data, macrodatos,​ datos masivos, inteligencia de datos o datos a gran escala es un concepto que hace referencia a un conjuntos de datos tan grandes que aplicaciones informáticas tradicionales de procesamiento de datos no son suficientes para tratar con ellos…»

Esta es la definición que la universal Wikipedia nos da del concepto de Big Data. Tras los escándalos de Cambridge Analytica y los algoritmos de Facebook, nos es familiar. Sobre todo, la importancia que la información que flota en el éter de la red tiene, o bien porque los usuarios la han ofrecido voluntariamente o bien porque les ha sido extraída «sin su consentimiento expreso».

grafico de Big data extraído del uso de wikipedia de un robot

Visualización de todas las actividades de edición del usuario «Pearle» (un robot) en Wikipedia. Por Fernanda B. Viégas

Big Data, un viejo conocido

Aunque el término “Big Data” es nuevo, no lo es el acto de reunir grandes cantidades de información. Aun así, el concepto ganó impulso en el 2000 cuando el analista Doug Laney definió las tres características principales:

  1. Volumen. Las organizaciones reúnen datos de distintas fuentes: transacciones de negocios, redes sociales, o incluso datos intercambiados entre máquinas. En el pasado era muy complicado, ahora hay tecnologías que han facilitado mucho esta labor.
  2. Velocidad. Flujos de datos que se mueven a una velocidad sin precedentes han de ser tratados de una manera adecuada. Etiquetas RFID, sensores y mediciones inteligentes están llevando a la necesidad de tratar con este volumen de información en tiempo real.
  3. Variedad. Los datos vienen en todo tipo de formatos:
    • Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números
    • Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. Ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.
    • Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON.

Características extra de Big Data

En SAS , una compañía multinacional dedicada al análisis de datos, incluyen dos características extra:

  • Variabilidad. A parte de la creciente veloidad y variedad de los datos, los flujos pueden ser altamente inconstantes con picos periódicos. Por ejemplo, si algo está de moda en las redes sociales, cualquier alteración del ritmo normal puede ser difícil de manejar, más con información no estructurada.
  • Complejidad. Los datos vienen de múltiples fuentes. Por ello, es difícil unir, emparejar, limpiar y transdormar entre sistemas. A pesar de ello, es necesario conectar y correlacionar vínculos, jerarquías y conexiones múltiples o tus datos pueden descontrolarse.

 

Potencial del Big Data, porqué es importante y software para tratarlo

Potencial

No hay manera de concebir cuanta información está siendo creada y almacenada. Y no para de crecer. Así que aunque se prevé que hay potencial para recoger conocimiento de información empresarial, solo un porcentaje mínimo de esos datos son analizados.

¿Por qué es importante?

La importancia reside en lo que haces con la información, no la cantidad que tienes. 3 cosas se pueden conseguir con esos datos, tras analizarlos:
1) Reducción de costes,
2) Reducción de tiempos
3) Desarrollo de nuevos productos y ofertas optimizadas
4) Toma de decisiones inteligentes

Ya cuando combinas Big Data con potentes herramientas analíticas puedes llegar a conseguir resolver tareas empresariales como:

  • Determinar la raíz de fallos y defectos en tiempo real.
  • Generar cupones de venta basados en los hábitos de compra del cliente
  • Recalcular carteras de riesgos completas en minutos.

​¿Qué herramientas hay?

Existen muchas. Las más conocidas con Hadoop, Cassandra, Hortonworks y Cloudera. En caso de aridez, siempre puedes ver este vídeo en el que se explicar de una manera sencilla qué es Big Data:

 

Deja un comentario