Big Data?

Estándar

El Big Data esta en ascenso en el mundo de la informática. Por si nunca habían escuchado de este tema, les digo lo básico que necesitan saber

I.     introducción

El Big Data, es básicamente una cantidad indeterminada de gran magnitud de datos generados por usuarios y por maquinaria, como ser motores y sensores, que no puedes ser procesados por medios convencionales debido a su gran volumen, la lentitud de su procesamiento y  por su complejidad al ser mayormente datos no estructurados. Se utilizaran conceptos para poder analizar la idea de Big Data, por ejemplo, las tres V´s para caracterizar el Big Data. Además, se explicaran ciertas herramientas que nos permiten utilizar el Big Data, como ser Hadoop y MapReduce. Finalmente se expondrán algunos ejemplos de los usos, beneficios y oportunidades que el Big Data puede brindar.

II.     Desarrollo

A.     ¿Qué es el Big Data?

La definición del Big Data es muy variada, pero la más utilizada define al Big Data como el gran volumen de datos generados en diferentes medios. La enorme cantidad de información generada no puede ser procesada o analizada por herramientas tradicionales, como por ejemplo una base de datos relacional. Para caracterizar al Big Data se utilizan las tres V´s, originalmente creadas por el analista de la compañía Gartner Inc. Doug Laney:

  1. Volumen: Esta se refiere a la cantidad de datos generados por un medio específico. Mientras mayor sea el volumen, mayor cantidad de datos se tiene. El Big Data requiere procesar grandes volúmenes de inestructurada información. Datos cuyo valor en utilidad es desconocido, como publicaciones de las redes sociales (Facebook Twitter, etc.), streamings en una página de internet y en aplicaciones móviles, tráfico de redes, equipos que contengan sensores y mucho más. Dependiendo de la organización, la cantidad a procesar puede ser muy distinta. Por ejemplo; Facebook almacena alrededor de 300 petabytes en datos de usuario (2014). Por otro lado, en promedio, cada motor de un avión produce 10 terabytes de información cada 30 minutos (2012). En un vuelo de Londres a nueva York, se producen 640 terabytes de datos.
  2. Velocidad: Se refiere a la rapidez con la cual los datos son recibidos y sobre los cuales se actúa. La gran variedad de artefactos que hoy en día tienen acceso a internet para obtener información y/o generar datos (televisores, juguetes, lectores de electricidad inteligentes, web cams, e incluso refrigeradores), requieren una evaluación para generar una acción en tiempo real.

Algunos ejemplos incluyen páginas de comercio electrónico (Amazon) que tratan de combinar preferencias personales con la locación del consumidor para ver la disponibilidad de sus productos, con el fin de crear ofertas de marketing en tiempo real. Se debe tomar en cuenta la inmensa cantidad de usuarios que tienen, el creciente tráfico de redes, y la expectativa de respuesta inmediata de los usuarios.

  1. Variedad: La información puede provenir de distintos medios, y en distintos formatos. Existen datos estructurados, como ser archivos de texto o datos numéricos, y también existen los datos no estructurados, que son mucho más complicados de analizar. Según Seth Grimes, consultor de tecnología estratégica, “El 80 % de la información relevante de un negocio o empresa se origina de datos no estructurados, principalmente texto”. Los tipos de información no estructurada contienen: video, audio, post de redes sociales, emails, archivos PDF, entre otros.

Estos bienes de información requieren nuevas formas de procesamiento con el fin de generar mejores decisiones, lograr un profundo entendimiento de sus usuarios y optimizar los procesos de una organización. En otras palabras poder crear una utilidad de esos datos.

B.     ¿De dónde sale la información?

Primero se debe tener en mente la idea de una progresión o evolución en la producción de datos. En el principio eran los trabajadores de diversas empresas y organizaciones las que generaban mayor información. Mientras el internet se globalizaba, el rango de acceso al mismo crecía, gracias a la creación de redes sociales, plataformas de entretenimiento, y otras formas de conectarse con el mundo, se generaba mucha más información. Además del gran número de usuarios, existe un gran número de aparatos que una persona ocupa para conectarse a internet. Una sola persona puede tener fácilmente 10 o más puntos de acceso a internet. Por lo que hay muchas más fuentes que producen información de lo que había antes. Los emails, los chats, foros, imágenes, videos y audios son medios de comunicación que proporcionan información que puede llegar a ser relevante para distintas empresas. Explorar los gustos de los usuarios, puede significar publicidad personalizada. Tener un entendimiento de los gustos más relevantes en la vida de la gente puede cambiar el mercado. Por medio de publicaciones, emails e incluso imágenes, se puede conseguir locaciones geográficas, tiempos y fechas. El internet abarca cada aspecto de nuestra vida y en los próximos años será más visible. Pero el Big Data va más allá de las redes sociales o las búsquedas en internet, ahora las máquinas, por ejemplo, sensores, motores, etc., también generan información que puede ser muy valiosa. Se espera tener trenes, hospitales, aeropuertos, minas y plantas eléctricas “inteligentes”, es decir, conectadas a internet. Cada uno va a estar conectado de una forma u otra y estos ya proporcionan información que ayudara a mantener y mejorar muchos aspectos de su uso.  El reto es lograr que las máquinas aprendan de sus propios datos y apliquen soluciones a sus errores basados en datos de otras máquinas o los suyos.

C.     Herramientas: Hadoop y MapReduce

Parece muy práctico el uso del Big Data pero ¿Cuál es el problema? La gran dificultad del Big Data es que existen muy pocas herramientas para su análisis. Como ya se mencionó, el inimaginable volumen de datos no estructurados serían muy costosos y lentos de analizar por medios tradicionales.  Esta información es muy difícil de categorizar y mucho más difícil de procesar. Se podría decir que el Big Data son datos  muy desordenados, que requieren de un enorme y complejo esfuerzo para organizar y seleccionar la información relevante antes de poder realizar un análisis significativo de los datos.  La complejidad se incrementa si se toma en cuenta que una fuente puede contener información que varía en tiempo real, por ejemplo, en las redes sociales algo puede ser muy popular por un cierto periodo de tiempo y luego puede perderse en el olvido. Esto complicaría la capacidad de analizar la información relevante ¿Cuándo se debe tomar en cuenta una publicación popular? No valdría nada si su relevancia no es continua.

Deducir, procesar y analizar esos datos es difícil, pero no imposible, ya existen soluciones tecnológicas para poder procesar el Big Data.

Aquí encontramos a Hadoop, que es un sistema de software libre que permite procesar Big Data. Su diseño permite la extensión de un sistema que tiene un único servidor a varias máquinas, cuyo software  puede detectar y tratar fallas. Los datos se distribuyen en conjuntos de servidores básicos.

Hadoop ha emergido muy rápidamente como una plataforma viable para análisis de Big Data y tiene dos sistemas principales:

  • HDFS (Sistema de distribución de archivos de Hadoop)
  • MapReduce

El HDFS distribuye los datos a un clúster (conjunto) de Hadoop. Se descomponen los datos en piezas más pequeñas llamadas bloques, y estos son distribuidos por el clúster.

Por otro lado el MapReduce, concepto presentado en 2004 por Google, tiene como objetivo permitir la computación paralela de grandes cantidades de datos. El programa consta de dos etapas:

  • La primera etapa es el Map o mapeo: esta función trabaja sobre datos sin procesar, lo que hace es tomar un conjunto de datos y convertirlo en otro conjunto, donde los elementos individuales son separados entuplas (pares de llave/valor).
  • La segunda etapa es el Reduce: se realiza en paralelo y toma como entrada cada conjunto que obtuvo en el Map, para combinar las tuplas en un conjunto más pequeño de las mismas.

EL propósito es simplificar los datos para luego poder administrarlos, coordinarlos y finalmente analizarlos.

D.     ¿Por  qué nos es útil esta información?

Ya se ha discutido de manera general los beneficios del Big Data. La información a analizar puede traer muchos beneficios para las diferentes áreas en las que se haya realizado el análisis.

Uno de los grandes pioneros del Big Data es Google. En Google se han desarrollado herramientas de software libre y tecnologías que son muy utilizadas en el ecosistema del Big Data. Con ellas, Google es capaz de cernir millones de páginas web y petabytes de datos para darle al usuario la respuesta correcta en cuestión de segundos. Todo eso mediante la aplicación de Big Data para entender que quiere el usuario. ¿Cómo logra Google entendernos? Primero se debe saber de dónde vienen los resultados: páginas indexadas y de gráficos de conocimiento de su base de datos. Cuando uno ingresa una frase o palabra a la barra de búsqueda, Google analiza las palabras con una búsqueda literal, donde el buscador trata de hallar un equivalente a toda la frase o una parte de ella. Al encontrar la fuente de la frase, se la examina y se la expande con el propósito de encontrar un mejor resultado. Por otro lado, también se realiza una búsqueda semántica. Estas búsquedas tratan de entender el contexto de la frase analizando términos y lenguaje en los gráficos de conocimiento de su base de datos para responder una pregunta (realizada por el usuario) con información específica. La frase de búsqueda es, a su vez, descompuesta por el buscador para entender el significado y buscar una respuesta buscando el uso de lenguaje, sinónimos y la cuenta del usuario en Google +. Finalmente una combinación de resultados de páginas indexadas por Google y gráficos de conocimiento son organizadas para proveer el resultado más relevante para la búsqueda del usuario.

Pero el potencial del Big Data no acaba ahí, un nuevo término se está volviendo popular; el Big Data Industrial. ¿Qué es lo que genera datos? La respuesta es: las máquinas. Por ejemplo; una turbina de gas que genera energía  y esta equipada con 2000 sensores que la monitorean, genera más de 600 gigabytes de datos al día. Tan solo un aspa de la turbina puede generar 500 gigabytes. La información de los sensores, su historial,  los datos de la máquina y del contenido, son algunos ejemplos de los datos expulsados.

Para el año 2020 se estima que alrededor de 50 mil millones de máquinas estarán conectadas a internet, y no, no hablamos de los smartphones o las computadoras, hablamos de trenes, turbinas de viento y gas, motores, aviones. Además, la producción de datos se duplicará en los próximos 10 años y la información generada en los centros de salud será 50 veces mayor para 2020.

Pues tenemos mucha información ¿Y qué? ¿Por qué importaría? Pues solo un 3% de esa información está siendo utilizada, eso significa que queda mucho territorio por explorar y explotar. Esto datos proporcionan un entendimiento del funcionamiento de una aeronave, o turbinas  en diferentes etapas y los datos son producidos de manera continua. Por ello, se podría mejorar el uso del combustible, lograr un mejor entendimiento de la navegación y los riegos de vuelo e incluso sincronizar vuelos. O con la energía en centros de salud, se puede lograr un mejor rendimiento de los equipos, lo cual mejora la seguridad del paciente, se puede tener un mejor seguimiento control de los pacientes. O para la extracción de petróleo y gas se puede optimizar la maquinaria para que sea totalmente fiable, también se puede optimizar los sistemas de inspección, conocer por completo las tuberías o el campo de producción. Es posible usar el Big Data en el campo de la generación de energía, este permitiría maximizar la vida útil de los bienes y proveer mayor flexibilidad frente a diferentes escenarios. En la distribución de energía, el uso de medidores inteligentes proporcionaría suficiente información para una óptima red de distribución al consumidor, dependiendo de sus necesidades. En plantas hidroeléctricas se podría conectar los controles de todas las planta para aprender de fallas y buscar soluciones y lograr así incrementar la eficacia y confiabilidad de los equipos.

Cuando logremos que un ingeniero logre ingresar a los datos cuando sea para analizarlas o las máquinas puedan aprender de sus errores y usen soluciones de máquinas parecidas a ella para optimizarse, será entonces cuando el monitoreo y diagnostico se volverá proactivo y no reactivo.

Estos son solo algunos ejemplos de la cantidad de utilidades del Big Data,  pero cabe recalcar que todavía está en una fase inicial.

III.     Conclusiones

 

El Big Data está definido como una gran cantidad de datos generados por diversos medios tecnológicos y está caracterizado por las tres V´s propuestas por  Doug Laney: Volumen, Velocidad y Variabilidad. La información como tal no tiene valor alguno, sin embargo, con su estructuración y análisis se podrá tener un mejor entendimiento de diversos aspectos del comportamiento humano, por ejemplo, sus gustos, lo que permitirá desarrollar estrategias más focalizadas de comercialización. También, se podrá medir con mayor precisión el funcionamiento de la maquinaria usada para el desarrollo de las sociedades, lo que permitirá la optimización de las mismas en ámbitos tan diversos como la energía o la salud por igual. Por ello, se puede concluir que el Big Data es una fuente de información que estamos aún por explotar que facilitará la vida de todas las personas.

BIBLIOGRAFIA

Green, D. (Julio 21, 2015). What is Big Data and why does it matter?. Febrero, 08 2016, de TEDx Talks Sitio web: https://www.youtube.com/watch?v=qXyzDd2heK8

Kalakota, R. (Noviembre 06, 2011). What is a “Hadoop”? Explaining Big Data to the C-Suite. Febrero 08, 2016, de http://www.liquidhub.com Sitio web: http://practicalanalytics.co/2011/11/06/explaining-hadoop-to-management-whats-the-big-data-deal/

Christopher Barnatt . (Octubre 09, 2012). Big Data. Febrero 07, 2016, de http://www.explainingcomputers.com Sitio web: http://www.explainingcomputers.com/big_data.html

Pérez, M. (Julio 16, 2015). Fundamentos de Apache Hadoop y MapReduce. Febrero 07, 2016, de geekytheory.com Sitio web: https://geekytheory.com/fundamentos-de-apache-hadoop-y-mapreduce

Arthur, L. (Agosto 15, 2013). What Is Big Data?. Febrero 08, 2016, de Forbes Sitio web: http://www.forbes.com/sites/lisaarthur/2013/08/15/what-is-big-data/#31170acc3487

Grimes, S. (Agosto 01, 2008). Unstructured Data and the 80 Percent Rule. Febrero 07, 2016, de WordPress Sitio web: http://breakthroughanalysis.com/2008/08/01/unstructured-data-and-the-80-percent-rule/

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s