Big data

Introducción

Junio 2020

Novedades en los sistemas de información gerencial

  • Cambio continuo en la tecnología.
  • Las empresas exitosas son las que aprenden a usar las nuevas tecnologías.

TECNOLOGÍA

CAMBIO IMPACTO EN LOS NEGOCIOS
La plataforma de computación en la nube emerge como una importante área de innovación en los negocios Un conjunto flexible de computadoras en Internet empieza a llevar a cabo tareas que antes se realizaban en computadoras corporativas. Las principales aplicaciones de negocios se ofrecen en línea como un servicio de Internet (Software como un servicio, o SaaS).
Big data Las empresas buscan perspectivas de los enormes volúmenes de datos del tráfico web, los mensajes de correo electrónico, el contenido de los social media y las máquinas (sensores) que requieren nuevas herramientas administrativas para capturar, almacenar y analizar.
Emerge una plataforma digital móvil para competir con la PC como un sistema de negocios El iPhone de Apple y tanto las computadoras tipo Tablet como los dispositivos móviles Android pueden descargar cientos de miles de aplicaciones para dar soporte a los servicios de colaboración, basados en la ubicación y la comunicación con los colegas. Las pequeñas computadoras tipo tablet, incluyendo el iPad y el Kindle Fire, desafían a las laptops convencionales como plataformas de computación para los consumidores y el área corporativa.

Administración

CAMBIO IMPACTO EN LOS NEGOCIOS
Los gerentes adoptan el software de colaboración en línea y redes sociales para mejorar la coordinación, la colaboración y la compartición del conocimiento Más de 100 millones de profesionales de negocios en todo el mundo utilizan Google Apps, Google Sites, Microsoft Windows Sharepoint Services y Lotus Connections de IBM para ofrecer soporte a los blogs, la administración de proyectos, las reuniones en línea, los perfiles personales, los sitios sociales favoritos y las comunidades en línea.
Se aceleran las aplicaciones de inteligencia de negocios Los análisis de datos más poderosos y los tableros de control interactivos proporcionan a los gerentes información en tiempo real sobre el desempeño, para que mejoren sus procesos de toma de decisiones.
Las reuniones virtuales proliferan Los gerentes adoptan las tecnologías de conferencias de video con telepresencia y conferencias web para reducir el tiempo y el costo de viajar, a la vez que se mejoran la colaboración y el proceso de toma de decisiones.

Organizaciones

CAMBIO IMPACTO EN LOS NEGOCIOS
Negocios sociales Los negocios usan las plataformas de redes sociales, como Facebook, Twitter y herramientas sociales corporativas internas, para profundizar en las interacciones con los empleados, clientes y proveedores. Los empleados usan blogs, wikis, mensajes de texto por correo electrónico y mensajes SMS para interactuar en las comunidades en línea.
El trabajo a distancia a través de Internet adquiere impulso en el entorno de trabajo Internet, las laptops inalámbricas, los smartphone y las computadoras tipo tablet hacen posible que cada vez más personas trabajen lejos de la oficina tradicional. 55% de los negocios en Estados Unidos tiene cierta forma de programa de trabajo remoto.
Cocreación del valor comercial Las fuentes de valor comercial cambian de productos a soluciones y experiencias, y de fuentes internas a redes de proveedores y colaboración con los clientes. Las cadenas de suministro y el desarrollo de productos son más globales y colaborativos; las interacciones con los clientes ayudan a las empresas a definir nuevos productos y servicios.

Desafíos

  • La mayoría de los datos recolectados por las organizaciones solían ser los datos de transacciones que podían caber fácilmente en filas y columnas de sistemas de administración de bases de datos relacionales.
  • Ahora, somos testigos de una explosión de datos provenientes del tráfico web, mensajes de correo electrónico y contenido de redes sociales (tweets, mensajes de estado), ...

...

  • Estos datos pueden ser estructurados o no estructurados y, por lo tanto, pueden no ser adecuados para productos de bases de datos relacionales que organicen los datos en forma de columnas y filas.
  • Ahora usamos el término big data para describir estos conjuntos de datos con volúmenes tan grandes que están más allá de la capacidad de un DBMS común para capturar, almacenar y analizar.

...

  • Big Data no se refiere a una cantidad específica, sino por lo general a los datos en el rango de los petabytes (1015 bytes; símbolo: PB) y exabytes (1018 bytes; símbolo: EB); es decir, de miles de millones a billones de registros, todos de orígenes distintos.
  • Se producen en cantidades mucho mayores y con mucha más rapidez que los datos tradicionales.

  • Un solo motor de jet es capaz de generar 10 terabytes de datos en 30 minutos, y hay más de 25.000 vuelos de aerolíneas a diario.
  • Aun cuando los “tweets” se limitan a 280 caracteres cada uno, Twitter genera más de 8 terabytes de datos por día.
  • De acuerdo con la empresa de investigación de tecnología International Data Center (IDC), los datos se duplican con creces cada dos años, por lo que la cantidad de datos disponibles para las organizaciones está aumentando en forma indiscriminada.

Por qué es de interés

  • A las empresas les interesa debido a que pueden revelar más patrones y anomalías interesantes que los conjuntos de datos más pequeños.
  • Por el potencial de proveer nuevas perspectivas en cuanto al comportamiento de los clientes, los patrones de clima, la actividad del mercado financiero u otros fenómenos.

  • Sin embargo, para derivar un valor de negocios de estos datos, las organizaciones necesitan nuevas tecnologías y herramientas capaces de administrar y analizar datos no tradicionales junto con sus datos empresariales tradicionales.

Infraestructura de BI

  • Supongamos que se deseara información concisa y confiable sobre las operaciones, tendencias y cambios actuales en toda la empresa.
  • En una empresa de gran tamaño, tendrían que reunirse los datos necesarios de sistemas separados, como ventas, manufactura y contabilidad, e incluso desde fuentes externas, como los datos demográficos o de las competencias.
  • Es probable, entonces, que cada vez fuera más necesario usar Big Data.

Infraestructura de BI

  • Una infraestructura contemporánea para la inteligencia de negocios tiene una variedad de herramientas para obtener información útil de todos los tipos diferentes de datos que usan las empresas en la actualidad.
  • Estas capacidades incluyen:
    • almacenes de datos (data warehouses) y mercados de datos (data marts)
    • Hadoop
    • Computación en memoria
    • Plataformas analíticas
  • Algunas de estas capacidades están disponibles como servicios en la nube.

Data warehouse - data mart

  • La herramienta tradicional para analizar datos corporativos durante las últimas dos décadas.
  • Es una base de datos que almacena la información actual e histórica de interés potencial para los encargados de tomar decisiones en la compañía.
  • Los datos se originan en muchos sistemas básicos de transacciones operacionales, como los sistemas de ventas, las cuentas de clientes, la manufactura, y pueden incluir datos de transacciones de sitios web.

Data warehouse

  • Extrae los datos actuales e históricos de varios sistemas operacionales dentro de la organización.
  • Estos datos se combinan con los datos de fuentes externas y se transforman al corregir los datos imprecisos e incompletos y reestructurar los datos para generar informes gerenciales y realizar análisis antes de cargarlos en el almacén de datos.
  • El almacén de datos pone los datos a disposición de todos según sea necesario, pero no se puede alterar.

Data warehouse

  • Un sistema de almacén de datos también provee un rango de herramientas de consulta ad hoc y estandarizadas, herramientas analíticas y facilidades de informes gráficos.

Data mart

  • A menudo las empresas crean almacenes de datos a nivel empresarial, donde un almacén de datos central da servicio a toda la organización, o crean almacenes de datos más pequeños y descentralizados conocidos como mercados de datos (data marts).
  • Porción sintetizada o con alto grado de enfoque en los datos de la organización en una base de datos separada para una población específica de usuarios.
  • Por ejemplo, sobre marketing y ventas para lidiar con la información de los clientes.

Hadoop

  • Framework de código abierto, administrado por la Apache Software Foundation, que permite el procesamiento paralelo distribuido de enormes cantidades de datos a través de computadoras de bajo costo.
  • Descompone un problema de Big Data en varios subproblemas, los distribuye entre miles de nodos de procesamiento y luego combina el resultado en un conjunto de datos de menor tamaño que es más fácil de analizar.

Hadoop

  • Hadoop consta de varios servicios clave:
    • el sistema de archivos distribuidos Hadoop (HDFS) para almacenamiento de datos
    • MapReduce para procesamiento de datos en paralelo

Hadoop

  • HDFS enlaza entre sí los sistemas de archivos en los numerosos nodos en un clúster Hadoop para convertirlos en un gran sistema de archivos.
  • MapReduce de Hadoop se inspiró en el sistema MapReduce de Google para desglosar el procesamiento de enormes conjuntos de datos y asignar trabajo a los diversos nodos en un clúster.
  • HBase, la base de datos no relacional de Hadoop, ofrece un acceso rápido a los datos almacenados en HDFS y una plataforma transaccional para ejecutar aplicaciones en tiempo real de alta escala.

Hadoop

  • Puede procesar grandes cantidades de cualquier tipo de datos, incluyendo datos transaccionales estructurados, datos poco estructurados como las fuentes de Facebook y Twitter, datos complejos como los archivos de registro de servidor Web y datos de audio y video no estructurados.
  • Hadoop se ejecuta en un clúster de servidores de bajo costo y pueden agregarse o eliminarse procesadores según sea necesario.
  • Las empresas usan Hadoop para analizar volúmenes muy grandes de datos, así como para un área de concentración para datos no estructurados y semiestructurados antes de cargarlos en un almacén de datos.

Hadoop: Ejemplos

  • Facebook almacena gran parte de sus datos en un enorme clúster Hadoop, que contiene cerca de 100 petabytes (1015 bytes), alrededor de 10.000 veces más información que la Biblioteca del Congreso estadounidense.
  • Yahoo usa Hadoop para rastrear el comportamiento de los usuarios de modo que pueda modificar su página de inicio y adaptarla a sus intereses.
  • Los principales distribuidores de bases de datos como IBM, Hewlett-Packard, Oracle y Microsoft tienen sus propias distribuciones de software de Hadoop. Otros distribuidores ofrecen herramientas para meter y sacar datos de Hadoop, o para analizarlos dentro de Hadoop.

Computación en memoria

  • Depende principalmente de la memoria principal (RAM) de la computadora para el almacenamiento de datos
  • Los usuarios acceden a los datos almacenados en la memoria principal del sistema, con lo cual se eliminan los cuellos de botella por los procesos de recuperación y lectura de datos en una base de datos tradicional basada en discos
  • Se reducen de manera drástica los tiempos de respuesta de las consultas.

Computación en memoria

  • El procesamiento en memoria hace posible que conjuntos muy grandes de datos, del tamaño de un mercado de datos o de un almacén pequeño de datos, residan totalmente en la memoria.
  • Los cálculos de negocios complejos que solían tardar horas o días pueden completarse en cuestión de segundos, y esto puede lograrse incluso en dispositivos portátiles.

Plataformas analíticas

  • Plataformas especializadas de alta velocidad que utilizan tecnología tanto relacional como no relacional.
  • Optimizadas para analizar conjuntos de datos de gran tamaño.
  • Las plataformas analíticas como IBM Netezza y Oracle Exadata cuentan con sistemas de hardware-software preconfigurados que están diseñados de manera específica para el procesamiento de consulta y los análisis.

Plataformas analíticas

  • IBM Netezza tiene componentes de base de datos, servidor y almacenamiento estrechamente integrados que manejan consultas analíticas complejas 10 a 100 veces más rápido que los sistemas tradicionales.
  • Las plataformas analíticas también incluyen sistemas en memoria y sistemas de administración de bases de datos no relacionales.
  • También pueden estar disponibles como servicios en la nube.

HERRAMIENTAS ANALÍTICAS: RELACIONES, PATRONES, TENDENCIAS

Una vez que los datos se capturan y organizan mediante el uso de las herramientas para inteligencia de negocios que acabamos de describir, están disponibles para un posterior análisis utilizando el software para consultas e informes de bases de datos, el análisis de datos multidimensional (OLAP) y la minería de datos.

Internet de las cosas (IOT)

  • Sistemas RFID y redes de sensores inalámbricas son fuentes importantes de “Big Data” que las organizaciones están comenzando a analizar para mejorar sus operaciones y su toma de decisiones.
  • Los resultados de estos sistemas alimentan lo que se conoce como Internet Industrial o Internet de las cosas.
  • Máquinas como los motores de un jet, las turbinas de plantas de energía o los sensores agrícolas, recopilan datos constantemente y los envían a través de Internet para su análisis.

Internet de las cosas (IOT)

  • Los datos podrían indicar la necesidad de tomar acción, como reemplazar una pieza que esté a punto de desgastarse, reabastecer un producto en la góndola del supermercado, arrancar el sistema de riego para un campo de sembrado o reducir la velocidad de una turbina.
  • Con el tiempo, cada vez más objetos físicos cotidianos se conectarán a Internet y podrán identificarse con otros dispositivos, creando redes que puedan detectar y responder a medida que los datos cambien.

Análisis de Big Data

  • El análisis predictivo está empezando a usar los Big Data tanto en el sector público como en el privado, incluyendo datos de redes sociales, transacciones de clientes y los resultados de sensores y máquinas.
  • En el e-commerce, muchos vendedores minoristas en línea tienen herramientas para realizar recomendaciones personalizadas de productos a los visitantes de su sitio web para ayudarles a estimular las compras y guiar sus decisiones en cuanto a qué productos deben tener en existencia.
  • Sin embargo, la mayoría de estas recomendaciones de productos se basan en los comportamientos de grupos similares de clientes, como los de ingresos menores a USD 50,000 o cuyas edades oscilan entre los 18 y los 25 años.

Análisis de Big Data

  • Ahora, algunos vendedores minoristas están empezando a analizar las impresionantes cantidades de datos de sus clientes en línea y de las tiendas físicas que recolectan junto con los datos de redes sociales, para que estas recomendaciones sean más individualizadas.
  • Estos esfuerzos se traducen en un mayor gasto de los clientes y tasas más altas de retención de clientes.
  • En el sector público, el análisis de Big Data ha estado impulsando el cambio hacia las “ciudades inteligentes” las cuales hacen un uso intensivo de la tecnología digital para tomar mejores decisiones en cuanto a dirigir las ciudades y dar servicio a sus residentes.

Análisis de Big Data

  • El control de los registros públicos ha producido almacenes (data warehouses) llenos de:
    • transferencias de propiedades,
    • registros fiscales,
    • solicitudes de empresas,
    • auditorías de cumplimiento ambiental,
    • inspecciones de restaurantes,
    • informes de mantenimiento de edificios,
    • valoraciones de transporte masivo,
    • datos sobre delitos,
    • estadísticas del departamento de salud,
    • registros de educación pública,
    • revisiones de servicios públicos
    • etc.

Las cinco "V" de Big Data

  • Volumen: la cantidad de datos generados y guardados.
  • Variedad: el tipo y naturaleza de los datos para ayudar a las personas a analizarlos y usar los resultados de forma eficaz. Los macrodatos usan textos, imágenes, audio y video.
  • Velocidad: en este contexto, la velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: la calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
  • Valor: los datos generados deben ser útiles, accionables y tener valor.

Bibliografía y referencias

Laudon K, Laudon J; (2016) Sistemas de Información Gerencial. 14a. ed., Pearson Educación, México.

https://es.wikipedia.org/wiki/Macrodatos

Video en Youtube: ¿Qué es Big Data?

Video en Youtube: El internet de las cosas y Big Data | Theodore Hope