Campus logo

Big data para lo realmente grande

Tanto las personas como las máquinas generamos una enorme cantidad de datos cada día. ¿Qué hacer con ellos? ¿Cómo aprovecharlos para gestionar mejor nuestra sociedad y solucionar nuestros problemas? Ramon Sangüesa da algunas pistas.

Ramon Sangüesa nos habla sobre el Big Data, los macrodatos. Un campo que trata las formas de analizar y extraer sistemáticamente información. O tratar con conjuntos de datos que son demasiado grandes o complejos para ser tratados por software de aplicación de procesamiento de datos tradicional. Los datos con muchos campos (columnas) ofrecen mayor poder estadístico, mientras que los datos con mayor complejidad (más atributos o columnas) pueden conducir a una mayor tasa de falsos descubrimientos.

Desafíos del Big Data

Los desafíos del análisis de big data incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización, la privacidad de la información y la fuente de datos. El Big Data se asoció originalmente con tres conceptos clave: volumen, variedad y velocidad. El análisis de big data presenta desafíos en el muestreo y, por lo tanto, antes solo permitía observaciones y muestreo. Por lo tanto, los macrodatos a menudo incluyen datos con tamaños que exceden la capacidad de procesamiento del software tradicional en un tiempo y valor aceptables.

El uso actual del término big data tiende a referirse al uso de análisis predictivo, análisis del comportamiento del usuario o ciertos otros métodos avanzados de análisis de datos que extraen valor de big data, y rara vez a un tamaño particular de conjunto de datos. «Hay pocas dudas de que las cantidades de datos ahora disponibles son realmente grandes. Sin embargo, esa no es la característica más relevante de este nuevo ecosistema de datos». El análisis de conjuntos de datos puede encontrar nuevas correlaciones para «detectar tendencias comerciales, prevenir enfermedades, combatir el crimen y así sucesivamente «.

El papel de los científicos y otros actores

Los científicos, los ejecutivos de negocios, los médicos, la publicidad y los gobiernos encuentran regularmente dificultades con grandes conjuntos de datos en áreas que incluyen búsquedas en Internet, tecnología financiera, análisis de la salud, sistemas de información geográfica, informática urbana e informática empresarial. Los científicos encuentran limitaciones en el trabajo de las ciencias electrónicas, incluida la meteorología, la genómica, la conectómica, las simulaciones físicas complejas, la biología y la investigación ambiental.

Lo que califica como «big data» varía según las capacidades de quienes lo analizan y sus herramientas. Además, la expansión de las capacidades convierte a los macrodatos en un objetivo móvil. «Para algunas organizaciones, enfrentarse a cientos de gigabytes de datos por primera vez puede desencadenar la necesidad de reconsiderar las opciones de administración de datos. Para otras, pueden ser necesarias decenas o cientos de terabytes antes de que el tamaño de los datos se convierta en una consideración importante.

Crecimiento exponencial de información

Ramon Sangüesa nos dice que el tamaño y la cantidad de macrodatos disponibles ha crecido rápidamente. Y lo ha hecho a medida que los datos son recopilados por dispositivos. Hablamos de dispositivos móviles, dispositivos de Internet de las cosas baratos y numerosos con detección de información, antena (detección remota), registros de software, cámaras, micrófonos, identificación por radiofrecuencia. Lectores (RFID) y redes de sensores inalámbricos. La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980; [9] a partir de 2012, cada día se generan 2,5 exabytes (2,5 × 260 bytes) de datos.

Según la predicción de un informe de IDC, se predijo que el volumen de datos globales creció de 4,4 zettabytes a 44 zettabytes. Esto fue en el periodo entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos. Una cuestión para las grandes empresas es determinar quién debería ser el propietario de las iniciativas de macrodatos que afecten a toda la organización. Los sistemas de administración de bases de datos relacionales y los paquetes de software estadístico de escritorio que se utilizan para visualizar datos a menudo tienen dificultades para procesar y analizar big data. El procesamiento y análisis de macrodatos puede requerir «software masivamente paralelo que se ejecute en decenas, cientos o incluso miles de servidores».

ACERCA DEL AUTOR

Ramon Sangüesa
Fundador del Equipo Cafeína. Experto en programas de investigación en TIC, comunicación y arte. Coordina el Data Transparency Lab, iniciativa conjunta de MIT, Open Data Institute, Mozilla Foundation y Telefónica I+D.