Que es el big data

Apache spark

Los modelos de madurez de big data (BDMM) son los artefactos utilizados para medir la madurez de big data[1]. Estos modelos ayudan a las organizaciones a crear una estructura en torno a sus capacidades de big data y a identificar por dónde empezar[2]. Proporcionan herramientas que ayudan a las organizaciones a definir objetivos en torno a su programa de big data y a comunicar su visión de big data a toda la organización. Los BDMM también proporcionan una metodología para medir y supervisar el estado de la capacidad de big data de una empresa, el esfuerzo necesario para completar su etapa actual o fase de madurez y para progresar a la siguiente etapa. Además, los BDMM miden y gestionan la velocidad tanto del progreso como de la adopción de los programas de big data en la organización[1].

Las áreas clave de la organización se refieren a «personas, procesos y tecnología» y los subcomponentes incluyen[3] alineación, arquitectura, datos, gobierno de los datos, entrega, desarrollo, medición, gobierno del programa, alcance, habilidades, patrocinio, modelado estadístico, tecnología, valor y visualización.

La ciencia de los datos y el big data a…

Big Data es un proyecto estadounidense de música electrónica creado por el productor Alan Wilkis. Big Data es más conocido por su single «Dangerous», con la participación de Joywave, que alcanzó el número uno en la lista Billboard Alternative Songs en agosto de 2014,[3] y fue certificado como disco de oro por la RIAA en mayo de 2015.[4]

El primer EP de Big Data, 1.0, se publicó el 1 de octubre de 2013 en el propio sello de Wilkis, Wilcassettes, y contiene las canciones «The Stroke of Return», «Dangerous», «Big Dater» y «Bombs over Brooklyn». [5][6] A principios de diciembre de 2013, también lanzaron un EP de remezclas, 1.5, que incluía ocho remezclas de la canción «Dangerous»,[7] incluyendo una de Joywave.[8] Otro EP de remezclas, 1.6, fue lanzado a finales de septiembre de 2014, e incluía siete remezclas de «Dangerous».[9]

Google

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].

Cloudera

La analítica de big data es el uso de técnicas analíticas avanzadas contra conjuntos de big data muy grandes y diversos que incluyen datos estructurados, semiestructurados y no estructurados, de diferentes fuentes y en diferentes tamaños, desde terabytes hasta zettabytes.

¿Qué son exactamente los big data? Puede definirse como conjuntos de datos cuyo tamaño o tipo supera la capacidad de las bases de datos relacionales tradicionales para capturar, gestionar y procesar los datos con baja latencia. Las características de los big data incluyen un alto volumen, una alta velocidad y una gran variedad. Las fuentes de datos se están volviendo más complejas que las de los datos tradicionales porque están siendo impulsadas por la inteligencia artificial (IA), los dispositivos móviles, los medios sociales y el Internet de las cosas (IoT). Por ejemplo, los diferentes tipos de datos proceden de sensores, dispositivos, vídeo/audio, redes, archivos de registro, aplicaciones transaccionales, web y medios sociales, muchos de ellos generados en tiempo real y a muy gran escala.

Con la analítica de big data, puede impulsar una toma de decisiones mejor y más rápida, la modelización y predicción de resultados futuros y la mejora de la inteligencia empresarial. A la hora de crear su solución de big data, considere el software de código abierto como Apache Hadoop, Apache Spark y todo el ecosistema Hadoop como herramientas de procesamiento y almacenamiento de datos rentables y flexibles, diseñadas para manejar el volumen de datos que se genera hoy en día.