top of page

El auge del Big Data: por qué importan las grandes bases de datos?

Empecé mis clases de maestría, y una de las más difíciles de dimensionar (literalmente) se llama "Big Data Econometrics", o "Econometría de la Big Data". La Big Data son datos que se recolectan en tiempo real (por ejemplo el tráfico de una página web y las interacciones de sus usuarios), los clicks en ciertos productos de Amazon, las búsquedas de palabras clave en google, o inclusive los diagnósticos de pacientes en los hospitales.



Tenemos mucha data disponible, pero como se recolecta tan rapidamente y en unidades tan distintas de información, procesarla es el verdadero reto. Hay soluciones para almacenarla, como Hadoop, pero lograr obtener insights valiosos de esos datos de manera peridódica para tomar decisiones de negocios, mercadeo, eficiencia de procesos, o mejora de ciertas plataformas toma tiempo e inteligencia.


Los negocios en casi todas las industrias están teniendo una venttaja competitiva al lograr extraer insights valiosos de estas grandes fuentes de información.


En mi clase, estamos aprendiendo sobre los modelos que se usan para hacer tanto predicciones como inferencia a partir de las variables más importantes en estas grandes estructuras.


Algunos de los retos son selección de variables y reducción de varianza. A veces tenemos tantas variables, que son más predictores que lo deseado para hacer una estimación, entonces toca emplear algún método para seleccionar solo ciertas variables.


Las regresiones, que es la primera herramienta que usamos por convención en estadística y economía, pueden funcionar en muchos casos, pero tienen su límite: las bases de datos de mayor tamaño necesitan herramientas más poderosas.


Una ventaja y reto importante es que las grandes estructuras de datos se prestan para relaciones más complejas que un modelo lineal, por ejemplo. Por esto, los economistas y data scientists usan técnicas de Machine Learning (como decision trees, neural networks, deep learning) para modelar relaciones más complejas.


Por ahora tengo las siguientes preguntas:


  • Qué hace un economista vs un data scientist en términos de big data?

  • Cómo se complementan/intersectan la predicción y la inferencia? Qué herramientas de econometría y de machine learning se pueden usar para cada tipo de problema?

  • Cómo es el work flow con este tipo de datos? Se recolectan y almacenan automáticamente?

  • Qué se puede hacer con el problema de privacidad y datos?


Referencias:

Varian, Hal R. 2014. "Big Data: New Tricks for Econometrics." Journal of Economic Perspectives, 28 (2): 3–28.DOI: 10.1257/jep.28.2.3


Comments


bottom of page