Estos últimos años se ha escuchado hablar mucho del Big Data, y aunque suena muy interesante la aplicación de algoritmos y software especializado para tratar con una cantidad enorme de datos, esta información es tratada en la mayoría de los casos inadecuadamente, por el simple hecho de ignorar la teoría básica del muestreo estadístico. Explicaré un ejemplo que suele suceder en el mercado de las acciones.

Una persona recolecta el precio de las acciones de ciertas empresas, la información se encuentra granulada hasta por cada 5 minutos, es decir que para un día cuenta con 80 observaciones suponiendo que el horario de la Bolsa Mexicana de Valores es de 8:30 am a 3:oo pm. Y si ahora suponemos que la BMV opera durante 261 días al año aproximadamente, la cantidad de observaciones llega a las 20,880, y si estas las multiplicamos por los 5 años anteriores, ahora serían 104,400 observaciones, cantidad que Excel ya batalla para procesar cuando se trata de integrar formulas. Ciertamente esto no es big data pero imaginemos que lo es, por el simple hecho de tener un ejemplo. Entonces la persona realiza sus análisis y concluye un montón de cosas, hace una inversión y la decisión fue ya tomada y ejecutada. Después de unos días se fija que ahora ha perdido el 45% de lo que invirtió. ¿Qué error tuvo dicha persona?

Más que nada, la muestra a pesar de ser muy grande es limitada en su propio contexto, pues no contempla diferentes situaciones y comportamientos. El problema no es la cantidad de datos que  se tienen, sino la significancia que estos pueden representar. Pues sería una mejor idea obtener datos más dispersos, los cuales puedan reflejar variaciones en las variables que se esten analizando. Precisamente ese es el punto principal de la estadística, el estudio de la varianza. Es aquí donde quisiera hacer énfasis, ya que exactamente lo mismo sucede con las famosas encuestas de opinión pública.

Hace un par de días me realizaron una encuesta dentro del centro comercial Plaza Fiesta San Agustín, para ser honestos, el instrumento parecía estar muy bien hecho, las preguntas no reflejaban la intención de obtener un sesgo, pero la metodología, el encuestar dentro del mall, ya sesgaba el estudio, pues al igual que en el ejemplo ilustrado anteriormente, este no era aleatorio y consecuentemente no toma en cuenta a las personas que no asisten al centro comercial.

Big Data y Muestreo

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *