lunes, 25 de marzo de 2019

BIG DATA Y VARIABLES DE CADENA

Imagen de un cuadro de salida
Imagen de un cuadro de salida
Recordamos nuestros inicios en el mundo de los paquetes estadísticos. De la mano de la versión 2.0 de SPSS dimos nuestros primeros pasos aprendiendo a codificar encuestas. Los equipos de entonces tenían serias limitaciones de procesamiento. Analizando una encuesta de 1.200 registros, encontrábamos tiempos de procesamiento altísimos, en ocasiones había que dejar el SPSS trabajando toda la noche para obtener una tabla de contingencia de dos variables. En el mismo sentido, nos enfrentábamos también a dificultades para almacenar datos muy pesados.

En ese contexto, aprendimos a codificar los valores de cadena en valores numéricos, para evitar malgastar recursos de procesamiento y almacenamiento. Si tenemos una lista de provincias de España, las traducimos a números y usamos “Value labels”, el comando de SPSS que definía etiquetas para cada uno de esos valores numéricos que obteníamos en los cuadros de salida. En SAS, se utiliza para lo mismo “proc format” que, ademas, permite recodificar valores.


Con el paso del tiempo, los equipos de cómputo ganaron en capacidad de procesamiento y los discos duros fueron creciendo en capacidad para almacenar matrices de datos de gran tamaño. Por unos años, casi nos olvidamos de esas amenazas y generaciones de jóvenes se incorporaron a la analítica desconociendo completamente estas amenazas.


Pero llegamos al momento histórico actual. El creciente proceso de digitalización de la información nos introdujo en fuentes más allá de las encuestas. Se desarrolló el llamado big data: grandes volúmenes de información desestructurada que se podía utilizar para generar conocimiento. Tanto es así que veloces procesadores y eficientes dispositivos de almacenamiento se están empezando a quedar pequeños. Una época en la que, por primera vez, nos planteamos el enorme consumo de energía producido por los servidores y sus terminales clientes.


Ante esta situación, recodificar información de cadenas de texto o strings es importante para hacer viables los proyectos y para reducir el consumo de energía de los servidores. Una cuestión, esta última, que no sólo es un problema de costos sino también medioambiental.


Desde Sociología Necesaria podemos ayudarte en esa tarea. Si trabajas con SAS, SPSS o R no dudes en consultarnos. Podemos ayudarte a optimizar tus procesos.

No hay comentarios:

Publicar un comentario