Análisis de caso: captura, almacenamiento, estructuración y utilización de datos masivos (big data) de concentración de CO2 en un recinto cerrado

This post is also available in: Aragonese

Este es uno de los dos análisis de caso propuestos para mi proyecto de M.B.A., aún en fase de revisión.

Los antecedentes a este análisis —dentro del resto de proyecto— son:

  • un estudio de la gestión del conocimiento, con especial orientación a su planteamiento tecnológico, y cómo existen ciertas áreas en las organizaciones que presentan cierto descuelgue tecnológico, entre las que se encuentra el desempeño sostenible;
  • un análisis del desempeño sostenible de las organizaciones, tratando de encontrar un vínculo entre sus aspectos e indicadores sociales, medioambientales y económicos con las tecnologías del conocimiento; un vínculo que resuelva su situación de descuelgue tecnológico y, en consecuencia, el escaso en valor añadido aportado a la organización en forma de conocimiento.

Sobre los mencionados fundamentos, este análisis de caso pretende confirmar este vínculo y comprobar que el desempeño sostenible puede realizar aportaciones valiosas a los procesos de conocimiento establecidos en las organizaciones.

Análisis de caso 1: captura, almacenamiento, estructuración y utilización de datos masivos de concentración de CO2 en un recinto cerrado

El dióxido de carbono (CO2) es un gas presente en la atmósfera de forma natural en una concentración de, aproximadamente, 300 a 400 ppm (Scripps Institute of Oceanography, 2016). Además de ser el gas de efecto invernadero referente a la hora de medir el cambio climático global, es uno de los gases a los que más atención se les presta desde el punto de vista de la seguridad y salud laboral por su impacto en la salud humana:

  • en concentraciones de 350 a 1000 ppm en un recinto cerrado, la calidad del aire se considera aceptable;
  • en concentraciones de 1000 a 2000 ppm, la calidad del aire es considerada baja;
  • concentraciones de 2000 ppm a 5000 empiezan a causar problemas (dolor de cabeza, insomnio, náuseas). Es aire viciado;
  • concentraciones a partir de 5,000 ppm, alteran la presencia de otros gases presentes en el aire, creándose una atmósfera tóxica o deficiente en oxígeno de consecuencias fatales según incrementa la concentración.

Por esta doble dimensión medioambiental (global) y de salud laboral (y personal) y por el significativo impacto de su concentración, el dióxido de carbono resulta un  adecuado elemento para un análisis de caso.

La estación meteorológica NetAtmo es un sistema electrónico de consumo, basado en el concepto big data, que consta de varios sensores capaces de medir (NetAtmo, 2016):

  • temperatura ambiente en un rango de -40 a 65°C, con un margen de error de +/- 0.3°C;
  • humedad de 0 al 100% con un margen de error de +/-3%;
  • presión atmosférica en un rango de 260 hasta 1160 mbar, con un margen de error de +-1 mbar;
  • co2 presente en el ambiente en un rango desde 0 hasta 5000 ppm (partes por millón) con un margen de error de +/- 50 ppm o +/-5%;
  • ruido ambiental en un rango de 35 dB hasta 110 dB;
  • índice de calidad del aire en la atmósfera teniendo en cuenta los contaminantes más determinantes: partículas (PM10 y PM2.5), dióxido de nitrógeno (no2), ozono (o3), monóxido de carbono (co) y dióxido de azufre (so2). Estos datos no son medidos por la propia estación, si no que son los que recibe del proyecto europeo CITEAIR (Información Común sobre el Aire en Europa).

MicroStrategy es una plataforma basada en business intelligence y análisis predictivo, para la búsqueda, captura, almacenamiento, compartición y utilización de grandes cantidades de datos, big data (MicroStrategy Inc., 2016).

El caso consistió en la captura, almacenamiento, estructuración y análisis con la plataforma MicroStrategy Desktop 10.3, de los datos procedentes de la estación NetAtmo instalada en un centro de trabajo (oficina) en la localidad de Ontinar de Salz, Zaragoza, con el siguiente alcance:

  • el rango de datos abarca un año: desde el 1 de abril de 2015 al 31 marzo de 2016, agrupados por trimestres;
  • los atributos incluidos fueron: hora, día, día de la semana y mes de las mediciones;
  • las métricas incluidas fueron: concentración de CO2 en partes por millón (ppm),  concentración de CO2 en partes por millón redondeada a múltiplos de 50 ppm, temperatura en ºC, humedad relativa en %;
  • en total, se capturó un set datos con 857.452 valores.

El proceso consistió en:

  1. Extracción de datos en formato base de datos Excel, con el rango y alcance establecidos, desde el panel de control de la estación NetAtmo hasta el ordenador local. El set de datos extraído alcanzó los 857.452 valores;
  2. Una vez almacenado localmente el set de datos en formato Excel, se procedió a la estructuración de la información, utilizando para ello un programa de hoja de cálculo (Numbers). La información se estructuró en cuatro atributos (hora, día, día de la semana y mes de las mediciones) y cuatro métricas (concentración de CO2 en partes por millón (ppm),  concentración de CO2 en partes por millón redondeada a múltiplos de 50 ppm, temperatura en ºC, humedad relativa en %);
  3. Una vez estructurada la información, se realizó la captura del set de datos con la plataforma MicroStrategy Desktop;
  4. Con la información capturada se realizaron diferentes pruebas y análisis, hasta llegar a los resultados mostrados a continuación. Las siguientes figuras muestran alguno de los resultados significativos obtenidos.

La figura 1 muestra representaciones en formato “heat map” (Wikipedia, 2016) de las métricas agrupadas bajo el atributo “hora”, separadas por trimestres:

  • concentración de CO2 redondeada a múltiplos de 50 ppm, representada por tamaño el tamaño de cada fractal;
  • temperatura media en ºC, representada por el color (verde-rojo) y la intensidad de cada fractal.
Heat_map_CO2_temp_hour
Figura 1: representación en formato “heat map” de las métricas CO2(50) y temperatura media, agrupadas bajo el atributo “hora” (clic en la imagen para abrirla a tamaño completo)

Un primer análisis de la figura permite observar que la concentración de CO2 y la hora del día tienen cierta correlación, al menos en el 1er trimestre de 2016, y el 2º y 4º de 2015. Esta correlación indica que las mayores concentraciones de CO2 se producen en las horas finales de cada día, sin embargo, con esta representación tipo “heat map” resulta complicado precisar la correlación.

Para precisar dicha correlación, resulta más apropiado el uso de otro tipo de representación, como la que se muestra en la figura 2, una tabla combinada en la que se muestran, separadas por trimestres:

  • la concentración de CO2 redondeada a múltiplos de 50 ppm se representa con barras verticales;
  • la temperatura media en ºC se representa con una línea también en el eje vertical, y con código de colores verde-rojo;
  • la distribución horaria, en el eje horizontal.

La representación de los datos en esta tabla combinada permite observar mejor la correlación entre la concentración de CO2 y la hora del día. Pero, además, permite observar que la concentración de CO2 tiene también una correlación con la temperatura: a más temperatura, más concentración.

Aunque esta última circunstancia puede deberse en cierta medida a las propias características del dióxido de carbono, lo importante es que la representación permite precisar dicha correlación, que podrá (o no) deberse a otros factores ambientales además de al propio comportamiento del gas.

Combo__chart_CO2_temp_hour
Figura 2: representación en formato “tabla combinada” de las métricas CO2(50) y temperatura media, agrupadas bajo el atributo “hora” (clic en la imagen para abrirla a tamaño completo)

Este análisis de caso es muy ejemplificador del valor añadido que las tecnologías del conocimiento pueden incorporar a la información de aspectos relacionados con la sostenibilidad de una empresa.

En el caso concreto analizado, a pesar de que el número de atributos y métricas es limitado, se han logrado observaciones difícilmente accesibles de no haber contado con los dos sistemas utilizados: la estación NetAtmo (big data) y la plataforma MicroStrategy (análisis). Por ejemplo, sólo teniendo en cuenta la correlación observada entre la concentración de CO2 con la hora del día en determinadas estaciones del año y la temperatura, se puede intervenir con mucha más eficacia sobre aspectos como la ventilación del recinto, la planificación de horarios de estancia o la climatización.

Otro aspecto a tener en cuenta es el volumen de datos con los que se ha trabajado. Como se menciona al principio de este caso, el set de datos es de más de 857.000 registros, lo cual supone una muestra significativa que proporciona un fuerte soporte a una de las aplicaciones más pujantes dentro de las tecnologías del conocimiento: los análisis predictivos. Por ejemplo, en el caso concreto analizado, resulta altamente probable que, si no se ha intervenido sobre factores como la temperatura, climatización o utilización del recinto en el que se han realizado las mediciones, las concentraciones de CO2 en sucesivos años sigan el patrón marcado en los trimestres analizados.

Sin embargo, esta es sólo una muestra diferencial, a nivel casi de uso doméstico, del potencial de este tipo de tecnologías. En un caso hipotético pero perfectamente posible, en el que una empresa tiene a disposición muchos otros atributos y métricas como pueden ser ratios de productividad, incidentes, consumo energético de las instalaciones de climatización, etcétera, se pueden imaginar muchos más análisis, correlaciones, predicciones, etc., que den soporte a la toma de decisiones estratégicas para la organización.

Por último, conviene mencionar también el excelente funcionamiento durante la realización del caso por la plataforma MicroStrategy en comparación con herramientas tecnológicas más tradicionales como son las hojas de cálculo (Excel y Numbers). Esto se ha podido observar especialmente durante la fase proceso de captura y estructuración de los datos: el rendimiento del ordenador disminuía significativamente mientras se usaban las hojas de cálculo, a pesar de que los datos con los que trabajaban eran datos brutos; sin embargo, el rendimiento del ordenador cuando los datos se importaron a la plataforma MicroStrategy apenas se veía afectado, a pesar de la mayor complejidad de las operaciones efectuadas (gráficos, cálculos, visualizaciones,…)

Bibliografía:

MICROSTRATEGY INC. (2016). Introducing MicroStrategy 10. http://www.microstrategy.com/us/capabilities. Online. Consultado 11.may.2016;
NETATMO S.A. (2016). Estación meteorológica NetAtmo. https://www.netatmo.com/es-ES/producto/estacion-meteorologica/specifications. Online. Consultado 11.may.2016;
Scripps Institute of Oceanography (2016). The Keeling Curve. https://scripps.ucsd.edu/programs/keelingcurve/. Online. Consultado 11.may.2016; 
WIKIPEDIA (2016). Heat Map. https://en.wikipedia.org/wiki/Heat_map. Online. Consultado 11.may.2016.