Big Data

Predecir

Ingresa el indice de emisión de gases de efecto invernadero:

El resultado es:

Características de la prediccion


Agricultura... Procesos Residuos Energía


Gráfica

¿Qué es Big Data?

 


El Big Data es el análisis masivo de datos. Una cuantía de datos, tan sumamente grande, que las aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un tiempo razonable.


Igualmente, el mismo término se refiere a las nuevas tecnologías que hacen posible el almacenamiento y procesamiento, además de al uso que se hace de la información obtenida a través de dichas tecnologías. 

(Definición obtenida de: https://www.masterbigdataucm.com/que-es-big-data/)

¿Qué es KNN? 

El KNN es un algoritmo de aprendizaje supervisado, es decir, que a partir de un juego de datos inicial su objetivo será el de clasificar correctamente todas las instancias nuevas. El juego de datos típico de este tipo de algoritmos está formado por varios atributos descriptivos y un solo atributo objetivo (también llamado clase).

El algoritmo clasifica cada dato nuevo en el grupo que corresponda, según tenga k vecinos más cerca de un grupo o de otro. Es decir, calcula la distancia del elemento nuevo a cada uno de los existentes, y ordena dichas distancias de menor a mayor para ir seleccionando el grupo al que pertenecer. Este grupo será, por tanto, el de mayor frecuencia con menores distancias. 

(Definición obtenida de: https://www.analiticaweb.es/algoritmo-knn-modelado-datos/)

KNN y Green IT





Aunque no lo parezca, estos dos términos se pueden relacionar bastante. Durante la búsqueda de datasets en diferentes bases de datos de distintos países, nos resultó bastante interesante en especial uno de ellos el cuál fue encontrado en la siguiente página: 

https://data.amerigeoss.org/it/dataset/ambiente-emisiones-gases-efecto-invernadero-gei

El dataset tiene la siguiente descripción:

"Contabilización de las emisiones totales de gases de efecto invernadero (dióxido de carbono, metano, óxido nitroso, clorofluorocarbonos, hidrofluorocarbonos, hexafluoruro de azufre) a nivel nacional (Argentina), provenientes de las distintas actividades humanas. Estos gases tienen la propiedad de retener momentáneamente la energía solar, por lo que incrementan el efecto invernadero y el cambio climático".

Con este dataset pudimos proponer como objetivo principal el saber a que sector pertenece la producción de gases de efecto invernadero a partir de una cantidad determinada ingresada por el usuario en mega-tonelada con el fin de predecir en que sector habrá mas producción de gases y así, poder tomar las decisiones y acciones pertinentes para mitigar o reducir su efecto o producción.

En esta página implementamos el algoritmo KNN hecho en python con la ayuda de la librería de machine learning sklearn y la conectamos a esta página web generada en blogger.

Revisemos el código creado en python y entendamos el proceso del KNN.
Lo primero que hacemos el leer los datos de prueba el cual va a ser el ingresado por el usuario y en segundo lugar leemos los datos de entrenamiento del modelo.

Bien, cuando ya se hayan leído los datos deberemos ejecutar la siguiente línea la cual hace que el modelo empiece a entrenarse.

X_train: son todos aquellos valores que nosotros vemos como necesarios para cumplir con la predicción.

X_test: son los valores que escoge el KNN para entrenarse a sí mismo (siempre escoge 30 datos).

y_train: son todos aquellos casos que puede sacar como conclusión, es decir, el tipo de sector.

y_test: son los resultados que obtuvo del X_test.

La siguiente línea tiene la función de asignar el k. En nuestro caso lo vamos a hacer con k=3 es decir tres instancias del juego de datos de entrenamiento más cercanas.

Para finalizar, con esta línea podemos obtener la predicción con el dato ingresado.

Hay otras funciones que permiten ver más a fondo todas aquellas características que componen el algoritmo como pueden ser la matriz de confusión, la media, el total de datos del  dataset y etc.

Pruebas
Veamos un json con todos los datos que esta recibiendo la página desde python.
Ingresando el valor 145 obtenemos la siguiente información:


El sector al que pertenecen  las  145 mega-toneladas de gases de efecto invernadero pertenecen a la energía. Pero... ¿por qué? nos preguntaremos. Nos tomamos el tiempo de revisar el dataset y realizar la siguiente gráfica:



Si analizamos la gráfica vemos que los valores mas altos pertenecen a la agricultura, ganadería, silvicultura y otros usos de la tierra y que por debajo está el sector de la  energía el cual si observamos, se encuentra en un rango muy próximo al valor que nosotros ingresamos.

Si deseas saber más información del dataset:

https://drive.google.com/file/d/1Duam6OiOurLdSMLNvw4qWtGgzNBUfilG/view?usp=sharing



Comentarios