# Mentoria DiploDatos FAMAF

## Reducción de Emisiones Contaminantes por el Uso de Biocombustibles en Transporte de Cargas y Pasajeros

### Práctico de Análisis y Visualización

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

In [2]:
import warnings
warnings.filterwarnings("ignore")

In [3]:
#!pip install pymysql
import pymysql as sql

## Datos propios
_Datasets :_
- Usuarios: registra datos de los usuarios de las bombas
- Vehiculos: registra datos de los vehículos 
- Productos: registra datos de los tipos de combustibles
- Equipos: registra datos de los equipos IoT
- Tanques: registra datos de los tanques de almacenamiento
- Bombas: registra datos de las bombas de suministro de combustible
- Transacciones (mensuales, desde el 2018): registro de los suministros de combustible por cada bomba a cada vehículo
- Historial (mensuales, desde el 2018): registro de los inventarios mensuales de los tanques de combustibles

In [4]:
# Listado de todas las tablas de la base de datos
mysqldb = sql.connect(
  host="localhost",
  user="root",
  passwd="2801",
  database="cintelinkcombustible"
)
mysqlcursordb = mysqldb.cursor()
mysqlcursordb.execute("show tables")
lista_tablas = []
for tabla in mysqlcursordb:
    lista_tablas.append(tabla[0])
print(lista_tablas)

['fs_asignacion_producto', 'fs_bombas', 'fs_equipo', 'fs_tanques', 'fs_usuarios_fuelsentry', 'fs_vehiculos', 'sis_historial_2018_1', 'sis_historial_2018_10', 'sis_historial_2018_11', 'sis_historial_2018_12', 'sis_historial_2018_2', 'sis_historial_2018_3', 'sis_historial_2018_4', 'sis_historial_2018_5', 'sis_historial_2018_6', 'sis_historial_2018_7', 'sis_historial_2018_8', 'sis_historial_2018_9', 'sis_historial_2019_1', 'sis_historial_2019_10', 'sis_historial_2019_11', 'sis_historial_2019_12', 'sis_historial_2019_2', 'sis_historial_2019_3', 'sis_historial_2019_4', 'sis_historial_2019_5', 'sis_historial_2019_6', 'sis_historial_2019_7', 'sis_historial_2019_8', 'sis_historial_2019_9', 'sis_historial_2020_1', 'sis_historial_2020_2', 'sis_historial_2020_3', 'sis_historial_2020_4', 'sis_historial_2020_5', 'sis_transa_2018_1', 'sis_transa_2018_10', 'sis_transa_2018_11', 'sis_transa_2018_12', 'sis_transa_2018_2', 'sis_transa_2018_3', 'sis_transa_2018_4', 'sis_transa_2018_5', 'sis_transa_2018_6

In [5]:
# Recuperar los 10 primeros registros de una tabla de la base de datos
mysqlcursordb = mysqldb.cursor()
query_registros = "SELECT * FROM fs_bombas;"
mysqlcursordb.execute(query_registros)
registros  = mysqlcursordb.fetchall()
for reg in registros[0:10]:
    print(reg)

(1, 333333, '01', '0', 1, '0031731.441', datetime.date(2012, 7, 19), '0000', '2.0', '1', '0000')
(2, 333333, '02', '0', 1, '1160601.525', datetime.date(2012, 7, 19), '0000', '2.0', '1', '0000')
(11417, 770, '02', '1', 101856, '0000000.000', datetime.date(2018, 7, 5), '0026.3158', '020', '1', '0000')
(5, 444444, '01', '2', 4, '0651995.027', datetime.date(2010, 12, 1), '35.0', '888', '1', '0000')
(6, 444444, '02', '2', 4, '0005232.793', datetime.date(2010, 12, 1), '35.5', '2.0', '1', '0000')
(7, 444444, '03', '3', 5, '0000090.979', datetime.date(2010, 12, 1), '35.0', '1.0', '1', '0000')
(8, 444444, '04', '4', 6, '0000000.338', datetime.date(2010, 12, 1), '35.0', '1.0', '1', '0000')
(9, 444444, '05', '5', 7, '0000000.001', datetime.date(2010, 12, 1), '35.0', '1.0', '1', '0000')
(10, 444444, '06', '1', 3, '0651995.027', datetime.date(2010, 12, 1), '35.0', '2.0', '2', '0001')
(11, 444444, '07', '1', 3, '0651995.027', datetime.date(2010, 12, 1), '35.0', '2.0', '0', '0003')


In [6]:
# Conexión a la base de datos (para MySQL)
from sqlalchemy import create_engine

# Crear motor de conexión sqlalchemy
path_conexion = 'mysql+pymysql://root:2801@localhost:3306/cintelinkcombustible'
conexion = create_engine(path_conexion)

Para este primer práctico estaremos trabajando solo con algunos datasets. En el segundo práctico se incorporará otros datasets, que requieren de mayor limpieza y manipulacion de los datos.

In [7]:
# Listado de querys para consultas de las tablas a analizar
query_productos = "SELECT * FROM fs_asignacion_producto;"
query_bombas = "SELECT * FROM fs_bombas;"
query_tanques = "SELECT * FROM fs_tanques;"
query_usuarios = "SELECT * FROM fs_usuarios_fuelsentry;"

In [8]:
# Obtención de dataframe 'fs_asignacion_producto', 'fs_bombas', 'fs_equipo', 'fs_tanques', 'fs_usuarios_fuelsentry', 'fs_vehiculos'
df_productos = pd.read_sql_query(query_productos, conexion)
df_tanques = pd.read_sql_query(query_tanques, conexion)
df_usuarios = pd.read_sql_query(query_usuarios, conexion)

# También podemos pasar el tipo de formato de las fechas para su conversión al momento de leer los datos
format_string = "%Y-%m-%d %H:%M:%S"
df_bombas = pd.read_sql_query(query_bombas, conexion, parse_dates={'fecha_reinicio': format_string})

In [9]:
pd.set_option('display.max_columns', 50)

### Dataset de asignación de productos:

Contiene información relacionada con los productos de combustible.

Descripción de las columnas:
- 'id_equipo': ID del dispositivo IoT
- 'producto': código del producto
- 'nombre_producto': nombre del producto
- 'codigo': 
- 'precio_litro': precio del producto (en $/l)
- 'coef_var_vol': coeficiente de variación del volumen del producto combustible (en g/cm3/°C)
- 'density': densidad del producto (en g/cm3)

Densidad (ASTM D 4052): densidad relativa del combustible medido a la temperatura estándar de 15 °C.

In [10]:
print(f'Dimensión del dataset (filas, columnas): {df_productos.shape}\n')
print(f'{df_productos.info()}\n')
df_productos.head()

Dimensión del dataset (filas, columnas): (2672, 7)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2672 entries, 0 to 2671
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id_equipo        2672 non-null   int64  
 1   producto         2672 non-null   object 
 2   nombre_producto  2672 non-null   object 
 3   codigo           2526 non-null   object 
 4   precio_litro     2672 non-null   float64
 5   coef_var_vol     2672 non-null   float64
 6   density          249 non-null    float64
dtypes: float64(3), int64(1), object(3)
memory usage: 146.2+ KB
None



Unnamed: 0,id_equipo,producto,nombre_producto,codigo,precio_litro,coef_var_vol,density
0,333333,0,gas oil,gas oil,7.5,0.001,
1,333333,1,Product 2,Product 2,0.0,0.001,
2,333333,2,Product 3,Product 3,0.0,0.001,
3,333333,3,Product 4,Product 4,0.0,0.001,
4,1,0,Diesel,Diesel,1.0,0.001,


In [11]:
# Valores o categorias unicas para cada columna
for i in df_productos.columns:
    print(f'{i}: {df_productos[i].nunique()}')

id_equipo: 702
producto: 10
nombre_producto: 142
codigo: 143
precio_litro: 76
coef_var_vol: 5
density: 3


### Dataset de bombas:

Contiene información de las bombas de suministro de combustible.

--> Un punto de suministro del combustible posee uno o varios equipos (dispositivo IoT) 

Descripción de las columnas:
- 'id_bomba': ID de la bomba
- 'id_equipo': ID del dispositivo IoT
- 'bomba': 
- 'producto': tipo de combustible que suministra la bomba
- 'id_tanque': ID del tanque
- 'totalizador': litros suministrados a la fecha de reinicio
- 'fecha_reinicio': fecha de reinicio de la bomba
- 'pulsos_litro': litros que suministra la bomba (por pulso)
- 'tiempo_interrump': tiempo de interrupción del suministro de combustible de la bomba (en segundos)
- 'habilitacion': 
- 'rampa_de_parada'

In [12]:
print(f'Dimensión del dataset (filas, columnas): {df_bombas.shape}\n')
print(f'{df_bombas.info()}\n')
df_bombas.head()

Dimensión del dataset (filas, columnas): (1438, 11)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1438 entries, 0 to 1437
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id_bomba          1438 non-null   int64         
 1   id_equipo         1438 non-null   int64         
 2   bomba             1438 non-null   object        
 3   producto          1438 non-null   object        
 4   id_tanque         1438 non-null   int64         
 5   totalizador       1438 non-null   object        
 6   fecha_reinicio    1435 non-null   datetime64[ns]
 7   pulsos_litro      1438 non-null   object        
 8   tiempo_interrump  1438 non-null   object        
 9   habilitacion      1438 non-null   object        
 10  rampa_de_parada   1438 non-null   object        
dtypes: datetime64[ns](1), int64(3), object(7)
memory usage: 123.7+ KB
None



Unnamed: 0,id_bomba,id_equipo,bomba,producto,id_tanque,totalizador,fecha_reinicio,pulsos_litro,tiempo_interrump,habilitacion,rampa_de_parada
0,1,333333,1,0,1,31731.441,2012-07-19,0.0,2.0,1,0
1,2,333333,2,0,1,1160601.525,2012-07-19,0.0,2.0,1,0
2,11417,770,2,1,101856,0.0,2018-07-05,26.3158,20.0,1,0
3,5,444444,1,2,4,651995.027,2010-12-01,35.0,888.0,1,0
4,6,444444,2,2,4,5232.793,2010-12-01,35.5,2.0,1,0


In [13]:
# Valores o categorias unicas para cada columna
for i in df_bombas.columns:
    print(f'{i}: {df_bombas[i].nunique()}')

id_bomba: 1438
id_equipo: 610
bomba: 28
producto: 11
id_tanque: 861
totalizador: 869
fecha_reinicio: 179
pulsos_litro: 245
tiempo_interrump: 29
habilitacion: 7
rampa_de_parada: 7


### Dataset de tanques:

Contiene información de los tanques de combustible.

--> Una empresa puede tener más de un tanque

--> Varios tanques pueden estar conectado a un mismo equipo

--> Un tanque posee una o varias bombas

Descripción de las columnas:
- 'id_tanque': ID del tanque
- 'id_equipo': ID del dispositivo IoT 
- 'tanque': tipo de tanque
- 'producto': producto almacenado en el tanque 
- 'capacidad': capacidad del tanque en litros
- 'log_interval': intervalo de tiempo en el cual se registra la medición del volumen del contenido del tanque --> historial del volumen del tanque
- 'nivel_alarma': nivel de contenido del tanque para disparar alarma

In [14]:
print(f'Dimensión del dataset: {df_tanques.shape}\n')
print(f'{df_tanques.info()}\n')
df_tanques. head()

Dimensión del dataset: (1561, 7)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1561 entries, 0 to 1560
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id_tanque     1561 non-null   int64 
 1   id_equipo     1561 non-null   int64 
 2   tanque        1561 non-null   object
 3   producto      1561 non-null   object
 4   capacidad     1561 non-null   object
 5   log_interval  1561 non-null   object
 6   nivel_alarma  1561 non-null   object
dtypes: int64(2), object(5)
memory usage: 85.5+ KB
None



Unnamed: 0,id_tanque,id_equipo,tanque,producto,capacidad,log_interval,nivel_alarma
0,101525,669,B,1,10000.1,30,0
1,101833,764,5,1,8000.0,30,3200
2,101496,662,1,0,50000.0,30,0
3,101495,661,1,0,25000.0,30,0
4,101522,669,8,1,10000.1,30,0


In [15]:
for i in df_tanques.columns:
    print(f'{i}: {df_tanques[i].nunique()}')

id_tanque: 1561
id_equipo: 638
tanque: 18
producto: 10
capacidad: 158
log_interval: 18
nivel_alarma: 102


### Dataset de usuarios:

Contiene información de los usuarios de las bombas de combustible.

Descripción de las columnas:
- 'id_usuario_fuelsentry': ID de registro del usuario
- 'id_equipo':  ID del dispositivo IoT
- 'usuario_fuelsentry': código del usuario de la bomba
- 'departamento': 
- 'codigo': 
- 'totalizador': litros totales suministrados por el usuario de la bomba
- 'cargas_totales': número total de cargas sumnistradas por el usuario

In [16]:
print(f'Dimensión del dataset: {df_usuarios.shape}\n')
print(f'{df_usuarios.info()}\n')
df_usuarios. head()

Dimensión del dataset: (13623, 7)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13623 entries, 0 to 13622
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   id_usuario_fuelsentry  13623 non-null  int64 
 1   id_equipo              13623 non-null  int64 
 2   usuario_fuelsentry     13623 non-null  object
 3   departamento           13623 non-null  object
 4   codigo                 13623 non-null  object
 5   totalizador            13623 non-null  object
 6   cargas_totales         13623 non-null  object
dtypes: int64(2), object(5)
memory usage: 745.1+ KB
None



Unnamed: 0,id_usuario_fuelsentry,id_equipo,usuario_fuelsentry,departamento,codigo,totalizador,cargas_totales
0,2,333333,1,0,0,323.152,1
1,3,333333,1315,1,2012,1655.59,9
2,4,333333,1312,1,4468,1433.429,6
3,5,333333,1298,1,2609,412.834,2
4,6,333333,818,1,1978,713.023,3


In [17]:
for i in df_usuarios.columns:
    print(f'{i}: {df_usuarios[i].nunique()}')

id_usuario_fuelsentry: 13623
id_equipo: 509
usuario_fuelsentry: 3527
departamento: 64
codigo: 594
totalizador: 4523
cargas_totales: 549


## Datos públicos:
Bioetanol: producción y ventas (total país)
- Producción y ventas de bioetanol por mes en base a maíz y caña de azúcar (en metros cúbicos).
- Frecuencia de actualización: Mensualmente
- Último cambio: 15 de mayo de 2018

In [18]:
url_bioetanol_nacional = 'http://datos.minem.gob.ar/dataset/5ce77ad1-c729-42cd-a8b5-2407de005e5b/resource/fd142c49-fa73-4e21-be1f-a10d6d67d05d/download/bioetanol-serie-produccion-y-ventas-total-pais.csv'
bioetanol_nacional=pd.read_csv(url_bioetanol_nacional)
print(f'Dimensión del dataset (filas, columnas): {bioetanol_nacional.shape}\n')
print(f'{bioetanol_nacional.info()}\n')
bioetanol_nacional.head()

Dimensión del dataset (filas, columnas): (101, 8)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 101 entries, 0 to 100
Data columns (total 8 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   mes                              101 non-null    object 
 1   unidades                         101 non-null    object 
 2   produccion_total                 101 non-null    float64
 3   ventas_totales                   101 non-null    float64
 4   produccion_base_maiz             101 non-null    float64
 5   ventas_bioetanol_maiz            101 non-null    float64
 6   produccion_base_cana_de_azucar   101 non-null    float64
 7   ventas_bioetanol_cana_de_azucar  101 non-null    float64
dtypes: float64(6), object(2)
memory usage: 6.4+ KB
None



Unnamed: 0,mes,unidades,produccion_total,ventas_totales,produccion_base_maiz,ventas_bioetanol_maiz,produccion_base_cana_de_azucar,ventas_bioetanol_cana_de_azucar
0,11/1/2009,metros cúbicos,858.0,0.0,0.0,0.0,858.0,0.0
1,12/1/2009,metros cúbicos,22439.0,2664.0,0.0,0.0,22439.0,2664.0
2,1/1/2010,metros cúbicos,771.0,6188.0,0.0,0.0,771.0,6188.0
3,2/1/2010,metros cúbicos,4791.0,6718.0,0.0,0.0,4791.0,6718.0
4,3/1/2010,metros cúbicos,4445.0,9585.0,0.0,0.0,4445.0,9585.0


In [19]:
bioetanol_nacional['mes'] = pd.to_datetime(bioetanol_nacional['mes'])

In [20]:
bioetanol_nacional.head()

Unnamed: 0,mes,unidades,produccion_total,ventas_totales,produccion_base_maiz,ventas_bioetanol_maiz,produccion_base_cana_de_azucar,ventas_bioetanol_cana_de_azucar
0,2009-11-01,metros cúbicos,858.0,0.0,0.0,0.0,858.0,0.0
1,2009-12-01,metros cúbicos,22439.0,2664.0,0.0,0.0,22439.0,2664.0
2,2010-01-01,metros cúbicos,771.0,6188.0,0.0,0.0,771.0,6188.0
3,2010-02-01,metros cúbicos,4791.0,6718.0,0.0,0.0,4791.0,6718.0
4,2010-03-01,metros cúbicos,4445.0,9585.0,0.0,0.0,4445.0,9585.0


Biodiesel: producción, ventas y exportaciones, total país
- Producción, ventas y exportaciones de biodiesel por mes en toneladas.
- Frecuencia de actualización: Mensualmente
- Último cambio: 15 de mayo de 2018

In [21]:
url_biodiesel_nacional = 'http://datos.minem.gob.ar/dataset/5ce77ad1-c729-42cd-a8b5-2407de005e5b/resource/4e04bc74-8625-412c-acc2-48412f2509b4/download/biodiesel-serie-produccion-ventas-y-expo.csv'
# Leer CSV

## Análisis a desarrollar:

Indicaciones previas: 
- Para cada planteamiento (excepto el 1), realizar un análisis de los resultados obtenidos y justificar por qué empleó determinado cálculo.

- Para los planteamientos donde utilices gráficos, responder: ¿Qué tipo de gráfico es el recomendado? ¿Por qué? Construya el gráfico y elabore una conclusión del mismo.

Nota: Cuidar los aspectos relevantes de un gráfico (título, nombre de las variables para cada eje, escala de valores en los ejes, colores, fuente de los datos, leyenda, valores a resaltar, etc)

1. Seleccionar y crear una lista de 5 variables númericas. Comenta si son de tipo discreto o continuo, y por qué.

2. Determinar algunas medidas estadísticas para las variables seleccionadas.

3. Obtenga el número registros en el dataset para cada producto ('producto' de df_bombas). Comente sobre los valores obtenidos.

4. Obtener un gráfico para visualizar el comportamiento de los valores de capacidad de los tanques de combustibles. (df_tanques)

5. Obtener un gráfico que muestre y compare el comportamiento del coeficiente de variación de los distintos productos (df_productos). ¿Qué haría para mejorar el gráfico?

6. Analizar la distribución de los litros totales y la cantidad de cargas totales que suministraron los usuarios ('totalizador' y 'cargas_totales' del df_usuarios)

Emplear los datos públicos del Bioetanol y Biodiesel: producción y ventas (total país), en las últimos planteamientos:

7. Obtener las gráficas de series temporales de la producción de bioetanol en base a caña de azúcar, a maíz y la total, así también para la producción total de biodiesel.

8. Comparar la distribución de producción total de biodiesel y bioetanol para cada mes y año. ¿En qué años y meses los consumos son más consistentes?
--> Emplear: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html#pandas.pivot_table

9. Obtener un mapa de calor por mes y año, para los valores medios de  producción total de biodiesel y bioetanol.