# Mentoria DiploDatos FAMAF

## Reducción de Emisiones Contaminantes por el Uso de Biocombustibles en Transporte de Cargas y Pasajeros

### Práctico de Análisis y Visualización

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
#!pip install pymysql
import pymysql as sql

## Datos propios
_Datasets :_
- Usuarios: registra datos de los usuarios de las bombas
- Vehiculos: registra datos de los vehículos 
- Productos: registra datos de los tipos de combustibles
- Equipos: registra datos de los equipos IoT
- Tanques: registra datos de los tanques de almacenamiento
- Bombas: registra datos de las bombas de suministro de combustible
- Transacciones (mensuales, desde el 2018): registro de los suministros de combustible por cada bomba a cada vehículo
- Historial (mensuales, desde el 2018): registro de los inventarios mensuales de los tanques de combustibles

In [None]:
# data = pd.read_sql("to_share_dump.sql")

In [None]:
# Listado de todas las tablas de la base de datos
mysqldb = sql.connect(
  host="localdocker",
  port= 3306,  
  user="root",
  passwd="root_password",#"2801",
  database="db"
)
mysqlcursordb = mysqldb.cursor()
mysqlcursordb.execute("show tables")
lista_tablas = []
for tabla in mysqlcursordb:
    lista_tablas.append(tabla[0])
print(lista_tablas)

In [None]:
# Recuperar los 10 primeros registros de una tabla de la base de datos
mysqlcursordb = mysqldb.cursor()
query_registros = "SELECT * FROM fs_bombas;"
mysqlcursordb.execute(query_registros)
registros  = mysqlcursordb.fetchall()
for reg in registros[0:10]:
    print(reg)

In [None]:
# Conexión a la base de datos (para MySQL)
from sqlalchemy import create_engine

# Crear motor de conexión sqlalchemy
path_conexion = 'mysql+pymysql://root:root_password@localdocker:3306/db'
conexion = create_engine(path_conexion)

Para este primer práctico estaremos trabajando solo con algunos datasets. En el segundo práctico se incorporará otros datasets, que requieren de mayor limpieza y manipulacion de los datos.

In [None]:
# Listado de querys para consultas de las tablas a analizar
query_productos = "SELECT * FROM fs_asignacion_producto;"
query_bombas = "SELECT * FROM fs_bombas;"
query_tanques = "SELECT * FROM fs_tanques;"
query_usuarios = "SELECT * FROM fs_usuarios_fuelsentry;"

In [None]:
# Obtención de dataframe 'fs_asignacion_producto', 'fs_bombas', 'fs_equipo', 'fs_tanques', 'fs_usuarios_fuelsentry', 'fs_vehiculos'
df_productos = pd.read_sql_query(query_productos, conexion)
df_tanques = pd.read_sql_query(query_tanques, conexion)
df_usuarios = pd.read_sql_query(query_usuarios, conexion)

# También podemos pasar el tipo de formato de las fechas para su conversión al momento de leer los datos
format_string = "%Y-%m-%d %H:%M:%S"
df_bombas = pd.read_sql_query(query_bombas, conexion, parse_dates={'fecha_reinicio': format_string})

In [None]:
pd.set_option('display.max_columns', 50)

### Dataset de asignación de productos:

Contiene información relacionada con los productos de combustible.

Descripción de las columnas:
- 'id_equipo': ID del dispositivo IoT
- 'producto': código del producto
- 'nombre_producto': nombre del producto
- 'codigo': 
- 'precio_litro': precio del producto (en $/l)
- 'coef_var_vol': coeficiente de variación del volumen del producto combustible (en g/ml/°C)
- 'density': densidad del producto (en g/ml)

Densidad (ASTM D 4052): densidad relativa del combustible medido (en g/ml o kg/m3) a la temperatura estándar de 15 °C.

In [None]:
print(f'Dimensión del dataset (filas, columnas): {df_productos.shape}\n')
print(f'{df_productos.info()}\n')
df_productos.head()

In [None]:
# Valores o categorias unicas para cada columna
for i in df_productos.columns:
    print(f'{i}: {df_productos[i].nunique()}')

### Dataset de bombas:

Contiene información de las bombas de suministro de combustible.

--> Un punto de suministro del combustible posee uno o varios equipos (dispositivo IoT) 

Descripción de las columnas:
- 'id_bomba': ID de la bomba
- 'id_equipo': ID del dispositivo IoT
- 'bomba': 
- 'producto': tipo de combustible que suministra la bomba
- 'id_tanque': ID del tanque
- 'totalizador': litros suministrados a la fecha de reinicio
- 'fecha_reinicio': fecha de reinicio de la bomba
- 'pulsos_litro': litros que suministra la bomba (por pulso)
- 'tiempo_interrump': tiempo de interrupción del suministro de combustible de la bomba (en segundos)
- 'habilitacion': 
- 'rampa_de_parada'

In [None]:
print(f'Dimensión del dataset (filas, columnas): {df_bombas.shape}\n')
print(f'{df_bombas.info()}\n')
df_bombas.head()

In [None]:
# Valores o categorias unicas para cada columna
for i in df_bombas.columns:
    print(f'{i}: {df_bombas[i].nunique()}')

### Dataset de tanques:

Contiene información de los tanques de combustible.

--> Una empresa puede tener más de un tanque

--> Varios tanques pueden estar conectado a un mismo equipo

--> Un tanque posee una o varias bombas

Descripción de las columnas:
- 'id_tanque': ID del tanque
- 'id_equipo': ID del dispositivo IoT 
- 'tanque': tipo de tanque
- 'producto': producto almacenado en el tanque 
- 'capacidad': capacidad del tanque en litros
- 'log_interval': intervalo de tiempo en el cual se registra la medición del volumen del contenido del tanque --> historial del volumen del tanque
- 'nivel_alarma': nivel de contenido del tanque para disparar alarma

In [None]:
print(f'Dimensión del dataset: {df_tanques.shape}\n')
print(f'{df_tanques.info()}\n')
df_tanques. head()

In [None]:
for i in df_tanques.columns:
    print(f'{i}: {df_tanques[i].nunique()}')

### Dataset de usuarios:

Contiene información de los usuarios de las bombas de combustible.

Descripción de las columnas:
- 'id_usuario_fuelsentry': ID de registro del usuario
- 'id_equipo':  ID del dispositivo IoT
- 'usuario_fuelsentry': código del usuario de la bomba
- 'departamento': 
- 'codigo': 
- 'totalizador': litros totales suministrados por el usuario de la bomba
- 'cargas_totales': número total de cargas sumnistradas por el usuario

In [None]:
print(f'Dimensión del dataset: {df_usuarios.shape}\n')
print(f'{df_usuarios.info()}\n')
df_usuarios. head()

In [None]:
for i in df_usuarios.columns:
    print(f'{i}: {df_usuarios[i].nunique()}')

## Datos públicos:
Bioetanol: producción y ventas (total país)
- Producción y ventas de bioetanol por mes en base a maíz y caña de azúcar (en metros cúbicos).
- Frecuencia de actualización: Mensualmente
- Último cambio: 15 de mayo de 2018

In [None]:
url_bioetanol_nacional = 'http://datos.minem.gob.ar/dataset/5ce77ad1-c729-42cd-a8b5-2407de005e5b/resource/fd142c49-fa73-4e21-be1f-a10d6d67d05d/download/bioetanol-serie-produccion-y-ventas-total-pais.csv'
bioetanol_nacional=pd.read_csv(url_bioetanol_nacional)
print(f'Dimensión del dataset (filas, columnas): {bioetanol_nacional.shape}\n')
print(f'{bioetanol_nacional.info()}\n')
bioetanol_nacional.head()

In [None]:
bioetanol_nacional['mes'] = pd.to_datetime(bioetanol_nacional['mes'])

In [None]:
bioetanol_nacional.head()

Biodiesel: producción, ventas y exportaciones, total país
- Producción, ventas y exportaciones de biodiesel por mes en toneladas.
- Frecuencia de actualización: Mensualmente
- Último cambio: 15 de mayo de 2018

In [None]:
url_biodiesel_nacional = 'http://datos.minem.gob.ar/dataset/5ce77ad1-c729-42cd-a8b5-2407de005e5b/resource/4e04bc74-8625-412c-acc2-48412f2509b4/download/biodiesel-serie-produccion-ventas-y-expo.csv'
# Leer CSV
biodiesel_nacional=pd.read_csv(url_biodiesel_nacional)
biodiesel_nacional['mes'] = pd.to_datetime(biodiesel_nacional['mes'])
print(f'Dimensión del dataset (filas, columnas): {biodiesel_nacional.shape}\n')
print(f'{biodiesel_nacional.info()}\n')
biodiesel_nacional.head()

## Análisis a desarrollar:

Indicaciones previas: 
- Para cada planteamiento (excepto el 1), realizar un análisis de los resultados obtenidos y justificar por qué empleó determinado cálculo.

- Para los planteamientos donde utilices gráficos, responder: ¿Qué tipo de gráfico es el recomendado? ¿Por qué? Construya el gráfico y elabore una conclusión del mismo.

Nota: Cuidar los aspectos relevantes de un gráfico (título, nombre de las variables para cada eje, escala de valores en los ejes, colores, fuente de los datos, leyenda, valores a resaltar, etc)

1- Seleccionar y crear una lista de 5 variables númericas. Comenta si son de tipo discreto o continuo, y por qué.

In [None]:
#filtro tanques borrados en consola, contiene 'X'
df_tanques = df_tanques[df_tanques['capacidad'].str.contains('x',case=False)==False]
df_bombas = df_bombas[df_bombas['totalizador'].str.contains('x',case=False)==False]

# Capacidad del tanques, variable numerica discreta
df_tanques['capacidad_int64'] = df_tanques['capacidad'].astype('float').round(0).astype('int64')
print(f'Descripción de las capacidades')
print(df_tanques['capacidad_int64'].describe(),'\n')


# Totalizador del bombas, variable numerica continua
df_bombas['totalizador_float'] = df_bombas['totalizador'].astype('float').round(3)
print(f'Descripción de los totalizadores')
print(df_bombas['totalizador_float'].describe())



1.a: Capacidad de los tanques de combustibles
- La capacidad de los tanques están en litros
- Existen errores en la capacidad asignada, un tanque de almacenamiento de combustible no debería tener menos de 40 litros, si lo comparamos con la capacidad de un automóvil cualquiera estamos en 40 litros, es lógico pensar que almacenar el mismo combustible para distribución los tanques están por encima de estás capacidades


In [None]:
# tanque con capacidad mal asignada..
print('Cantidad de tanques con capacidad inferior a 40 litros= {}'.format(len(df_tanques[df_tanques['capacidad_int64']<40])))

# Recuperación de capacidad del tanques mediante el análisis de otras tablas..
# lo correcto sería el volumen máximo de la tabla de calibración para corregir la capacidad
# como no tenemos esas tablas vamos a tomar del historial de tanque el valor máximo medido
tanques = ','.join(df_tanques[df_tanques['capacidad_int64']<40]['id_tanque'].astype(str))
query_t = f'SELECT id_tanque, MAX(volumen) AS capacidad_max FROM sis_historial_2020_4 WHERE id_tanque IN ({tanques}) GROUP BY id_tanque'
df_capacidades = pd.read_sql_query(query_t, conexion)
if df_capacidades.empty:
    print('No hay datos en el historial, significa que esos tanques no tienen sondas')
    print('El cliente las deberá corregir a mano')
    print('Se les puede ofrecer que compren una sonda')

2- Determinar algunas medidas estadísticas para las variables seleccionadas.

In [None]:
#filtro capacidades menores a 40 litros
df_tanques_f40 = df_tanques[df_tanques['capacidad_int64']>=40]
df_tanques_f40['capacidad_int64'].describe()

In [None]:
#cantidad de capacidades diferentes
len(df_tanques_f40['capacidad_int64'].unique())

3- Obtenga el número registros en el dataset para cada producto ('producto' de df_bombas). Comente sobre los valores obtenidos.

4- Obtener un gráfico para visualizar el comportamiento de los valores de capacidad de los tanques de combustibles. (df_tanques)

In [None]:
import plotly.express as px
import plotly.graph_objects as go
import plotly.offline as plt
import plotly
from plotly.subplots import make_subplots

df = df_tanques_f40.groupby(['capacidad_int64'], as_index=False).count()

fig = go.Figure()

fig.add_trace(go.Scatter(x=df['capacidad_int64'], y=df['id_tanque'], 
                         name='Cantidad de tanques', mode='markers', line=dict(color='royalblue', width=4)
                        )
             )

fig.add_trace(go.Histogram(x=df_tanques_f40['capacidad_int64'], y=df_tanques_f40['id_tanque'],
                           name='Distribución de capacidades',
                           opacity=0.4,
                           nbinsx=15,
                        )
             )


fig.update_layout(
    title=go.layout.Title(
        text="Distribución de las capacidad de los tanques",
        xref="paper",
        x=0.1,
        font_size=20,
    ),
    xaxis=go.layout.XAxis(
        title=go.layout.xaxis.Title(
            text="Capacidad [Litros]",
            font=dict(
                family="Courier New, monospace",
                size=18,
                color="#7f7f7f"
            )
        )
    ),
    yaxis=go.layout.YAxis(
        title=go.layout.yaxis.Title(
            text="Cantidad de tanques",
            font=dict(
                family="Courier New, monospace",
                size=18,
                color="#7f7f7f"
            )
        )
    )
)

fig.show()
# plt.plot(fig, filename='capacidad_tanques.html',auto_open=False)

5- Obtener un gráfico que muestre y compare el comportamiento del coeficiente de variación de los distintos productos (df_productos). ¿Qué haría para mejorar el gráfico?

6- Analizar la distribución de los litros totales y la cantidad de cargas totales que suministraron los usuarios ('totalizador' y 'cargas_totales' del df_usuarios)

In [None]:
query_transa_4_2020 = "SELECT * FROM sis_transa_2020_4;"
df_transa_4_2020 = pd.read_sql_query(query_transa_4_2020, conexion)

In [None]:
# Capacidad del tanques, variable numerica discreta
df_transa_4_2020['cantidad_float'] = df_transa_4_2020['cantidad'].astype('float').round(3)
# df_transa_4_2020 = df_transa_4_2020[df_transa_4_2020['cantidad_float']>0]
print(f'Descripción de las capacidades')
print(df_transa_4_2020['cantidad_float'].describe(),'\n')


In [None]:
df_transa_4_2020.columns
df_transa_4_2020.groupby('id_tanque')['cantidad_float'].sum()

In [None]:
df_join = df_tanques_f40.set_index('id_tanque').join(
            df_transa_4_2020[df_transa_4_2020['cantidad_float']>0].groupby('id_tanque')['cantidad_float'].sum())

df_join = df_join[df_join['cantidad_float'].notna()]

coef = np.polyfit(df_join['capacidad_int64'],df_join['cantidad_float'],1)

x_slope = np.array([0, df_join['capacidad_int64'].max()])
y_slope = x_slope*coef[0]+coef[1]

df = df_join.groupby(['capacidad_int64'], as_index=False).mean()


fig = go.Figure()
fig = make_subplots(specs=[[{"secondary_y": True}]])


fig.add_trace(go.Scatter(x=df_join['capacidad_int64'], y=df_join['cantidad_float'], 
                         name='Consumo mensual de cada tanque', mode='markers', line=dict(color='royalblue', width=4)
                        )
             )


fig.add_trace(go.Scatter(x=x_slope, y=y_slope, 
                         name='Tendendia de consumo', mode='lines'
                        )
             )


fig.add_trace(go.Histogram(x=df['capacidad_int64'], y=df['cantidad_float'], 
                         name='Distribución del consumo',
#                          yaxis='y2',
                         opacity=0.3,
                         histfunc='sum',
#                          nbinsx=None
                        )
             )


fig.update_layout(
    title=go.layout.Title(
        text="Consumo vs Capacidad del tanque",
        xref="paper",
        x=0.1,
        font_size=18,
    ),
    xaxis_title="Capacidad [Litros]",
    yaxis_title="Consumo mensual [Litros]",
#     legend_title_text=
)

Emplear los datos públicos del Bioetanol y Biodiesel: producción y ventas (total país), en las últimos planteamientos:

7- Obtener las gráficas de series temporales de la producción de bioetanol en base a caña de azúcar, a maíz y la total, así también para la producción total de biodiesel.

In [None]:
bioetanol_nacional.columns

In [None]:
plotly.__version__

In [None]:

# import plotly.express as px
# df = dataset.groupby(['year','region'], as_index=False).mean()
# fig = px.line(bioetanol_nacional, x='mes', y=['produccion_total','produccion_base_maiz','produccion_base_cana_de_azucar']
# #              ,hover_name="mes"
#              ,line_shape='spline'
#              ,labels={'produccion_total':'aa','produccion_base_maiz':'1','produccion_base_cana_de_azucar':'2'}
#              )
fig=go.Figure()

# fig = make_subplots(rows=2, cols=1)

fig.add_trace(go.Scatter(x=bioetanol_nacional['mes'], y=bioetanol_nacional['produccion_total'], 
                         name='Total', mode='lines',line_width = 3                           
                        )
             )
fig.add_trace(go.Scatter(x=bioetanol_nacional['mes'], y=bioetanol_nacional['produccion_base_maiz'], 
                         name='Maíz', mode='lines'                         
                        )
             )
fig.add_trace(go.Scatter(x=bioetanol_nacional['mes'], y=bioetanol_nacional['produccion_base_cana_de_azucar'], 
                         name='Caña de azucar', mode='lines'                         
                        )
             )


fig.update_layout(
    title=go.layout.Title(
        text="Producción de Bioetanol en Argentina",
        xref="paper",
        x=0.1,
        font_size=18,
    ),
    xaxis_title="Fecha",
    yaxis_title="Volumen Mensual [m3]",
    legend_title_text='Producción', #necesita actualizar plotly
#     trace_name='Tendendia de consumo'
)

fig.update_traces(line_shape='spline')

fig.show()

bioetanol_nacional

In [None]:
fig=go.Figure()

# fig = make_subplots(rows=2, cols=1)

fig.add_trace(go.Scatter(x=biodiesel_nacional['mes'], y=biodiesel_nacional['produccion_total'], 
                         name='Total', mode='lines', line_width = 3                        
                        )
             )

fig.update_layout(
    title=go.layout.Title(
        text="Producción de Biodiesel en Argentina",
        xref="paper",
        x=0.1,
        font_size=18,
    ),
    xaxis_title="Fecha",
    yaxis_title="Cantidad Mensual [Toneladas]",
    legend_title_text='Producción',
#     trace_name='Tendendia de consumo'
)

fig.update_traces(line_shape='spline')

fig.show()
biodiesel_nacional.head()

8- Comparar la distribución de producción total de biodiesel y bioetanol para cada mes y año. ¿En qué años y meses los consumos son más consistentes?
--> Emplear: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html#pandas.pivot_table

In [None]:
biodiesel = pd.DataFrame()
biodiesel[['fecha','produccion_total']] = biodiesel_nacional[['mes','produccion_total']].copy()
biodiesel['año']=biodiesel['fecha'].dt.year
biodiesel['mes']= biodiesel['fecha'].dt.month
biodiesel['consumo'] = biodiesel_nacional[['ventas_al_corte','otras_ventas_al_mercado_interno','exportaciones']].sum(axis='columns')

bioetanol = pd.DataFrame()
bioetanol[['fecha','produccion_total']] = bioetanol_nacional[['mes','produccion_total']].copy()
bioetanol['año']=bioetanol['fecha'].dt.year
bioetanol['mes']= bioetanol['fecha'].dt.month
biodiesel['consumo'] = bioetanol_nacional['ventas_totales']



9- Obtener un mapa de calor por mes y año, para los valores medios de  producción total de biodiesel y bioetanol.

In [None]:
import matplotlib.pyplot as mplt
import seaborn as sns

exp=pd.pivot(biodiesel,columns='año',index='mes',values='produccion_total')

# para colocar el nombre del mes, se complica porque no quedaba ordenado
# exp = exp.reset_index()
# exp['mes_name'] = pd.to_datetime(exp['mes'], format='%m').dt.month_name()
# exp.set_index('mes_name',drop=True,inplace=True)
# exp.drop('mes',axis='columns',inplace=True)

sns.set_context(context='talk', font_scale=.8)

mplt.figure(figsize=(11,7))
sns.heatmap(exp, annot=False, cmap="YlGnBu",
            yticklabels=pd.to_datetime(exp.reset_index()['mes'], format='%m').dt.month_name(locale='Spanish').values)

mplt.ylabel('Mes')
mplt.xlabel('Año')
mplt.title('Producción de biodiesel en Argentina en Toneladas')
mplt.xticks(rotation=30)



In [None]:
exp=pd.pivot(bioetanol,columns='año',index='mes',values='produccion_total')

sns.set_context(context='talk', font_scale=.8)

mplt.figure(figsize=(11,7))
sns.heatmap(exp, annot=False, cmap="YlGnBu",
            yticklabels=pd.to_datetime(exp.reset_index()['mes'], format='%m').dt.month_name(locale='Spanish').values)

mplt.ylabel('Mes')
mplt.xlabel('Año')
mplt.title('Producción de bioetanol en Argentina en m3')
mplt.xticks(rotation=30)