In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import glob
import os
import unidecode
import plotly.io as pio
pio.kaleido.scope.mathjax = None
pio.templates.default = "plotly_white"

In [110]:
def read_csvs(path):
    folders = []
    directory = os.path.join(path)
    for root,dirs,files in os.walk(directory):
        folders.append(root)
    del folders[0]

    data_final = []
    for folder in folders:
        df = pd.concat(map(pd.read_csv, glob.glob(os.path.join(folder + "/*.csv"))))
        state_name = folder.split("/")[-1]
        state_name = unidecode.unidecode(state_name.lower())
        state_name = state_name.replace(" ", "_")
        df['estado'] = state_name
        data_final.append(df)
    
    concat_data = pd.concat(data_final,ignore_index=True)
    return concat_data

def save_html_png(figure, name):
    figure.write_html('./assets/images/html/' + name + '.html')
    figure.write_image('./assets/images/png/' + name + '.png')

In [147]:
data_2022 = read_csvs("./scraped_data_2022/")
data_2022.drop(['Descripción', 'Tarifa'], axis=1, inplace=True)
data_2022['date'] = pd.to_datetime(data_2022.year.astype(str) + '/' + data_2022.month.astype(str))
#data_2022['date'] = data_2022.date.dt.date
data_2022.isna().sum()

Int. Horario      0
Cargo             0
Unidades          0
Valor             0
year              0
month             0
state             0
municipality      0
division          0
division_value    0
estado            0
date              0
dtype: int64

In [148]:
data_2021 = read_csvs("./scraped_data_2021/")
data_2021.drop(['Descripción', 'Tarifa'], axis=1, inplace=True)
data_2021['date'] = pd.to_datetime(data_2021.year.astype(str) + '/' + data_2021.month.astype(str))
#data_2022['date'] = data_2021.date.dt.date
data_2021.isna().sum()

Int. Horario      0
Cargo             0
Unidades          0
Valor             0
year              0
month             0
state             0
municipality      0
division          0
division_value    0
estado            0
date              0
dtype: int64

In [149]:
data_2020 = read_csvs("./scraped_data_2020/")
data_2020.drop(['Descripción', 'Tarifa'], axis=1, inplace=True)
data_2020['date'] = pd.to_datetime(data_2020.year.astype(str) + '/' + data_2020.month.astype(str))
#data_2020['date'] = data_2020.date.dt.date
data_2020.isna().sum()

Int. Horario      0
Cargo             0
Unidades          0
Valor             0
year              0
month             0
state             0
municipality      0
division          0
division_value    0
estado            0
date              0
dtype: int64

In [6]:
data_2020.sort_values(by='division').division.unique()

array(['BAJA CALIFORNIA', 'BAJA CALIFORNIA SUR', 'BAJÍO',
       'BAJÍO Y GOLFO CENTRO', 'BAJÍO Y GOLFO NORTE',
       'BAJÍO Y GOLFO NORTE Y NORTE', 'BAJÍO Y NORTE', 'CENTRO OCCIDENTE',
       'CENTRO OCCIDENTE Y JALISCO', 'CENTRO ORIENTE', 'CENTRO SUR',
       'GOLFO CENTRO', 'GOLFO CENTRO Y GOLFO NORTE',
       'GOLFO CENTRO Y ORIENTE', 'GOLFO NORTE', 'GOLFO NORTE Y NORTE',
       'JALISCO', 'NOROESTE', 'NOROESTE Y NORTE', 'NORTE', 'ORIENTE',
       'PENINSULAR', 'SURESTE', 'VALLE DE MÉXICO CENTRO',
       'VALLE DE MÉXICO CENTRO Y SUR', 'VALLE DE MÉXICO NORTE',
       'VALLE DE MÉXICO NORTE Y CENTRO',
       'VALLE DE MÉXICO NORTE, CENTRO Y SUR', 'VALLE DE MÉXICO SUR',
       'VALLE DE MÉXICO SUR Y CENTRO ORIENTE'], dtype=object)

In [7]:
division_oficial = ['BAJA CALIFORNIA', 'BAJA CALIFORNIA SUR', 'BAJÍO',
    'CENTRO OCCIDENTE', 'CENTRO ORIENTE', 'CENTRO SUR', 'GOLFO CENTRO','GOLFO NORTE',
    'JALISCO', 'NOROESTE', 'NORTE', 'ORIENTE', 'PENINSULAR', 'SURESTE', 
    'VALLE DE MÉXICO CENTRO', 'VALLE DE MÉXICO NORTE', 'VALLE DE MÉXICO SUR']

print("La cantidad de divisiones oficiales es:", len(division_oficial))

La cantidad de divisiones oficiales es: 17


In [8]:
cargo_fijo = data_2021[(data_2021.division.isin(division_oficial))&(data_2021.Cargo=='Fijo')]
cargo_fijo.reset_index(drop=True, inplace=True)
cargo_fijo

Unnamed: 0,Int. Horario,Cargo,Unidades,Valor,year,month,state,municipality,division,division_value,estado,date
0,-,Fijo,$/mes,478.51,2021,1,AGUASCALIENTES,1,BAJÍO,3,aguascalientes,2021-01-01
1,-,Fijo,$/mes,478.51,2021,1,ASIENTOS,2,BAJÍO,3,aguascalientes,2021-01-01
2,-,Fijo,$/mes,478.51,2021,1,CALVILLO,3,BAJÍO,3,aguascalientes,2021-01-01
3,-,Fijo,$/mes,478.51,2021,1,COSIO,4,BAJÍO,3,aguascalientes,2021-01-01
4,-,Fijo,$/mes,478.51,2021,1,EL LLANO,5,BAJÍO,3,aguascalientes,2021-01-01
...,...,...,...,...,...,...,...,...,...,...,...,...
29824,-,Fijo,$/mes,478.51,2021,12,VILLA GARCIA,2438,BAJÍO,3,zacatecas,2021-12-01
29825,-,Fijo,$/mes,478.51,2021,12,VILLA GONZALEZ ORTEGA,2439,BAJÍO,3,zacatecas,2021-12-01
29826,-,Fijo,$/mes,478.51,2021,12,VILLA HIDALGO,2440,BAJÍO,3,zacatecas,2021-12-01
29827,-,Fijo,$/mes,478.51,2021,12,VILLANUEVA,2441,BAJÍO,3,zacatecas,2021-12-01


In [9]:
def get_max_min(data, division):
    for div in division:
        max = data[data.division==div].Valor.max()
        min = data[data.division==div].Valor.min()
        print(max- min)
        print(div)
        print(60*"-")

In [10]:
get_max_min(cargo_fijo, division_oficial)

0.0
BAJA CALIFORNIA
------------------------------------------------------------
0.0
BAJA CALIFORNIA SUR
------------------------------------------------------------
0.0
BAJÍO
------------------------------------------------------------
0.0
CENTRO OCCIDENTE
------------------------------------------------------------
0.0
CENTRO ORIENTE
------------------------------------------------------------
0.0
CENTRO SUR
------------------------------------------------------------
0.0
GOLFO CENTRO
------------------------------------------------------------
0.0
GOLFO NORTE
------------------------------------------------------------
0.0
JALISCO
------------------------------------------------------------
0.0
NOROESTE
------------------------------------------------------------
0.0
NORTE
------------------------------------------------------------
0.0
ORIENTE
------------------------------------------------------------
0.0
PENINSULAR
------------------------------------------------------------
0.0

In [11]:
def get_cargo_variacion(data, anio, division_oficial, tipo_cargo, etiqueta = 'Cargo fijo ($/mes)'):
    cargo = data[(data.division.isin(division_oficial))&(data.Cargo==tipo_cargo)]
    cargo.reset_index(drop=True, inplace=True)
    fig = px.line(cargo, x='date', y='Valor', color='division', line_group = 'estado',
        title='Variación de la tarifa de cargo {} por division durante el año {}'.format(tipo_cargo,anio),
        labels={'date':'Fecha por mes', 'Valor':etiqueta}, width=1200, height=650, markers=True,
        color_discrete_sequence=px.colors.qualitative.Alphabet)
    #fig.update_xaxes(rangeslider_visible=True)
    return fig

In [12]:
cargo_fijo_2020 = get_cargo_variacion(data_2020, 2020, division_oficial, 'Fijo', 'Cargo fijo ($/mes)')
save_html_png(cargo_fijo_2020, 'cargo_fijo_2020')

cargo_fijo_2021 = get_cargo_variacion(data_2021, 2021, division_oficial, 'Fijo', 'Cargo fijo ($/mes)')
save_html_png(cargo_fijo_2021, 'cargo_fijo_2021')

cargo_fijo_2022 = get_cargo_variacion(data_2022, 2022, division_oficial, 'Fijo', 'Cargo fijo ($/mes)')
save_html_png(cargo_fijo_2022, 'cargo_fijo_2022')

In [13]:
cargo_dist_2020 = get_cargo_variacion(data_2020,2020,division_oficial,'Distribución','Distribución ($/kW)')
save_html_png(cargo_dist_2020, 'distribucion_2020')

cargo_dist_2021 = get_cargo_variacion(data_2021,2021,division_oficial,'Distribución','Distribución ($/kW)')
save_html_png(cargo_dist_2021, 'distribucion_2021')

cargo_dist_2022 = get_cargo_variacion(data_2022,2022,division_oficial,'Distribución','Distribución ($/kW)')
save_html_png(cargo_dist_2022, 'distribucion_2022')

In [14]:
cargo_cap_2020 = get_cargo_variacion(data_2020,2020,division_oficial,'Capacidad','Capacidad ($/kW)')
save_html_png(cargo_cap_2020, 'capacidad_2020')

cargo_cap_2021 = get_cargo_variacion(data_2021,2021,division_oficial,'Capacidad','Capacidad ($/kW)')
save_html_png(cargo_cap_2021, 'capacidad_2021')

cargo_cap_2022 = get_cargo_variacion(data_2022,2022,division_oficial,'Capacidad','Capacidad ($/kW)')
save_html_png(cargo_cap_2022, 'capacidad_2022')

In [111]:
def get_violin_plot(data, anio, division_oficial):
    cargo = data[(data.division.isin(division_oficial))&(data.Cargo=='Capacidad')]
    cargo.reset_index(drop=True, inplace=True)
    fig = px.violin(cargo, y="Valor", color="division", box=True, points='suspectedoutliers',
        title='Distribución de la tarifa de cargo capacidad por division durante el año {}'.format(anio),
        labels={'Valor':'Capacidad ($/kW)'}, width=1200, height=650,
        color_discrete_sequence=px.colors.qualitative.Alphabet)
    return fig

def get_boxplots(data, anio, division_oficial, tipo='Capacidad'):
    if tipo == 'Capacidad':
        cargo = data[(data.division.isin(division_oficial))&(data.Cargo=='Capacidad')]
        fig_title = 'Estadística de la distribución de la tarifa de cargo capacidad por division durante el año {}'.format(anio)
        lbl = 'Capacidad ($/kW)'

    else:
        cargo = data[(data.division.isin(division_oficial))&(data['Int. Horario']==tipo)]
        fig_title = 'Estadística de la distribución de la tarifa int. horario {} por division durante el año {}'.format(tipo, anio)
        lbl = 'Capacidad ($/kWh)'

    cargo.reset_index(drop=True, inplace=True)
    grouped_data = cargo[['Valor', 'division', 'date']].groupby(['division','date']).mean()#agg([np.mean, np.std])
    grouped_data_std = cargo[['Valor', 'division', 'date']].groupby(['division','date']).std()
    grouped_data.reset_index(inplace=True)
    grouped_data_std.reset_index(inplace=True)

    if grouped_data_std.Valor.sum() == 0:
        fig = px.box(grouped_data, y="Valor", color="division", points='suspectedoutliers',
            labels={'Valor':lbl}, width=1200, height=650,
            title=fig_title,
            color_discrete_sequence=px.colors.qualitative.Alphabet)
        return fig
    else:
        print('Hay variaciones en la tarifa de capacidad intraregión revisar')
        return None

In [16]:
violin_cap_2020 = get_violin_plot(data_2020,2020,division_oficial)
save_html_png(violin_cap_2020, 'violin_capacidad_2020')

violin_cap_2021 = get_violin_plot(data_2021,2021,division_oficial)
save_html_png(violin_cap_2021, 'violin_capacidad_2021')

violin_cap_2022 = get_violin_plot(data_2022,2022,division_oficial)
save_html_png(violin_cap_2022, 'violin_capacidad_2022')

In [91]:
box_cap_2020 = get_boxplots(data_2020,2020,division_oficial)
save_html_png(box_cap_2020, 'boxplot_capacidad_2020')

box_cap_2021 = get_boxplots(data_2021,2021,division_oficial)
save_html_png(box_cap_2021, 'boxplot_capacidad_2021')

box_cap_2022 = get_boxplots(data_2022,2022,division_oficial)
save_html_png(box_cap_2022, 'boxplot_capacidad_2022')

In [17]:
def get_variacion_tarifas(data, anio, division_oficial, tarifa_horario, rango_y = [0.5, 2.1]):
    croped_data = data[(data['Int. Horario'] == tarifa_horario)&(data['division'].isin(division_oficial))]
    croped_data.reset_index(drop=True, inplace=True)
    croped_data = croped_data[['Valor','month', 'division', 'date']].groupby(['division','date']).agg([np.mean, np.std])
    croped_data.reset_index(inplace=True)

    if croped_data.Valor['std'].sum() == 0.0:
        croped_data = croped_data.pivot(index='date', columns='division', values=('Valor', 'mean'))
        fig = px.area(croped_data, facet_col="division", facet_col_wrap=6, markers=True, range_y=rango_y,
              title='Variación de la tarifa de int. horario {} por division durante el año {}'.format(tarifa_horario, anio), width=1800, height=650,
              labels={'date':'Mes', 'value':'$/kWh'}, color_discrete_sequence=px.colors.qualitative.Alphabet)
        return fig
    else:
        print('Hay algo extraño con los datos, existen variaciones en la tarifa de interés por mes y region, revisar')
        return None


In [116]:
tarifa_base_2020 = get_variacion_tarifas(data_2020,2020,division_oficial,'Base')
box_base_2020 = get_boxplots(data_2020,2020,division_oficial,'Base')
save_html_png(tarifa_base_2020, 'tarifa_base_2020')
save_html_png(box_base_2020, 'boxplot_base_2020')

tarifa_inter_2020 = get_variacion_tarifas(data_2020,2020,division_oficial,'Intermedia', [0,2.6])
box_inter_2020 = get_boxplots(data_2020,2020,division_oficial,'Intermedia')
save_html_png(tarifa_inter_2020, 'tarifa_inter_2020')
save_html_png(box_inter_2020, 'boxplot_inter_2020')

tarifa_punta_2020 = get_variacion_tarifas(data_2020,2020,division_oficial,'Punta', [0,3.6])
box_punta_2020 = get_boxplots(data_2020,2020,division_oficial,'Punta')
save_html_png(tarifa_punta_2020, 'tarifa_punta_2020')
save_html_png(box_punta_2020, 'boxplot_punta_2020')

In [115]:
tarifa_base_2021 = get_variacion_tarifas(data_2021,2021,division_oficial,'Base')
box_base_2021 = get_boxplots(data_2021,2021,division_oficial,'Base')
save_html_png(tarifa_base_2021, 'tarifa_base_2021')
save_html_png(box_base_2021, 'boxplot_base_2021')

tarifa_inter_2021 = get_variacion_tarifas(data_2021,2021,division_oficial,'Intermedia', [0,2.6])
box_inter_2021 = get_boxplots(data_2021,2021,division_oficial,'Intermedia')
save_html_png(tarifa_inter_2021, 'tarifa_inter_2021')
save_html_png(box_inter_2021, 'boxplot_inter_2021')

tarifa_punta_2021 = get_variacion_tarifas(data_2021,2021,division_oficial,'Punta', [0,3.6])
box_punta_2021 = get_boxplots(data_2021,2021,division_oficial,'Punta')
save_html_png(tarifa_punta_2021, 'tarifa_punta_2021')
save_html_png(box_punta_2021, 'boxplot_punta_2021')

In [114]:
tarifa_base_2022 = get_variacion_tarifas(data_2022,2022,division_oficial,'Base')
box_base_2022 = get_boxplots(data_2022,2022,division_oficial,'Base')
save_html_png(tarifa_base_2022, 'tarifa_base_2022')
save_html_png(box_base_2022, 'boxplot_base_2022')

tarifa_inter_2022 = get_variacion_tarifas(data_2022,2022,division_oficial,'Intermedia', [0,2.6])
box_inter_2022 = get_boxplots(data_2022,2022,division_oficial,'Intermedia')
save_html_png(tarifa_inter_2022, 'tarifa_inter_2022')
save_html_png(box_inter_2022, 'boxplot_inter_2022')

tarifa_punta_2022 = get_variacion_tarifas(data_2022,2022,division_oficial,'Punta', [0,3.6])
box_punta_2022 = get_boxplots(data_2022,2022,division_oficial,'Punta')
save_html_png(tarifa_punta_2022, 'tarifa_punta_2022')
save_html_png(box_punta_2022, 'boxplot_punta_2022')

In [125]:
croped_data = data_2022[(data_2022['Int. Horario'] == 'Punta')&(data_2022['division'].isin(division_oficial))]
croped_data.reset_index(drop=True, inplace=True)
croped_data = croped_data[['Valor','month', 'division', 'date']].groupby(['division','date']).mean()
#croped_data.reset_index(inplace=True)

In [126]:
croped_data.corr()

Unnamed: 0,Valor,month
Valor,1.0,0.092798
month,0.092798,1.0


In [127]:
croped_data

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor,month
division,date,Unnamed: 2_level_1,Unnamed: 3_level_1
BAJA CALIFORNIA,2022-01-01,1.1566,1.0
BAJA CALIFORNIA,2022-02-01,1.1649,2.0
BAJA CALIFORNIA,2022-03-01,1.1649,3.0
BAJA CALIFORNIA,2022-04-01,1.1942,4.0
BAJA CALIFORNIA,2022-05-01,1.2169,5.0
...,...,...,...
VALLE DE MÉXICO SUR,2022-06-01,1.9802,6.0
VALLE DE MÉXICO SUR,2022-07-01,2.0320,7.0
VALLE DE MÉXICO SUR,2022-08-01,2.0424,8.0
VALLE DE MÉXICO SUR,2022-09-01,2.0529,9.0


# Join years 2020, 2021 and 2022

In [150]:
data = pd.concat([data_2020, data_2021, data_2022], ignore_index=True)

In [144]:
get_variacion_tarifas(data,2020,division_oficial,'Base')

Hay algo extraño con los datos, existen variaciones en la tarifa de interés por mes y region, revisar



Comparison of Timestamp with datetime.date is deprecated in order to match the standard library behavior. In a future version these will be considered non-comparable. Use 'ts == pd.Timestamp(date)' or 'ts.date() == date' instead.



In [159]:
croped_data = data[(data['Int. Horario'] == 'Intermedia')&(data['division'].isin(division_oficial))]
croped_data.reset_index(drop=True, inplace=True)
croped_data = croped_data[['Valor','month', 'division', 'date']].groupby(['division','date']).agg([np.mean, np.std])
croped_data.reset_index(inplace=True)
croped_data = croped_data.pivot(index='date', columns='division', values=('Valor', 'mean'))
fig = px.line(croped_data, color="division", markers=True, range_y=[0,2],
        title='Variación de la tarifa de int. horario {} por division durante el año {}'.format('tarifa_horario', 'anio'), width=1800, height=650,
        labels={'date':'Mes', 'value':'$/kWh'}, color_discrete_sequence=px.colors.qualitative.Alphabet)
fig

In [146]:
croped_data

Unnamed: 0_level_0,division,date,Valor,Valor,month,month
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,std,mean,std
0,BAJA CALIFORNIA,2020-01-01,0.549200,0.000000,1.00000,0.000000
1,BAJA CALIFORNIA,2020-02-01,0.546400,0.000000,2.00000,0.000000
2,BAJA CALIFORNIA,2020-03-01,0.548800,0.000000,3.00000,0.000000
3,BAJA CALIFORNIA,2020-04-01,0.551200,0.000000,4.00000,0.000000
4,BAJA CALIFORNIA,2020-05-01,0.547100,0.000000,5.00000,0.000000
...,...,...,...,...,...,...
594,VALLE DE MÉXICO SUR,2021-10-01,1.056660,0.011387,4.80000,0.774597
595,VALLE DE MÉXICO SUR,2021-11-01,0.988000,0.000000,11.00000,0.000000
596,VALLE DE MÉXICO SUR,2021-11-01,1.033868,0.025325,3.04000,1.946792
597,VALLE DE MÉXICO SUR,2021-12-01,0.998100,0.000000,12.00000,0.000000
