In [1]:
import pandas as pd
from scipy.stats import f_oneway
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [2]:
region = pd.read_csv('C:/Users/franz/Desktop/ATCO/cfe-web-scraping/data/region.csv', encoding = 'ISO-8859-1')
infra_data = pd.read_csv('C:/Users/franz/Desktop/ATCO/cfe-web-scraping/data/infraestructura_2021.csv')
tarifas_data = pd.read_csv('C:/Users/franz/Desktop/ATCO/cfe-web-scraping/data/tarifas_2021.csv')

In [3]:
merged_data = pd.merge(tarifas_data, infra_data, on = 'id_region', how = 'inner')
merged_data = pd.merge(merged_data, region, on = 'id_region', how = 'inner')

In [4]:
merged_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21421 entries, 0 to 21420
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id_tarifa           21421 non-null  int64  
 1   id_region           21421 non-null  int64  
 2   mes_x               21421 non-null  object 
 3   base                21421 non-null  float64
 4   intermedia          21421 non-null  float64
 5   punta               21421 non-null  float64
 6   id_infraestructura  21421 non-null  int64  
 7   mes_y               21421 non-null  object 
 8   distribucion        21421 non-null  float64
 9   capacidad           21421 non-null  float64
 10  estado              21421 non-null  object 
 11  municipio           21421 non-null  object 
 12  division            21421 non-null  object 
dtypes: float64(5), int64(3), object(5)
memory usage: 2.1+ MB


In [5]:
merged_data.describe()

Unnamed: 0,id_tarifa,id_region,base,intermedia,punta,id_infraestructura,distribucion,capacidad
count,21421.0,21421.0,21421.0,21421.0,21421.0,21421.0,21421.0,21421.0
mean,2480.046076,394.38761,0.946824,1.54932,1.749898,2480.046076,102.26173,329.404391
std,1353.784563,428.358973,0.189237,0.230119,0.387238,1353.784563,41.754243,31.063245
min,1.0,37.0,0.0,0.0,0.0,1.0,0.0,0.0
25%,1413.0,125.0,0.8901,1.4251,1.6513,1413.0,74.97,320.96
50%,2551.0,191.0,0.9192,1.5596,1.7685,2551.0,93.18,336.01
75%,3781.0,516.0,0.958,1.6352,1.8723,3781.0,127.75,346.57
max,4487.0,1776.0,1.8889,2.3947,3.3653,4487.0,227.04,359.28


In [6]:
merged_data.isnull().sum()

id_tarifa             0
id_region             0
mes_x                 0
base                  0
intermedia            0
punta                 0
id_infraestructura    0
mes_y                 0
distribucion          0
capacidad             0
estado                0
municipio             0
division              0
dtype: int64

In [7]:
merged_data = merged_data.drop_duplicates()

In [8]:
data_obj = merged_data[['base', 'intermedia', 'punta', 'distribucion', 'capacidad']]

## Distribución de las variables objetivo

In [35]:
datos_base = merged_data['base']
datos_intermedia = merged_data['intermedia']
datos_punta = merged_data['punta']

histograma_tarifas = go.Figure()

# Se añade el primer histograma

histograma_tarifas.add_trace(go.Histogram(x = datos_base, name = 'Tarifa Base', marker_color = 'blue'))

# Segundo histograma

histograma_tarifas.add_trace(go.Histogram(x = datos_intermedia, name = 'Tarifa Intermedia', marker_color = 'green'))

# Tercer histograma

histograma_tarifas.add_trace(go.Histogram(x = datos_punta, name = 'Tarifa Punta', marker_color = 'red'))

histograma_tarifas.update_layout(
    title_text = 'Distribución de los datos de tarifas Base, Intermedia y Punta del año 2021',
    barmode = 'overlay', # Superpone los histogramas
    xaxis_title_text = '$/kWh',
    yaxis_title_text = 'Frecuencia',
    bargap = 0.2, # Ajusta la separación entre barras
    bargroupgap = 0.1 # Ajusta la separación entre grupos de barras
)

histograma_tarifas.update_traces(opacity = 0.75)

histograma_tarifas.show()

In [40]:
datos_capacidad = merged_data['capacidad']
datos_distribucion = merged_data['distribucion']

histograma_infraestructura = go.Figure()

histograma_infraestructura.add_trace(go.Histogram(x = datos_capacidad, name = 'Capacidad', marker_color = 'purple'))
histograma_infraestructura.add_trace(go.Histogram(x = datos_distribucion, name = 'Distribución', marker_color = 'orange'))

histograma_infraestructura.update_layout(
    title_text = 'Distribución de los datos de Capacidad y Distribución del año 2021',
    barmode = 'overlay', # Superpone los histogramas
    xaxis_title_text = '$/kW',
    yaxis_title_text = 'Frecuencia',
    bargap = 0.2, # Ajusta la separación entre barras
    bargroupgap = 0.1 # Ajusta la separación entre grupos de barras
)

histograma_infraestructura.update_traces(opacity = 0.75)

histograma_infraestructura.show()

In [43]:
boxplots_tarifas = go.Figure()

boxplots_tarifas.add_trace(go.Box(y = datos_base, name = 'Base', marker_color = 'blue'))
boxplots_tarifas.add_trace(go.Box(y = datos_intermedia, name = 'Intermedia', marker_color = 'green'))
boxplots_tarifas.add_trace(go.Box(y = datos_punta, name = 'Punta', marker_color = 'red'))

boxplots_tarifas.update_layout(
    title_text = 'Boxplots de los datos de Base, Intermedia y Punta del año 2021',
    yaxis_title_text = '$/kWh',
    boxmode = 'group',
)

boxplots_tarifas.show()

In [44]:
boxplots_infraestructura = go.Figure()

boxplots_infraestructura.add_trace(go.Box(y = datos_capacidad, name = 'Capacidad', marker_color = 'purple'))
boxplots_infraestructura.add_trace(go.Box(y = datos_distribucion, name = 'Distribución', marker_color = 'orange'))

boxplots_infraestructura.update_layout(
    title_text = 'Boxplots de los datos de Distribución y Capacidad del año 2021',
    yaxis_title_text = '$/kW',
    boxmode = 'group',
)

boxplots_infraestructura.show()

### Agrupamiento por división y mes

In [20]:
# Agrupar los datos por división y mes
data_grouped = merged_data.groupby(['division', 'mes_x']).agg({
    'base': 'mean',
    'intermedia': 'mean',
    'punta': 'mean',
    'distribucion': 'mean',
    'capacidad': 'mean'
}).reset_index()

# Definir el orden correcto de los meses
orden_meses = ['ENERO', 'FEBRERO', 'MARZO', 'ABRIL', 'MAYO', 'JUNIO', 'JULIO', 'AGOSTO', 'SEPTIEMBRE', 'OCTUBRE', 'NOVIEMBRE', 'DICIEMBRE']

# Convertir la columna 'mes_x' en una categoría ordenada
data_grouped['mes_x'] = pd.Categorical(data_grouped['mes_x'], categories=orden_meses, ordered=True)

# Ordenar los datos por estado (alfabético), división (alfabético) y mes (cronológico)
data_grouped = data_grouped.sort_values(by=['division', 'mes_x'])

## Análisis de correlación 


In [45]:
corr_matrix = data_grouped[['base', 'intermedia', 'punta', 'distribucion', 'capacidad']].corr()

In [49]:
matrix_corr = go.Figure(data = go.Heatmap(
                        z = corr_matrix.values,
                        x = corr_matrix.columns,
                        y = corr_matrix.columns,
                        colorscale= 'Viridis',
                        zmin = -1, zmax = 1
))

matrix_corr.update_layout(
    title = 'Matriz de correlación entre tarifas del año 2021',
    xaxis_nticks = 36, 
    width = 800,
    height = 500
)

# Añadir anotaciones en el heatmap
for i in range(len(corr_matrix.columns)):
    for j in range(len(corr_matrix.columns)):
        matrix_corr.add_annotation(
            x=corr_matrix.columns[i],
            y=corr_matrix.columns[j],
            text=str(round(corr_matrix.values[i][j], 2)),
            showarrow=False,
            font=dict(color="white")  # Ajusta el color del texto
        )

matrix_corr.show()

### Distribución y densidad de las tarifas

Los histogramas nos dan una idea de las distribuciones, pero los gráficos de densidad nos pueden proporcionar una representación más suave de las distribuciones de las tarifas.

In [50]:
densidad_base = px.density_contour(data_grouped,
                                   x = 'base',
                                   marginal_x='histogram',
                                   marginal_y='rug',
                                   title = 'Densidad de la tarifa base para el año 2021')

densidad_base.show()

## Tendencias temporales

- ¿Existen patrones o tendencias a lo largo de los meses?
- ¿Alguna división experimenta aumentos o disminuciones sistemáticas en las tarifas a lo largo del tiempo?

In [21]:
# Crear una gráfica interactiva de Plotly para la variable 'base'
fig = px.scatter(data_grouped, 
                 x='mes_x', 
                 y='base', 
                 color='division',
                 title='Tarifa Base por Mes y División',
                 labels={'base': 'Base', 'mes_x': 'Mes', 'division': 'División'})

# Mostrar la gráfica
fig.show()


In [12]:
# Crear una gráfica interactiva de Plotly para la variable 'intermedia'
fig_2 = px.scatter(data_grouped, 
                 x='mes_x', 
                 y='intermedia', 
                 color='division', 
                 title='Tarifa Intermedia por Mes y División',
                 labels={'intermedia': 'Intermedia', 'mes_x': 'Mes','division': 'División'})

# Mostrar la gráfica
fig_2.show()

In [13]:
# Crear una gráfica interactiva de Plotly para la variable 'intermedia'
fig_3 = px.scatter(data_grouped, 
                 x='mes_x', 
                 y='punta', 
                 color='division',
                 title='Tarifa Punta por Mes y División',
                 labels={'punta': 'Punta', 'mes_x': 'Mes', 'division': 'División'})

# Mostrar la gráfica
fig_3.show()

### Análisis de tendencias

Podemos calcular las medias de las tarifas para cada división en cada mes y observar cómo varían las tarifas a lo largo del tiempo. 

#### ANOVA para la media de las tarifas por mes

Para realizar un análisis de varianza, necesitamos comparar las medias de múltiples grupos para ver si existe una diferencia significativa entre ellas. En este caso, podemos aplicar ANOVA para comparar las tarifas `base` entre los distintos meses o divisiones, según lo requerido. Intenemos primero con los meses.

##### Hipótesis para ANOVA:

- **Hipótesis nula $H_0$**: Las medias de las tarifas `base` son iguales para todos los grupos.
- **Hipótesis alternativa $H_a$**: Al menos una media de los grupos es significativamente diferente.

In [24]:
# Agrupamos las tarifas 'base' por división

division_groups = [group['base'] for name, group in data_grouped.groupby('division')]

# Se aplica ANOVA

anova_results_divisiones = f_oneway(*division_groups)

# Resultados

print(f"F-statistic: {anova_results_divisiones.statistic}, P-value: {anova_results_divisiones.pvalue}")

F-statistic: 295.3648516631782, P-value: 7.939537451717739e-147


In [25]:
# Para los meses

# Agrupamos las tarifas 'base' por mes
mes_groups = [group['base'] for name, group in data_grouped.groupby('mes_x')]

# Aplicamos ANOVA
anova_result_mes = f_oneway(*mes_groups)

# Mostrar los resultados de ANOVA
print(f"F-statistic: {anova_result_mes.statistic}, P-value: {anova_result_mes.pvalue}")


F-statistic: 0.7008671774418905, P-value: 0.7371152649451395






- **ANOVA para divisiones**

| Estadístico | Resultado |
| :---: | :---: |
| F-statistic | 295.3648516631782 |
| P-value | 7.939537451717739e-147 |

El valor F es demasiado alto, lo que indica que existe una gran diferencia entre las medias de las tarifas `base` en las distintas divisiones.

Por otro lado, el p-value es extremadamente pequeño, mucho menor que el umbral de 0.05. Por lo tanto, podemos *rechazar la hipótesis nula*, lo que significa que hay diferencias significativas estadísticamente en las tarifas `base` entre las divisiones. Esto sugiere que las divisiones tienen un impacto considerable en las tarifas.

- **ANOVA para meses**

| Estadístico | Resultado |
| :---: | :---: |
| F-statistic | 0.7008671774418905 |
| P-value | 0.7371152649451395 |

El valor bajo de F indica que no hay una variación significativa en las tarifas `base` entre los meses. 

Para el p-value, tenemos que es mucho mayor que 0.05. Esto indica que no hay evidencia suficiente para concluir que las tarifas `base` difieren significativamente entre los meses. En otras palabras, parece ser que las tarifas son consistentes a lo largo del tiempo (al menos dentro de un sólo año).


In [30]:
division_intermedia = [group['intermedia'] for name, group in data_grouped.groupby('division')]

# Se aplica ANOVA

anova_intermedia_results_divisiones = f_oneway(*division_intermedia)

# Resultados

print(f"F-statistic: {anova_intermedia_results_divisiones.statistic}, P-value: {anova_intermedia_results_divisiones.pvalue}")

F-statistic: 131.2384709812156, P-value: 2.6157987338029015e-113


#### Boxplots por división

In [28]:
boxplots = px.box(data_grouped,
                  x = 'division',
                  y = 'base',
                  title = 'Distribución de las tarifas base por División',
                  labels = {'base': 'Tarifa Base', 'division': 'División'})

# Ajustar el tamaño del gráfico
boxplots.update_layout(
    width=1200,  # Aumenta el ancho del gráfico
    height=600,  # Aumenta la altura del gráfico
    title_font=dict(size=20),  # Tamaño del título
    xaxis_tickangle=-45,  # Rota las etiquetas del eje x
    xaxis_title_font=dict(size=18),  # Tamaño del texto del eje X
    yaxis_title_font=dict(size=18),  # Tamaño del texto del eje Y
    xaxis_tickfont=dict(size=10)  # Tamaño de las etiquetas del eje X
)


boxplots.show()

### Gráficos de barras con error bars

Podemos visualizar las medias junto con la desviación estándar (para ver la variabilidad en cada división).

In [29]:
# Calculamos la media y la desviación estándar de las tarifas 'base' por división

division_stats = data_grouped.groupby('division')['base'].agg(['mean', 'std']).reset_index()

barras = px.bar(division_stats,
                x = 'division',
                y = 'mean',
                error_y = 'std',
                title = 'Tarifa Base Promedio por División con División Estándar',
                labels = {'mean': 'Tarifa Base Promedio', 'division': 'División'})

# Ajustar el tamaño del gráfico
barras.update_layout(
    width=1200,  # Aumenta el ancho del gráfico
    height=600,  # Aumenta la altura del gráfico
    title_font=dict(size=20),  # Tamaño del título
    xaxis_tickangle=-45,  # Rota las etiquetas del eje x
    xaxis_title_font=dict(size=18),  # Tamaño del texto del eje X
    yaxis_title_font=dict(size=18),  # Tamaño del texto del eje Y
    xaxis_tickfont=dict(size=10)  # Tamaño de las etiquetas del eje X
)


barras.show()

In [14]:
fig = px.bar(data_grouped, 
             x='mes_x', 
             y=['base', 'intermedia', 'punta'],  # Las variables objetivo que quieras analizar
             color='division',
             title='Comparación de Tarifas por Mes y Estado (Barras Apiladas)',
             labels={'mes_x': 'Mes', 'value': 'Tarifa', 'division': 'División'})

fig.show()


In [16]:
import plotly.graph_objects as go

heatmap_data = data_grouped.pivot_table(index='division', columns='mes_x', values='base')

fig = go.Figure(data=go.Heatmap(
                   z=heatmap_data.values,
                   x=heatmap_data.columns,
                   y=heatmap_data.index,
                   colorscale='Viridis'))

fig.update_layout(title='Heatmap de Tarifa Base por Estado y Mes', xaxis_title='Mes', yaxis_title='División')
fig.show()






In [19]:
fig = px.area(data_grouped, 
              x='mes_x', 
              y='base', 
              color='division', 
              line_group='division',
              title='Evolución de la Tarifa Base por División y Estado',
              labels={'base': 'Tarifa Base', 'mes_x': 'Mes','division': 'División'})

fig.show()


In [29]:
fig = px.line(data_grouped, 
              x='mes_x', 
              y=['base', 'intermedia', 'punta'], 
              color='division',
              title='Comparación de Tarifas por División y Mes',
              labels={'mes_x': 'Mes', 'value': 'Tarifa', 'division': 'División'})

fig.show()
