# 1. PRODDUCCION ELECTRICIDAD PAISES MIEMBROS DE LA OCDE - MES MARZO
El conjunto de datos seleccionados muestra datos sobre la producción y el comercio de electricidad de los países miembros dde la OCDE.


In [2]:
# Importamos las librerias necesarias para poder realizar el estudio
import pandas as pd
import numpy as np
import plotly.express as px

In [None]:
# Configuración de pandas para mostrar todas las filas y columnas
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [None]:
# Leer el archivo CSV, saltando las primeras 8 filas porque es texto explicativo
df = pd.read_csv('/content/MES_0324.csv', encoding='Windows-1252', skiprows=8)

# Mostrar las primeras filas del dataframe pa ra verificar que se ha leído correctamente
df.head()


Unnamed: 0,Country,Time,Balance,Product,Value,Unit
0,Australia,March 2024,Net Electricity Production,Electricity,23130.2764,GWh
1,Australia,March 2024,Net Electricity Production,Total Combustible Fuels,14353.8714,GWh
2,Australia,March 2024,Net Electricity Production,"Coal, Peat and Manufactured Gases",10304.7825,GWh
3,Australia,March 2024,Net Electricity Production,Oil and Petroleum Products,330.5351,GWh
4,Australia,March 2024,Net Electricity Production,Natural Gas,3492.4621,GWh


El significado de las columnas de nuestro dataframe son los siguientes:
- **Country (País):** esta columna indica el país al que pertenecen los datos de producción o consumo de electricidad.

- **Time (Tiempo):** esta columan representa el periodo de tiempo al que se refieren los datos (marzo en nuestro caso).

- **Balance (Balance):** esta columna describe el tipo de balance de electricidad que se está midiendo. En la misma se incluye la producción neta de electridad, usado para almacenamiento de bombeado, pérdidas de distribución, consumo final calculado, importaciones totales y exportaciones totales.

- **Product (Producto):** esta columna especifica el tipo de producto o fuente de energía relacionada con los datos. En nuestros datos, se incluye electricidad, total de combustibles fósiles, carbón, turba y gases manufacturados, ...etc.

- **Value (Valor):** esta columna indica el valor númérico de la cantidad de electricidad producida, utilizada, perdida, consumida, según el balance y el producto.

- **Unit (Unidad):** esta columna especifica la unidad de medida utilizada para el valor. Nuestros datos están medidos en Gigavatios-hora (GWH).

In [None]:
# mostramos información de las columnas de los dataframes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 92949 entries, 0 to 92948
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  92949 non-null  object 
 1   Time     92949 non-null  object 
 2   Balance  92949 non-null  object 
 3   Product  92948 non-null  object 
 4   Value    92930 non-null  float64
 5   Unit     92948 non-null  object 
dtypes: float64(1), object(5)
memory usage: 4.3+ MB


## Análisis valores nulos

In [None]:
# Analizamos los valores nulso de nuestro dataframe
df.isnull().sum()

Country     0
Time        0
Balance     0
Product     1
Value      19
Unit        1
dtype: int64

In [None]:
porcentaje = df.isnull().sum()/len(df)*100
porcentaje

Country    0.000000
Time       0.000000
Balance    0.000000
Product    0.001076
Value      0.020441
Unit       0.001076
dtype: float64

Como solo tenemos valores nulos en la columna "Value", y el porcentaje de los mismos es minúsculo, vamos a eliminar las filas con valores nulos dentro de la columna "Value".

In [None]:
df_clean = df.dropna(subset=['Value'])

In [None]:
# Verificamos que no tenemos valores nulos
df_clean.isnull().sum()

Country    0
Time       0
Balance    0
Product    0
Value      0
Unit       0
dtype: int64

Ya no tenemos valores nulos en nuestro dataframe.


## Análisis de Outliers
Vamos hacer el análisis de valores atípicos dentro de muestro dataframe.

In [None]:
df_clean.info ()

<class 'pandas.core.frame.DataFrame'>
Index: 92930 entries, 0 to 92947
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  92930 non-null  object 
 1   Time     92930 non-null  object 
 2   Balance  92930 non-null  object 
 3   Product  92930 non-null  object 
 4   Value    92930 non-null  float64
 5   Unit     92930 non-null  object 
dtypes: float64(1), object(5)
memory usage: 5.0+ MB


Solo vamos a analizar los valores nulos de la columna "Value" debido a que es la única que es del tipo numérica.



In [None]:
# Creamos grafico de caja y bigotes con los datos "Value"
fig = px.box (df_clean, y='Value', template='plotly',title='Diagrama de caja y bigotes de Value', height= 600)
fig.show()


In [None]:
# Analizamos los valores númerico de nuestro dataframe con describe
df_clean.describe()

Unnamed: 0,Value
count,92930.0
mean,18179.7
std,78104.64
min,0.0
25%,47.14778
50%,639.6834
75%,4122.685
max,1004657.0


Tras analizar los outliers de los datos y ver los diferentes precios que se presentan en los mismos, hemos decidido no poder arreglar los outliers para no trastocar los datos reales de precios.

## Graficas con los datos

In [None]:
df_clean.head()

Unnamed: 0,Country,Time,Balance,Product,Value,Unit
0,Australia,March 2024,Net Electricity Production,Electricity,23130.2764,GWh
1,Australia,March 2024,Net Electricity Production,Total Combustible Fuels,14353.8714,GWh
2,Australia,March 2024,Net Electricity Production,"Coal, Peat and Manufactured Gases",10304.7825,GWh
3,Australia,March 2024,Net Electricity Production,Oil and Petroleum Products,330.5351,GWh
4,Australia,March 2024,Net Electricity Production,Natural Gas,3492.4621,GWh


In [None]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 92930 entries, 0 to 92947
Data columns (total 6 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  92930 non-null  object 
 1   Time     92930 non-null  object 
 2   Balance  92930 non-null  object 
 3   Product  92930 non-null  object 
 4   Value    92930 non-null  float64
 5   Unit     92930 non-null  object 
dtypes: float64(1), object(5)
memory usage: 7.0+ MB


In [None]:
# GRAFICA DE LOS PAISES
fig = px.choropleth (df_clean, locations='Country', locationmode='country names',color='Value',hover_name= 'Country', title='PAISES', width=800)
fig.show()

In [None]:
# GRAFICO DE PAISES 2
df_countries = df_clean.groupby('Country')['Value'].sum().reset_index()
df_countries = df_countries.sort_values(by='Value', ascending=False) # ordenamos de manera descendente
fig_bar = px.bar(df_countries, x='Country', y='Value', title='PAISES', width=800)
fig_bar.show()

In [None]:
valores_balance = df_clean['Balance'].value_counts()
valores_balance

Balance
Net Electricity Production        72878
Distribution Losses                4282
Final Consumption (Calculated)     4282
Total Exports                      3955
Total Imports                      3925
Used for pumped storage            3608
Name: count, dtype: int64

In [None]:
# Grafico de Balance
fig = px.pie (df_clean, values=valores_balance.values, names=valores_balance.index, title='BALANCE',width=800)
fig.show()

In [None]:
# Grafico con productos
fig = px.histogram (df_clean, x='Product', title='PRODUCTOS', width=800,template='plotly')
fig.show()

## Graficas comparativas
Ahora que hemos dibujado las graficas de las diferentees columnas que tenemos, vamos a realizar graficas con comparativas entre las distintas columnas.

In [None]:
# Como sabemos que los datos son solo para el mes de marzo, vamos a eliminar la columna "Time"
df_clean = df_clean.drop('Time', axis=1)
df_clean.head()

Unnamed: 0,Country,Balance,Product,Value,Unit
0,Australia,Net Electricity Production,Electricity,23130.2764,GWh
1,Australia,Net Electricity Production,Total Combustible Fuels,14353.8714,GWh
2,Australia,Net Electricity Production,"Coal, Peat and Manufactured Gases",10304.7825,GWh
3,Australia,Net Electricity Production,Oil and Petroleum Products,330.5351,GWh
4,Australia,Net Electricity Production,Natural Gas,3492.4621,GWh


In [None]:
# Verificamos la información de nuestro dataframe antes de empezar con las nuevas gráficas
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 92930 entries, 0 to 92947
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Country  92930 non-null  object 
 1   Balance  92930 non-null  object 
 2   Product  92930 non-null  object 
 3   Value    92930 non-null  float64
 4   Unit     92930 non-null  object 
dtypes: float64(1), object(4)
memory usage: 6.3+ MB


In [None]:
df_clean['Balance'].unique()

array(['Net Electricity Production', 'Used for pumped storage',
       'Distribution Losses', 'Final Consumption (Calculated)',
       'Total Imports', 'Total Exports'], dtype=object)

Creación de grafico en los que vamos a tener en cuenta los paises y los balances de los diferentes países. Observaremos a España en comparación a otras naciones como Alemania o Francia.

In [None]:
# GRAFICO DE PAISES Y BALANCE
df_balance = df_clean.groupby(['Country', 'Balance'])['Value'].sum().reset_index()
df_balance = df_balance.sort_values(by='Value', ascending=False) # ordenamos de manera descendente
fig = px.bar(df_balance, x='Country', y='Value', color='Balance', title='PAISES Y BALANCE', height=700)
fig.show()


Ahora vamos a graficar los 5 mejores y los 5 peores paise de acuerdo al "Balance". Para ello vamos a crear 12 graficas comparativas.


In [None]:
# GRAFICAS DE 5 MEJORES Y 5 PEORES PAISES DE ACUERDO AL BALANCE
df_produccion_electricidad = df_clean.groupby




In [None]:
df_clean['Balance'].unique()

array(['Net Electricity Production', 'Used for pumped storage',
       'Distribution Losses', 'Final Consumption (Calculated)',
       'Total Imports', 'Total Exports'], dtype=object)

In [None]:
# GRAFICO DE PAISES 2
df_countries = df_clean.groupby('Country')['Value'].sum().reset_index()
df_countries = df_countries.sort_values(by='Value', ascending=False) # ordenamos de manera descendente
fig_bar = px.bar(df_countries, x='Country', y='Value', title='PAISES', width=800)
fig_bar.show()

 Assuming you have 6 DataFrames or data structures named 'df1', 'df2', ..., 'df6'
fig1 = px.bar(df1, x='...', y='...')  # Replace '...' with actual column names

fig2 = px.bar(df2, x='...', y='...')

fig3 = px.bar(df3, x='...', y='...')

fig4 = px.bar(df4, x='...', y='...')

fig5 = px.bar(df5, x='...', y='...')

fig6 = px.bar(df6, x='...', y='...')


fig = px.subplots(rows=2, cols=3)  # 2 columns, 3 rows (same as before)

Add figures to subplots in the specified order

fig.add_subplot(fig1, row=1, col=1)

fig.add_subplot(fig2, row=1, col=2)

fig.add_subplot(fig3, row=1, col=3)

fig.add_subplot(fig4, row=2, col=1)

fig.add_subplot(fig5, row=2, col=2)

fig.add_subplot(fig6, row=2, col=3)

Customize the overall figure layout (optional)

fig.update_layout(title='My Subplot Visualization', width=1000, height=600)

Show the final figure

fig.show()