# ETL II Pair 23/08/23

In [1]:
from IPython.core.interactiveshell import InteractiveShell # Nos permite mostar más de una salida por celda
InteractiveShell.ast_node_interactivity = "all" # Nos permite mostar más de una salida por celda

import pandas as pd

from datetime import datetime, timedelta

In [2]:
df_energia_ccaa = pd.read_csv("data/pairETL1_datos_energia_ccaa.csv", index_col= 0)
df_energia_nacional = pd.read_csv("data/pairETL1_datos_energia_nacional.csv", index_col= 0)
df_poblacion_ccaa = pd.read_csv("data/poblacion_comunidades.csv", index_col= 0)

1. El csv donde tenemos la información censal de cada Comunidad Autónoma tiene algunas columnas que no son redundantes para nuestro análisis, en este csv tendremos que:
- Eliminar la columna de Comunidades_y_Ciudades_Autónomas

In [3]:
df_poblacion_ccaa.columns

Index(['Comunidad', 'indice', 'Comunidades_y_Ciudades_Autónomas', 'Año',
       'Total'],
      dtype='object')

In [4]:
df_poblacion_ccaa.drop(columns=["Comunidades_y_Ciudades_Autónomas"], axis = 0, inplace=True)

In [5]:
df_poblacion_ccaa.columns

Index(['Comunidad', 'indice', 'Año', 'Total'], dtype='object')

In [6]:
df_poblacion_ccaa.head(2)

Unnamed: 0,Comunidad,indice,Año,Total
0,Ceuta,8744,2022,83.117
1,Ceuta,8744,2021,83.517


2. En el csv con la información de generación de energías renovables y no renovables a nivel nacional deberéis:
- Para las columnas value y percentage, redondear los decimales de los valores a 2.

- La columna datetime es de tipo string, pero esto a nosotras no nos interesa. Además, en esta columna tiene tanto la fecha como la hora, pero en realidad la hora no nos esta aportando nada de información, es por esto que:
  - Deberéis crear una columna nueva donde solo tengamos la información de la fecha en formato AÑO / MES / DIA.
  - Una vez creada la columna anterior, convertirla a datetime.

In [7]:
columnas = ["value", "percentage"]

for col in columnas:
    df_energia_nacional[col] = df_energia_nacional[col].round(2)

# df_energia_nacional['value'] = df_energia_nacional['value'].round(2)
# df_energia_nacional['percentage'] = df_energia_nacional['percentage'].round(2)
df_energia_nacional.head()

Unnamed: 0,value,percentage,datetime,tipo_energia
0,182024.98,0.29,2011-01-01T00:00:00.000+01:00,Renovable
1,265705.89,0.39,2011-01-02T00:00:00.000+01:00,Renovable
2,249489.57,0.3,2011-01-03T00:00:00.000+01:00,Renovable
3,270981.71,0.31,2011-01-04T00:00:00.000+01:00,Renovable
4,379833.02,0.45,2011-01-05T00:00:00.000+01:00,Renovable


In [8]:
df_energia_nacional.dtypes

value           float64
percentage      float64
datetime         object
tipo_energia     object
dtype: object

In [9]:
df_energia_nacional["fecha"] = df_energia_nacional['datetime'].str.split("T", n = 1, expand = True).get(0).astype("datetime64", errors = "ignore")
df_energia_nacional.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,fecha
0,182024.98,0.29,2011-01-01T00:00:00.000+01:00,Renovable,2011-01-01
1,265705.89,0.39,2011-01-02T00:00:00.000+01:00,Renovable,2011-01-02


In [10]:
df_energia_nacional['fecha'] = pd.to_datetime(df_energia_nacional['fecha'])

In [11]:
df_energia_nacional.drop(columns=["datetime"], axis = 0, inplace=True)

In [12]:
df_energia_nacional.dtypes

value                  float64
percentage             float64
tipo_energia            object
fecha           datetime64[ns]
dtype: object

In [13]:
df_energia_nacional.head()

Unnamed: 0,value,percentage,tipo_energia,fecha
0,182024.98,0.29,Renovable,2011-01-01
1,265705.89,0.39,Renovable,2011-01-02
2,249489.57,0.3,Renovable,2011-01-03
3,270981.71,0.31,Renovable,2011-01-04
4,379833.02,0.45,Renovable,2011-01-05


3. En el csv con la información de generación de energías renovables y no renovables a nivel de comunidad autónoma deberéis aplicar los mismos cambios que aplicamos en el ejercicio anterior.
- Guardar los resultados obtenidos en pickle que usaremos en próximos ejercicios de pair programming. Cada fichero debe ir en un pickle

In [14]:
df_energia_ccaa.head()

Unnamed: 0,value,percentage,datetime,tipo_energia,comunidad,id_comunidad
0,460.046,1.0,2011-01-01T00:00:00.000+01:00,No renovable,Ceuta,8744
1,462.983,1.0,2011-01-02T00:00:00.000+01:00,No renovable,Ceuta,8744
2,537.072,1.0,2011-01-03T00:00:00.000+01:00,No renovable,Ceuta,8744
3,539.194,1.0,2011-01-04T00:00:00.000+01:00,No renovable,Ceuta,8744
4,536.034,1.0,2011-01-05T00:00:00.000+01:00,No renovable,Ceuta,8744


In [15]:
columnas = ["value", "percentage"]

for col in columnas:
    df_energia_ccaa[col] = df_energia_nacional[col].round(2)

In [16]:
df_energia_ccaa["fecha"] = df_energia_ccaa['datetime'].str.split("T", n = 1, expand = True).get(0).astype("datetime64", errors = "ignore")
df_energia_ccaa['fecha'] = pd.to_datetime(df_energia_ccaa['fecha'])
df_energia_ccaa.drop(columns=["datetime"], axis = 0, inplace=True)

In [17]:
df_energia_ccaa.to_pickle("data/pairETL2_datos_energia_ccaa.pkl")
df_energia_nacional.to_pickle("data/pairETL2_datos_energia_nacional.pkl")
df_poblacion_ccaa.to_pickle("data/pairETL2_poblacion_comunidades.pkl")