# Pair Programming ETL II - Transformación I

In [1]:
import requests
import pandas as pd
import numpy as np
from datetime import datetime as dt

In [2]:
df_com = pd.read_csv("datos/poblacion_comunidades.csv", index_col = 0)
df_com.head(2)

Unnamed: 0,Comunidad,indice,Comunidades_y_Ciudades_Autónomas,Año,Total
0,Ceuta,8744,Ceuta,2022,83.117
1,Ceuta,8744,Ceuta,2021,83.517


El csv donde tenemos la información censal de cada Comunidad Autónoma tiene algunas columnas que no son redundantes para nuestro análisis, en este csv tendremos que:

- Eliminar la columna de Comunidades_y_Ciudades_Autónomas

In [3]:
def exploracion(df):

    print(f"El dataframe tiene {df.shape[0]} filas y {df.shape[1]} columnas")  
    print("---")

    print(df.info())
    print("---")

    columnas = [df.columns[num] for num in range(len(df.columns))]
    print(f"Los nombres de las columnas son {columnas}")
    print("---")

    # nuevas_columnas = {col: col.replace(" ", "_").lower() for col in df.columns}
    # df.rename(columns = nuevas_columnas, inplace = True)
    # print(df.columns)
    # print("---")

    print(f"A continuación se muestran los principales estadísticos numéricos del dataframe {df}:")
    print(df.describe().T)
    print("---")

    print(f"A continuación se muestran los principales estadísticos categóricos del dataframe {df}:")
    print(df.describe(include = "object").T)
    print("---")

    print("Los porcentajes de valores nulos por cada columna son:")
    print(df.isnull().sum() * 100/df.shape[0])
    print("---")

    valores_unicos = [len(df[col].value_counts())for col in columnas]
    valores_unicos_por_columna = list(zip(columnas, valores_unicos))
    print("Estos son los valores únicos por cada columna")
    print(valores_unicos_por_columna)
    print("---")
    
    print("Los valores duplicados por cada columna son:")
    print(df.duplicated().sum())
    print("---")

In [4]:
exploracion(df_com)

El dataframe tiene 475 filas y 5 columnas
---
<class 'pandas.core.frame.DataFrame'>
Int64Index: 475 entries, 0 to 474
Data columns (total 5 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Comunidad                         475 non-null    object
 1   indice                            475 non-null    int64 
 2   Comunidades_y_Ciudades_Autónomas  475 non-null    object
 3   Año                               475 non-null    int64 
 4   Total                             475 non-null    object
dtypes: int64(2), object(3)
memory usage: 22.3+ KB
None
---
Los nombres de las columnas son ['Comunidad', 'indice', 'Comunidades_y_Ciudades_Autónomas', 'Año', 'Total']
---
A continuación se muestran los principales estadísticos numéricos del dataframe     Comunidad  indice Comunidades_y_Ciudades_Autónomas   Año    Total
0       Ceuta    8744                            Ceuta  2022   83.117
1       Ceuta    8744   

In [5]:
nuevas_columnas = {col: col.replace(" ", "_").lower() for col in df_com.columns}
df_com.rename(columns = nuevas_columnas, inplace = True)
print(df_com.columns)

Index(['comunidad', 'indice', 'comunidades_y_ciudades_autónomas', 'año',
       'total'],
      dtype='object')


In [6]:
df_com.drop('comunidades_y_ciudades_autónomas', axis=1, inplace=True)
df_com.head(2)

Unnamed: 0,comunidad,indice,año,total
0,Ceuta,8744,2022,83.117
1,Ceuta,8744,2021,83.517



En el csv con la información de generación de energías renovables y no renovables a nivel nacional deberéis:


In [7]:
df_tipos = pd.read_csv("datos/tipos_energia.csv", index_col=0)

In [8]:
df_tipos.head(3)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667050.0,0.310241,2011-01-01T00:00:00.000+01:00,Renovable
1,192686800.0,0.689759,2011-01-01T00:00:00.000+01:00,No renovable
2,85338720.0,0.301424,2012-01-01T00:00:00.000+01:00,Renovable


- Para las columnas value y percentage, redondear los decimales de los valores a 2.

In [9]:
df_tipos['value'] = round(df_tipos['value'], 2)
df_tipos['percentage'] = round(df_tipos['percentage'], 2)

In [10]:
df_tipos.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667050.0,0.31,2011-01-01T00:00:00.000+01:00,Renovable
1,192686800.0,0.69,2011-01-01T00:00:00.000+01:00,No renovable


La columna datetime es de tipo string, pero esto a nosotras no nos interesa. Además, en esta columna tiene tanto la fecha como la hora, pero en realidad la hora no nos esta aportando nada de información, es por esto que:

- Deberéis crear una columna nueva donde solo tengamos la información de la fecha en formato AÑO / MES / DIA.

- Una vez creada la columna anterior, convertirla a datetime.

In [11]:
# se puede haver con un split hasta la 'T' y accediendo al indice [0] que son las filas

# df_tipos['datetime'] = df_tipos['datetime'].apply(lambda tiempo: tiempo.split('T')[0])

In [12]:
df_tipos['datetime'] = df_tipos['datetime'].apply(pd.to_datetime)

In [13]:
df_tipos['datetime'] = df_tipos['datetime'].apply(lambda x: x.strftime('%Y-%m-%d'))

In [14]:
df_tipos.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667050.0,0.31,2011-01-01,Renovable
1,192686800.0,0.69,2011-01-01,No renovable



- En el csv con la información de generación de energías renovables y no renovables a nivel de comunidad autónoma deberéis aplicar los mismos cambios que aplicamos en el ejercicio anterior.


In [15]:
df_autonomas = pd.read_csv("datos/energia_comunidades.csv", index_col=0)

In [16]:
df_autonomas['value'] = round(df_autonomas['value'], 2)
df_autonomas['percentage'] = round(df_autonomas['percentage'], 2)

In [17]:
df_autonomas['datetime'] = df_autonomas['datetime'].apply(pd.to_datetime)

In [18]:
df_autonomas['datetime'] = df_autonomas['datetime'].apply(lambda x: x.strftime('%Y-%m-%d'))

In [19]:
df_autonomas.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,comunidad,cod_comunidad
0,202972.89,1.0,2011-01-01,No renovable,Ceuta,8744
1,3589.08,0.02,2011-01-01,Renovable,Melilla,8745



- Guardar los resultados obtenidos en pickle que usaremos en próximos ejercicios de pair programming. Cada fichero debe ir en un pickle

In [20]:
df_tipos.to_pickle('datos/tipos_energia.pkl')

In [22]:
df_autonomas.to_pickle('datos/energia_comunidades.pkl')