In [1]:
import requests
import pandas as pd
import numpy as np
from datetime import datetime as dt

En la lección de hoy aprendimos como transformar nuestros datos para que estén preparados para almacearlos en una BBDD. En este momento tenemos dos fuentes de datos:
1. El csv donde tenemos la información censal de cada Comunidad Autónoma tiene algunas columnas que no son redundantes para nuestro análisis, en este csv tendremos que:
    - Eliminar la columna de Comunidades_y_Ciudades_Autónomas


In [2]:
df_comunidades = pd.read_csv("datos/poblacion_comunidades.csv", index_col=0)
df_comunidades.head(1)

Unnamed: 0,Comunidad,indice,Comunidades_y_Ciudades_Autónomas,Año,Total
0,Ceuta,8744,Ceuta,2022,83.117


In [3]:
df_comunidades.drop("Comunidades_y_Ciudades_Autónomas", axis= 1, inplace= True)

In [4]:
df_comunidades.head(1)

Unnamed: 0,Comunidad,indice,Año,Total
0,Ceuta,8744,2022,83.117


2. En el csv con la información de generación de energías renovables y no renovables a nivel nacional deberéis:
    - Para las columnas value y percentage, redondear los decimales de los valores a 2.


In [5]:
df = pd.read_csv("datos/tipos_energia.csv", index_col= 0)
df.head(1)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667050.0,0.310241,2011-01-01T00:00:00.000+01:00,Renovable


In [6]:
df["value"] = round(df["value"], 2)
df["percentage"] = round(df["percentage"], 2)
df.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667050.0,0.31,2011-01-01T00:00:00.000+01:00,Renovable
1,192686800.0,0.69,2011-01-01T00:00:00.000+01:00,No renovable


In [7]:
df.dtypes

value           float64
percentage      float64
datetime         object
tipo_energia     object
dtype: object

In [8]:
df["value"] = df["value"].apply(lambda x: float(x))

In [9]:
df.dtypes

value           float64
percentage      float64
datetime         object
tipo_energia     object
dtype: object

In [10]:
df.head(1)

Unnamed: 0,value,percentage,datetime,tipo_energia
0,86667052.85,0.31,2011-01-01T00:00:00.000+01:00,Renovable


    - La columna datetime es de tipo string, pero esto a nosotras no nos interesa. Además, en esta columna tiene tanto la fecha como la hora, pero en realidad la hora no nos esta aportando nada de información, es por esto que:
        - Deberéis crear una columna nueva donde solo tengamos la información de la fecha en formato AÑO / MES / DIA.
        - Una vez creada la columna anterior, convertirla a datetime.


In [14]:
df["fecha"] = df["datetime"]

In [17]:
df["fecha"] = df["fecha"].apply(lambda tiempo: tiempo.split("T")[0])
df["fecha"] = df["fecha"].apply(pd.to_datetime)

In [18]:
df.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,fecha
0,86667050.0,0.31,2011-01-01T00:00:00.000+01:00,Renovable,2011-01-01
1,192686800.0,0.69,2011-01-01T00:00:00.000+01:00,No renovable,2011-01-01


In [19]:
df.dtypes

value                  float64
percentage             float64
datetime                object
tipo_energia            object
fecha           datetime64[ns]
dtype: object

3. En el csv con la información de generación de energías renovables y no renovables a nivel de comunidad autónoma deberéis aplicar los mismos cambios que aplicamos en el ejercicio anterior.


In [20]:
df_energia_com = pd.read_csv("datos/energia_comunidades.csv", index_col= 0)
df_energia_com.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,comunidad,cod_comunidad
0,202972.893,1.0,2011-01-01T00:00:00.000+01:00,No renovable,Ceuta,8744
1,3589.0825,0.016703,2011-01-01T00:00:00.000+01:00,Renovable,Melilla,8745


In [21]:
df_energia_com["value"] = round(df_energia_com["value"], 2)
df_energia_com["percentage"] = round(df_energia_com["percentage"], 2)
df_energia_com.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,comunidad,cod_comunidad
0,202972.89,1.0,2011-01-01T00:00:00.000+01:00,No renovable,Ceuta,8744
1,3589.08,0.02,2011-01-01T00:00:00.000+01:00,Renovable,Melilla,8745


In [22]:
df_energia_com["fecha"] = df_energia_com["datetime"]
df_energia_com["fecha"] = df_energia_com["fecha"].apply(lambda tiempo: tiempo.split("T")[0])
df_energia_com["fecha"] = df_energia_com["fecha"].apply(pd.to_datetime)
df_energia_com.head(2)

Unnamed: 0,value,percentage,datetime,tipo_energia,comunidad,cod_comunidad,fecha
0,202972.89,1.0,2011-01-01T00:00:00.000+01:00,No renovable,Ceuta,8744,2011-01-01
1,3589.08,0.02,2011-01-01T00:00:00.000+01:00,Renovable,Melilla,8745,2011-01-01


- Guardar los resultados obtenidos en pickle que usaremos en próximos ejercicios de pair programming. Cada fichero debe ir en un pickle

In [23]:
df.to_pickle('datos/tipos_energia_pick.pkl')
df_energia_com.to_pickle('datos/energia_comunidades_pick.pkl')