## PAIR PROGRAMMING ETL III

### ETL Transformación II - Clases y Funciones de limpieza
---

En la lección de hoy aprendimos como Crearnos una clase que nos permita limpiar los datos obtenidos de la API.

En este ejercicio, tendréis que crear una clase con el código que usamos en los ejercicios de pair programming de ETL Transformación I y II.

In [1]:
import pandas as pd
import requests
from datetime import datetime, timedelta
import ast
from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = "all" 
pd.options.display.max_columns = None

In [2]:
class Ataquesclima:

    def __init__(self, dicc_datos):

        self.dicc_datos= dicc_datos

    def conexion_API(self, producto):
        
        # Especificamos el producto del que queremos extraer la información
        self.producto= producto
       
        # Creamos un dataframe vacío con las columnas que rellenaremos con la información obtenida de la API
        df_clima_paises = pd.DataFrame()

        for key, value in self.dicc_datos.items(): 

            url =f'http://www.7timer.info/bin/api.pl?lon=-{self.dicc_datos[key][0]}&lat={self.dicc_datos[key][1]}&product={self.producto}&output=json'

            response = requests.get(url=url)
            codigo_estado = response.status_code
            razon_estado = response.reason
            if codigo_estado == 200:
                print('La peticion se ha realizado correctamente, se ha devuelto el código de estado:',codigo_estado,' y como razón del código de estado: ',razon_estado)
            elif codigo_estado == 402:
                print('No se ha podido autorizar usario, se ha devuelto el código de estado:', codigo_estado,' y como razón del código de estado: ',razon_estado)
            elif codigo_estado == 404:
                print('Algo ha salido mal, el recurso no se ha encontrado,se ha devuelto el código de estado:', codigo_estado,' y como razón del código de estado: ',razon_estado)
            else:
                print('Algo inesperado ha ocurrido, se ha devuelto el código de estado:', codigo_estado,' y como razón del código de estado: ',razon_estado)

            # Convetimos la información obtenida en formato json a un dataframe
            df = pd.json_normalize(response.json()['dataseries']) 
            # Creamos una nueva columna para que inserte la key que corresponde al nombre del país
            df['country']=key
            # Concatenamos los dataframes de cada país en uno
            df_clima_paises=pd.concat([df_clima_paises,df], axis=0, ignore_index = True)
        return df_clima_paises


    def limpiar_meteo(self, df_clima_paises): 

        self.df_clima_paises = df_clima_paises
        
        #df_clima_paises['rh_profile']= df_clima_paises['rh_profile'].apply(ast.literal_eval)
        # Para separar la lista de diccionarios en varias columnas
        x = df_clima_paises['rh_profile'].apply(pd.Series)     

        # For loop para sacar el nombre de la columna y los valores de las filas
        for i in range(len(x.columns)): 
        
            # aplicamos el apply,extraemos el valor de la key "layer" y lo almacenamos en una variable que convertimos a string 
            nombre = "rh_" + str(x[i].apply(pd.Series)["layer"][0]) 
            # hacemos lo mismo con una variable que se llame valores para "guardar" los valores de la celda
            valores = list(x[i].apply(pd.Series)["rh"] )

            # usamos el método insert de los dataframes para ir añadiendo esta información a el dataframe con la información del clima. 
            df_clima_paises.insert(i, nombre, valores)
        pass
            
        #df_clima_paises['wind_profile']= df_clima_paises['wind_profile'].apply(ast.literal_eval)
        y = df_clima_paises['wind_profile'].apply(pd.Series)

        # For loop para sacar el nombre de la columna y los valores de las filas
        for i in range(len(y.columns)): 
                
            # aplicamos el apply,extraemos los valores de la key "layer" y lo almacenamos en dos variables que convertimos a strings
            nombre1 = "direction" + str(y[i].apply(pd.Series)["layer"][0]) 
            nombre2 = "speed" + str(y[i].apply(pd.Series)["layer"][0]) 

            # hacemos lo mismo con dos variables para "guardar" los valores
            valores1= list(y[i].apply(pd.Series)["direction"] )
            valores2= list(y[i].apply(pd.Series)["speed"] )

            # usamos el método insert de los dataframes para ir añadiendo esta información a el dataframe con la información del clima. 
            df_clima_paises.insert(i, nombre1, valores1)
            df_clima_paises.insert(i,nombre2,valores2)
        pass

        # Eliminamos las columnas que tienen las listas de diccionarios, información duplicada
        df_clima_paises.drop(['rh_profile','wind_profile'], axis=1, inplace=True)
         

        #Calculamos la media por pais
        df_clima_paises = df_clima_paises.groupby('country').mean()
            

        #Calculamos la fecha del dato y añadimos la columna al dataframe
        hoy = datetime.now()
        hoy = datetime.strftime(hoy, '%Y-%m-%d')
        df_clima_paises["fecha"] = hoy
        

        #reseteamos el indice para guardar correctamente el df.
        df_clima_paises.reset_index(inplace=True)
        

        print(f'Ya está listo el dataframes de meteo para juntarlo con el de ataques')
        return df_clima_paises
            

    def juntar_dfs(self, df_attacks, df_clima_paises): 
        
        self.df_attacks = df_attacks
        self.df_clima_paises = df_clima_paises

        df_union= df_attacks.merge(df_clima_paises, how= 'inner', on= 'country')


        print("El df de union tiene las siguientes columnas: \n", list(df_union.columns))
      
        # guardamos los datos
        df_union.to_pickle('../files/datos_clima_attacks_clase.pkl')
      
        return df_union

    def chequear_datos(self, df_union): 

        print(f"El número de filas son: {df_union.shape[0]}\ny el número de columnas son: {df_union.shape[1]}")
        print("-----------------------------------------")

        print("Los tipos de datos que tenemos son:", "\n")
        print(df_union.dtypes)
        print("-----------------------------------------")

        print("El porcentaje de nulos:", "\n")
        print((df_union.isnull().sum() / df_union.shape[0]) *  100)


In [3]:
# Hacemos un diccionario con los países como keys y las coordenadas como values
dicc_datos= {'usa': [-100.445882, 39.7837304],'australia': [134.755, -24.7761086],'south africa': [24.991639, -28.8166236],'new zealand': [172.8344077, -41.5000831],'papua new guinea': [144.2489081, -5.6816069]}

In [4]:
api = Ataquesclima(dicc_datos) # Iniciamos la clase

In [5]:
df_clima_paises= api.conexion_API('meteo') # Hacemos la llamada a la API a traves del metodo creado en la clase.
df_clima_paises.head(2)

La peticion se ha realizado correctamente, se ha devuelto el código de estado: 200  y como razón del código de estado:  OK
La peticion se ha realizado correctamente, se ha devuelto el código de estado: 200  y como razón del código de estado:  OK
La peticion se ha realizado correctamente, se ha devuelto el código de estado: 200  y como razón del código de estado:  OK
La peticion se ha realizado correctamente, se ha devuelto el código de estado: 200  y como razón del código de estado:  OK
La peticion se ha realizado correctamente, se ha devuelto el código de estado: 200  y como razón del código de estado:  OK


Unnamed: 0,timepoint,cloudcover,highcloud,midcloud,lowcloud,rh_profile,wind_profile,temp2m,lifted_index,rh2m,msl_pressure,prec_type,prec_amount,snow_depth,wind10m.direction,wind10m.speed,country
0,3,1,-9999,-9999,-9999,"[{'layer': '950mb', 'rh': 2}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 235, 'speed':...",13,15,3,1026,none,0,0,195,3,usa
1,6,2,-9999,-9999,-9999,"[{'layer': '950mb', 'rh': 5}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 220, 'speed':...",14,10,9,1026,none,0,0,215,3,usa


In [6]:
df_clima_paises.shape

(320, 17)

In [7]:
df_clima_paises = api.limpiar_meteo(df_clima_paises)# Aplicamos el metodo de limpiar creado en la clase.


Ya está listo el dataframes de meteo para juntarlo con el de ataques


  df_clima_paises = df_clima_paises.groupby('country').mean()


In [8]:
df_clima_paises.head()

Unnamed: 0,country,speed950mb,speed900mb,speed850mb,speed800mb,speed750mb,speed700mb,speed650mb,speed600mb,speed550mb,speed500mb,speed450mb,speed400mb,speed350mb,speed300mb,speed250mb,speed200mb,direction200mb,direction250mb,direction300mb,direction350mb,direction400mb,direction450mb,direction500mb,direction550mb,direction600mb,direction650mb,direction700mb,direction750mb,direction800mb,direction850mb,direction900mb,direction950mb,rh_950mb,rh_900mb,rh_850mb,rh_800mb,rh_750mb,rh_700mb,rh_650mb,rh_600mb,rh_550mb,rh_500mb,rh_450mb,rh_400mb,rh_350mb,rh_300mb,rh_250mb,rh_200mb,timepoint,cloudcover,highcloud,midcloud,lowcloud,temp2m,lifted_index,rh2m,msl_pressure,prec_amount,snow_depth,wind10m.speed,fecha
0,australia,3.375,3.34375,3.203125,3.1875,3.078125,3.0625,3.125,3.3125,3.5,3.5625,3.578125,3.5625,3.59375,3.828125,4.265625,5.046875,137.34375,121.796875,121.875,127.1875,125.0,103.59375,101.71875,94.296875,101.484375,84.53125,81.171875,73.046875,65.78125,64.921875,67.265625,72.8125,13.421875,11.5,8.109375,5.59375,4.140625,3.546875,3.171875,3.265625,3.046875,3.1875,3.5625,3.359375,2.53125,2.171875,4.265625,5.828125,97.5,3.015625,-9999.0,-9999.0,-9999.0,25.828125,-2.78125,10.359375,1016.171875,2.546875,0.0,3.171875,2023-01-12
1,new zealand,3.9375,3.78125,3.703125,3.75,3.640625,3.640625,3.703125,3.6875,3.734375,3.859375,3.96875,4.265625,5.015625,5.296875,6.0625,6.109375,231.484375,187.578125,196.328125,170.15625,162.96875,146.015625,145.46875,137.65625,132.421875,131.09375,126.25,129.53125,126.328125,129.140625,113.90625,116.328125,13.125,13.4375,6.21875,3.765625,3.421875,2.921875,2.0625,1.34375,0.9375,1.46875,2.453125,4.8125,5.40625,6.421875,6.953125,2.71875,97.5,7.1875,-9999.0,-9999.0,-9999.0,15.0625,10.1875,10.46875,1019.28125,2.1875,0.0,3.546875,2023-01-12
2,papua new guinea,4.046875,4.46875,4.59375,4.453125,3.90625,3.234375,2.28125,2.59375,3.453125,4.4375,5.0,4.9375,5.1875,5.140625,5.796875,6.28125,235.0,228.4375,244.296875,254.453125,256.71875,260.15625,253.4375,240.15625,217.421875,150.15625,78.90625,81.328125,83.359375,83.28125,81.796875,81.640625,13.75,11.296875,7.90625,4.046875,1.265625,-0.3125,0.09375,2.296875,2.5625,2.0625,2.34375,4.90625,5.765625,5.71875,6.015625,2.4375,97.5,4.25,-9999.0,-9999.0,-9999.0,25.703125,-0.4375,11.265625,1009.9375,2.359375,0.0,3.25,2023-01-12
3,south africa,2.578125,2.34375,2.234375,2.265625,2.234375,2.359375,2.40625,2.4375,2.609375,2.96875,3.453125,3.765625,3.875,3.90625,4.15625,4.5,214.296875,228.359375,229.609375,230.390625,228.28125,224.21875,222.890625,221.484375,217.109375,221.25,219.609375,207.5,180.625,166.015625,138.203125,119.453125,13.140625,10.546875,8.28125,8.046875,9.359375,9.75,10.140625,9.140625,6.21875,5.046875,2.65625,1.359375,2.4375,4.15625,5.625,7.328125,97.5,5.390625,-9999.0,-9999.0,-9999.0,23.6875,2.09375,10.609375,1019.34375,1.421875,0.0,2.53125,2023-01-12
4,usa,3.328125,3.734375,3.984375,4.15625,4.265625,4.5,4.609375,4.96875,5.3125,6.0,6.59375,7.015625,7.484375,8.21875,8.765625,9.1875,288.4375,281.640625,274.296875,289.140625,289.453125,293.828125,296.71875,286.640625,292.34375,282.96875,275.078125,283.828125,296.25,281.71875,258.4375,244.0625,3.65625,3.9375,3.78125,3.109375,2.3125,2.171875,2.609375,2.953125,3.640625,4.1875,5.109375,4.390625,3.671875,4.65625,5.015625,4.1875,97.5,4.0625,-9999.0,-9999.0,-9999.0,12.203125,9.859375,3.671875,1013.640625,0.609375,0.0,2.953125,2023-01-12


In [9]:
df_clima_paises.shape # Verificamos la cantidad de columnas del df de clima.

(5, 62)

In [10]:
df_attacks = pd.read_pickle("../files/attacks12_remplazo_nulos.pkl") #Abrimos el archivo de ataques.

In [11]:
df_attacks.shape #Verificamos la cantidad de columnas del df attacks.

(1672, 10)

In [12]:
df_union= api.juntar_dfs(df_attacks, df_clima_paises)# Unimos el dataframe de clima y el de ataques.

El df de union tiene las siguientes columnas: 
 ['case_number', 'year', 'mes', 'sexo', 'edades', 'country', 'type', 'activity', 'fatal', 'cat_species', 'speed950mb', 'speed900mb', 'speed850mb', 'speed800mb', 'speed750mb', 'speed700mb', 'speed650mb', 'speed600mb', 'speed550mb', 'speed500mb', 'speed450mb', 'speed400mb', 'speed350mb', 'speed300mb', 'speed250mb', 'speed200mb', 'direction200mb', 'direction250mb', 'direction300mb', 'direction350mb', 'direction400mb', 'direction450mb', 'direction500mb', 'direction550mb', 'direction600mb', 'direction650mb', 'direction700mb', 'direction750mb', 'direction800mb', 'direction850mb', 'direction900mb', 'direction950mb', 'rh_950mb', 'rh_900mb', 'rh_850mb', 'rh_800mb', 'rh_750mb', 'rh_700mb', 'rh_650mb', 'rh_600mb', 'rh_550mb', 'rh_500mb', 'rh_450mb', 'rh_400mb', 'rh_350mb', 'rh_300mb', 'rh_250mb', 'rh_200mb', 'timepoint', 'cloudcover', 'highcloud', 'midcloud', 'lowcloud', 'temp2m', 'lifted_index', 'rh2m', 'msl_pressure', 'prec_amount', 'snow_depth', '

In [13]:
df_union.shape #Chequeamos que la union se realizo bien.

(1355, 71)

In [14]:
api.chequear_datos(df_union)# Llamamos al metodo de chequear datos.

El número de filas son: 1355
y el número de columnas son: 71
-----------------------------------------
Los tipos de datos que tenemos son: 

case_number       object
year             float64
mes               object
sexo              object
edades           float64
                  ...   
msl_pressure     float64
prec_amount      float64
snow_depth       float64
wind10m.speed    float64
fecha             object
Length: 71, dtype: object
-----------------------------------------
El porcentaje de nulos: 

case_number      0.000000
year             0.000000
mes              4.723247
sexo             0.000000
edades           0.000000
                   ...   
msl_pressure     0.000000
prec_amount      0.000000
snow_depth       0.000000
wind10m.speed    0.000000
fecha            0.000000
Length: 71, dtype: float64
