In [199]:
from IPython.core.interactiveshell import InteractiveShell # Nos permite mostar más de una salida por celda
InteractiveShell.ast_node_interactivity = "all" # Nos permite mostar más de una salida por celda

import requests
import pandas as pd
import numpy as np
import ast 

from datetime import datetime, timedelta

pd.options.display.max_columns=None

In [200]:
df = pd.read_csv('datos/ETL-1.csv', index_col=0)
df.head(2)

Unnamed: 0,timepoint,cloudcover,highcloud,midcloud,lowcloud,rh_profile,wind_profile,temp2m,lifted_index,rh2m,msl_pressure,prec_type,prec_amount,snow_depth,wind10m.direction,wind10m.speed,country
0,3,9,-9999,-9999,-9999,"[{'layer': '950mb', 'rh': 4}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 320, 'speed':...",13,15,5,1024,none,0,0,265,2,USA
1,6,6,-9999,-9999,-9999,"[{'layer': '950mb', 'rh': 3}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 355, 'speed':...",12,15,5,1024,none,0,0,345,2,USA


In [201]:
df1 = pd.read_csv('datos/attacks_limpieza_completa.csv', index_col=0)
df1.head(2)

Unnamed: 0,year,type,country,age,species_,fecha_limpia,fatal,sex,latitud,longitud,country2,fatal_N,fatal_Unknown,fatal_Y,fatal_N.1,fatal_Unknown.1,fatal_Y.1,species_.1,fecha_limpia.1,type.1,age_NORM
0,2018,Boating,usa,57.0,White shark,Jun,N,F,39.78373,-100.445882,HN,1,0,0,1,0,0,4,7,1,9.116327
1,2018,Unprovoked,usa,11.0,Unespecific,Jun,N,F,39.78373,-100.445882,HN,1,0,0,1,0,0,3,7,7,3.80486


In [202]:
class APIS: 

    def __init__(self, df, df1):

    # definimos cada una de las variables. 
        self.df = df
        self.df1 = df1

    # definimos nuestro primer método. El que nos hará la llamada a la API y nos creará un nuevo dataframe.

    def creacion_df(self, nombre_df):

        self.nombre_df = nombre_df

        dicc_paises = {"USA": ["39.7837304", "-100.445882"], "Australia": ["-24.7761086", "134.755"], 
               "South Africa": ["-28.8166236", "24.991639"], "New Zealand": ["-41.5000831", "172.8344077"], 
               "Papua New Guinea": ["-5.6816069", "144.2489081"]}

        nombre_df = pd.DataFrame()

        for keys, values in dicc_paises.items():
            lat = values[0]
            lon = values[1]
            country = keys
            producto = "meteo"

            response = requests.get(url=f'http://www.7timer.info/bin/api.pl?lon=-{lon}&lat={lat}&product={producto}&output=json')
    
            df1 = pd.DataFrame.from_dict(pd.json_normalize(response.json(),["dataseries"])) #añadimos "dataseries" para que nos separe esa información por columnas
            df1["country"] = keys
            nombre_df = pd.concat([nombre_df, df1], axis = 0, ignore_index=True)
        
        return nombre_df
    
    # definimos una función para filtrar los países que nos interesan.

    def limpieza_attacks(self, df):

        self.df = df

        list_country = ['usa', 'australia', 'south africa', 'new zealand', 'papua new guinea']

        df1 = df[df['country'].isin(list_country)]

        return df1

    # definimos las dos siguientes funciones para desempaquetar las columnas 'hr_profile y 'wind_profile', ya que sus valores eran diccionarios.

    def desempaquetar_columna_hr(self, df):

        self.df = df

        df['rh_profile'] = df['rh_profile'].apply(ast.literal_eval)
        df_clima = df['rh_profile'].apply(pd.Series)

        for i in range(len(df_clima.columns)):
         nombre_rh = "rh_"+ str(df_clima[i].apply(pd.Series)["layer"][0])
         valores_rh = (df_clima[i].apply(pd.Series)["rh"])

         df.insert(i, nombre_rh, valores_rh)

        return df
    
    def desempaquetar_columna_wind(self, df):

        self.df = df

        df['wind_profile'] = df['wind_profile'].apply(ast.literal_eval)
        df_wind = df['wind_profile'].apply(pd.Series)

        for i in range(len(df_wind.columns)):
         nombre_wd = "wind_direction_"+ str(df_wind[i].apply(pd.Series)["layer"][0])
         valores_wd = (df_wind[i].apply(pd.Series)["direction"])

         df.insert(i, nombre_wd, valores_wd)

        for i in range(len(df_wind.columns)):
            nombre_wd1 = "wind_speed_"+ str(df_wind[i].apply(pd.Series)["layer"][0])
            valores_wd1 = (df_wind[i].apply(pd.Series)["speed"])

            df.insert(i, nombre_wd1, valores_wd1)

        return df

    # la siguiente función borra esas mismas columnas, para eliminar la información redundante.

    def borrar_redundantes(self, df):

        self.df = df

        df.drop(['rh_profile', 'wind_profile'], axis = 1, inplace=True)

        return df

    # mergeamos las columnas desempaquetadas al df de ataques de tiburón.

    def merge_df(self, df, df1):

        self.df = df
        self.df1 = df1
    
        df['country'] = df['country'].str.lower()

        df_groupby = df.groupby(["country"])[df.columns].mean().reset_index()
        df_merge = df1.merge(df_groupby, how='outer', on = 'country', right_on= None, left_on=None)
       
        return df_merge

    # guardamos nuestro dataframe limpio.

    def guardar_csv(self, df):

        self.df = df

        df.to_csv('datos/ETL-3.csv', index=False)


### Aplicamos la clase:

In [203]:
clase = APIS(df, df1)

In [204]:
df_a = clase.creacion_df(df)

In [205]:
df_b = clase.limpieza_attacks(df1)

In [206]:
df_c = clase.desempaquetar_columna_hr(df)

In [207]:
df_d = clase.desempaquetar_columna_wind(df_c)

In [208]:
df_e = clase.borrar_redundantes(df_d)

In [209]:
df_f = clase.guardar_csv(df_e)