## PAIR PROGRAMMING ETL II

### Transformación I - Limpieza
---

In [2]:
import requests
import pandas as pd
import numpy as np

from IPython.core.interactiveshell import InteractiveShell # Nos permite mostar más de una salida por celda
InteractiveShell.ast_node_interactivity = "all" # Nos permite mostar más de una salida por celda


import ast

from datetime import datetime, timedelta

pd.options.display.max_columns = None

Tendréis que usar el csv attacks_limpieza_completa.

En la lección de hoy aprendimos como transformar nuestros datos para que estén preparados para almacearlos en una BBDD. En este momento tenemos dos fuentes de datos:

1. El csv con los ataques de tiburones que hemos estado limpiando hasta ahora, el que os hemos adjuntado (attacks_limpieza_completa). Sentiros libres de usar vuestros propios csv en caso de que queráis.
2. El csv con los datos climáticos de los principales paises que tienen ataques de tiburones, el que creamos en el pair programming de ayer.

El **objetivo** de la sesión de hoy será juntar en un único csv la información de ambas fuentes. Para ello:

- Cargaremos los dos ficheros de datos

In [3]:
df= pd.read_csv('../files/attacks_limpieza_completa.csv', index_col=0)
df_clima = pd.read_csv('../files/clima_paises.csv', index_col=0)

- Del dataframe de los ataques nos quedaremos solo con las filas de los países que seleccionamos en la lección de ayer:
    - USA
    - Australia
    - New Zealand
    - South Africa
    - Papua New Guinea

In [4]:
df_attacks= df[df['country'].isin(['usa','australia','new zealand','south africa', 'papua new guinea'])]

In [5]:
df_attacks['country'].unique()

array(['usa', 'australia', 'south africa', 'new zealand',
       'papua new guinea'], dtype=object)

In [6]:
df_attacks.shape

(4335, 21)

- Del dataframe de los datos climáticos seleccionaremos todas las columnas.

In [7]:
df_clima.head(2)

Unnamed: 0,timepoint,cloudcover,lifted_index,prec_type,prec_amount,temp2m,rh2m,weather,wind10m.direction,wind10m.speed,country,highcloud,midcloud,lowcloud,rh_profile,wind_profile,msl_pressure,snow_depth
0,3,1,15,none,0,12,4,,270,2,usa,-9999.0,-9999.0,-9999.0,"[{'layer': '950mb', 'rh': 3}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 210, 'speed':...",1026.0,0.0
1,6,1,15,none,0,12,3,,15,2,usa,-9999.0,-9999.0,-9999.0,"[{'layer': '950mb', 'rh': 2}, {'layer': '900mb...","[{'layer': '950mb', 'direction': 345, 'speed':...",1027.0,0.0


- Cuando ya tengamos todos los datos deseados juntaremos los dos csv.
    - Para hacer esta unión tendremos que hacer un groupby en la tabla de clima para sacar una media de las medidas climáticas por país.
    - Antes de hacer el groupby si nos fijamos tenemos dos columnas rh_profile y wind_profile cuya información es una lista de diccionarios. Si intentamos hacer la media de eso no nos dará un valor real. A este problema ya nos enfrentamos en la clase invertida de ETL-2, donde teníais un Bonus para desempaquetar esta información. En caso de que en aquel ejercicio no lo consigierais os dejamos por aquí una posible solución que nos permite separar esa información en distintas columnas. Os dejamos el código documentado. ⚠️ Os recomendamos que vayáis desgranando el código y viendo lo que nos devuelve cada línea de código para entenderlo mejor.

In [8]:
df_clima.dtypes

timepoint              int64
cloudcover             int64
lifted_index           int64
prec_type             object
prec_amount            int64
temp2m                 int64
rh2m                   int64
weather              float64
wind10m.direction      int64
wind10m.speed          int64
country               object
highcloud            float64
midcloud             float64
lowcloud             float64
rh_profile            object
wind_profile          object
msl_pressure         float64
snow_depth           float64
dtype: object

In [9]:
df_clima['rh_profile']= df_clima['rh_profile'].apply(ast.literal_eval)

In [10]:
x = df_clima['rh_profile'].apply(pd.Series)

In [11]:
x.head(2)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,"{'layer': '950mb', 'rh': 3}","{'layer': '900mb', 'rh': 0}","{'layer': '850mb', 'rh': -2}","{'layer': '800mb', 'rh': -1}","{'layer': '750mb', 'rh': 0}","{'layer': '700mb', 'rh': 2}","{'layer': '650mb', 'rh': 4}","{'layer': '600mb', 'rh': 6}","{'layer': '550mb', 'rh': 7}","{'layer': '500mb', 'rh': 7}","{'layer': '450mb', 'rh': 5}","{'layer': '400mb', 'rh': 1}","{'layer': '350mb', 'rh': -1}","{'layer': '300mb', 'rh': 2}","{'layer': '250mb', 'rh': 2}","{'layer': '200mb', 'rh': 4}"
1,"{'layer': '950mb', 'rh': 2}","{'layer': '900mb', 'rh': 0}","{'layer': '850mb', 'rh': 0}","{'layer': '800mb', 'rh': 1}","{'layer': '750mb', 'rh': 3}","{'layer': '700mb', 'rh': 5}","{'layer': '650mb', 'rh': 7}","{'layer': '600mb', 'rh': 7}","{'layer': '550mb', 'rh': 5}","{'layer': '500mb', 'rh': 3}","{'layer': '450mb', 'rh': 2}","{'layer': '400mb', 'rh': 0}","{'layer': '350mb', 'rh': 4}","{'layer': '300mb', 'rh': 5}","{'layer': '250mb', 'rh': 7}","{'layer': '200mb', 'rh': 7}"


In [12]:
for i in range(len(x.columns)): 
    

    # aplicamos el apply,extraemos el valor de la key "layer" y lo almacenamos en una variable que convertimos a string 
    nombre = "rh_" + str(x[i].apply(pd.Series)["layer"][0]) 

    # hacemos lo mismo con una variable que se llame valores para "guardar" los valores de la celda
    valores = list(x[i].apply(pd.Series)["rh"] )

    # usamos el método insert de los dataframes para ir añadiendo esta información a el dataframe con la información del clima. 
    df_clima.insert(i, nombre, valores)

In [13]:
df_clima['wind_profile']= df_clima['wind_profile'].apply(ast.literal_eval)

In [14]:
y = df_clima['wind_profile'].apply(pd.Series)

In [15]:
for i in range(len(y.columns)): 
    

    # aplicamos el apply,extraemos el valor de la key "layer" y lo almacenamos en una variable que convertimos a string 
    nombre = "direction" + str(y[i].apply(pd.Series)["layer"][0]) 
    nombre2 = "speed" + str(y[i].apply(pd.Series)["layer"][0]) 

    # hacemos lo mismo con una variable que se llame valores para "guardar" los valores de la celda
    valores = list(y[i].apply(pd.Series)["direction"] )
    valores2= list(y[i].apply(pd.Series)["speed"] )

    # usamos el método insert de los dataframes para ir añadiendo esta información a el dataframe con la información del clima. 
    df_clima.insert(i, nombre, valores)
    df_clima.insert(i,nombre2,valores2)

In [17]:
df_clima.drop(['rh_profile','wind_profile'], axis=1, inplace=True)# Eliminamos las columnas que tienen las listas de diccionarios.

In [18]:
df_clima.shape

(320, 64)

In [41]:
df_clima = df_clima.groupby('country').mean()

  df_clima = df_clima.groupby('country').mean()


In [42]:
df_clima

Unnamed: 0_level_0,speed950mb,speed900mb,speed850mb,speed800mb,speed750mb,speed700mb,speed650mb,speed600mb,speed550mb,speed500mb,speed450mb,speed400mb,speed350mb,speed300mb,speed250mb,speed200mb,direction200mb,direction250mb,direction300mb,direction350mb,direction400mb,direction450mb,direction500mb,direction550mb,direction600mb,direction650mb,direction700mb,direction750mb,direction800mb,direction850mb,direction900mb,direction950mb,rh_950mb,rh_900mb,rh_850mb,rh_800mb,rh_750mb,rh_700mb,rh_650mb,rh_600mb,rh_550mb,rh_500mb,rh_450mb,rh_400mb,rh_350mb,rh_300mb,rh_250mb,rh_200mb,timepoint,cloudcover,lifted_index,prec_amount,temp2m,rh2m,weather,wind10m.direction,wind10m.speed,highcloud,midcloud,lowcloud,msl_pressure,snow_depth
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1
australia,3.671875,3.640625,3.5,3.40625,3.375,3.390625,3.3125,3.421875,3.703125,3.84375,4.0,4.03125,4.25,4.59375,5.09375,5.671875,161.015625,151.875,138.203125,123.203125,120.546875,121.015625,129.453125,133.90625,132.421875,136.484375,133.828125,136.25,135.546875,129.609375,115.703125,121.40625,13.609375,11.234375,8.40625,6.796875,5.671875,4.1875,3.515625,2.796875,2.59375,2.375,2.171875,2.078125,1.546875,1.640625,4.125,6.984375,97.5,3.703125,-3.75,2.859375,25.890625,10.90625,,122.96875,3.296875,-9999.0,-9999.0,-9999.0,1014.90625,0.0
new zealand,3.6875,3.625,3.5,3.5,3.484375,3.546875,3.609375,3.765625,3.984375,4.140625,4.484375,4.796875,5.09375,5.40625,6.40625,7.5,288.59375,276.484375,264.609375,254.84375,241.796875,233.515625,219.84375,216.328125,223.125,218.984375,212.5,194.765625,191.875,178.359375,159.921875,157.890625,13.359375,12.90625,7.921875,5.296875,3.265625,2.671875,1.875,1.703125,3.140625,4.640625,4.90625,5.109375,5.03125,4.046875,1.421875,-1.8125,97.5,6.734375,9.09375,3.203125,15.0625,10.859375,,149.453125,3.359375,-9999.0,-9999.0,-9999.0,1015.5,0.0
papua new guinea,3.828125,4.25,4.296875,4.109375,3.40625,2.828125,2.4375,2.734375,3.21875,3.703125,4.0625,4.21875,4.265625,4.140625,4.6875,5.078125,221.5625,190.46875,220.859375,239.140625,243.28125,256.796875,260.859375,240.78125,196.953125,145.234375,79.84375,77.34375,80.390625,82.109375,82.03125,82.8125,13.578125,11.53125,9.34375,5.8125,2.53125,0.34375,1.296875,0.03125,-1.8125,-1.90625,0.296875,1.75,2.21875,2.21875,2.125,1.171875,97.5,3.546875,-0.671875,2.109375,25.890625,11.5,,84.375,3.15625,-9999.0,-9999.0,-9999.0,1010.265625,0.0
south africa,2.359375,2.265625,2.21875,2.140625,2.15625,2.234375,2.484375,2.78125,3.0625,3.375,3.84375,4.140625,4.578125,5.09375,5.359375,5.96875,208.4375,209.6875,212.8125,216.953125,219.21875,216.875,215.0,211.40625,200.46875,203.125,202.96875,196.25,181.484375,159.0625,142.8125,147.65625,12.328125,8.703125,6.546875,7.421875,8.8125,9.953125,9.984375,8.296875,5.625,4.5625,4.6875,4.953125,5.65625,6.3125,7.59375,9.390625,97.5,7.03125,2.5625,1.78125,23.421875,10.15625,,152.5,2.296875,-9999.0,-9999.0,-9999.0,1019.484375,0.0
usa,2.34375,2.515625,2.953125,3.296875,3.53125,3.9375,4.296875,4.484375,4.609375,4.734375,4.96875,5.046875,5.078125,5.421875,5.640625,5.484375,248.828125,222.5,235.390625,240.46875,260.234375,271.640625,263.671875,267.65625,261.015625,261.5625,267.1875,271.71875,279.921875,276.875,230.46875,222.8125,4.1875,4.0,3.890625,3.640625,3.546875,3.265625,2.453125,1.703125,2.046875,3.28125,4.921875,5.046875,6.078125,6.65625,5.9375,5.734375,97.5,3.5625,13.265625,0.0,12.71875,4.8125,,203.75,2.09375,-9999.0,-9999.0,-9999.0,1022.96875,0.0


    Ver que country esta como index y hay que sacarlo para poder mergearlo o concatenarlo.

- Guardar los resultados obtenidos en un csv que usaremos en próximos ejercicios de pair programming.