# Cleaning data: drop, replace, melt y otras cositas

En esta ayudantía haremos un repaso en metodos de limpieza de datos, para esto repasaremoslas funciones más comunes y luego iremos a la actividad con dos ejemplos prácticos de limpieza de datos

## Melt

Melt es una funcion que nos permite, de cierta forma, convertir calumnas en filas, veamos un ejemplo:

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'}, 
                   'B': {0: 1, 1: 3, 2: 5},
                   'C': {0: 2, 1: 4, 2: 6}}) #creamos un dataframe cualquiera
df

In [None]:
pd.melt(df, id_vars=['A'], value_vars=['B'])

podemos ver que, transformamos la columna `B` en una fila de variables, en este caso no es muy útil, al fin y al cabo todo lo que hicimos fue presentar la misma información gastando más especio, pero veamos el ejemplo siguiente:

In [None]:
pd.melt(df, id_vars=['A'], value_vars=['B', 'C'])

En este caso tiene más sentido, convertimos ambas columnas en datos. En resumen, `pd.melt` nos permite transformar `dataframes` "anchos" en `dataframes` "largos".

# Actividades
Para estas actividades los que haremos será limpiar dos bases de datos, una será limpiar dos bases de datos con el fin de dejarlas listas para uso

# 1.- Libros de la Bilioteca Británica

En esta primera actividad limpiaremos una base de datos de libros de la bilbioteca británica, cortesia de [realpython](https://github.com/realpython/python-data-cleaning), como siempre, lo primero que haremos será invocar al dataframe, y ver como está ordenado todo

In [None]:
df = pd.read_csv('./data/BL-Flickr-Images-Book.csv')
df.head()

Podemos ver que no es uno muy largo, pero de todas formas vamos a asumir que sabemos que las columnas `'Edition Statement','Corporate Author','Corporate Contributors','Former owner','Engraver','Contributors','Issuance type','Shelfmarks'` no las vamos a necesitar, por lo que procederemos a dropearlas

In [None]:
to_drop = [
           #fill 
          ]

df.drop(#fill
        , inplace = #fill
        , axis = #fill
       )
df.head()

Ahora tenemos un *dataframe* de un tamaño mucho más manejable, además tenemos una columna llamada `Identifier`, esta puede que nos sea útil como indice, pero antes, utiliza el metodo `.is_unique` para revisar que el valor para cada fila sea único. 

In [None]:
df['Identifier'].#fill

En pandas, no es necesario el valor del indice sea único, pero algunos métodos lo exigen, así que es bueno tenerlo en cuenta. Ahora, hagamos que la columna `Identifier` sea el indice

In [None]:
df.set_index(#fill
             , inplace = #fill
            )
df.head()

Ya que tenemos el dataset un poco más limpio, procederemos a revisar en que sitiacion nos encontramos con `NaNs`, para eso utiliza el metodo `.info()` para reviar cuantos valores no nulos hay por columna

In [None]:
df.#fill

Podemos ver que tenemos una cantidad no menos de valores nulos en `Publisher` y en `Author`, asumiremos que no importa que haya valroes nulos en la primera, pero que si no contienen el autor no nos sirven para el analizis que nos interesa, para esto vamos a dropear todas las filas que tengan un valor nulo en la columna `Author`

In [None]:
df.dropna(#fill
          , inplace = #fill
         )
df.head()

# 2.- GDP per Captita en América del Sur

Para esta parte usaremos los datos de creciemiento de GDP per cápita porcentuales de paises en Sudamerica obtenidos en [World Bank Open Data](https://data.worldbank.org/), el proceso de obntenerlos el algo complejo, pero al final nos deja con un csv que contiene estos datos para los 10 paises con mayor GDP en sudamerica. Ahora, lo de siempre, invocar los datos

In [None]:
df = pd.read_csv("./data/gdp_pc_growth_per_sa.csv")
df #no usamos .head() porque el largo de la serie es manejable

Podemos notar un par de problemas a primera vista, tenemos un par de columnas que no vamos a usar, muchos valores nulos, nombres raros en las columnas. Veamos primero que podemos hacer en las columnas

In [None]:
df.columns

De buenas a primeras, las columnas `'Series Name', 'Series Code','Country Code', '2020 [YR2020]'` no las usaremos, las primeras tres porque son codigos, y la uiltima porque aun no tiene datos, asi que las podemos dropear

In [None]:
to_drop = [
            #fill
          ]
df.drop(#fill
        , inplace = #fill)
df.head()

Ahora, las filas de la 10 a la 14 no tienen valores, por lo que tambien las vamos a dropear

In [None]:
df.drop(#fill
        , inplace=True
       )
df

Ya tenemmos un dataframe que va tomando forma, pero esos nombres de columnas las complicados de lo necesario, para esto, usa el metodo que estimes conveniente para quedarte solo con los 4 primeros caracteres de cada una, y usar esos como nombre de la columna.

In [None]:
df.columns = #fill
df

Vamos a revisar ahora los tipos de datos, para ver que todo esté en orden

In [None]:
df.dtypes

¿Por qué los años de 2015 a 2019 aparecen como `object`? Quizás una inspeccion rápida del *dataframe* nos de una respuesta. 

In [None]:
df

Podemos ver que, en Venezuela no tenenemos valores para 2015 en adelante, y estos estan rellenos con `'..'`, para esto usaremos un `replace` y los cambiarmos por `np.nan`

In [None]:
df.replace(#fill
           , np.nan #fill
           , inplace = #fill
          )
df

Pero la pega aun no está hecha, hay que cambiar el *dtype* de las columnas que arreglamos, para eso ocupa `.as_type()` en las columnas que nos interesan, o usa el método que más te acomode 

In [None]:
df[df.columns[-5:]] = #fill
df

Ahora que tenemos todo más o menos ordenado, utilizaremos `pd.melt()` para transformar nuestro dataframe en uno con las columnas `'anno'` y `'gdp_pc'`, donde las *id's* sean los paises y los valores los años.

In [None]:
melt_df = pd.melt(df, id_vars = 'country', value_vars = df.columns[1:], var_name='anno', value_name='gdp_pc')
melt_df.head()

In [None]:
melt_df.groupby('anno').apply(lambda x: x.mean().drop('anno'))

In [None]:
melt_df.groupby('country').apply(lambda x: x.mean().drop('country'))