## Parte I - Datos faltantes

Pandas provee un conjunto de métodos para trabajar con datos faltantes.
Los métodos reconocen como datos faltantes valores que pueden provenir de Numpy o de Python nativo. 

In [1]:
import pandas as pd

In [2]:
import numpy as np

#### Detección de datos faltantes

El método isnull() devuelve una **máscara booleana** para la serie que indica los datos faltantes. 

In [3]:
string_data = pd.Series(['manzana', 'pera', np.nan, 'naranja'])
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [4]:
string_data = pd.Series([None, 'pera', np.nan, 'naranja'])
# El método reconoce también al valor faltante de Python nativo
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

Para encontrar los valores con datos faltantes, podemos filtrar la serie utilizando boolean indexing

In [5]:
# Filtro los valores nulos
print(string_data[string_data.isnull()])

print('\n')
# Filtro los valores no nulos
print(string_data[string_data.notnull()])

0    None
2     NaN
dtype: object


1       pera
3    naranja
dtype: object


A la hora de trabajar con dataframes, podemos seleccionar las filas o columnas que no contienen ningún valor faltante 

In [6]:
df = pd.DataFrame(np.random.randn(7, 3))
df

Unnamed: 0,0,1,2
0,-0.358702,-1.555752,0.84541
1,-1.612604,0.749719,0.543687
2,0.636848,-0.1112,1.958716
3,0.791599,-1.771143,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [7]:
# Ahora generamos algunos datos faltantes
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.358702,,
1,-1.612604,,
2,0.636848,,1.958716
3,0.791599,,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [8]:
# Devuelve las filas completas
df.dropna()

Unnamed: 0,0,1,2
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [9]:
# Devuelve las columnas completas
df.dropna(axis=1)

Unnamed: 0,0
0,-0.358702
1,-1.612604
2,0.636848
3,0.791599
4,-0.812919
5,-1.627598
6,0.84642


In [10]:
# imponemos la condición de que todos los elementos de la fila sean NaN para eliminarla
df.dropna(axis=0, how='all')

Unnamed: 0,0,1,2
0,-0.358702,,
1,-1.612604,,
2,0.636848,,1.958716
3,0.791599,,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [11]:
# imponemos la condición de que por lo menos haya 4 elementos que no sean NaN en la columna
df.dropna(axis=1, thresh=4)

Unnamed: 0,0,2
0,-0.358702,
1,-1.612604,
2,0.636848,1.958716
3,0.791599,0.648487
4,-0.812919,-0.958634
5,-1.627598,0.053618
6,0.84642,-1.205203


#### Completar datos faltantes

In [12]:
df.columns = ['col1','col2','col3']
df

Unnamed: 0,col1,col2,col3
0,-0.358702,,
1,-1.612604,,
2,0.636848,,1.958716
3,0.791599,,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [13]:
# Completar con un escalar
# Este método devuelve un nuevo objeto.
# Para modificar df directamente se utiliza el parámetro inplace=True

df.fillna(0)

Unnamed: 0,col1,col2,col3
0,-0.358702,0.0,0.0
1,-1.612604,0.0,0.0
2,0.636848,0.0,1.958716
3,0.791599,0.0,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [14]:
# Completar con un diccionario
df.fillna({'col2': 0.5, 'col3': -1})

Unnamed: 0,col1,col2,col3
0,-0.358702,0.5,-1.0
1,-1.612604,0.5,-1.0
2,0.636848,0.5,1.958716
3,0.791599,0.5,0.648487
4,-0.812919,-0.447452,-0.958634
5,-1.627598,-0.879814,0.053618
6,0.84642,0.2989,-1.205203


In [15]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = np.nan 
df.iloc[4:, 2] = np.nan
df

Unnamed: 0,0,1,2
0,-0.075461,-0.100331,-0.6008
1,0.673383,0.465811,0.173071
2,-1.078519,,-0.682604
3,-0.552736,,-1.421555
4,0.525095,,
5,-2.104661,,


In [16]:
# Para completar en base a los últimos valores válidos,
# se puede utilizar el parámetro method = 'ffill'

df.fillna(method='ffill') 

Unnamed: 0,0,1,2
0,-0.075461,-0.100331,-0.6008
1,0.673383,0.465811,0.173071
2,-1.078519,0.465811,-0.682604
3,-0.552736,0.465811,-1.421555
4,0.525095,0.465811,-1.421555
5,-2.104661,0.465811,-1.421555


In [17]:
# Completamos con los últimos valores,
# pero ponemos un límite de 3 a los valores que se pueden completar.

df.fillna(method='ffill', limit=3) 

Unnamed: 0,0,1,2
0,-0.075461,-0.100331,-0.6008
1,0.673383,0.465811,0.173071
2,-1.078519,0.465811,-0.682604
3,-0.552736,0.465811,-1.421555
4,0.525095,0.465811,-1.421555
5,-2.104661,,-1.421555


El método fillna también acepta un nuevo dataframe con índices coincidentes con los valores faltantes.

In [18]:
# Usamos un DataFrame para completar los datos faltantes. 

df_fill = pd.DataFrame(np.arange(8).reshape(4,2), index=np.arange(2,6), columns=[1,2])
df.fillna(df_fill)

Unnamed: 0,0,1,2
0,-0.075461,-0.100331,-0.6008
1,0.673383,0.465811,0.173071
2,-1.078519,0.0,-0.682604
3,-0.552736,2.0,-1.421555
4,0.525095,4.0,5.0
5,-2.104661,6.0,7.0


#### Completar por la media y la media condicionada 

In [19]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'data1': range(6),
                    'data2': np.random.rand(6)}, columns=['key', 'data1','data2'])
df

Unnamed: 0,key,data1,data2
0,A,0,0.138171
1,B,1,0.258192
2,C,2,0.844297
3,A,3,0.666993
4,B,4,0.116707
5,C,5,0.628749


In [20]:
df.iloc[2:3, 1] = np.nan
df.iloc[3:4, 2] = np.nan
df

Unnamed: 0,key,data1,data2
0,A,0.0,0.138171
1,B,1.0,0.258192
2,C,,0.844297
3,A,3.0,
4,B,4.0,0.116707
5,C,5.0,0.628749


In [21]:
df.mean()

data1    2.600000
data2    0.397223
dtype: float64

In [22]:
df.fillna(df.mean())

Unnamed: 0,key,data1,data2
0,A,0.0,0.138171
1,B,1.0,0.258192
2,C,2.6,0.844297
3,A,3.0,0.397223
4,B,4.0,0.116707
5,C,5.0,0.628749


In [23]:
# Veamos las medias por grupo
print(df)
df.groupby('key').transform('mean')

  key  data1     data2
0   A    0.0  0.138171
1   B    1.0  0.258192
2   C    NaN  0.844297
3   A    3.0       NaN
4   B    4.0  0.116707
5   C    5.0  0.628749


Unnamed: 0,data1,data2
0,1.5,0.138171
1,2.5,0.18745
2,5.0,0.736523
3,1.5,0.138171
4,2.5,0.18745
5,5.0,0.736523


In [24]:
df.fillna(df.groupby('key').transform('mean'))

Unnamed: 0,key,data1,data2
0,A,0.0,0.138171
1,B,1.0,0.258192
2,C,5.0,0.844297
3,A,3.0,0.138171
4,B,4.0,0.116707
5,C,5.0,0.628749


## Parte II - Tidy Data

Vamos a trabajar con algunos ejemplos de messy data que se encuentran en el trabajo original de Whickham. 
La idea es toparnos con datasets como podrían encontrarse en el mundo real y transformarlos a un formato que las herramientas estándar de minería de datos y visualización podrán trabajar mejor, siguiendo las reglas de "tidy data".

Vamos a trabajar con algunos tipos de datasets desordenados:

#### 1.1 - Los nombres de columnas son valores, no variables

In [25]:
df = pd.read_csv("pew-raw.csv")
df

FileNotFoundError: [Errno 2] File b'pew-raw.csv' does not exist: b'pew-raw.csv'

In [None]:
# Para reorganizar el dataset utilizamos el método "melt"
# En los parámetros indicamos que la variable que vamos a conservar
# es "religion" (podrían ser más de una)
# Y que con el resto de las columnas vamos a construir
# una nueva variable donde cada columna es una categoría

df_ordenado = pd.melt(df,
                       ["religion"],
                       var_name="income",
                       value_name="freq")
df_ordenado = df_ordenado.sort_values(by=["religion"])
df_ordenado.head(10)

#### 1.2 Más de un valor en una misma columna

A continuación vamos a utilizar datos de la OMS. El dataset consiste en la cantidad de casos de tuberculosis observados por país, año, sexo y edad.  

In [None]:
df = pd.read_csv("tb-raw.csv")
df

Para odenar este dataset vamos a extraer los valores de sexo y edad para organizarlos en una sola columna. 
Después vamos a crear tres columnas a partir del contenido: sexo, edad_desde y edad_hasta.

In [None]:
df = pd.melt(df, id_vars=["country","year"], var_name="sex_and_age", value_name="cases")

In [None]:
df.sample(10)

In [None]:
# Extraigo las variables.
# Con la expresión regular, le estoy pidiendo a la función que parta el valor que recibe en tres partes:
# (\D): Una única letra o caracter no numérico 
# (\d+): Uno o más números (para dar cuenta de "edad desde")
# (\d{2}): Dos dígitos
tmp_df = df["sex_and_age"].str.extract("(\D)(\d+)(\d{2})")   

In [None]:
tmp_df.sample(10)

In [None]:
# Asignamos 
tmp_df.columns = ["sex", "age_lower", "age_upper"]

# Creamos la columna edad en base a age_lower y age_upper.
tmp_df["age"] = tmp_df["age_lower"] + "-" + tmp_df["age_upper"]


In [None]:
# Unimos los dos datasets 
df = pd.concat([df, tmp_df], axis=1)
df.head()

In [None]:
df["age"].value_counts()

In [None]:
# Inspeccionar la presencia de valores faltante
np.sum(df.isnull())

In [None]:
# Explorando los casos faltantes, vemos que la expresión regular no funcionó para hombres de más de 65 años 
# o de edad indefinida
df.loc[df['age'].isnull()]

In [None]:
df.loc[df['sex_and_age'] == 'm65', 'age'] = '65 or more'
df.loc[df['sex_and_age'] == 'm65', 'sex'] = 'm'
df.loc[df['sex_and_age'] == 'mu', 'sex'] = 'm'

In [None]:
df.loc[df['age'].isnull()]

In [None]:
# Nos deshacemos de las columnas sobrantes
df = df.drop(['sex_and_age',"age_lower","age_upper"], axis=1)
df.sample(10)

In [None]:
# Como las personas de edad indefinida no presentan ningún caso, es correcto eliminar estos faltantes con dropna.
df = df.dropna()
df = df.sort_values(["country", "year", "sex", "age"])
df.head(10)

## Parte III - Herramientas para manipulación de datos

Pandas cuenta con un conjunto de métodos que permiten operar sobre los elementos de un Dataframe o Serie.
Para aplicar la lógica deseada, podemos optar tanto por definir funciones con nombre como por utilizar expresiones lambda que luego no pueden reutilizarse.

    1)  pd.DataFrame.apply: Opera sobre filas o columnas completas
    2)  pd.DataFrame.applymap: Opera sobre cada uno de los elementos del Dataframe
    3)  pd.Series.apply: Opera sobre cada uno de los elementos de la Serie. 
    4)  pd.Series.map: Opera sobre cada uno de los elementos de la Serie, muy similar a Series.apply. 

La diferencia entre pd.Series.map y pd.Series.apply es que la segunda puede generar un Dataframe a partir de la serie, mientras que la primera si recibiera una serie como return de la función crearía una serie de series.

####  3.1 Función apply

La función apply de pandas permite realizar operaciones vectorizadas sobre los datasets tanto fila por fila como columna por columna.

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(5, 4), columns=['a', 'b', 'c', 'd'])
df

Utilizamos `df.applymap` para encontrar la raíz cuadrada de los elementos de cada columna. `NaN` significa "Not a Number" y es el valor asignado a operaciones inválidas como la raíz de un número negativo.

In [None]:
df.applymap(np.sqrt)

> en este caso podríamos haber aplicado tambien 'df.apply' porque la operación de sqrt se aplicaría de todas formas a los elementos de la serie

**  Buscamos la media de todas las filas **

El parámetro por default es axis=0, por lo que va a iterar por las filas y darnos el valor de la media de la columnas

In [None]:
df.apply(np.mean)

El parámetro axis=1 indica que la función se aplica para cada fila. Notar que el apply anterior no modificó el dataset, sino que creó una copia y luego modificó la misma. El dataset original conserva el mismo valor.

In [None]:
df.apply(np.mean, axis=1)

`np.mean()` es una función que viene definida en numpy, pero podemos querer aplicar una función totalmente propia para, por ejemplo, crear una nueva columna que sea la suma entre las series a y d. Esto se puede hacer con expresiones lambda.

In [None]:
# Veamos primero cómo trabajan las expresiones lambda

df.apply(lambda x: print(type(x),'\n',x))

# El método apply le pasa a la función lambda una serie con cada una de las columnas.
# Si el parámetro axis es igual a 1,
# la función lambda recibirá una serie con cada una de las filas. 




Podemos usar una función lambda para calcular el coeficiente de variación:

In [None]:
df.apply(lambda x: np.std(x)/np.mean(x))

Las funciones map(),apply() y applymap() son muy convenientes para utilizar en limpieza de datos. 
Por ejemplo, supongamos que queremos sacar todos los acentos y demás caracteres propios del español de todos los strings de un Dataframe. Además queremos convertir todo a minúsculas.

In [None]:
data = pd.DataFrame({'nombre': ['Tomás','Carla','Paula'], 'apellido': ['Torres','López','Núñez']}, 
                    columns =['nombre','apellido'])
data

In [None]:
# !pip install unidecode

import unidecode

def quitar_caracteres(entrada):
    return str.lower(unidecode.unidecode(entrada))

In [None]:
data.applymap(quitar_caracteres)