# Procesamiento de Datos

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df1 = pd.read_csv("titanic 1.csv")
df2 = pd.read_csv("titanic 2.csv")

In [None]:
df = pd.merge(df1, df2, on = "PassengerId")

In [None]:
df

**Es importante saber con cuantos elementos (filas) y atributos (columnas) estámos trabajando, además de conocer sus tipos de datos y su información estadística, y si fuese necesario, cambiar el tipo de dato de las columnas.**

In [None]:
# .shape nos da el número de filas y columnas

df.shape

In [None]:
# .describe() nos da un DataFrame con la información estadística de las columnas

df.describe()

In [None]:
# .info() nos da el tipo de variables de cada columna y si hay algun valor NaN

df.info()

In [None]:
# Numero de NaN's

df.isnull().sum()

In [None]:
# Porcentaje de NaN's en cada columna

df.isnull().sum()/len(df)*100

## División entre variables numéricas y categóricas

En esta parte vamos a separar las columnas númericas y las columnas no númericas.

Vamos a tener 2 DataFrames, llamados **`df_num`** y **`df_cat`** respectivamente.

El objetivo de esto es trabajar de una forma más cómoda con el DataFrame, conocer cuales columnas no son númericas y aplicarle funciones correspondientes a cada columna dependiendo de su tipo de dato.

**Al final esta parte, el DataFrame no númerico va a pasar a tener solo columnas númericas.**

In [None]:
# df_num

# ._get_numeric_data() filtra el DataFrame y retorna solo las columnas con valores númericos.

# Si tenemos alguna columna con valores númericos pero el tipo de dato no es el correcto la función
# ._get_numeric_data() seguramente falle.

df_num = df._get_numeric_data().copy()

df_num.head(3)

In [None]:
# df_cat

# df_cat sería el DataFrame resultante si quitamos las columnas de df_num

df_cat = df.drop(df_num.columns, axis = 1)

df_cat.head(3)

## df_num

### Imputer

La imputación de datos es la sustitución de valores no informados (NaN's) en una observación por otros.

En general existen 2 técnicas:

1. La primera técnica consiste en rellenar estos valores con la **media** (o **mediana**) de los datos de la variable en el caso de que se trate de una **variable numérica**. Para el caso de las **variables categóricas** imputamos los valores perdidos con la **moda** de la variable.


2. La segunda técnica, que es más avanzada, consiste en el uso de **modelos predictivos** para estimar los valores perdidos. Un modelo no paramétrico muy popular para estos casos es el **k-nearest neighbors (KNN)**, donde se estima el valor perdido como la media (en el caso de las variables numéricas) de los valores de los **k-vecinos u observaciones mas cercanos**. Analogamente, para las **variables categóricas**, se utiliza las **clase mayoritaria de entre los k mas cercanos**.

In [None]:
# Primera técnica:

# Para la imputación de los datos vamos a "llenar" los NaN's por la media de edad

df["Age"].fillna(df["Age"].mean())

# En este ejemplo llena TODOS los NaN's por la misma media.
# NOTA: No se ejecutó in-place

In [None]:
# Segunda técnica:

# Reemplaza los NaN's de la columna "Age" por la media de las edades de los k-vecinos mas cercanos (KNN).

from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors = 3)

df_num_imp = imputer.fit_transform(df_num)

df_num_imp

# El resultado de utilizar el KNNImputer es un array.
# Esto quiere decir que se pierde el formato de DataFrame, por lo tanto perdemos el nombre de las columnas.

# En este ejemplo llena cada NaN's por la media de las edades de los k-vecinos más cercanos.

In [None]:
# Para volver a tener el DataFrame con las columnas volver a definir el objeto.

df_num = pd.DataFrame(df_num_imp, columns = df_num.columns)

df_num.head(10)

In [None]:
# Ya no hay NaN's en la columna "Age"

df_num.isnull().sum()/df_num.shape[0]

## df_cat

### Nuevas variables categoricas

In [None]:
df_cat["Surname"] = df_cat["Name"].apply(lambda x : x.split(",")[0])

df_cat["Mr./Mrs."] = df_cat["Name"].apply(lambda x : x.split(" ")[1])

df_cat.head()

### Surname

Vamos a crear una categoria nueva partiendo del apellido.

In [None]:
df_cat["Surname"].value_counts()

In [None]:
dict_apellidos = df_cat["Surname"].value_counts().to_dict()

dict_apellidos

In [None]:
# Si el apellido se repite 1 vez lo agrega a la categoria Soltero
# Si el apellido se repite 2 veces lo agrega a la categoria Pareja
# Si el apellido se repite entre 3 y 4 veces lo agrego a la categoria Familia
# Si el apellido se repite mas de 4 veces lo agrego a la categoria Familia Grande

def func_apellidos(dict_apellidos):
    
    for apellido, count in dict_apellidos.items():
        if count == 1:
            dict_apellidos[apellido] = "Soltero"
        elif count == 2:
            dict_apellidos[apellido] = "Pareja"
        elif count < 5:
            dict_apellidos[apellido] = "Familia"
        else:
            dict_apellidos[apellido] = "Familia Grande"
            
    return dict_apellidos
            
dict_apellidos = func_apellidos(dict_apellidos)

dict_apellidos   


In [None]:
df_cat["Family"] = df_cat["Surname"].map(dict_apellidos)

df_cat.head()

In [None]:
# Veamos la distribución de la nueva columna

sns.countplot(x = df_cat["Family"])

plt.show()

In [None]:
# La categoria de Soltero es muy grande (existe un desbalance), vamos a unir las otras 3 categorias para poder nivelarlo

# Nota: Podemos hacer cualquier cosa que se nos ocurra, esto es una posibilidad de todo lo que podemos hacer.

df_cat["Family"] = df_cat["Family"].replace({"Pareja" : "Familia", "Familia Grande" : "Familia"})

sns.countplot(x = df_cat["Family"]);

### Mr./Mrs.


Vamos a hacer limpieza de esta columna.

In [None]:
df_cat["Mr./Mrs."].value_counts()

In [None]:
# Vamos a crear otra categoria a partir del Mr. y Mrs.

dict_mr = df_cat["Mr./Mrs."].value_counts().to_dict()
dict_mr


In [None]:
# Definimos una función que clasifique según el valor de cada fila.

def func_mr(dict_mr):
    
    for mr, count in dict_mr.items():
        if mr == "Mr.":
            dict_mr[mr] = "Mr."
            
        elif mr == "Mrs.":
            dict_mr[mr] = "Mrs."
            
        elif mr == "Miss.":
            dict_mr[mr] = "Miss."
            
        else:
            dict_mr[mr] = "Other"
            
    return dict_mr
            
dict_mr = func_mr(dict_mr)

dict_mr   


In [None]:
df_cat["Title"] = df_cat["Mr./Mrs."].map(dict_mr)

df_cat.drop("Mr./Mrs.", axis = 1, inplace = True)

df_cat.head()

In [None]:
sns.countplot(x = df_cat["Title"])

plt.show()

In [None]:
# Esta vez voy a decidir no unir las categorias, si vemos los datos de la columna "Sex"
# podemos ver que hay mas hombres que mujeres, por lo que si unimos las 3 categorias menores 
# vamos a quedar practicamente con la misma informacion que la columna "Sex"

### Sex, Familia, Title

Ya tenemos la información limpia de estas 3 columnas, ahora debemos transformar estas columnas a numéricas.

Para esto existen 2 funciones:
1. **pd.get_dummies()**: esta función va a generar una columna por cada elemento único en una columna y, dependiendo del valor, va a colocar 1 en la columna correspondiente y 0 en las otras. Esté método resulta de utilidad cuando la categoria no sigue un orden en particular.


2. **sklearn.preprocessing.LabelEncoder()**: esta función transforma toda la columna a números enteros, si la columna tiene n elementos únicos, va a cambiar esos elementos por lo números desde el **`0 hasta n - 1`**. Éste método resulta de utilidad si la categoria sigue cierto orden.

In [None]:
pd.get_dummies(data = df_cat["Sex"])

In [None]:
# Para unir estas nuevas columnas a df_cat podemos hacer un pd.concat()

df_cat = pd.concat([df_cat, pd.get_dummies(data = df_cat["Sex"])], axis = 1)

df_cat

In [None]:
# Y ahora podemos eliminar la columna "Sex"

df_cat.drop("Sex", axis = 1, inplace = True)

df_cat.head(3)

In [None]:
# Vamos a repetir la operación con las columnas "Family" y "Title"

for col in ["Family", "Title"]:
    
    df_cat = pd.concat([df_cat, pd.get_dummies(data = df_cat[col])], axis = 1)

    df_cat.drop(col, axis = 1, inplace = True)
    
df_cat

In [None]:
# Ahora voy a hacer drop de las columnas "Name", "Surname" y "Ticket"
# De la columna "Name" sacamos "Surname" y luego "Family", por lo que es información redundate
# Y de la columna "Ticket" podemos sacar información similar a la que sacamos con la columna "Surname"

df_cat.drop(["Name", "Surname", "Ticket"], axis = 1, inplace = True)

df_cat.head()

# df_num:

In [None]:
df_num.head()

In [None]:
# La columna Pclass es categorica y numerica, por lo que la vamos a dejar tal cual está
# La columna Survived es la columna que queremos predecir
# La columna PassengerId es un indice, tiene todos los valores diferentes, por lo tanto, vamos a hacer .drop() de esta columna

df_num.drop("PassengerId", axis = 1, inplace = True)

df_num

### Binning
Binning es un proceso de transformación de variables numéricas continuas en "contenedores" categóricos discretos, para análisis agrupados.

### Fare

In [None]:
sns.histplot(df_num["Fare"], bins = 10)

plt.show()

In [None]:
# Vamos a aplicar Binning a esta columna, bins = 4

bins = np.linspace(min(df_num["Fare"]), max(df_num["Fare"]), 5)
bins

In [None]:
categorias = ["Poco", "Medio", "Alto", "Mucho"]

In [None]:
df_num["Fare-Binning"] = pd.cut(df_num["Fare"], bins, labels = categorias, include_lowest = True)

In [None]:
df_num.head()

In [None]:
sns.countplot(x = df_num["Fare-Binning"])

plt.show()

In [None]:
# Vemos que el binning se ve afectado por los outliers de esta columna
# Vamos a eliminarlos

df_num = df_num[df_num["Fare"] < 400]

sns.histplot(df_num["Fare"], bins = 10)

plt.show()

In [None]:
# Aplicamos otra vez Binning

bins = np.linspace(min(df_num["Fare"]), max(df_num["Fare"]), 5)

bins

In [None]:
categorias = ["Poco", "Medio", "Alto", "Mucho"]

df_num["Fare-Binning"] = pd.cut(df_num["Fare"], bins, labels = categorias, include_lowest = True)

In [None]:
sns.countplot(x = df_num["Fare-Binning"])

plt.show()

In [None]:
# Existe un desbalance muy grande aún

# Vamos a hacer 3 grupos en lugar de 4


bins = np.linspace(min(df_num["Fare"]), max(df_num["Fare"]), 4)

categorias = ["Poco", "Medio", "Alto"]

df_num["Fare-Binning"] = pd.cut(df_num["Fare"], bins, labels = categorias, include_lowest = True)

sns.countplot(x = df_num["Fare-Binning"])

plt.show()

In [None]:
# Aun existe un desbalance importante

# Por ahora dejemos esta columna como está y luego veremos si es de importancia

# Age

In [None]:
sns.histplot(df_num["Age"])

plt.show()

In [None]:
# Vamos a hacer Binning con bins = 3

bins = np.linspace(min(df_num["Age"]), max(df_num["Age"]), 4)
bins

In [None]:
categorias = ["Joven", "Adulto", "Viejo"]

In [None]:
df_num["Age-Binning"] = pd.cut(df_num["Age"], bins, labels = categorias, include_lowest = True)

In [None]:
df_num.head()

In [None]:
sns.countplot(x = df_num["Age-Binning"])

plt.show()

In [None]:
# Vamos a dejarlo así, y vamos a convertir esta columna a numerica con LabelEncoder

from sklearn.preprocessing import LabelEncoder

# Inicializamos un objeto LabelEncoder()
age_labelEncoding = LabelEncoder()

# Lo "entrenamos" con los datos de la columna
age_labelEncoding.fit(df_num["Age-Binning"].values)

# Transformamos la columna
age = age_labelEncoding.transform(df_num["Age-Binning"].values)

age

# El resultado es la columna cambiada a numeros.

In [None]:
df_num["Age-Binning"] = age

df_num["Age-Binning"].value_counts()

In [None]:
# Vamos a hacer lo mismo con "Fare-Binning"

# Inicializamos un objeto LabelEncoder()
fare_labelEncoding = LabelEncoder()

# Lo "entrenamos" con los datos de la columna
fare_labelEncoding.fit(df_num["Fare-Binning"].values)

# Transformamos la columna
fare = fare_labelEncoding.transform(df_num["Fare-Binning"].values)

df_num["Fare-Binning"] = fare

df_num["Fare-Binning"].value_counts()

# El resultado es la columna cambiada a numeros.

In [None]:
df_num.head()

## Feature Selection

In [None]:
# Vamos a unir df_num y df_cat

df = pd.concat([df_num, df_cat], axis = 1)

df.head()

In [None]:
# NOTA: Como eliminamos filas de df_num y no eliminamos filas de df_cat, el DataFrame tendrá NaN's

df.isnull().sum()/df.shape[0]

In [None]:
# Podemos hacer una imputación de los datos, pero par este ejemplo vamos a eliminar esas filas

df.dropna(inplace = True)

df.isnull().sum()/df.shape[0]

In [None]:
# Ahora vamos a separar la columna "objetivo" del resto de columnas
df_class = df["Survived"].copy()

# Como ya tenemos la columna "objetivo" en otra variable vamos a eliminarla del DataFrame original
df.drop("Survived", axis = 1, inplace = True)

In [None]:
# Ya tenemos todos los datos en numericos, vamos a hacer Feature Selection
# Este primer Feature Selection lo hare utilizando la columna "Age-Binning" (excluyendo "Age")

X = np.asarray(df.drop("Age", axis = 1))
y = np.asarray(df_class)

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

# Build a forest and compute the feature importances
forest = ExtraTreesClassifier(n_estimators = 250, random_state = 0)
forest.fit(X, y)
importances = forest.feature_importances_
std = np.std([tree.feature_importances_ for tree in forest.estimators_], axis = 0)
indices = np.argsort(importances)[::-1]

# Print the feature ranking
print("Feature ranking:")

for f in range(X.shape[1]):
    print("%d. feature %d (%f): %s" % (f + 1, indices[f], importances[indices[f]], df.columns[f]))

# Plot the feature importances of the forest
plt.figure()
plt.title("Feature importances")
plt.bar(range(X.shape[1]), importances[indices],
        color = "r", yerr = std[indices], align = "center")
plt.xticks(range(X.shape[1]), indices)
plt.xlim([-1, X.shape[1]])
plt.show()

In [None]:
# Ahora otro Feature Selection pero esta vez excluyendo "Age-Binning"

X = np.asarray(df.drop("Age-Binning", axis = 1))
y = np.asarray(df_class)

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

# Build a forest and compute the feature importances
forest = ExtraTreesClassifier(n_estimators = 250, random_state = 0)
forest.fit(X, y)
importances = forest.feature_importances_
std = np.std([tree.feature_importances_ for tree in forest.estimators_], axis = 0)
indices = np.argsort(importances)[::-1]

# Print the feature ranking
print("Feature ranking:")

for f in range(X.shape[1]):
    print("%d. feature %d (%f): %s" % (f + 1, indices[f], importances[indices[f]], df.columns[f]))

# Plot the feature importances of the forest
plt.figure()
plt.title("Feature importances")
plt.bar(range(X.shape[1]), importances[indices],
        color = "r", yerr = std[indices], align = "center")
plt.xticks(range(X.shape[1]), indices)
plt.xlim([-1, X.shape[1]])
plt.show()