# Actividad Práctica: Preprocesamiento de Datos con Datasets de Seaborn

**Objetivos de la Actividad**

- Familiarizarse con la carga y exploración de datasets utilizando seaborn y Pandas.
- Aplicar técnicas de limpieza de datos:
    - Manejo de valores faltantes.
    - Detección y tratamiento de outliers.
- Practicar la manipulación y transformación de datos para prepararlos para análisis futuros.

**Datasets Disponibles en Seaborn**

Seaborn es una librería para visualización estadística que incluye varios datasets integrados que son excelentes para practicar análisis de datos. Algunos de los más populares son:

- titanic: Información sobre pasajeros del Titanic.
- tips: Datos de propinas en un restaurante.
- iris: Medidas de flores Iris.
- diamonds: Características y precios de diamantes.
- penguins: Medidas de pingüinos de diferentes especies.

Para esta actividad, utilizaremos el dataset titanic, ya que contiene una variedad de datos numéricos y categóricos, además de valores faltantes y potenciales outliers.

## Parte 1: Carga y Exploración Inicial del Dataset

**Paso 1: Importar Librerías Necesarias**




In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


**Paso 2: Cargar el Dataset**



In [None]:
# Cargar el dataset 'titanic' de seaborn
df = sns.load_dataset('titanic')


**Paso 3: Exploración Básica**

Ver las primeras filas del DataFrame



In [None]:
print(df.head())


Resumen de la información del DataFrame



In [None]:
print(df.info())


Estadísticas descriptivas


In [None]:
print(df.describe())


Explicaciones:
- `df.head()`: Muestra las primeras 5 filas del DataFrame para tener una idea general de los datos.
- `df.info()`: Proporciona información sobre el número de filas, columnas, tipos de datos y valores no nulos.
- `df.describe()`: Calcula estadísticas descriptivas para columnas numéricas (media, desviación estándar, mínimos, máximos, etc.).

## Parte 2: Manejo de Valores Faltantes

**Paso 4: Identificar Valores Faltantes**


In [None]:
# Verificar la cantidad de valores faltantes por columna
print(df.isnull().sum())


**Paso 5: Visualización de Valores Faltantes**


In [None]:
# Utilizar un mapa de calor para visualizar valores faltantes
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Faltantes')
plt.show()


**Explicaciones:**

- Los valores faltantes pueden afectar el análisis y deben manejarse apropiadamente.
- El mapa de calor proporciona una visión rápida de dónde se encuentran los valores faltantes en el conjunto de datos.

**Paso 6: Manejo de Valores Faltantes**

- Eliminar columnas con muchos valores faltantes



In [None]:
# Por ejemplo, si 'deck' tiene muchos valores faltantes
df.drop(columns=['deck'], inplace=True)


In [None]:
df.info()

**Imputar valores faltantes**

- Para valores numéricos (e.g., 'age')

In [None]:
# Imputar con la mediana
df['age'].fillna(df['age'].median(), inplace=True)


- Para valores categóricos (e.g., 'embark_town')

In [None]:
# Imputar con la moda
df['embark_town'].fillna(df['embark_town'].mode()[0], inplace=True)


**Paso 7: Verificar Nuevamente los Valores Faltantes**

In [None]:
print(df.isnull().sum())


In [None]:
# Utilizar un mapa de calor para visualizar valores faltantes
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title('Mapa de Valores Faltantes')
plt.show()

**Explicaciones:**

- Eliminación vs. Imputación: Decidir entre eliminar o imputar depende de la cantidad de valores faltantes y la importancia de la columna.
- Imputación con Mediana o Moda: La mediana es menos sensible a outliers que la media, y la moda es útil para variables categóricas.

## Parte 3: Detección y Tratamiento de Outliers

**Paso 8: Visualización de Outliers**

- Boxplot de la columna 'fare' (tarifa)



In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['fare'])
plt.title('Boxplot de Tarifa')
plt.show()


- Histograma de la columna 'fare'



In [None]:
plt.figure(figsize=(8, 6))
sns.histplot(df['fare'], bins=30, kde=True)
plt.title('Histograma de Tarifa')
plt.show()


**Explicaciones:**

- Boxplot: Muestra la distribución de los datos y ayuda a identificar valores atípicos.
- Histograma: Permite visualizar la distribución de frecuencia de los datos.


## Paso 9: Identificar Outliers Numéricamente

- Usando el método del rango intercuartílico (IQR)



In [None]:
Q1 = df['fare'].quantile(0.25)
Q3 = df['fare'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

print(f"Limite inferior: {limite_inferior}, Limite superior: {limite_superior}")


**Paso 10: Tratamiento de Outliers**

- Opción 1: Eliminar Outliers

In [None]:
df_sin_outliers = df[(df['fare'] >= limite_inferior) & (df['fare'] <= limite_superior)]

print(df_sin_outliers.shape)

- Opción 2: Transformación Logarítmica

In [None]:
import numpy as np

df['fare_log'] = np.log(df['fare'] + 1)  # Se suma 1 para evitar log(0)

# Visualizar el histograma después de la transformación
plt.figure(figsize=(8, 6))
sns.histplot(df['fare_log'], bins=30, kde=True)
plt.title('Histograma de Tarifa Transformada')
plt.show()


**Explicaciones:**

- Eliminación de Outliers: Puede ser útil, pero podría eliminar datos valiosos si no se tiene cuidado.
- Transformación Logarítmica: Reduce la asimetría y el efecto de valores extremos.

## Parte 4: Manipulación y Transformación de Datos

**Paso 11: Codificación de Variables Categóricas**

- Codificación One-Hot (Variables Dummies)



In [None]:
df = pd.get_dummies(df, columns=['sex', 'embarked', 'class'], drop_first=True)

print(df)


- Etiquetado de Variables Ordinales



In [None]:
# Asumiendo que 'pclass' es ordinal (1 = Primera clase, 2 = Segunda clase, 3 = Tercera clase)
# Ya está en formato numérico, pero podemos asegurarnos de su tipo
df['pclass'] = df['pclass'].astype('category')


**Explicaciones:**

- Variables Dummies: Convierte variables categóricas en variables binarias.
- drop_first=True: Evita la trampa de la multicolinealidad al eliminar una de las categorías.

**Paso 12: Normalización o Escalado de Variables Numéricas**

- Escalado Min-Max



In [None]:
from sklearn.preprocessing import MinMaxScaler

scaler_minmax = MinMaxScaler()
df[['age_minmax', 'fare_minmax']] = scaler_minmax.fit_transform(df[['age', 'fare']])


- Estandarización (Media = 0, Desviación Estándar = 1)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler_std = StandardScaler()
df[['age_std', 'fare_std']] = scaler_std.fit_transform(df[['age', 'fare']])


- Guardar el escalador

In [None]:
import joblib

# Guardar el escalador
joblib.dump(scaler, 'scaler.pkl')

- Cargar el escalador

In [None]:
# Cargar el escalador
scaler = joblib.load('scaler.pkl')

# Usarlo en nuevos datos
# new_data_scaled = scaler.transform(new_data[['age', 'fare']])


- Si prefieres usar `pickle` (también funciona):

In [None]:
import pickle

# Guardar
with open('scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)

# Cargar
with open('scaler.pkl', 'rb') as f:
    scaler = pickle.load(f)

**Explicaciones:**

- Normalización y Estandarización: Importantes para algoritmos sensibles a la escala de los datos, como redes neuronales o KNN.

## Parte 5: Guardar el Dataset Limpio

**Paso 13: Guardar el DataFrame Procesado**


In [None]:
df.to_csv('titanic_limpio.csv', index=False)


**Explicaciones:**

- Al guardar el DataFrame limpio, se facilita su uso en futuras sesiones o modelos.

# Actividad Adicional: Análisis Exploratorio de Datos (EDA)

Aunque el enfoque principal es la recolección y limpieza de datos, puedes aprovechar para realizar un breve análisis exploratorio:

## Paso 14: Análisis de Supervivencia

- Distribución de Supervivientes



In [None]:
plt.figure(figsize=(6, 4))
sns.countplot(x='survived', data=df)
plt.title('Distribución de Supervivencia')
plt.xlabel('Sobrevivió')
plt.ylabel('Conteo')
plt.show()


- Supervivencia por Sexo



In [None]:
plt.figure(figsize=(6, 4))
sns.barplot(x='sex_male', y='survived', data=df)
plt.title('Tasa de Supervivencia por Sexo')
plt.xlabel('Sexo (1 = Masculino)')
plt.ylabel('Tasa de Supervivencia')
plt.show()


**Explicaciones:**

- Análisis Exploratorio: Ayuda a entender mejor los datos y puede revelar patrones interesantes.
- Visualizaciones: Son herramientas poderosas para comunicar hallazgos y comprender relaciones entre variables.

**Consejos y Buenas Prácticas**

- Documenta tu Código: Agrega comentarios y descripciones para facilitar la comprensión.
- Verifica tus Operaciones: Después de cada paso, revisa el resultado para asegurarte de que todo funciona como esperas.
- Explora por tu Cuenta: Experimenta con otras columnas y técnicas de limpieza.