<a href="https://colab.research.google.com/github/dtoralg/IE_Calidad_ML/blob/main/Ejercicios/Modulo%202/Modulo_2_Ejercicio_5_Resuelto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio 5: Análisis Exploratorio y Visualización de Datos (EDA)

## Objetivo
En este ejercicio aprenderás a:
- Calcular estadísticas descriptivas generales y por grupos.
- Identificar patrones y tendencias en el dataset.
- Generar visualizaciones que faciliten la interpretación de los datos, tales como histogramas, boxplots, scatter plots, pairplots y heatmaps.
- Reflexionar sobre los insights obtenidos y cómo estos pueden orientar futuros análisis o modelos predictivos.

Utilizaremos el dataset **Titanic** (ya limpio) disponible online. Este dataset contiene información de los pasajeros del Titanic, y es ideal para practicar técnicas de análisis exploratorio de datos.

**URL del dataset Titanic:**  
`https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv`

> **Pregunta de Reflexión:**  
> ¿Qué patrones o tendencias iniciales crees que se pueden identificar en el dataset Titanic?  
> ¿Cómo podrían variar estos patrones según las diferentes variables (por ejemplo, edad, tarifa, clase, etc.)?


In [None]:
# Paso 1: Importa las librerías necesarias y carga el dataset Titanic.

# TODO: Importa pandas, matplotlib y seaborn.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Define la URL del dataset Titanic
url_titanic = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

# TODO: Carga el dataset utilizando pd.read_csv() y almacénalo en un DataFrame llamado 'df_titanic'
df_titanic = pd.read_csv(url_titanic)

# Muestra las primeras filas para verificar la carga
print("Primeras filas del dataset Titanic:")
display(df_titanic.head())

# Muestra información general y estadísticas básicas
print("Información general del dataset:")
display(df_titanic.info())
print("Estadísticas descriptivas generales:")
display(df_titanic.describe())


In [None]:
# Paso 2: Calcula estadísticas descriptivas y realiza análisis por grupos.

# TODO: Calcula y muestra las estadísticas descriptivas globales usando df_titanic.describe()
print("Estadísticas descriptivas globales:")
display(df_titanic.describe())

# TODO: Calcula estadísticas descriptivas agrupadas por la variable 'Survived'
print("Estadísticas descriptivas por 'Survived':")
display(df_titanic.groupby('Survived').describe())

# Pregunta de reflexión:
# ¿Qué diferencias observas en las estadísticas descriptivas de los pasajeros que sobrevivieron vs. los que no?



In [None]:
# Paso 3: Genera diversas visualizaciones para explorar los datos.

# Histograma: Visualiza la distribución de 'Age'
plt.figure(figsize=(8, 4))
sns.histplot(df_titanic['Age'], kde=True, bins=30)
plt.title("Distribución de la Edad de los Pasajeros")
plt.xlabel("Edad")
plt.ylabel("Frecuencia")
plt.show()

# Boxplot: Visualiza la distribución de 'Fare'
plt.figure(figsize=(8, 4))
sns.boxplot(x=df_titanic['Fare'])
plt.title("Boxplot de la Tarifa (Fare)")
plt.xlabel("Tarifa")
plt.show()

# Scatter Plot: Relación entre 'Age' y 'Fare'
plt.figure(figsize=(8, 4))
sns.scatterplot(x='Age', y='Fare', data=df_titanic, hue='Survived')
plt.title("Relación entre Edad y Tarifa (Fare)")
plt.xlabel("Edad")
plt.ylabel("Tarifa")
plt.legend(title='Survived', loc='upper right')
plt.show()

# Pairplot: Visualiza la relación entre varias variables numéricas y la variable 'Survived'
sns.pairplot(df_titanic[['Age', 'Fare', 'SibSp', 'Parch', 'Survived']], hue='Survived', diag_kind='kde')
plt.suptitle("Pairplot de Variables Numéricas del Dataset Titanic", y=1.02)
plt.show()

# Heatmap: Matriz de correlación de variables numéricas
plt.figure(figsize=(10, 8))
correlation_matrix = df_titanic.corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm")
plt.title("Matriz de Correlación del Dataset Titanic")
plt.show()



In [None]:
# Paso 4: Sistema de testeo para validar el análisis exploratorio.

# Test 1: Verificar que el DataFrame df_titanic tenga registros.
assert df_titanic.shape[0] > 0, "Test fallido: El DataFrame está vacío."

# Test 2: Verificar que las columnas 'Age' y 'Fare' existan en el DataFrame.
assert 'Age' in df_titanic.columns, "Test fallido: La columna 'Age' no se encontró."
assert 'Fare' in df_titanic.columns, "Test fallido: La columna 'Fare' no se encontró."

# Test 3: Verificar que la matriz de correlación tenga forma cuadrada para las variables numéricas.
numeric_cols = df_titanic.select_dtypes(include='number').columns
corr_matrix = df_titanic[numeric_cols].corr()
assert corr_matrix.shape[0] == corr_matrix.shape[1], "Test fallido: La matriz de correlación no es cuadrada."

print("Todos los tests se han pasado correctamente. El análisis exploratorio se realizó como se esperaba.")


## Reflexión Final

1. ¿Qué insights te aportaron las estadísticas descriptivas globales y por grupo (por ejemplo, sobre la edad y la tarifa) del dataset Titanic?
2. ¿Qué patrones o tendencias observaste en las visualizaciones (histograma, boxplot, scatter plot, pairplot y heatmap)?
3. ¿Cómo podrían estos insights influir en la formulación de hipótesis o en el diseño de un modelo predictivo?
4. ¿Qué otras visualizaciones o análisis consideras que podrían complementar este estudio exploratorio?

_Responde estas preguntas en una celda Markdown adicional o en un comentario._

