<a href="https://colab.research.google.com/github/William-Burbano-Lima/Analisis_Datos-Integrador/blob/main/21_03_2015_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Talento Tech - Analisis de Datos  

---

## **Tema: Análisis Exploratorio de Datos (EDA) en Python con Titanic**  
### **Duración:** 3 horas  
### **Nivel:** Intermedio  
### **Objetivo:**  
Los Campistas desarrollarán habilidades en análisis exploratorio de datos (EDA) utilizando Python y librerías como Pandas, Matplotlib y Seaborn.  

---

## **Estructura de la Clase**  

### **1. Introducción (15 min)**  
- **Concepto de EDA:** ¿Qué es y por qué es importante?  
- **Pasos en el análisis exploratorio:**  
  - Inspección de datos  
  - Limpieza de datos  
  - Análisis de patrones y relaciones  
- **Presentación del dataset Titanic**  

---

### **2. Carga y Exploración de Datos (30 min)**  
📌 **Ejercicio:** Cargar y visualizar la estructura del dataset.  
```python
import pandas as pd  

# Cargar datos  
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")  

# Mostrar primeras filas  
print(df.head())  

# Información general  
print(df.info())  

# Descripción estadística  
print(df.describe())  
```
🔹 **Discusión:**  
- ¿Cuáles son las columnas más relevantes?  
- ¿Qué problemas podemos detectar en los datos?  

---

### **3. Limpieza y Tratamiento de Datos (30 min)**  
📌 **Ejercicio:** Manejo de valores nulos y transformación de variables.  
```python
# Verificar valores nulos  
print(df.isnull().sum())  

# Rellenar valores nulos en 'Age' con la mediana  
df['Age'].fillna(df['Age'].median(), inplace=True)  

# Rellenar 'Embarked' con el valor más común  
df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)  

# Eliminar columna innecesaria  
df.drop(columns=['Cabin'], inplace=True)  
```
🔹 **Discusión:**  
- ¿Cómo afectan los valores nulos a nuestro análisis?  
- ¿Por qué elegimos estas técnicas de imputación?  

---

### **4. Análisis de Variables y Visualización (45 min)**  
📌 **Ejercicio:** Distribución de variables y correlaciones.  

📍 **Visualizar la distribución de edades:**  
```python
import seaborn as sns  
import matplotlib.pyplot as plt  

sns.histplot(df['Age'], bins=30, kde=True)  
plt.title("Distribución de edades")  
plt.show()  
```

📍 **Supervivencia por género:**  
```python
sns.countplot(x="Sex", hue="Survived", data=df)  
plt.title("Supervivencia por género")  
plt.show()  
```

📍 **Correlación entre variables:**  
```python
import numpy as np  

corr_matrix = df.corr()  
sns.heatmap(corr_matrix, annot=True, cmap="coolwarm", linewidths=0.5)  
plt.title("Matriz de correlación")  
plt.show()  
```
🔹 **Discusión:**  
- ¿Qué insights obtenemos de los gráficos?  
- ¿Cómo podríamos mejorar la visualización?  

---

### **5. Análisis Avanzado: Relación de Variables con la Supervivencia (45 min)**  
📌 **Ejercicio:** Identificar patrones entre clase, edad y supervivencia.  

📍 **Supervivencia por clase y edad:**  
```python
sns.boxplot(x="Pclass", y="Age", hue="Survived", data=df)  
plt.title("Edad y supervivencia por clase")  
plt.show()  
```

📍 **Relación entre tarifa del boleto y supervivencia:**  
```python
sns.histplot(df[df["Survived"]==1]["Fare"], bins=30, kde=True, color="green", label="Sobrevivientes")  
sns.histplot(df[df["Survived"]==0]["Fare"], bins=30, kde=True, color="red", label="No sobrevivientes")  
plt.legend()  
plt.title("Distribución de tarifas por supervivencia")  
plt.show()  
```
🔹 **Discusión:**  
- ¿Cómo influyen la edad y la clase en la supervivencia?  
- ¿Qué podríamos hacer para predecir mejor quién sobrevivió?  

---

### **6. Conclusiones y Aplicaciones (15 min)**  
- **Lecciones aprendidas sobre el Titanic.**  
- **Cómo usar EDA en otros datasets.**  
- **Posibles siguientes pasos (Machine Learning, modelado predictivo).**  

---
