# 🎓 **Taller 2.1: Análisis Exploratorio - Dataset Titanic**
## 📊 Estadísticas Descriptivas Generales, Univariables y Multivariables

## OBJETIVOS DEL TALLER:
* ✅ Obtener estadísticas descriptivas generales del dataset
* ✅ Analizar variables individuales (univariables)
* ✅ Explorar relaciones entre variables (multivariables)
* ✅ Practicar visualizaciones básicas
* ✅ Preparar datos para análisis avanzados

## 📝 INSTRUCCIONES PARA ENTREGA:

1. **GUARDA ESTE NOTEBOOK** en tu Google Drive siguiendo esta convencion para el nombre del archivo:  NombreApellidoAnalisisExploratorioTitanic.ipynb
2. **COMPLETA TODOS LOS TODOs** en las celdas siguientes
3. **EJECUTA TODAS LAS CELDAS** y verifica que funcionen

🎓 **RÚBRICA DE EVALUACIÓN:**
- ✅ Código completo y funcional (50%)
- ✅ Análisis correcto de estadísticas (30%)
- ✅ Visualizaciones adecuadas (10%)
- ✅ Reporte claro de hallazgos (10%)

# 🔧 **CONFIGURACIÓN INICIAL**

In [1]:
# Configuración e importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import drive
import os

# Configurar estilo de gráficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Montar Google Drive
drive.mount('/content/drive')
CURSO = "AprendizajeAutomatico2025"
BASE_FOLDER = "/content/drive/MyDrive/Colab Notebooks"
RUTA_CURSO = os.path.join(BASE_FOLDER, CURSO)

# Crear directorio
os.makedirs(BASE_FOLDER, exist_ok=True)

Mounted at /content/drive


# 📁 **LECTURA DEL DATASET**

In [2]:
# Cargar dataset Titanic
def cargar_dataset():
    try:
      path = RUTA_CURSO + '/data/titanic.csv'
      df = pd.DataFrame(pd.read_csv(path))
      return df
    except:
        try:
            # Intentar cargar desde URL alternativa
            url = "https://raw.githubusercontent.com/SandraNavarrete-docente/aprendizaje-automatico-252601/main/02-PREPROCESAMIENTO/data/titanic.csv"
            df = pd.read_csv(url)
            print("✅ Dataset cargado desde URL GitHub")
            return df
        except:
            print("❌ No se pudo cargar el dataset")
            return None

In [4]:
# Cargar dataset
titanic_df = cargar_dataset()

if titanic_df is not None:
    print(f"📊 Dataset cargado: {titanic_df.shape[0]} filas, {titanic_df.shape[1]} columnas")
    print("🔍 Primeras filas:")
    display(titanic_df.head())
else:
    print("⚠️ No se pudo cargar el dataset. Revisa la ruta en Drive.")

✅ Dataset cargado desde URL GitHub
📊 Dataset cargado: 891 filas, 12 columnas
🔍 Primeras filas:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 🎯 **EJERCICIO 1: ESTADÍSTICAS DESCRIPTIVAS GENERALES**

In [None]:
def obtener_estadisticas_generales(df):
    estadisticas = {}
    # TODO 1.1: Obtener número total de pasajeros
    estadisticas['total_pasajeros'] = None  # ← COMPLETAR

    # TODO 1.2: Obtener número de columnas
    estadisticas['total_columnas'] = None   # ← COMPLETAR

    # TODO 1.3: Obtener tipos de datos únicos
    estadisticas['tipos_datos'] = None      # ← COMPLETAR

    # TODO 1.4: Calcular porcentaje de supervivencia general
    estadisticas['tasa_supervivencia'] = None  # ← COMPLETAR

    return estadisticas

In [None]:
# Ejecutar funciones
print("🔍 Ejecutando análisis general...")
estadisticas = obtener_estadisticas_generales(titanic_df)

# Mostrar resultados
print("\n" + "=" * 40)
print("📈 ESTADÍSTICAS CALCULADAS")
print("=" * 40)
for key, value in estadisticas.items():
    print(f"{key}: {value}")

🔍 Ejecutando análisis general...

📈 ESTADÍSTICAS CALCULADAS
total_pasajeros: None
total_columnas: None
tipos_datos: None
tasa_supervivencia: None


# 📈 **EJERCICIO 2: ANÁLISIS UNIVARIABLE**

In [None]:
def analisis_univariable(df, columna):
    """
    Realiza análisis univariable para una columna específica
    Argumentos:
        df (DataFrame): Dataset
        columna (str): Nombre de la columna a analizar
    Retorna:
        dict: Estadísticas univariables
    """
    stats = {}

    # TODO 2.1: Obtener tipo de dato de la columna
    stats['tipo_dato'] = None  # ← COMPLETAR

    if df[columna].dtype in ['int64', 'float64']:
        # Para variables numéricas
        # TODO 2.2: Calcular medidas de tendencia central
        stats['media'] = None      # ← COMPLETAR
        stats['mediana'] = None    # ← COMPLETAR
        stats['moda'] = None       # ← COMPLETAR

        # TODO 2.3: Calcular medidas de dispersión
        stats['desviacion_std'] = None  # ← COMPLETAR
        stats['rango'] = None           # ← COMPLETAR
        stats['q1'] = None              # ← COMPLETAR
        stats['q3'] = None              # ← COMPLETAR
        stats['IQR'] = None             # ← COMPLETAR

    else:
        # Para variables categóricas
        # TODO 2.4: Calcular frecuencias
        stats['valores_unicos'] = None     # ← COMPLETAR
        stats['frecuencias'] = None        # ← COMPLETAR
        stats['valor_mas_frecuente'] = None # ← COMPLETAR

    return stats

In [None]:
def visualizar_univariable(df, columna):
    """
    Crea visualización para análisis univariable
    """
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))

    if df[columna].dtype in ['int64', 'float64']:
        # TODO 2.5: Crear histograma y boxplot para numéricas
        # Histograma
        ax1.hist(None, bins=20, alpha=0.7, edgecolor='black')  # ← COMPLETAR
        ax1.set_title(f'Distribución de {columna}')
        ax1.set_xlabel(columna)
        ax1.set_ylabel('Frecuencia')

        # Boxplot
        ax2.boxplot(None)  # ← COMPLETAR
        ax2.set_title(f'Boxplot de {columna}')
        ax2.set_ylabel(columna)

    else:
        # TODO 2.6: Crear gráfico de barras para categóricas
        counts = None  # ← COMPLETAR
        counts.plot(kind='bar', ax=ax1)
        ax1.set_title(f'Frecuencia de {columna}')
        ax1.set_xlabel(columna)
        ax1.set_ylabel('Frecuencia')
        plt.xticks(rotation=45)

        # Pie chart
        top_categories = counts.head(5)
        ax2.pie(top_categories.values, labels=top_categories.index, autopct='%1.1f%%')
        ax2.set_title(f'Top 5 categorías - {columna}')

    plt.tight_layout()
    plt.show()

In [None]:
# Análisis para variables específicas
print("🔍 ANÁLISIS UNIVARIABLE")
variables_analizar = ['age', 'fare', 'sex', 'pclass']

for var in variables_analizar:
    if var in titanic_df.columns:
        print(f"\n" + "="*50)
        print(f"📊 ANÁLISIS DE: {var.upper()}")
        print("="*50)

        stats = analisis_univariable(titanic_df, var)
        print("Estadísticas:")
        for key, value in stats.items():
            print(f"  {key}: {value}")

        visualizar_univariable(titanic_df, var)
    else:
        print(f"❌ Columna '{var}' no encontrada")

# 🔄 **EJERCICIO 3: ANÁLISIS MULTIVARIABLE**

In [None]:
def analisis_multivariable(df):
    """
    Realiza análisis de relaciones entre variables
    """
    print("🔍 INICIANDO ANÁLISIS MULTIVARIABLE")

    # TODO 3.1: Matriz de correlación para variables numéricas
    print("1. MATRIZ DE CORRELACIÓN:")
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    correlation_matrix = None  # ← COMPLETAR
    print(correlation_matrix)

    # Visualizar matriz de correlación
    plt.figure(figsize=(10, 8))
    sns.heatmap(None, annot=True, cmap='coolwarm', center=0)  # ← COMPLETAR
    plt.title('Matriz de Correlación - Variables Numéricas')
    plt.show()

    # TODO 3.2: Supervivencia por clase y género
    print("\n2. SUPERVIVENCIA POR CLASE Y GÉNERO:")
    survival_pivot = df.pivot_table(
        values='survived',
        index='pclass',
        columns='sex',
        aggfunc='mean'
    )
    print(survival_pivot)

    # Visualizar
    plt.figure(figsize=(10, 6))
    survival_pivot.plot(kind='bar')
    plt.title('Tasa de Supervivencia por Clase y Género')
    plt.ylabel('Tasa de Supervivencia')
    plt.xlabel('Clase')
    plt.legend(title='Género')
    plt.show()

    # TODO 3.3: Distribución de edad por supervivencia y clase
    print("\n3. DISTRIBUCIÓN DE EDAD POR SUPERVIVENCIA:")
    plt.figure(figsize=(12, 6))

    # Crear subgráficos
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))

    # Boxplot: Edad vs Supervivencia
    df.boxplot(column='age', by='survived', ax=axes[0])
    axes[0].set_title('Distribución de Edad por Supervivencia')

    # Violin plot: Edad por clase y supervivencia
    sns.violinplot(x='pclass', y='age', hue='survived',
                   data=df, split=True, ax=axes[1])
    axes[1].set_title('Edad por Clase y Supervivencia')

    plt.tight_layout()
    plt.show()

In [None]:
# Ejecutar análisis multivariable
analisis_multivariable(titanic_df)

# ✅ **EJERCICIO 4: REPORTE FINAL - CONCLUSIONES**

In [None]:
def generar_reporte_final():
    """
    Genera un reporte final con los hallazgos principales
    """
    print("📋 GENERANDO REPORTE FINAL")
    print("=" * 60)

    # Hallazgos principales
    print("🎯 HALLAZGOS PRINCIPALES:")
    print(f"1. Total de pasajeros: {len(titanic_df)}")
    print(f"2. Tasa general de supervivencia: {titanic_df['survived'].mean():.2%}")
    print(f"3. Edad promedio: {titanic_df['age'].mean():.1f} años")
    print(f"4. Tarifa promedio: ${titanic_df['fare'].mean():.2f}")

    # Análisis por género
    survival_by_sex = titanic_df.groupby('sex')['survived'].mean()
    print(f"5. Supervivencia por género:")
    for sex, rate in survival_by_sex.items():
        print(f"   - {sex}: {rate:.2%}")

    # Análisis por clase
    survival_by_class = titanic_df.groupby('pclass')['survived'].mean()
    print(f"6. Supervivencia por clase:")
    for pclass, rate in survival_by_class.items():
        print(f"   - Clase {pclass}: {rate:.2%}")

In [None]:
# Generar reporte
generar_reporte_final()

# 🚀 ¡TALLER FINALIZADO!"