In [None]:
# --- 03_valores_nulos_y_unicos.ipynb ---

# Objetivo: Identificar valores nulos y contar valores únicos en el dataset.

# 1. Importar librerías necesarias
import pandas as pd

# 2. Cargar el dataset del Titanic (usando la URL de GitHub que ya funciona)
# ¡Asegúrate de que esta URL es la que ya te funciona y apunta a tu titanic_train.csv en GitHub!
github_csv_url = 'https://raw.githubusercontent.com/mortemj/curso-ml/main/Fase_02/M2.1_Explorar/titanic_train.csv'

try:
    df_titanic = pd.read_csv(github_csv_url)
    print("Dataset del Titanic cargado exitosamente para análisis de nulos y únicos.")

    # --- 3.1: Verificación de Valores Nulos ---
    print("\n--- 3.1: Conteo de valores nulos por columna (df.isnull().sum()) ---")
    print("Nos muestra cuántos valores faltan en cada columna.")
    print(df_titanic.isnull().sum())

    print("\n--- 3.2: Porcentaje de valores nulos por columna (df.isnull().sum() / len(df) * 100) ---")
    print("Nos da una idea más clara de la proporción de datos faltantes.")
    nulos_porcentaje = (df_titanic.isnull().sum() / len(df_titanic)) * 100
    print(nulos_porcentaje.sort_values(ascending=False)) # Ordenamos para ver los más problemáticos primero

    # --- 3.3: Conteo de Valores Únicos ---
    print("\n--- 3.3: Conteo de valores únicos por columna (df.nunique()) ---")
    print("Nos muestra cuántos valores distintos hay en cada columna.")
    print(df_titanic.nunique())

    print("\n--- 3.4: Visualización de valores únicos en columnas categóricas importantes (df['columna'].value_counts()) ---")
    print("Para entender la distribución de las categorías.")
    # Ejemplos para algunas columnas categóricas. Puedes añadir o cambiar.
    print("\n'Survived' (Supervivencia):")
    print(df_titanic['Survived'].value_counts()) # 0 = No, 1 = Sí

    print("\n'Pclass' (Clase del pasajero):")
    print(df_titanic['Pclass'].value_counts()) # 1 = Primera, 2 = Segunda, 3 = Tercera

    print("\n'Sex' (Sexo):")
    print(df_titanic['Sex'].value_counts())

    print("\n'Embarked' (Puerto de embarque):")
    print(df_titanic['Embarked'].value_counts()) # S = Southampton, C = Cherbourg, Q = Queenstown


except Exception as e:
    print(f"Error al cargar o analizar el dataset: {e}")
    print("Asegúrate de que la URL en 'github_csv_url' es correcta y que el archivo CSV es accesible.")

Dataset del Titanic cargado exitosamente para análisis de nulos y únicos.

--- 3.1: Conteo de valores nulos por columna (df.isnull().sum()) ---
Nos muestra cuántos valores faltan en cada columna.
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

--- 3.2: Porcentaje de valores nulos por columna (df.isnull().sum() / len(df) * 100) ---
Nos da una idea más clara de la proporción de datos faltantes.
Cabin          77.104377
Age            19.865320
Embarked        0.224467
PassengerId     0.000000
Name            0.000000
Pclass          0.000000
Survived        0.000000
Sex             0.000000
Parch           0.000000
SibSp           0.000000
Fare            0.000000
Ticket          0.000000
dtype: float64

--- 3.3: Conteo de valores únicos por columna (df.nunique()) ---
Nos muestra cuántos valores d