<a href="https://colab.research.google.com/github/martincastanonicolas-source/IA/blob/master/02-pandas-limpieza/limpieza_titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Limpieza y Exploración de Datos**

In [2]:
# DATASET
import numpy as np
import pandas as pd
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)


##Bloque 1: Exploración inicial

In [3]:
stations = ["Madrid-Retiro", "Barcelona-El Prat", "Sevilla-Aeropuerto", "Bilbao-Sondica", "Granada-Base Aérea"]

#Ejercicio 1. Primera inspección
#Carga el dataset y responde: ¿Cuantas filas y columnas tiene?
#¿Cuáles son los tipos de datos de cada columna?
#¿Cuánta memoria ocupa el DataFrame?
print(f"Ejercicio 1:")
print(f"Número de columnas: {df.shape[0]}\nNúmero de filas {df.shape[1]}")
print(f"\nTipos de datos por columna:\n{df.dtypes}")
print(f"\nUso de memoria:\n{df.memory_usage(deep=True)}")


#Ejercicio 2. Estadísticas descriptivas
#Genera un resumen estadístico de las variables numéricas.
#¿Cuál es la edad media? ¿Y la tarifa media? ¿Hay algún valor
#que te llame la atención como posible anomalía?
print(f"\nEjercicio 2:")
print(df.describe())
print(f"\nLa media de edad es: {np.round(df['Age'].mean(), 2)}")
print(f"\nLa tarifa media es: {np.round(df['Fare'].mean(), 2)}")
print(f"\nLa tarifa mínima es de: {df['Fare'].min()}$")


#Ejercicio 3. Distribución de variables categóricas
#¿Cuántos pasajeros hay de cada sexo? ¿Cuántos en cada clase? ¿Desde qué
#puerto embarcaron más pasajeros? Usa value_counts() para responder.
print(f"\nEjercicio 3:")
sex_counts = df['Sex'].value_counts()
print(f"\nHabian a bordo {sex_counts['male']} hombres y {sex_counts['female']} mujeres")


Ejercicio 1:
Número de columnas: 891
Número de filas 12

Tipos de datos por columna:
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Uso de memoria:
Index            132
PassengerId     7128
Survived        7128
Pclass          7128
Name           67685
Sex            47851
Age             7128
SibSp           7128
Parch           7128
Ticket         49674
Fare            7128
Cabin          32712
Embarked       44514
dtype: int64


Ejercicio 2:
       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000

##Bloque 2: Diagnóstico de calidad de datos

In [4]:
#Ejercicio 4. Mapa de valores faltantes
#Crea un informe que muestre para cada columna: número de valores faltantes,
#porcentaje del total, y tipo de dato. Ordena el
#resultado de mayor a menor porcentaje de missing.
print(f"Ejercicio 4:")
informe = pd.DataFrame({
    'Valores_Faltantes': df.isnull().sum(),
    'Porcentaje': np.round((df.isnull().sum() / len(df) * 100),2),
    'Tipo_Dato': df.dtypes
})
informe = informe.sort_values('Porcentaje', ascending=False)
print(informe)


#Ejercicio 5. Análisis de la variable Cabin
#La columna Cabin tiene muchos valores faltantes.
#Para los registros que sí tienen cabina, ¿puedes extraer
#la letra inicial (que indica la cubierta)? ¿Hay relación
#entre la cubierta y la clase del pasajero?
print(f"\nEjercicio 5:")
df['Cubierta'] = df['Cabin'].str[0]
df_con_cabin = df[df['Cubierta'].notna()] #notna (detecta nulos)
tabla = df_con_cabin.groupby(['Cubierta', 'Pclass']).size().unstack(fill_value=0)
#unstack (pivota datos)
print(f"\n{tabla}\n")


#Ejercicio 6. Detección de duplicados
#¿Hay filas completamente duplicadas en el dataset?
#¿Y duplicados parciales (mismo nombre y ticket)?
#Si los hay, ¿cómo los gestionarías?
print(f"\nEjercicio 6:")
print("Duplicados completos:")
print(df.duplicated().sum())
print("Duplicados parciales:")
print(df.duplicated(subset=['Name', 'Ticket']).sum())
print("drop_duplicates()")
print("drop_duplicates(subset=['Name', 'Ticket'], keep='first')")
#keep='first' mantiene la primera aparición y descarta el resto


#Ejercicio 7. Consistencia de datos
#Verifica que los valores de Pclass estén en el rango
#esperado (1, 2, 3). ¿Hay algún pasajero con edad negativa
#o tarifa negativa? ¿Hay valores atípicos en la tarifa (outliers extremos)?
print(f"\nEjercicio 7:")
print("Pclass válidas:")
print(df['Pclass'].unique())

print("\nEdades negativas:")
print((df['Age'] < 0).sum())

print("\nTarifas negativas:")
print((df['Fare'] < 0).sum())

print("\nOutliers en Fare:")
print(f"Máximo: {df['Fare'].max()}")
outliers = ((df['Fare'] >= 1000) | (df['Fare'] < 5)).sum()
print(f"Tarifas >= 500 o menos de 10: {outliers}")


             Valores_Faltantes  Porcentaje Tipo_Dato
Cabin                      687       77.10    object
Age                        177       19.87   float64
Embarked                     2        0.22    object
PassengerId                  0        0.00     int64
Name                         0        0.00    object
Pclass                       0        0.00     int64
Survived                     0        0.00     int64
Sex                          0        0.00    object
Parch                        0        0.00     int64
SibSp                        0        0.00     int64
Fare                         0        0.00   float64
Ticket                       0        0.00    object

Pclass     1  2  3
Cubierta          
A         15  0  0
B         47  0  0
C         59  0  0
D         29  4  0
E         25  4  3
F          0  8  5
G          0  0  4
T          1  0  0

Duplicados completos:
0
Duplicados parciales:
0
drop_duplicates()
drop_duplicates(subset=['Name', 'Ticket'], keep='firs

##Bloque 3: Tratamiento de valores faltantes

In [28]:
#Ejercicio 8. Imputación de Age
#Imputa los valores faltantes de Age con la mediana de edad según el
#título extraído del nombre (Mr, Mrs, Miss, Master, etc.).
#Justifica por qué la mediana es mejor que la media en este caso.
print(f"\nEjercicio 8:")
df['Title'] = df['Name'].str.extract(r' ([A-Za-z]+)\.', expand=False)
df['Age'] = df['Title'].map(df.groupby('Title')['Age'].median())
print(f"Mediana de edad por título:\n{df.groupby('Title')['Age'].median()}")
#La Mediana no se ve afectada por edades extremas, siendo más precisa a la hora
#de insertar datos sin querer afectar los balances.


#Ejercicio 9. Decisión sobre Cabin
#Con un 77% de valores faltantes, ¿tiene sentido intentar imputar Cabin?
#Propón dos alternativas: (a) crear una variable binaria HasCabin,
#(b) eliminar la columna. Argumenta cuál elegirías y por qué.
print(f"\nEjercicio 9:")
df['HasCabin'] = df['Cabin'].notna().astype(int)
sin_cabin = df[df['HasCabin'] == 0]['Survived'].mean() * 100
con_cabin = df[df['HasCabin'] == 1]['Survived'].mean() * 100
print(f"\nSupervivencia sin cabina: {sin_cabin:.2f}%")
print(f"Supervivencia con cabina: {con_cabin:.2f}%")


#Ejercicio 10. Imputación de Embarked
#Solo hay 2 valores faltantes en Embarked. Investiga esos dos pasajeros:
#¿comparten alguna característica (clase, tarifa, cabina)?
#Imputa con el valor más probable basándote en esta información.
print(f"\nEjercicio 10:")
pasajeros_sin_embarked = df[df['Embarked'].isna()]
print(pasajeros_sin_embarked[['PassengerId', 'Name', 'Pclass', 'Fare', 'Cabin', 'Sex', 'Age']])


Mediana de edad por título:
Title
Capt        70.0
Col         58.0
Countess    33.0
Don         40.0
Dr          46.5
Jonkheer    38.0
Lady        48.0
Major       48.5
Master       3.5
Miss        21.0
Mlle        24.0
Mme         24.0
Mr          30.0
Mrs         35.0
Ms          28.0
Rev         46.5
Sir         49.0
Name: Age, dtype: float64

Supervivencia sin cabina: 29.99%
Supervivencia con cabina: 66.67%
Empty DataFrame
Columns: [PassengerId, Name, Pclass, Fare, Cabin, Sex, Age]
Index: []


##Bloque 4: Análisis exploratorio de supervivencia

In [61]:
#Ejercicio 11. Supervivencia por sexo
#Calcula la tasa de supervivencia por sexo.
#¿Confirma el principio "mujeres y niños primero"?
#Expresa el resultado como porcentaje.
print(f"\nEjercicio 11:")
supervivencia_sexo = df.groupby('Sex')['Survived'].mean() * 100
print(f"Mujeres: {supervivencia_sexo['female']:.2f}%")
print(f"Hombres: {supervivencia_sexo['male']:.2f}%")
print(f"Mujeres y niños si fueron primero")


#Ejercicio 12. Supervivencia por clase
#Calcula la tasa de supervivencia por clase de billete.
#¿Hay diferencias significativas? ¿Que hipótesis podrías formular
#sobre la ubicación de los camarotes de cada clase?
print(f"\nEjercicio 12:")
supervivencia_clase = df.groupby('Pclass')['Survived'].mean() * 100
print(f"Clase 1: {supervivencia_clase[1]:.2f}%")
print(f"Clase 2: {supervivencia_clase[2]:.2f}%")
print(f"Clase 3: {supervivencia_clase[3]:.2f}%")
print(f"\nHipótesis sobre ubicación de camarotes:")
print(f"Cubiertas superiores (más cerca de las salidas y botes salvavidas)")
print(f"Cubiertas inferiores (más lejanas de las salidas y botes salvavidas)")

#Ejercicio 13. Tabla cruzada sexo-clase
#Crea una tabla cruzada (crosstab) que muestre la tasa de supervivencia
#combinando sexo y clase. ¿Quién tenía más probabilidades de sobrevivir:
#un hombre de primera clase o una mujer de tercera?
print(f"\nEjercicio 13:")
tabla = pd.crosstab(df['Sex'], df['Pclass'], df['Survived'], aggfunc='mean') * 100
print(tabla.round(2))
hombre_1clase = tabla.loc['male', 1]
mujer_3clase = tabla.loc['female', 3]
print(f"\nHombre de 1ª clase: {hombre_1clase:.2f}%")
print(f"Mujer de 3ª clase: {mujer_3clase:.2f}%")


#Ejercicio 14. Efecto de la edad
#Crea grupos de edad: niño (0-12), adolescente (13-17),
#adulto (18-59) y mayor(60+). Calcula la tasa de supervivencia por grupo.
#¿Los niños tuvieron ventaja?
print(f"\nEjercicio 14:")
edades = [0, 12, 17, 59, 100]
labels = ['Niño', 'Adolescente', 'Adulto', 'Mayor']
#"Cortar" el dataset en grupos por edades
df['GrupoEdad'] = pd.cut(df['Age'], bins=edades, labels=labels, right=True)

#Observed=False para que no salga el deprecado.
supervivencia_edad = df.groupby('GrupoEdad', observed=False)['Survived'].mean() * 100
print(f"Niño (0-12): {supervivencia_edad['Niño']:.2f}%")
print(f"Adolescente (13-17): {supervivencia_edad['Adolescente']:.2f}%")
print(f"Adulto (18-59): {supervivencia_edad['Adulto']:.2f}%")
print(f"Mayor (60+): {supervivencia_edad['Mayor']:.2f}%")

# Verificar si hay adolescentes
adolescentes = df[(df['Age'] >= 13) & (df['Age'] <= 17)]
print(f"\nNúmero de adolescentes: {len(adolescentes)}")

#Ejercicio 15. Efecto del tamaño familiar
#Crea una variable FamilySize = SibSP + Parch + 1.
#Agrupa en: solo (1), pequeña (2-4), grande (5+). ¿Las personas que
#viajaban solas tenían más o menos probabilidades de sobrevivir?
print(f"\nEjercicio 15:")
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
df['FamilyGroup'] = pd.cut(df['FamilySize'], bins=[0, 1, 4, 20], labels=['Solo', 'Pequeña', 'Grande'], right=True)
supervivencia_familia = df.groupby('FamilyGroup', observed=False)['Survived'].mean() * 100
print(f"Solo (1): {supervivencia_familia['Solo']:.2f}%")
print(f"Pequeña (2-4): {supervivencia_familia['Pequeña']:.2f}%")
print(f"Grande (5+): {supervivencia_familia['Grande']:.2f}%")




Ejercicio 11:
Mujeres: 74.20%
Hombres: 18.89%
Mujeres y niños si fueron primero

Ejercicio 12:
Clase 1: 62.96%
Clase 2: 47.28%
Clase 3: 24.24%

Hipótesis sobre ubicación de camarotes:
Cubiertas superiores (más cerca de las salidas y botes salvavidas)
Cubiertas inferiores (más lejanas de las salidas y botes salvavidas)

Ejercicio 13:
Pclass      1      2      3
Sex                        
female  96.81  92.11  50.00
male    36.89  15.74  13.54

Hombre de 1ª clase: 36.89%
Mujer de 3ª clase: 50.00%

Ejercicio 14:
Niño (0-12): 57.50%
Adolescente (13-17): nan%
Adulto (18-59): 37.53%
Mayor (60+): 0.00%

Número de adolescentes: 0

Ejercicio 15:
Solo (1): 30.35%
Pequeña (2-4): 57.88%
Grande (5+): 16.13%


##Bloque 5: Ejercicio integrador

In [65]:
#Ejercicio 16. Pipeline de limpieza completo
#Crea una función llamada limpiar_titanic(df) que reciba el DataFrame
#original y devuelva un DataFrame limpio aplicando todas las
#transformaciones que has desarrollado:

  #Extraer título del nombre
  #Imputar Age con la mediana por título
  #Crear variable HasCabin a partir de Cabin
  #Imputar Embarked con el valor más frecuente
  #Crear variable FamilySize
  #Crear variable AgeDroup con las categorías definidas
  #Eliminar columnas que no se usarán: PassengerId, Name, Ticket, Cabin

#La función debe ser reutilizable para aplicar las mismas transformaciones
#al conjunto de test en un futuro modelo predictivo.
def limpiar_titanic(df):
    df_nuevo = df.copy()

    # Extraer título
    df_nuevo['Title'] = df_nuevo['Name'].str.extract(r' ([A-Za-z]+)\.')

    # Imputar Age por título
    titulos = df_nuevo['Title'].unique()
    for titulo in titulos:
        edad_mediana = df_nuevo[df_nuevo['Title'] == titulo]['Age'].median()
        sin_edad = df_nuevo['Age'].isna()
        mismo_titulo = df_nuevo['Title'] == titulo
        #Asignamos si se cumplen las condiciones
        df_nuevo.loc[sin_edad & mismo_titulo, 'Age'] = edad_mediana

    # Crear HasCabin
    tiene_cabin = df_nuevo['Cabin'].notna()
    df_nuevo['HasCabin'] = tiene_cabin.astype(int)

    # Imputar Embarked
    embarked_frecuente = df_nuevo['Embarked'].mode()[0] #moda
    df_nuevo['Embarked'] = df_nuevo['Embarked'].fillna(embarked_frecuente)

    # Crear FamilySize
    df_nuevo['FamilySize'] = df_nuevo['SibSp'] + df_nuevo['Parch'] + 1

    # Crear AgeGroup
    df_nuevo['AgeGroup'] = pd.cut(df_nuevo['Age'],
                                    bins=[0, 12, 17, 59, 100],
                                    labels=['Niño', 'Adolescente', 'Adulto', 'Mayor'])

    # Eliminar columnas
    df_nuevo = df_nuevo.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin'])
    return df_nuevo

url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)
df_limpio = limpiar_titanic(df)

print(df_limpio.head())
print(f"\nColumnas: {list(df_limpio.columns)}")
print(f"\nValores faltantes:\n{df_limpio.isna().sum()}")

   Survived  Pclass     Sex   Age  SibSp  Parch     Fare Embarked Title  \
0         0       3    male  22.0      1      0   7.2500        S    Mr   
1         1       1  female  38.0      1      0  71.2833        C   Mrs   
2         1       3  female  26.0      0      0   7.9250        S  Miss   
3         1       1  female  35.0      1      0  53.1000        S   Mrs   
4         0       3    male  35.0      0      0   8.0500        S    Mr   

   HasCabin  FamilySize AgeGroup  
0         0           2   Adulto  
1         1           2   Adulto  
2         0           1   Adulto  
3         1           2   Adulto  
4         0           1   Adulto  

Columnas: ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked', 'Title', 'HasCabin', 'FamilySize', 'AgeGroup']

Valores faltantes:
Survived      0
Pclass        0
Sex           0
Age           0
SibSp         0
Parch         0
Fare          0
Embarked      0
Title         0
HasCabin      0
FamilySize    0
AgeGroup  