In [15]:
# --- Configuración de la Clase ---
import pandas as pd
import numpy as np # Importamos numpy para crear NaN

# Volvemos a cargar el dataset
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = pd.read_csv(url)

print("¡Dataset Titanic listo para limpiar!")

¡Dataset Titanic listo para limpiar!


In [16]:
# --- Ejemplo 1.1: Inspección con .info() ---
# Esta es nuestra "radiografía". Vemos los "non-null count".
print("--- 1.1: Inspección con .info() ---")
df_titanic.info()
# Vemos que 'Age', 'Cabin' y 'Embarked' tienen valores nulos.


# --- Ejemplo 1.2: .isnull() ---
# Devuelve un DataFrame de True (si es nulo) / False (si no lo es)
print("\n--- 1.2: .isnull() (solo primeras 5 filas) ---")
print(df_titanic.isnull().head())


# --- Ejemplo 1.3: LA RECETA CLAVE: .isnull().sum() ---
# Esto cuenta cuántos valores nulos (True) hay en CADA columna.
print("\n--- 1.3: Conteo de Nulos por Columna ---")
print(df_titanic.isnull().sum())
# Resultado: Age tiene 177 nulos, Cabin 687, Embarked 2.

--- 1.1: Inspección con .info() ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

--- 1.2: .isnull() (solo primeras 5 filas) ---
   PassengerId  Survived  Pclass   Name    Sex    Age  SibSp  Parch  Ticket  \
0        False     False   False  False  False  False  False  False   False   
1 

In [17]:
# --- Ejemplo 2.1: dropna() por defecto (axis=0) ---
# Elimina cualquier FILA que tenga AL MENOS UN nulo.
print("\n--- 2.1: Forma antes y después de dropna() (filas) ---")
print(f"Forma Original: {df_titanic.shape}")

df_limpio_filas = df_titanic.dropna()
print(f"Forma después de dropna(): {df_limpio_filas.shape}")
# ¡Pasamos de 891 a 183 filas! ¡Perdimos 708 filas! (Muy malo)


# --- Ejemplo 2.2: dropna(axis=1) ---
# Elimina cualquier COLUMNA que tenga nulos.
df_limpio_cols = df_titanic.dropna(axis=1)

print("\n--- 2.2: Columnas después de dropna(axis=1) ---")
print(df_limpio_cols.columns)
# Perdimos 'Age', 'Cabin' y 'Embarked'. (También malo)


# --- Ejemplo 2.3: dropna() con 'subset' (Forma segura) ---
# Solo borramos filas si falta un valor en una columna CRÍTICA.
# Si falta 'Embarked' (solo 2 filas), es seguro borrarlas.
df_titanic_subset = df_titanic.dropna(subset=['Embarked'])

print("\n--- 2.3: Forma después de dropna(subset=['Embarked']) ---")
print(f"Forma Original: {df_titanic.shape}")
print(f"Forma nueva: {df_titanic_subset.shape}")
# ¡Solo perdimos 2 filas! Esto es aceptable.


--- 2.1: Forma antes y después de dropna() (filas) ---
Forma Original: (891, 12)
Forma después de dropna(): (183, 12)

--- 2.2: Columnas después de dropna(axis=1) ---
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch',
       'Ticket', 'Fare'],
      dtype='object')

--- 2.3: Forma después de dropna(subset=['Embarked']) ---
Forma Original: (891, 12)
Forma nueva: (889, 12)


In [18]:
# --- Ejemplo 3.1: Rellenar 'Embarked' con la MODA ---
# 'Embarked' es texto (categórico). Rellenémoslo con el valor más común.

# 1. Encontrar la moda (el valor más común)
moda_embarked = df_titanic['Embarked'].mode()[0] # El [0] es para tomar el valor
print(f"\n--- 3.1: Rellenando 'Embarked' ---")
print(f"La moda de 'Embarked' es: {moda_embarked}")

# 2. Rellenar los nulos con la moda
# Usamos inplace=True para modificar df_titanic directamente
df_titanic['Embarked'].fillna(moda_embarked, inplace=True)


# --- Ejemplo 3.2: Rellenar 'Age' con la MEDIA ---
# 'Age' es numérico. Rellenar con 0 es mala idea. Usemos el promedio.

# 1. Encontrar la media (promedio)
media_edad = df_titanic['Age'].mean()
print(f"\n--- 3.2: Rellenando 'Age' ---")
print(f"La media de 'Age' es: {media_edad:.2f}") # .2f es para 2 decimales

# 2. Rellenar los nulos con la media
df_titanic['Age'].fillna(media_edad, inplace=True)


# --- Ejemplo 3.3: Comprobación Final ---
# ¡Veamos si limpiamos 'Age' y 'Embarked'!
print("\n--- 3.3: Comprobación con .isnull().sum() ---")
print(df_titanic.isnull().sum())
# ¡Éxito! 'Age' y 'Embarked' ahora tienen 0 nulos.
# (Dejamos 'Cabin' porque tiene demasiados nulos (687) para ser útil)


--- 3.1: Rellenando 'Embarked' ---
La moda de 'Embarked' es: S

--- 3.2: Rellenando 'Age' ---
La media de 'Age' es: 29.70

--- 3.3: Comprobación con .isnull().sum() ---
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_titanic['Embarked'].fillna(moda_embarked, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_titanic['Age'].fillna(media_edad, inplace=True)


In [19]:
# --- Ejemplo 4.1: Creando un DF de ejemplo con duplicados ---
data_duplicada = {
    'id_usuario': [101, 102, 103, 101, 104],
    'email': ['ana@mail.com', 'luis@mail.com', 'ana@mail.com', 'ana@mail.com', 'pepe@mail.com']
}
df_demo = pd.DataFrame(data_duplicada)
print("\n--- 4.1: DataFrame con Duplicados ---")
print(df_demo)


# --- Ejemplo 4.2: Detección de duplicados ---
# .duplicated() marca una fila como True si es IDÉNTICA a una ANTERIOR
print("\n--- 4.2: Detección de duplicados ---")
print(df_demo.duplicated())
# La fila 3 es True porque es idéntica a la fila 0


# --- Ejemplo 4.3: Conteo de duplicados ---
print(f"\nTotal de duplicados exactos: {df_demo.duplicated().sum()}")


# --- Ejemplo 4.4: Eliminación de duplicados exactos ---
df_sin_duplicados = df_demo.drop_duplicates()
print("\n--- 4.4: DataFrame sin duplicados exactos ---")
print(df_sin_duplicados)


# --- Ejemplo 4.5: Eliminación con 'subset' ---
# A veces solo nos importa si una columna específica se repite
# Ej: No puede haber dos usuarios con el mismo 'email'
df_sin_email_duplicado = df_demo.drop_duplicates(subset=['email'])
print("\n--- 4.5: Sin emails duplicados (basado en 'email') ---")
print(df_sin_email_duplicado)
# Nota: Conserva 'ana@mail.com' la primera vez que aparece


--- 4.1: DataFrame con Duplicados ---
   id_usuario          email
0         101   ana@mail.com
1         102  luis@mail.com
2         103   ana@mail.com
3         101   ana@mail.com
4         104  pepe@mail.com

--- 4.2: Detección de duplicados ---
0    False
1    False
2    False
3     True
4    False
dtype: bool

Total de duplicados exactos: 1

--- 4.4: DataFrame sin duplicados exactos ---
   id_usuario          email
0         101   ana@mail.com
1         102  luis@mail.com
2         103   ana@mail.com
4         104  pepe@mail.com

--- 4.5: Sin emails duplicados (basado en 'email') ---
   id_usuario          email
0         101   ana@mail.com
1         102  luis@mail.com
4         104  pepe@mail.com
