# Sección 2 Lección 7: Implementando el preprocesamiento y la limpieza de datos

In [1]:
import pandas as pd

# Datos en formato diccionario
datos = {
    "Nombre": ["Lucía", "Carlos", "María", "David", "Ana", "Pepe", "Pepe"],
    "Edad": [28, 35, 22, 41, 30, 18, 18],
    "Sexo": ["F", "M", "F", "M", "F", "M", "M"],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla", "Bilbao", "Badajoz", "Badajoz"],
    "Salario": [32000, 45000, 29000, 51000, 38000, 27000, 27000]
}

# Crear DataFrame
df = pd.DataFrame(datos)

In [2]:
# Guardar como CSV
df.to_csv("datos.csv", index=False)

In [3]:
df = pd.read_csv("datos.csv")
print(df)

   Nombre  Edad Sexo     Ciudad  Salario
0   Lucía    28    F     Madrid    32000
1  Carlos    35    M  Barcelona    45000
2   María    22    F   Valencia    29000
3   David    41    M    Sevilla    51000
4     Ana    30    F     Bilbao    38000
5    Pepe    18    M    Badajoz    27000
6    Pepe    18    M    Badajoz    27000


In [4]:
# Revisar duplicados y eliminarlos si hay
print(f'Duplicados: {df.duplicated().sum()}')
df.drop_duplicates(inplace=True) #inplace es para sustituir directamente en el mismo objeto df

Duplicados: 1


In [5]:
print(df)

   Nombre  Edad Sexo     Ciudad  Salario
0   Lucía    28    F     Madrid    32000
1  Carlos    35    M  Barcelona    45000
2   María    22    F   Valencia    29000
3   David    41    M    Sevilla    51000
4     Ana    30    F     Bilbao    38000
5    Pepe    18    M    Badajoz    27000


# Carga de dataset de clasificación

In [6]:
#Cargar dataset
import seaborn as sns
import pandas as pd

df = sns.load_dataset("titanic")

In [7]:
"""
survived -->	Si el pasajero sobrevivió (1) o no (0).
pclass -->	    Clase del pasajero: 1 = Primera clase, 2 = Segunda clase, 3 = Tercera clase.
sex -->	        Sexo del pasajero (male = hombre, female = mujer).
age -->	        Edad del pasajero en años. Puede tener valores faltantes (NaN).
sibsp -->	    Número de hermanos o cónyuges a bordo (Siblings/Spouses).
parch -->	    Número de padres o hijos a bordo (Parents/Children).
fare -->	    Tarifa pagada por el pasajero para el billete.
embarked -->	Puerto de embarque: C = Cherbourg, Q = Queenstown, S = Southampton.
class -->	    Clase en formato texto (First, Second, Third), equivalente a pclass pero en texto.
who -->	        Clasificación simplificada de la persona: man, woman, child.
adult_male -->	Booleano: True si es un hombre adulto, False en caso contrario.
deck -->	    Cubierta del barco donde estaba el pasajero (A, B, C, etc.).
embark_town -->	Nombre completo del puerto de embarque (Cherbourg, Queenstown, Southampton).
alive -->	    Texto que indica si sobrevivió o no ("yes" o "no").
alone -->	    Booleano que indica si el pasajero estaba solo (True) o acompañado (False) en el barco.
"""

'\nsurvived -->\tSi el pasajero sobrevivió (1) o no (0).\npclass -->\t    Clase del pasajero: 1 = Primera clase, 2 = Segunda clase, 3 = Tercera clase.\nsex -->\t        Sexo del pasajero (male = hombre, female = mujer).\nage -->\t        Edad del pasajero en años. Puede tener valores faltantes (NaN).\nsibsp -->\t    Número de hermanos o cónyuges a bordo (Siblings/Spouses).\nparch -->\t    Número de padres o hijos a bordo (Parents/Children).\nfare -->\t    Tarifa pagada por el pasajero para el billete.\nembarked -->\tPuerto de embarque: C = Cherbourg, Q = Queenstown, S = Southampton.\nclass -->\t    Clase en formato texto (First, Second, Third), equivalente a pclass pero en texto.\nwho -->\t        Clasificación simplificada de la persona: man, woman, child.\nadult_male -->\tBooleano: True si es un hombre adulto, False en caso contrario.\ndeck -->\t    Cubierta del barco donde estaba el pasajero (A, B, C, etc.).\nembark_town -->\tNombre completo del puerto de embarque (Cherbourg, Queens

In [8]:
#Vista inicial
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [9]:
# 1. Revisar info y valores nulos
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB
None


In [10]:
print(df.isnull().sum())

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [11]:
# 2. Imputar o eliminar valores nulos
# Edad (age) tiene valores nulos, imputamos con la mediana
df['age'].fillna(df['age'].median(), inplace=True) #inplace es para sustituir directamente en el mismo objeto df

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['age'].fillna(df['age'].median(), inplace=True) #inplace es para sustituir directamente en el mismo objeto df


In [12]:
print(df.isnull().sum())

survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [13]:
# Embarked tiene pocos nulos, imputamos con la moda
df['embarked'].fillna(df['embarked'].mode()[0], inplace=True) #Ponemos el primer valor de la serie moda

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['embarked'].fillna(df['embarked'].mode()[0], inplace=True) #Ponemos el primer valor de la serie moda


In [14]:
print(df.isnull().sum())

survived         0
pclass           0
sex              0
age              0
sibsp            0
parch            0
fare             0
embarked         0
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64


In [15]:
# 3. Eliminar columnas poco útiles, redundantes o con muchos valores nulos
df.drop(columns=['deck', 'alive', 'class', 'who', 'adult_male', 'embark_town', 'alone'], inplace=True)

In [16]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked
0,0,3,male,22.0,1,0,7.2500,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.9250,S
3,1,1,female,35.0,1,0,53.1000,S
4,0,3,male,35.0,0,0,8.0500,S
...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S
887,1,1,female,19.0,0,0,30.0000,S
888,0,3,female,28.0,1,2,23.4500,S
889,1,1,male,26.0,0,0,30.0000,C


In [17]:
# 4. Convertir variables categóricas a numéricas con LabelEncoder
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in ['sex', 'embarked']:
    df[col] = le.fit_transform(df[col])

In [18]:
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked
0,0,3,1,22.0,1,0,7.2500,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.9250,2
3,1,1,0,35.0,1,0,53.1000,2
4,0,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...,...
886,0,2,1,27.0,0,0,13.0000,2
887,1,1,0,19.0,0,0,30.0000,2
888,0,3,0,28.0,1,2,23.4500,2
889,1,1,1,26.0,0,0,30.0000,0


## Separar X (características) e Y (clase objetivo)

In [19]:
from sklearn.preprocessing import MinMaxScaler
# Paso 1: Dividir X e y
X = df.drop('survived', axis=1)
y = df['survived']

In [20]:
X

Unnamed: 0,pclass,sex,age,sibsp,parch,fare,embarked
0,3,1,22.0,1,0,7.2500,2
1,1,0,38.0,1,0,71.2833,0
2,3,0,26.0,0,0,7.9250,2
3,1,0,35.0,1,0,53.1000,2
4,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...
886,2,1,27.0,0,0,13.0000,2
887,1,0,19.0,0,0,30.0000,2
888,3,0,28.0,1,2,23.4500,2
889,1,1,26.0,0,0,30.0000,0


In [21]:
y

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: survived, Length: 891, dtype: int64

In [22]:
# Paso 2: Normalizar X con MinMaxScaler
scaler = MinMaxScaler()
X_normalized = scaler.fit_transform(X)

In [23]:
# Paso 3: Convertir a DataFrame para facilitar lectura
X_normalized_df = pd.DataFrame(X_normalized, columns=X.columns)

In [24]:
print("\nDatos normalizados (primeras filas):\n", X_normalized_df.head())
print("\nVariable objetivo (y):\n", y.head())


Datos normalizados (primeras filas):
    pclass  sex       age  sibsp  parch      fare  embarked
0     1.0  1.0  0.271174  0.125    0.0  0.014151       1.0
1     0.0  0.0  0.472229  0.125    0.0  0.139136       0.0
2     1.0  0.0  0.321438  0.000    0.0  0.015469       1.0
3     0.0  0.0  0.434531  0.125    0.0  0.103644       1.0
4     1.0  1.0  0.434531  0.000    0.0  0.015713       1.0

Variable objetivo (y):
 0    0
1    1
2    1
3    1
4    0
Name: survived, dtype: int64


# Carga de dataset de regresión

In [25]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# Cargar dataset
data = fetch_california_housing(as_frame=True)
df = data.frame.copy()

# 1. Revisar datos generales
print("Dimensiones:", df.shape)
print("Primeras filas:\n", df.head())

Dimensiones: (20640, 9)
Primeras filas:
    MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
1  8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
2  7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
3  5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
4  3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   

   Longitude  MedHouseVal  
0    -122.23        4.526  
1    -122.22        3.585  
2    -122.24        3.521  
3    -122.25        3.413  
4    -122.25        3.422  


In [26]:
print("Info:\n")
print(df.info())

Info:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MedInc       20640 non-null  float64
 1   HouseAge     20640 non-null  float64
 2   AveRooms     20640 non-null  float64
 3   AveBedrms    20640 non-null  float64
 4   Population   20640 non-null  float64
 5   AveOccup     20640 non-null  float64
 6   Latitude     20640 non-null  float64
 7   Longitude    20640 non-null  float64
 8   MedHouseVal  20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB
None


In [27]:
print("Descripción estadística:\n", df.describe().round(2))

Descripción estadística:
          MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
count  20640.00  20640.00  20640.00   20640.00    20640.00  20640.00   
mean       3.87     28.64      5.43       1.10     1425.48      3.07   
std        1.90     12.59      2.47       0.47     1132.46     10.39   
min        0.50      1.00      0.85       0.33        3.00      0.69   
25%        2.56     18.00      4.44       1.01      787.00      2.43   
50%        3.53     29.00      5.23       1.05     1166.00      2.82   
75%        4.74     37.00      6.05       1.10     1725.00      3.28   
max       15.00     52.00    141.91      34.07    35682.00   1243.33   

       Latitude  Longitude  MedHouseVal  
count  20640.00   20640.00     20640.00  
mean      35.63    -119.57         2.07  
std        2.14       2.00         1.15  
min       32.54    -124.35         0.15  
25%       33.93    -121.80         1.20  
50%       34.26    -118.49         1.80  
75%       37.71    -118.01     

In [28]:
# 2. Revisar valores faltantes
print("\nValores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
MedInc         0
HouseAge       0
AveRooms       0
AveBedrms      0
Population     0
AveOccup       0
Latitude       0
Longitude      0
MedHouseVal    0
dtype: int64


In [29]:
# 3. Detectar outliers ( valores fuera de 4 desviaciones típicas)
for col in df.columns:
    mean = df[col].mean()
    std = df[col].std()
    lower_bound = mean - 4 * std
    upper_bound = mean + 4 * std

    # Detectar outliers
    outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
    print(f"Outliers en {col}: {len(outliers)}")

    # Tratar outliers limitando valores
    df[col] = np.clip(df[col], lower_bound, upper_bound)

Outliers en MedInc: 132
Outliers en HouseAge: 0
Outliers en AveRooms: 105
Outliers en AveBedrms: 108
Outliers en Population: 195
Outliers en AveOccup: 7
Outliers en Latitude: 0
Outliers en Longitude: 0
Outliers en MedHouseVal: 0


In [30]:
"""¿Qué es la desviación estándar (std)?
    Es una medida que indica cuánto varían o se dispersan los datos respecto a su media.
    Si la desviación estándar es pequeña, los datos están muy agrupados cerca de la media.
    Si es grande, los datos están más dispersos."""

'¿Qué es la desviación estándar (std)?\n    Es una medida que indica cuánto varían o se dispersan los datos respecto a su media.\n    Si la desviación estándar es pequeña, los datos están muy agrupados cerca de la media.\n    Si es grande, los datos están más dispersos.'

In [31]:
print("Descripción estadística:\n", df.describe().round(2))

Descripción estadística:
          MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
count  20640.00  20640.00  20640.00   20640.00    20640.00  20640.00   
mean       3.86     28.64      5.36       1.08     1405.06      2.95   
std        1.83     12.59      1.50       0.21      980.10      1.22   
min        0.50      1.00      0.85       0.33        3.00      0.69   
25%        2.56     18.00      4.44       1.01      787.00      2.43   
50%        3.53     29.00      5.23       1.05     1166.00      2.82   
75%        4.74     37.00      6.05       1.10     1725.00      3.28   
max       11.47     52.00     15.33       2.99     5955.33     44.61   

       Latitude  Longitude  MedHouseVal  
count  20640.00   20640.00     20640.00  
mean      35.63    -119.57         2.07  
std        2.14       2.00         1.15  
min       32.54    -124.35         0.15  
25%       33.93    -121.80         1.20  
50%       34.26    -118.49         1.80  
75%       37.71    -118.01     

In [32]:
# Puedes decidir tratar outliers (ejemplo, limitar valores extremos)

# Por ejemplo, limitar entre cuartil Q1 y Q3:
for col in df.columns:
    lower = df[col].quantile(0.25)
    upper = df[col].quantile(0.75)
    df[col] = np.clip(df[col], lower, upper)

In [33]:
print("Descripción estadística:\n", df.describe().round(2))

Descripción estadística:
          MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  \
count  20640.00  20640.00  20640.00   20640.00    20640.00  20640.00   
mean       3.61     27.98      5.24       1.05     1225.19      2.84   
std        0.88      7.82      0.65       0.04      380.66      0.34   
min        2.56     18.00      4.44       1.01      787.00      2.43   
25%        2.56     18.00      4.44       1.01      787.00      2.43   
50%        3.53     29.00      5.23       1.05     1166.00      2.82   
75%        4.74     37.00      6.05       1.10     1725.00      3.28   
max        4.74     37.00      6.05       1.10     1725.00      3.28   

       Latitude  Longitude  MedHouseVal  
count  20640.00   20640.00     20640.00  
mean      35.55    -119.60         1.88  
std        1.71       1.64         0.59  
min       33.93    -121.80         1.20  
25%       33.93    -121.80         1.20  
50%       34.26    -118.49         1.80  
75%       37.71    -118.01     

In [34]:
# 4. Separar características (X) y variable objetivo (y)
X = df.drop('MedHouseVal', axis=1)
y = df['MedHouseVal']

In [35]:
# 5. Escalado de variables (muy recomendable para modelos ML)
from sklearn.preprocessing import MinMaxScaler

# 5. Normalización de variables (escala [0, 1])
scaler = MinMaxScaler()
X_normalized = scaler.fit_transform(X)

# Convertir a DataFrame para verlo mejor
X_normalized_df = pd.DataFrame(X_normalized, columns=X.columns)

In [36]:
print("\nDatos normalizados (primeras filas):\n", X_normalized_df.head())
print("\nVariable objetivo (y):\n", y)


Datos normalizados (primeras filas):
      MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
0  1.000000  1.000000   1.00000   0.189738         0.0  0.147579       1.0   
1  1.000000  0.157895   1.00000   0.000000         1.0  0.000000       1.0   
2  1.000000  1.000000   1.00000   0.720914         0.0  0.436962       1.0   
3  1.000000  1.000000   0.85417   0.716773         0.0  0.138653       1.0   
4  0.588481  1.000000   1.00000   0.802616         0.0  0.000000       1.0   

   Longitude  
0        0.0  
1        0.0  
2        0.0  
3        0.0  
4        0.0  

Variable objetivo (y):
 0        2.64725
1        2.64725
2        2.64725
3        2.64725
4        2.64725
          ...   
20635    1.19600
20636    1.19600
20637    1.19600
20638    1.19600
20639    1.19600
Name: MedHouseVal, Length: 20640, dtype: float64


In [37]:
print(X_normalized_df.describe())

             MedInc      HouseAge      AveRooms     AveBedrms    Population  \
count  20640.000000  20640.000000  20640.000000  20640.000000  20640.000000   
mean       0.479386      0.525469      0.495246      0.484320      0.467152   
std        0.405441      0.411466      0.404420      0.404217      0.405826   
min        0.000000      0.000000      0.000000      0.000000      0.000000   
25%        0.000103      0.000000      0.000015      0.000049      0.000000   
50%        0.445627      0.578947      0.489191      0.456959      0.404051   
75%        0.999948      1.000000      1.000000      1.000000      1.000000   
max        1.000000      1.000000      1.000000      1.000000      1.000000   

           AveOccup      Latitude     Longitude  
count  20640.000000  20640.000000  20640.000000  
mean       0.484557      0.428535      0.579864  
std        0.404267      0.452128      0.433773  
min        0.000000      0.000000      0.000000  
25%        0.000041      0.000000     

In [38]:
print(y.describe())

count    20640.000000
mean         1.882176
std          0.585801
min          1.196000
25%          1.196000
50%          1.797000
75%          2.647062
max          2.647250
Name: MedHouseVal, dtype: float64
