# PREPROCESAMIENTO DE LA BASE DE DATOS

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()
import pandas as pd
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [3]:
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)  
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


## Tratamiento de datos faltantes

In [15]:
import numpy as np 
data = [[1.0,2.0,3.0,4.0], [5.0,6.0,np.nan,8.0], [10.0,11.0,12.0, np.nan]]
df = pd.DataFrame(np.array(data), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [6]:
df.isnull()


Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True


In [7]:
df.isnull().sum() 

A    0
B    0
C    1
D    1
dtype: int64

In [None]:
df.dropna() # no modifica el df original

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [11]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [12]:
# Eliminar filas con valores nulos 
df_cleaned = df.dropna()
df_cleaned

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [17]:
df.dropna(inplace=True) # modifica el df original
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [18]:
# Cargar los datos de nuevo
df = pd.DataFrame(np.array(data), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [19]:
df.dropna(axis=1, inplace=True) # elimina las columnas con valores nulos del df original
df

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [20]:
# Cargar los datos de nuevo
df = pd.DataFrame(np.array(data), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [21]:
# añadir una fila con NaN
df.loc[3] = [np.nan, np.nan, np.nan, np.nan]
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,,,,


In [25]:
# elimina filas donde todos los valores son NaN en el df original
df.dropna(how='all', inplace=True)  
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [30]:
df.loc[3] = [np.nan, np.nan, np.nan, 3.0]
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,,,,3.0


In [31]:
# elimina filas donde al menos 3 valores son NaN en el df original
df.dropna(thresh=3, inplace=True)
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [33]:
# elimina filas con valores nulos en la columna 'C' del df original
df.dropna(subset=['C'], inplace=True)
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [41]:
# Eliminar valores nulos mediante imputación
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean')
df = pd.DataFrame(np.array(data), columns=['A', 'B', 'C', 'D'])
df




Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [None]:
# conocer que hace la función
help(imputer.fit)

In [40]:
# aplicar la imputación: la media de las otras filas se usa para rellenar los valores nulos
nuevos_valores = imputer.fit_transform(df.values)
nuevos_valores

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

## Tratamiento de datos categóricos

In [44]:
df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [45]:
talla_mapping = {'XL':3, 'L':2, 'M':1} # Asignar valores enteros a las categorías
df['size'] = df['size'].map(talla_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [47]:
clase_mapping = {'class1':0, 'class2':1}
df['classlabel'] = df['classlabel'].map(clase_mapping)
colors_mapping = {0:'red', 1:'blue', 2:'green'}
df['color'] = df['color'].map(colors_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,,1,10.1,
1,,2,13.5,
2,,3,15.3,


In [49]:
# cargar los datos de nuevo
df = pd.DataFrame([['green', 'M', 10.1, 'class1'],
                   ['red', 'L', 13.5, 'class2'],
                   ['blue', 'XL', 15.3, 'class1']])
df.columns = ['color', 'talla', 'peso', 'clase']
df

Unnamed: 0,color,talla,peso,clase
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [52]:
# Usar LabelEncoder para convertir variables categóricas a numéricas de manera automática
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

df['color'] = le.fit_transform(df['color'])
df['talla'] = le.fit_transform(df['talla'])
df['clase'] = le.fit_transform(df['clase'])

df

Unnamed: 0,color,talla,peso,clase
0,1,1,10.1,0
1,2,0,13.5,1
2,0,2,15.3,0


In [54]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [72]:
iris_resultado = pd.DataFrame(data=iris.target, columns=['tipo de iris'])
# cambiar esas variables numericas a categóricas de nuevo en el DataFrame
iris_resultado['tipo de iris'].replace({0:'setosa', 1:'versicolor', 2:'virginica'}, inplace=True)
iris_resultado

    ## esto solo se haría en los resultados, en los entrenos todo sería numérico


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  iris_resultado['tipo de iris'].replace({0:'setosa', 1:'versicolor', 2:'virginica'}, inplace=True)


Unnamed: 0,tipo de iris
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


In [73]:
iris_resultado = pd.get_dummies(iris_resultado, columns=['tipo de iris'])
iris_resultado

Unnamed: 0,tipo de iris_setosa,tipo de iris_versicolor,tipo de iris_virginica
0,True,False,False
1,True,False,False
2,True,False,False
3,True,False,False
4,True,False,False
...,...,...,...
145,False,False,True
146,False,False,True
147,False,False,True
148,False,False,True


## One Hot Encoder
Es una técnica para convertir variables categóricas en variables binarias (0 o 1) que representan la presencia o ausencia de una categoría específica.


In [92]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

data = [['green', 'M', 10.1, 'class1'],
        ['red', 'L', 13.5, 'class2'],   
        ['blue', 'XL', 15.3, 'class1']] 
df = pd.DataFrame(data, columns=['color', 'size', 'price', 'classlabel'])
print('DataFrame original con variables categóricas')
print(df)

df_dummies = pd.get_dummies(df, columns=['color', 'size', 'classlabel'])
print('\nDataFrame con variables categóricas convertidas a variables dummy\n', df_dummies)
df_dummies

# One Hot Encoder con sklearn
ohe = OneHotEncoder()
ohe_array = ohe.fit_transform(df[['color', 'size', 'classlabel']]).toarray()
ohe_array = pd.DataFrame(ohe_array, columns=ohe.get_feature_names_out(['color', 'size', 'classlabel']))
ohe_array = pd.concat([ohe_array, df[['price']].reset_index(drop=True)], axis=1)
print('\nDataFrame con variables categóricas convertidas a variables dummy usando OneHotEncoder de sklearn\n', ohe_array)



DataFrame original con variables categóricas
   color size  price classlabel
0  green    M   10.1     class1
1    red    L   13.5     class2
2   blue   XL   15.3     class1

DataFrame con variables categóricas convertidas a variables dummy
    price  color_blue  color_green  color_red  size_L  size_M  size_XL  \
0   10.1       False         True      False   False    True    False   
1   13.5       False        False       True    True   False    False   
2   15.3        True        False      False   False   False     True   

   classlabel_class1  classlabel_class2  
0               True              False  
1              False               True  
2               True              False  

DataFrame con variables categóricas convertidas a variables dummy usando OneHotEncoder de sklearn
    color_blue  color_green  color_red  size_L  size_M  size_XL  \
0         0.0          1.0        0.0     0.0     1.0      0.0   
1         0.0          0.0        1.0     1.0     0.0      0.0   


## Estandarizado o escalado de los datos 

In [96]:
from sklearn.datasets import load_wine
import pandas as pd

wine = load_wine()
wine_df = pd.DataFrame(data=wine.data, columns=wine.feature_names)
wine_df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [101]:
wine

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [103]:
from sklearn.model_selection import train_test_split
# Características y etiquetas (variables objetivo)
X, y = wine_df, wine.target 

# Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba) estratificando según las clases (proporcional a cada clase)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
print(X_train)
print(y_train)

     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
36     13.28        1.64  2.84               15.5      110.0           2.60   
30     13.73        1.50  2.70               22.5      101.0           3.00   
26     13.39        1.77  2.62               16.1       93.0           2.85   
12     13.75        1.73  2.41               16.0       89.0           2.60   
148    13.32        3.24  2.38               21.5       92.0           1.93   
..       ...         ...   ...                ...        ...            ...   
142    13.52        3.17  2.72               23.5       97.0           1.55   
87     11.65        1.67  2.62               26.0       88.0           1.92   
34     13.51        1.80  2.65               19.0      110.0           2.35   
163    12.96        3.45  2.35               18.5      106.0           1.39   
131    12.88        2.99  2.40               20.0      104.0           1.30   

     flavanoids  nonflavanoid_phenols  proanthocyan

In [105]:
from sklearn.model_selection import train_test_split
# estas funciones de las librerías sirven para escalar los datos y el robust scaler es útil para datos con outliers
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

X, y = wine_df, wine.target 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print('Valores sin escalar:')
print(X_train)
print(X_test)

print('\nValores con escala estandar:')
standard_scaler = StandardScaler() # crear el objeto StandardScaler
X_train_scaled = standard_scaler.fit_transform(X_train) # ajustar y transformar los datos de entrenamiento
X_test_scaled = standard_scaler.transform(X_test) # transformar los datos de prueba
print(X_train_scaled)
print(X_test_scaled)


print('\nValores con escala Min-Max:')
minmax_scaler = MinMaxScaler() # crear el objeto MinMaxScaler
X_train_minmax = minmax_scaler.fit_transform(X_train) # ajustar y transformar los datos de entrenamiento
X_test_minmax = minmax_scaler.transform(X_test) # transformar los datos de prueba
print(X_train_minmax)
print(X_test_minmax)

print('\nValores con escala Robust:')
robust_scaler = RobustScaler() # crear el objeto RobustScaler
X_train_robust = robust_scaler.fit_transform(X_train) # ajustar y transformar los datos de entrenamiento
X_test_robust = robust_scaler.transform(X_test) # transformar los datos de prueba
print(X_train_robust)
print(X_test_robust)


Valores sin escalar:
     alcohol  malic_acid   ash  alcalinity_of_ash  magnesium  total_phenols  \
36     13.28        1.64  2.84               15.5      110.0           2.60   
30     13.73        1.50  2.70               22.5      101.0           3.00   
26     13.39        1.77  2.62               16.1       93.0           2.85   
12     13.75        1.73  2.41               16.0       89.0           2.60   
148    13.32        3.24  2.38               21.5       92.0           1.93   
..       ...         ...   ...                ...        ...            ...   
142    13.52        3.17  2.72               23.5       97.0           1.55   
87     11.65        1.67  2.62               26.0       88.0           1.92   
34     13.51        1.80  2.65               19.0      110.0           2.35   
163    12.96        3.45  2.35               18.5      106.0           1.39   
131    12.88        2.99  2.40               20.0      104.0           1.30   

     flavanoids  nonflavanoid_