La limpieza de datos implica la eliminación o corrección de datos incorrectos, incompletos. duplicados o irrelevantes. Los principales pasos incluyen:

Imputación de valores faltantes Rellenar datos faltantes con algún valor especifico. Puede ser la media, la mediana, la moda o un valor específico según la estrategia elegida. Eliminación de duplicados: Identificar y eliminar filas duplicadas para evitar redundancias en el análisis. Corrección de datos erróneos: Corregir datos que no tienen sentido o están fuera de rango, asegurando la integridad de los datos.

1.3. Transformación de Datos:

La transformación de datos implica cambiar la forma o estructura de los datos. Incluye operaciones como:

Normalización: Escalar los datos para que caigan dentro de un rango especifico, generalmente (0. 11. Estandarización. Escalar los datos para que tengan media cero y varianza uno, lo que es útil para algoritmos sensibles a la escala de los datos. Codificación: Convertir variables categóncas en variables numéricas, por ejemplo, utilizando One-Hot Encoding.

1.4. Balanceo de Datos:
El balanceo de datos es el proceso de ajustar la distribución de las clases en un conjunto de datos, especialmente en el contexto de problemas de clasificación desequilibrada. Los métodos comunes incluyen:

Sobremuestreo (Oversampling): Añadir copias de las observaciones de la clase minoritaria Submuestreo (Undersampling): Eliminar observaciones de la clase mayoritaria. SMOTE (Synthetic Minority Over-sampling Technique): Generar nuevas observaciones sintéticas para la clase minoritaria mediante interpolación de los puntos existentes

1.5. Clustering:

El clustering es una técnica de aprendizaje no supervisado que agrupa datos en clusters basados en características similares. Los métodos comunes incluyen:

K-means: Divide los datos en k k clusters en los que cada punto pertenece al cluster con la media más cercana. DBSCAN (Density-Based Spatial Clustering of Applications with Noise): Agrupa puntos que están cercanos en densidad, permitiendo la identificación de clusters de forma arbitraria. Hierarchical Clustering: Crea una jerarquía de clusters mediante un entoque aglomerativo o divisivo.

2. Parte Práctica en Python

2.1. Importación de Librerías Necesarias

In [5]:
import pandas as pd 
import numpy as np
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans, DBSCAN 
from imblearn.over_sampling import SMOTE
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

2.2. Carga de Dataset

Vamos a utilizar el dataset de "Titatic" para esta clase practica

In [6]:
df = pd.read_csv("Titanic.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


2.3. Imputacion de valores flatantes

Imputar valores faltantes utilizando la media para las variables numericas y la moda para variables categoricas

In [7]:
#imputacion de valores umericas
imputer_num = SimpleImputer(strategy="mean")
df['Age'] = imputer_num.fit_transform(df[['Age']])

# Imputacion de valores categoricos
imputer_cat = SimpleImputer(strategy="most_frequent")
df['Embarked'] = imputer_cat.fit_transform(df[['Embarked']]).ravel()

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          891 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     891 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [9]:
# Eliminar duplicados
df.drop_duplicates(inplace=True)

In [10]:
# Por ejemplo, si hay edades negativas
df.loc[df['Age'] < 0, 'Age'] = df['Age'].median()

In [11]:
# Normalización
scaler_minmax = MinMaxScaler()
df['Age_normalized'] = scaler_minmax.fit_transform(df[['Age']])

# Estandarización
scaler_standar = StandardScaler()
df['Age_standardized'] = scaler_standar.fit_transform(df[['Age']])

In [24]:
# Codificación One-Hot
encoder = OneHotEncoder(sparse=False)  # sparse_output es un argumento incorrecto, el correcto es sparse
embarked_encoded = encoder.fit_transform(df[['Embarked']])

# Crear un DataFrame con las variables codificadas
# Usar get_feature_names_out para generar nombres de columnas basados en los valores únicos de 'Embarked'
embarked_encoded_df = pd.DataFrame(embarked_encoded, columns=encoder.get_feature_names_out())

# Concatenar el DataFrame original con el nuevo DataFrame de variables codificadas
df = pd.concat([df, embarked_encoded_df], axis=1)

# Eliminar la columna original categórica
df.drop(columns=['Embarked'], inplace=True)


TypeError: OneHotEncoder.__init__() got an unexpected keyword argument 'sparse'