In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# Cargar dataset.csv
df = pd.read_csv('/workspace/dataset.csv')

# Mostrar las primeras filas del DataFrame
df.head()

# Resumen de información del DataFrame
df.info()

# Contar valores faltantes por columna
missing_values = df.isnull().sum()
print("\nValores faltantes por columna:\n", missing_values[missing_values > 0])

# Identificar columnas numéricas con valores faltantes
# Identificar columnas numéricas con valores faltantes
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
numeric_missing = df[numeric_cols].isnull().sum()
numeric_missing = numeric_missing[numeric_missing > 0].index.tolist()

# Identificar columnas de texto con valores faltantes
text_cols = df.select_dtypes(include=['object']).columns.tolist()
text_missing = df[text_cols].isnull().sum()
text_missing = text_missing[text_missing > 0].index.tolist()

# Imputar valores faltantes con la moda o una cadena específica
for col in text_missing:
    if df[col].mode().empty:
        # Si no hay moda, asignar 'Desconocido'
        df[col] = df[col].fillna('Desconocido')
        print(f"Imputado {col} con la cadena 'Desconocido'")
    else:
        mode_value = df[col].mode()[0]
        df[col] = df[col].fillna(mode_value)
        print(f"Imputado {col} con la moda: {mode_value}")

# Identificar columnas categóricas
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

# Aplicar one-hot encoding
df = pd.get_dummies(df, columns=categorical_cols, drop_first=True)
print("\nOne-hot encoding aplicado a las variables categóricas.")

# Identificar columnas numéricas para escalar
columns_to_scale = ['Age', 'Fare']  # Añade otras columnas si es necesario

# Inicializar el escalador
scaler = StandardScaler()

# Aplicar el escalado
df[columns_to_scale] = scaler.fit_transform(df[columns_to_scale])
print("\nNormalización/Estandarización aplicada a las variables numéricas.")

# Verificar que no queden valores faltantes
total_missing = df.isnull().sum().sum()
print(f"\nTotal de valores faltantes después de la limpieza: {total_missing}")

# Mostrar las primeras filas del DataFrame limpio
print("\nPrimeras filas del DataFrame limpio:")
display(df.head())

# Guardar el DataFrame limpio en un nuevo archivo CSV
df.to_csv('/workspace/dataset_cleaned.csv', index=False)
print("\nEl DataFrame limpio ha sido guardado como 'dataset_cleaned.csv'.")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

Valores faltantes por columna:
 Age         177
Cabin       687
Embarked      2
dtype: int64
Imputado Cabin con la moda: B96 B98
Imputado Embarked con la moda: S

One-hot encoding aplicado a las variables categóricas.

Normalización/Estandariz

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,"Name_Abbott, Mr. Rossmore Edward","Name_Abbott, Mrs. Stanton (Rosa Hunt)","Name_Abelson, Mr. Samuel",...,Cabin_F G63,Cabin_F G73,Cabin_F2,Cabin_F33,Cabin_F38,Cabin_F4,Cabin_G6,Cabin_T,Embarked_Q,Embarked_S
0,1,0,3,-0.530377,1,0,-0.502445,False,False,False,...,False,False,False,False,False,False,False,False,False,True
1,2,1,1,0.571831,1,0,0.786845,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,3,1,3,-0.254825,0,0,-0.488854,False,False,False,...,False,False,False,False,False,False,False,False,False,True
3,4,1,1,0.365167,1,0,0.42073,False,False,False,...,False,False,False,False,False,False,False,False,False,True
4,5,0,3,0.365167,0,0,-0.486337,False,False,False,...,False,False,False,False,False,False,False,False,False,True



El DataFrame limpio ha sido guardado como 'dataset_cleaned.csv'.
