In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler

In [2]:
# -----------------------------
# 1. CARGAR LOS DATOS DESDE CSV
# -----------------------------
# Definimos la ruta del archivo CSV que contiene nuestros datos
csv_path = 'datos_ejemplo.csv'  # Esta variable almacena la ubicación del archivo para facilitar su modificación posterior
# Leemos el archivo CSV y lo cargamos en un DataFrame de pandas, que es una estructura de datos tabular para manipulación eficiente
df = pd.read_csv(csv_path)

In [3]:
# Mostramos las primeras 5 filas del DataFrame para verificar que los datos se cargaron correctamente
print("🔹 Datos Cargados desde CSV:\n", df.head())

🔹 Datos Cargados desde CSV:
    ID  Nombre  Edad      Ciudad  Salario Genero
0   1     Ana  23.0      La Paz   5000.0      F
1   2    Luis   NaN  Cochabamba   5500.0      M
2   3   Pedro  30.0  Santa Cruz      NaN      M
3   4   Maria  28.0      Tarija   6000.0      F
4   5  Carlos  35.0      Potosi   7000.0      M


In [4]:
# -----------------------------
# 2. LIMPIEZA DE DATOS FALTANTES
# -----------------------------

# Verificamos la cantidad de valores nulos en cada columna para identificar problemas de datos faltantes
print("\n🔹 Valores Nulos por Columna:\n", df.isnull().sum())


🔹 Valores Nulos por Columna:
 ID         0
Nombre     1
Edad       2
Ciudad     1
Salario    2
Genero     1
dtype: int64


In [5]:
# Identificamos todas las columnas numéricas del DataFrame para tratarlas adecuadamente
# select_dtypes filtra columnas por tipo de dato, y np.number selecciona tipos numéricos (int, float, etc.)
numerical_cols = df.select_dtypes(include=[np.number]).columns.tolist()

In [6]:
# Para cada columna numérica, reemplazamos los valores nulos con la media de esa columna
# Esta es una estrategia común para mantener la distribución estadística central de los datos
for col in numerical_cols:
    df[col].fillna(df[col].mean(), inplace=True)  # inplace=True modifica el DataFrame original sin crear una copia

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mean(), inplace=True)  # inplace=True modifica el DataFrame original sin crear una copia


In [7]:
# Identificamos todas las columnas categóricas (de tipo objeto/texto) para tratarlas adecuadamente
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

In [8]:
# Para cada columna categórica, reemplazamos los valores nulos con la moda (valor más frecuente)
# Esta estrategia mantiene la distribución de categorías y usa el valor más probable
for col in categorical_cols:
    df[col].fillna(df[col].mode()[0], inplace=True)  # mode() devuelve una Serie, por lo que accedemos al primer valor con [0]

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)  # mode() devuelve una Serie, por lo que accedemos al primer valor con [0]


In [9]:
# Mostramos las primeras filas después de limpiar los valores nulos para verificar los cambios
print("\n✅ Datos después de manejar valores nulos:\n", df.head())


✅ Datos después de manejar valores nulos:
    ID  Nombre  Edad      Ciudad  Salario Genero
0   1     Ana  23.0      La Paz   5000.0      F
1   2    Luis  30.0  Cochabamba   5500.0      M
2   3   Pedro  30.0  Santa Cruz   6362.5      M
3   4   Maria  28.0      Tarija   6000.0      F
4   5  Carlos  35.0      Potosi   7000.0      M


In [10]:
# -----------------------------
# 3. CATEGORIZACIÓN DE VARIABLES
# -----------------------------

# Convertimos las variables categóricas a numéricas usando LabelEncoder
# Esto es necesario porque muchos algoritmos de machine learning solo aceptan entradas numéricas
le = LabelEncoder()  # Creamos una instancia del codificador de etiquetas

In [11]:
for col in categorical_cols:
    # Transformamos cada valor categórico a un número entero único
    # Cada categoría única recibe un número entero (0, 1, 2, etc.)
    df[col] = le.fit_transform(df[col])

In [12]:
# Mostramos el DataFrame después de la categorización para verificar la transformación
print("\n✅ Datos después de la categorización:\n", df.head())


✅ Datos después de la categorización:
    ID  Nombre  Edad  Ciudad  Salario  Genero
0   1       0  23.0       1   5000.0       0
1   2       5  30.0       0   5500.0       1
2   3       7  30.0       4   6362.5       1
3   4       6  28.0       6   6000.0       0
4   5       2  35.0       3   7000.0       1


In [13]:
# -----------------------------
# 4. ESTANDARIZACIÓN Y ESCALAMIENTO
# -----------------------------

# --- 4.1 Estandarización (Z-Score Scaling) ---
# La estandarización transforma los datos para que tengan media=0 y desviación estándar=1
# Es útil para algoritmos sensibles a la escala de los datos como regresión o SVM
scaler_standard = StandardScaler()  # Creamos una instancia del estandarizador
df_standardized = df.copy()  # Creamos una copia del DataFrame para no alterar el original
# Aplicamos la estandarización solo a las columnas numéricas
df_standardized[numerical_cols] = scaler_standard.fit_transform(df_standardized[numerical_cols])

In [14]:
# Mostramos los datos estandarizados para verificar la transformación
print("\n✅ Datos Estandarizados (Z-Score):\n", df_standardized.head())


✅ Datos Estandarizados (Z-Score):
          ID  Nombre      Edad  Ciudad   Salario  Genero
0 -1.566699       0 -1.506160       1 -1.893320       0
1 -1.218544       5  0.000000       0 -1.198524       1
2 -0.870388       7  0.000000       4  0.000000       1
3 -0.522233       6 -0.430331       6 -0.503727       0
4 -0.174078       2  1.075829       3  0.885865       1


In [15]:
# --- 4.2 Escalamiento (Min-Max Scaling) ---
# El escalamiento Min-Max transforma los datos al rango [0,1]
# Es útil para algoritmos que requieren entradas positivas o acotadas como redes neuronales
scaler_minmax = MinMaxScaler()  # Creamos una instancia del escalador Min-Max
df_minmax_scaled = df.copy()  # Creamos otra copia del DataFrame original
# Aplicamos el escalamiento solo a las columnas numéricas
df_minmax_scaled[numerical_cols] = scaler_minmax.fit_transform(df_minmax_scaled[numerical_cols])

In [16]:
# Mostramos los datos escalados para verificar la transformación
print("\n✅ Datos Escalados (Min-Max):\n", df_minmax_scaled.head())


✅ Datos Escalados (Min-Max):
          ID  Nombre      Edad  Ciudad  Salario  Genero
0  0.000000       0  0.000000       1    0.000       0
1  0.111111       5  0.411765       0    0.200       1
2  0.222222       7  0.411765       4    0.545       1
3  0.333333       6  0.294118       6    0.400       0
4  0.444444       2  0.705882       3    0.800       1


In [17]:
# -----------------------------
# 5. GUARDAR RESULTADOS
# -----------------------------

# Guardamos cada versión procesada de los datos en archivos CSV separados
# Esto permite utilizar la versión más adecuada según el análisis posterior
df.to_csv('datos_limpios.csv', index=False)  # Datos con valores nulos corregidos y variables categóricas codificadas
df_standardized.to_csv('datos_estandarizados.csv', index=False)  # Datos con estandarización Z-Score
df_minmax_scaled.to_csv('datos_escalados_minmax.csv', index=False)  # Datos con escalamiento Min-Max

In [18]:
# Informamos al usuario sobre los archivos generados para facilitar su localización
print("\n✅ Archivos generados:")
print(" - datos_limpios.csv")
print(" - datos_estandarizados.csv")
print(" - datos_escalados_minmax.csv")


✅ Archivos generados:
 - datos_limpios.csv
 - datos_estandarizados.csv
 - datos_escalados_minmax.csv
