In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import os
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

In [3]:
# Definir la ruta del archivo CSV de entrada
input_file_path = r"/content/drive/MyDrive/DATATON/dataset_ocupaciones.csv"  # Asegúrate de reemplazar con la ruta correcta

# Definir la ruta de la carpeta donde se guardarán los archivos procesados
output_folder_path = r"/content/drive/MyDrive/DATATON/NORMALIZED"  # Asegúrate de reemplazar con la ruta correcta

# Crear la carpeta de salida si no existe
os.makedirs(output_folder_path, exist_ok=True)


In [4]:
# Cargar el dataset desde el archivo CSV
data = pd.read_csv(input_file_path)

In [5]:
# Paso 1: Seleccionar columnas relevantes mediante correlación cruzada

# Seleccionar solo columnas numéricas
numerical_data = data.select_dtypes(include=['number'])

# Calcular la matriz de correlación
correlation_matrix = numerical_data.corr()

# Identificar las columnas más correlacionadas
relevant_correlations = correlation_matrix.abs().unstack().sort_values(ascending=False)

# Eliminar duplicados y correlaciones triviales (diagonal)
relevant_correlations = relevant_correlations[relevant_correlations < 1].drop_duplicates()

# Seleccionar las correlaciones más altas (por ejemplo, las 10 principales)
top_correlations = relevant_correlations.head(10)
columns_to_consider = list(set([idx[0] for idx in top_correlations.index] + [idx[1] for idx in top_correlations.index]))

# Crear un DataFrame con las columnas relevantes
filtered_data = data[columns_to_consider]


In [6]:
# Paso 2: Manejo de valores faltantes

# Eliminar filas con valores faltantes
filtered_data = filtered_data.dropna()  # Alternativa: Imputar con media, mediana, etc.

# Comprobar si el DataFrame está vacío después de eliminar valores faltantes
if filtered_data.empty:
    print(f"El archivo {input_file_path} está vacío después de eliminar valores faltantes.")
else:
    print(f"El archivo {input_file_path} ha sido procesado correctamente.")


El archivo /content/drive/MyDrive/DATATON/dataset_ocupaciones.csv ha sido procesado correctamente.


In [7]:
# Paso 3: Normalización

# Crear un escalador MinMaxScaler para normalizar los datos
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(filtered_data)

# Convertir a DataFrame para conservar nombres de columnas
normalized_df = pd.DataFrame(normalized_data, columns=filtered_data.columns)


In [8]:
# Definir el path de salida para el archivo procesado
output_file_name = f"preprocessed_{os.path.basename(input_file_path)}"
output_path = os.path.join(output_folder_path, output_file_name)

# Guardar el conjunto de datos preprocesado en la carpeta de salida
normalized_df.to_csv(output_path, index=False)

print(f"Archivo preprocesado guardado en: {output_path}")


Archivo preprocesado guardado en: /content/drive/MyDrive/DATATON/NORMALIZED/preprocessed_dataset_ocupaciones.csv
