<a href="https://colab.research.google.com/github/remilio2084/ATENEA/blob/main/Ejercicio_4_Normalizaci%C3%B3n_de_datos_con_Pandas_Min_Max_Scaling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np

print("Iniciando el proceso de normalización de datos con escalado Min-Max...\n")

# 1. Crear un dataset con 8 columnas que contenga información al azar con 20 registros
#    y con características numéricas.
print("1. Creando un dataset de ejemplo con 20 registros y 8 columnas numéricas:\n")

num_records = 20 # Número de registros
num_columns = 8  # Número de columnas

# Creamos un DataFrame con datos numéricos aleatorios
# Usaremos np.random.rand para datos decimales y np.random.randint para enteros.
# Esto asegura diferentes rangos para cada columna.
data = {
    'Caracteristica_A': np.random.rand(num_records) * 100, # Rango ~[0, 100]
    'Caracteristica_B': np.random.randint(50, 200, num_records), # Rango ~[50, 200]
    'Caracteristica_C': np.random.normal(loc=1000, scale=50, size=num_records), # Distribución normal
    'Caracteristica_D': np.random.uniform(-10, 30, num_records), # Rango ~[-10, 30]
    'Caracteristica_E': np.random.poisson(lam=5, size=num_records), # Datos de conteo
    'Caracteristica_F': np.random.randint(1, 10, num_records), # Rango pequeño ~[1, 10]
    'Caracteristica_G': np.random.exponential(scale=20, size=num_records), # Distribución exponencial
    'Caracteristica_H': np.random.normal(loc=0, scale=1, size=num_records) # Distribución normal estándar
}

df = pd.DataFrame(data)

print("--- Dataset Original ---")
print(df)
print("\n--- Estadísticas Descriptivas del Dataset Original (Rangos) ---")
print(df.describe())

# 2. Para el dataset que formulaste, escribe el codigo python que permita
#    Aplicar el escalado Min-Max para normalizar los datos.
print("\n2. Aplicando el escalado Min-Max para normalizar los datos...\n")

# Creamos una copia del DataFrame para almacenar los datos normalizados
df_normalized = df.copy()

# Iteramos sobre cada columna para aplicar el escalado Min-Max
for column in df.columns:
    min_val = df[column].min()
    max_val = df[column].max()

    # Evitar división por cero si todos los valores en la columna son iguales
    if max_val == min_val:
        df_normalized[column] = 0.0 # O 1.0, o mantener el valor original si se prefiere. 0.0 es común.
    else:
        df_normalized[column] = (df[column] - min_val) / (max_val - min_val)

print("--- Dataset Normalizado con Escalado Min-Max ---")
print(df_normalized)

# 3. En el codigo se debe verificar que las características estén en el rango [0, 1].
print("\n3. Verificando que las características estén en el rango [0, 1]...\n")

print("--- Estadísticas Descriptivas del Dataset Normalizado ---")
print(df_normalized.describe())

# Realizamos una verificación explícita para cada columna
all_in_range = True
for column in df_normalized.columns:
    col_min = df_normalized[column].min()
    col_max = df_normalized[column].max()

    # Usamos una pequeña tolerancia para la verificación debido a la precisión de punto flotante
    tolerance = 1e-9 # 10^-9

    if not (col_min >= 0.0 - tolerance and col_max <= 1.0 + tolerance):
        print(f"❌ La columna '{column}' NO está en el rango [0, 1]. Min: {col_min:.6f}, Max: {col_max:.6f}")
        all_in_range = False
    else:
        print(f"✔️ La columna '{column}' está en el rango [0, 1]. Min: {col_min:.6f}, Max: {col_max:.6f}")

if all_in_range:
    print("\n¡Verificación Exitosa! Todas las características numéricas están en el rango [0, 1].")
else:
    print("\nAdvertencia: Algunas características no están completamente en el rango [0, 1].")

print("\nProceso de normalización de datos completado y verificado.")