# Dataset 1 - Balanceado - Clasificación

## Contexto del Dataset:

Una empresa está lanzando un nuevo producto y quiere segmentar a los clientes en función de su nivel de interés. Para maximizar el impacto de la campaña, el equipo de marketing desea clasificar a los clientes en tres grupos:

- No Interesado: Clientes que probablemente no comprarán el producto.
- Interesado Moderado: Clientes que podrían estar interesados, pero aún necesitan más información o incentivos para comprar.
- Muy Interesado: Clientes que muestran un alto interés y tienen una gran probabilidad de comprar el producto.

## Descripción de las Características

- Edad: 
  - Tipo: Numérica continua
  - Descripción: Representa la edad del cliente en años. Ayuda a identificar patrones de interés basados en diferentes rangos de edad.

- Ingreso_Anual:
  - Tipo: Numérica continua
  - Descripción: Indica el ingreso anual del cliente en miles de dólares. Ayuda a evaluar si el poder adquisitivo influye en el nivel de interés por el producto.

- Gasto_Promedio:
  - Tipo: Numérica continua
  - Descripción: Muestra el gasto promedio mensual del cliente en dólares. Puede ayudar a identificar clientes con hábitos de gasto altos que podrían estar más dispuestos a comprar.

- Productos_Anteriores:
  - Tipo: Numérica discreta
  - Descripción: Indica el número de productos similares que el cliente ha comprado anteriormente. Un número más alto puede sugerir interés preexistente en la categoría.

- Puntuacion_Interes:
  - Tipo: Numérica continua (valor entre 0 y 1)
  - Descripción: Una puntuación calculada que mide el interés potencial del cliente en el producto. Un valor cercano a 1 indica un alto interés, mientras que un valor cercano a 0 indica poco interés.

- Variable Objetivo
  - Nivel_Interes:
  - Tipo: Categórica (0, 1, 2)
  - Descripción: Variable objetivo que indica el nivel de interés del cliente:
    - 0 = No Interesado
    - 1 = Interesado Moderado
    - 2 = Muy Interesado

In [1]:
# verificar si estamos en google colab
try:
    import google.colab
    IN_COLAB = True
except:
    IN_COLAB = False

In [2]:
if IN_COLAB:
    # download a folder from github
    !wget -O datasets.zip https://github.com/DiegoPaezA/CienciaDatos-MASDI/archive/refs/heads/main.zip
    !unzip datasets.zip
    !mv CienciaDatos-MASDI-main/datasets datasets_github
    !rm -rf datasets.zip CienciaDatos-MASDI-main

In [3]:
import os 

In [4]:
dataset_sintetico_path = os.path.join(os.getcwd(), 'dataset_sintetico')
dataset_sintetico_path

'd:\\Github\\CienciaDatos-MASDI\\Seccion_3\\dataset_sintetico'

In [5]:
from sklearn.datasets import make_classification
import pandas as pd
import numpy as np

# Generar un dataset balanceado de clasificación con tres clases
X, y = make_classification(
    n_samples=1500,        # Total de muestras
    n_features=5,          # Número de características (columnas)
    n_informative=3,       # Número de características realmente útiles para la clasificación
    n_redundant=1,         # Número de características redundantes (combinación lineal de las informativas)
    n_classes=3,           # Número de clases (tres)
    weights=[0.33, 0.34, 0.33],  # Balancear las clases (aproximadamente 33% para cada clase)
    random_state=42        # Fijar la semilla para reproducibilidad
)

# Crear DataFrame
df = pd.DataFrame(X, columns=["Edad", "Ingreso_Anual", "Gasto_Promedio", "Productos_Anteriores", "Puntuacion_Interes"])

# Ajustar las columnas para que sean más realistas
df["Edad"] = np.clip((df["Edad"] * 10 + 35).astype(int), 18, 70)  # Edad entre 18 y 70 años
df["Ingreso_Anual"] = np.clip((df["Ingreso_Anual"] * 15000 + 50000).astype(int), 20000, 200000)  # Ingreso entre $20,000 y $200,000
df["Gasto_Promedio"] = np.clip((df["Gasto_Promedio"] * 500 + 1000).astype(int), 100, 10000)  # Gasto entre $100 y $10,000
df["Productos_Anteriores"] = np.clip(np.abs(df["Productos_Anteriores"]).astype(int), 0, 20)  # Valores enteros entre 0 y 20
df["Puntuacion_Interes"] = np.clip(df["Puntuacion_Interes"], 0, 1).round(2)  # Valores entre 0 y 1

# Añadir la columna de la clase objetivo
df["Nivel_Interes"] = y

# Guardar en un archivo CSV si es necesario
df.to_csv(os.path.join(dataset_sintetico_path, "dataset_1_clientes_nivel_interes_sintetico.csv"), index=False)

# Mostrar las primeras filas del dataset
df.head()


Unnamed: 0,Edad,Ingreso_Anual,Gasto_Promedio,Productos_Anteriores,Puntuacion_Interes,Nivel_Interes
0,47,76330,1548,1,0.0,0
1,31,21816,983,0,0.75,1
2,43,52957,607,2,0.0,0
3,22,36022,598,0,0.06,2
4,37,32713,100,0,0.0,1


# Dataset 2 - Desbalanceado - Clasificación

## Contexto del Dataset:

Una clínica que desea predecir la gravedad de la diabetes en pacientes basándose en ciertas características médicas. La clasificación se realiza en tres niveles de gravedad:

- Sin Diabetes (Clase 0)
- Diabetes Moderada (Clase 1)
- Diabetes Severa (Clase 2)

La mayoría de los pacientes que visitan la clínica no tienen diabetes, mientras que hay un número menor que presenta síntomas moderados y un grupo aún más reducido que tiene casos severos. Esto crea un dataset desbalanceado, ya que las clases no están distribuidas equitativamente.

## Descripción de las Características

- Edad:
  - Tipo: Numérica continua
  - Descripción: Representa la edad del paciente en años. La diabetes se correlaciona a menudo con la edad, por lo que esta característica puede ayudar a predecir la condición.

- Índice de Masa Corporal (IMC):
  - Tipo: Numérica continua
  - Descripción: Calcula el peso del paciente en relación con su altura. Un IMC elevado puede ser un factor de riesgo significativo para la diabetes.

- Glucosa en Ayunas:
  - Tipo: Numérica continua
  - Descripción: Medición de la glucosa en la sangre después de un período de ayuno. Niveles altos pueden indicar problemas de azúcar en la sangre.

- Historial Familiar:
  - Tipo: Numérica discreta
  - Descripción: Número de familiares directos que han sido diagnosticados con diabetes. Tener antecedentes familiares puede aumentar el riesgo.

- Nivel de Actividad Física:
  - Tipo: Numérica continua (valor entre 0 y 1)
  - Descripción: Un puntaje que mide la actividad física del paciente (0 = sedentario, 1 = muy activo). La actividad física regular puede ayudar a reducir el riesgo de diabetes.

- Variable Objetivo
  - Gravedad_Diabetes:
    - Tipo: Categórica (0, 1, 2)
  - Descripción: Variable objetivo que indica la gravedad de la condición del paciente:
    - 0 = Sin Diabetes
    - 1 = Diabetes Moderada
    - 2 = Diabetes Severa

In [6]:
from sklearn.datasets import make_classification
import pandas as pd
import numpy as np

# Generar un dataset desbalanceado de clasificación con tres clases
X, y = make_classification(
    n_samples=2000,        # Total de muestras
    n_features=5,          # Número de características (columnas)
    n_informative=3,       # Número de características realmente útiles para la clasificación
    n_redundant=1,         # Número de características redundantes (combinación lineal de las informativas)
    n_classes=3,           # Número de clases (tres)
    weights=[0.7, 0.2, 0.1],  # Desbalancear las clases (70% clase 0, 20% clase 1, 10% clase 2)
    random_state=42        # Fijar la semilla para reproducibilidad
)

# Crear DataFrame
df_2 = pd.DataFrame(X, columns=["Edad", "IMC", "Glucosa_Ayunas", "Historial_Familiar", "Nivel_Actividad"])

# Ajustar las columnas para que sean más realistas
df_2["Edad"] = np.clip((df_2["Edad"] * 10 + 45).astype(int), 18, 80)  # Edad entre 18 y 80 años
df_2["IMC"] = np.clip((df_2["IMC"] * 4 + 25).astype(float), 15, 40).round(1)  # IMC entre 15 y 40
df_2["Glucosa_Ayunas"] = np.clip((df_2["Glucosa_Ayunas"] * 20 + 110).astype(int), 70, 200)  # Glucosa entre 70 y 200 mg/dL
df_2["Historial_Familiar"] = np.clip(np.abs(df_2["Historial_Familiar"] * 2).astype(int), 0, 2)  # Valores enteros entre 0 y 2
df_2["Nivel_Actividad"] = np.clip((df_2["Nivel_Actividad"] / 2 + 0.5), 0, 1).round(2)  # Valores entre 0 y 1, para representar actividad física

# Añadir la columna de la clase objetivo
df_2["Gravedad_Diabetes"] = y



# Guardar en un archivo CSV si es necesario
df_2.to_csv(os.path.join(dataset_sintetico_path, "dataset_2_gravedad_diabetes_sintetico_.csv"), index=False)

# Mostrar las primeras filas del dataset ajustado
df_2.head()


Unnamed: 0,Edad,IMC,Glucosa_Ayunas,Historial_Familiar,Nivel_Actividad,Gravedad_Diabetes
0,29,27.5,131,0,1.0,1
1,47,23.1,101,0,1.0,0
2,46,24.4,106,0,0.59,0
3,36,21.9,93,0,1.0,2
4,57,32.5,97,2,1.0,0


# Dataset 3 - Regresión

# Contexto del Dataset

Una planta de manufactura quiere predecir el consumo de energía de sus máquinas industriales para optimizar su eficiencia energética. El consumo de energía puede depender de múltiples factores, tales como:

- Potencia nominal de la máquina
- Horas de operación
- Carga de trabajo
- Temperatura ambiente
- Tiempo de mantenimiento desde la última revisión

## Descripción de las Características

- Potencia Nominal (kW):
  -  Tipo: Numérica continua
  - Descripción: Representa la potencia nominal de la máquina en kilovatios. Máquinas con mayor potencia tienden a consumir más energía.

- Horas de Operación (h):
  - Tipo: Numérica continua
  - Descripción: Número de horas que la máquina ha estado operando. Más horas de operación resultan en mayor consumo de energía.

- Carga de Trabajo (%):
  - Tipo: Numérica continua
  - Descripción: Porcentaje de carga de trabajo de la máquina. Una mayor carga de trabajo suele incrementar el consumo de energía.

- Temperatura Ambiente (°C):
  - Tipo: Numérica continua
  - Descripción: Temperatura del entorno en el que opera la máquina. Temperaturas más altas pueden afectar la eficiencia y aumentar el consumo de energía.

- Tiempo desde Último Mantenimiento (días):
  - Tipo: Numérica continua
  - Descripción: Número de días desde la última revisión de mantenimiento de la máquina. Máquinas que no se han mantenido recientemente pueden tener un consumo de energía más alto.

- Variable Objetivo
  - Consumo_Energia (kWh):
    - Tipo: Numérica continua
  - Descripción: Consumo de energía de la máquina en kilovatios-hora, que queremos predecir basándonos en las características anteriores.

In [7]:
import numpy as np
import pandas as pd

# Fijar la semilla para reproducibilidad
np.random.seed(42)

# Generar las características
n_samples = 1000
potencia_nominal = np.random.normal(50, 15, n_samples).clip(10, 100)  # Potencia nominal en kW (10 a 100 kW)
horas_operacion = np.random.normal(8, 2, n_samples).clip(1, 24)  # Horas de operación (1 a 24 horas)
carga_trabajo = np.random.normal(75, 15, n_samples).clip(30, 100)  # Carga de trabajo (30% a 100%)
temperatura_ambiente = np.random.normal(25, 5, n_samples).clip(5, 40)  # Temperatura ambiente (5°C a 40°C)
dias_ultimo_mantenimiento = np.random.randint(1, 365, n_samples)  # Días desde el último mantenimiento (1 a 365 días)

# Generar el consumo de energía como una combinación de las características anteriores
consumo_energia = (
    potencia_nominal * 1.5 +            # Consumo aumenta con la potencia nominal
    horas_operacion * 10 +              # Más horas de operación, más consumo
    carga_trabajo * 2 +                 # Mayor carga de trabajo, mayor consumo
    (30 - temperatura_ambiente) * 3 +   # Temperatura afecta la eficiencia energética
    (365 - dias_ultimo_mantenimiento) * 0.1 +  # Mantenimiento afecta la eficiencia
    np.random.normal(0, 50, n_samples)  # Ruido aleatorio para variar el consumo
).clip(100, 5000)  # Limitar el consumo para valores razonables

# Crear el DataFrame
df = pd.DataFrame({
    "Potencia_Nominal_kW": potencia_nominal,
    "Horas_Operacion": horas_operacion,
    "Carga_Trabajo_Porc": carga_trabajo,
    "Temperatura_Ambiente_C": temperatura_ambiente,
    "Dias_Ultimo_Mantenimiento": dias_ultimo_mantenimiento,
    "Consumo_Energia_kWh": consumo_energia
})



# Guardar en un archivo CSV si es necesario
df.to_csv(os.path.join(dataset_sintetico_path, "consumo_energia_sintetico_regresion.csv"), index=False)

df.head()


Unnamed: 0,Potencia_Nominal_kW,Horas_Operacion,Carga_Trabajo_Porc,Temperatura_Ambiente_C,Dias_Ultimo_Mantenimiento,Consumo_Energia_kWh
0,57.450712,10.798711,64.872326,15.460962,51,471.417618
1,47.926035,9.849267,72.83222,20.698075,266,282.545823
2,59.715328,8.119261,63.113701,22.931972,120,356.612034
3,72.845448,6.706126,70.380577,34.438438,200,305.029165
4,46.487699,9.396447,46.59578,27.782766,248,310.200808


# Dataset 4 - Clustering

## Contexto del Dataset

Una tienda minorista quiere segmentar a sus clientes en diferentes grupos basados en su comportamiento de compra. La segmentación ayudará a la tienda a diseñar campañas de marketing dirigidas a cada grupo específico. Los datos incluyen información sobre los patrones de compra de los clientes, como:

- Gasto total anual
- Frecuencia de compras
- Número de productos diferentes comprados
- Tiempo promedio de visita (minutos)
- Porcentaje de compras realizadas en línea

## Descripción de las Características

- Gasto Anual ($):
    - Tipo: Numérica continua
    - Descripción: El gasto total del cliente en la tienda en el último año. Clientes que gastan más suelen formar un grupo específico de alto valor.

- Frecuencia de Compras:
    - Tipo: Numérica discreta
    - Descripción: Número de veces que el cliente realiza compras en la tienda en un año. La frecuencia puede ser baja, media o alta.

- Productos Diferentes Comprados:
    - Tipo: Numérica discreta
    - Descripción: Número de productos únicos que el cliente ha comprado en el último año. Clientes que compran más variedad pueden tener comportamientos diferentes.

- Tiempo Promedio de Visita (minutos):
    - Tipo: Numérica continua
    - Descripción: Tiempo promedio que el cliente pasa en la tienda durante una visita. Clientes que pasan más tiempo pueden estar explorando más productos.

- Porcentaje de Compras en Línea (%):
    - Tipo: Numérica continua (0-100)
    - Descripción: Indica qué porcentaje de las compras del cliente se realizan en línea. Algunos clientes prefieren comprar en línea, mientras que otros prefieren las tiendas físicas.

In [8]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs

# Fijar la semilla para reproducibilidad
np.random.seed(42)

# Generar datos de clustering con 4 grupos (clusters) naturales
n_samples = 1000
X, _ = make_blobs(
    n_samples=n_samples, 
    centers=4,             # Generar 4 clusters
    cluster_std=1.5,       # Establecer la desviación estándar de cada cluster
    n_features=5,          # Cinco características para simular
    random_state=42
)

# Crear DataFrame a partir de los datos generados
df = pd.DataFrame(X, columns=[
    "Gasto_Anual", 
    "Frecuencia_Compras", 
    "Productos_Diferentes", 
    "Tiempo_Promedio_Visita", 
    "Porcentaje_Compras_Online"
])

# Ajustar las columnas para que sean más realistas
df["Gasto_Anual"] = np.clip((df["Gasto_Anual"] * 5000 + 15000).astype(int), 500, 100000)  # Gasto anual ($500 - $100,000)
df["Frecuencia_Compras"] = np.clip(np.abs(df["Frecuencia_Compras"] * 2 + 10).astype(int), 1, 100)  # Frecuencia (1 a 100)
df["Productos_Diferentes"] = np.clip(np.abs(df["Productos_Diferentes"] * 3 + 5).astype(int), 1, 50)  # Productos únicos (1 a 50)
df["Tiempo_Promedio_Visita"] = np.clip((df["Tiempo_Promedio_Visita"] * 10 + 30).astype(float), 5, 120).round(1)  # Tiempo promedio de visita (5 a 120 minutos)
df["Porcentaje_Compras_Online"] = np.clip((df["Porcentaje_Compras_Online"] * 20 + 50), 0, 100).round(2)  # Porcentaje compras en línea (0% a 100%)


# Guardar en un archivo CSV si es necesario
df.to_csv(os.path.join(dataset_sintetico_path, "clientes_segmentacion_sintetico_clustering.csv"), index=False)

df.head()


Unnamed: 0,Gasto_Anual,Frecuencia_Compras,Productos_Diferentes,Tiempo_Promedio_Visita,Porcentaje_Compras_Online
0,500,4,1,32.2,0.0
1,500,28,26,5.0,0.0
2,500,28,23,5.0,0.0
3,2007,18,14,45.9,0.0
4,10970,30,21,45.0,0.0
