In [None]:
import pandas as pd


# **EJEMPLO 1 DE AUMENTO DIMENSIONALIDAD**

In [1]:

# Crear tabla de ejemplo
data = {
    'Producto': ['A', 'B', 'C', 'D'],
    'Precio Unitario': [10, 15, 8, 12],
    'Cantidad Vendida': [5, 7, 9, 4]
}

df = pd.DataFrame(data)


In [2]:
df

Unnamed: 0,Producto,Precio Unitario,Cantidad Vendida
0,A,10,5
1,B,15,7
2,C,8,9
3,D,12,4


In [3]:
# Añadir columna de Ingresos Totales
df['Ingresos Totales'] = df['Precio Unitario'] * df['Cantidad Vendida']

# Añadir columna de Precio Promedio por Cantidad Vendida
df['Precio Promedio por Cantidad'] = df['Ingresos Totales'] / df['Cantidad Vendida']

In [4]:
df

Unnamed: 0,Producto,Precio Unitario,Cantidad Vendida,Ingresos Totales,Precio Promedio por Cantidad
0,A,10,5,50,10.0
1,B,15,7,105,15.0
2,C,8,9,72,8.0
3,D,12,4,48,12.0


# **EJEMPLO 2 DE AUMENTO DIMENSIONALIDAD**

In [5]:
data_social = {
    'Persona': ['P1', 'P2', 'P3', 'P4'],
    'Edad': [25, 30, 22, 28],
    'Peso (kg)': [70, 80, 65, 75],
    'Altura (m)': [1.75, 1.80, 1.68, 1.70]
}

df_social = pd.DataFrame(data_social)

In [8]:
df_social

Unnamed: 0,Persona,Edad,Peso (kg),Altura (m)
0,P1,25,70,1.75
1,P2,30,80,1.8
2,P3,22,65,1.68
3,P4,28,75,1.7


Queremos aumentar la dimensionalidad añadiendo nuevas características calculadas:

Índice de Masa Corporal (IMC): Se puede calcular usando la fórmula:

𝐼
𝑀
𝐶
=
𝑃
𝑒
𝑠
𝑜
(
𝑘
𝑔
)
𝐴
𝑙
𝑡
𝑢
𝑟
𝑎
(
𝑚
)
2
IMC=
Altura(m)
2

Peso(kg)
​

Esto nos dará una idea de si la persona tiene un peso saludable.

Categoría IMC: Clasificamos a las personas según su IMC en las siguientes categorías:

* Bajo peso: IMC < 18.5
* Normal: 18.5 ≤ IMC < 24.9
* Sobrepeso: 25 ≤ IMC < 29.9
* Obesidad: IMC ≥ 30

In [9]:
# Calcular el IMC
df_social['IMC'] = df_social['Peso (kg)'] / (df_social['Altura (m)'] ** 2)

# Categorizar el IMC
def categorizar_imc(imc):
    if imc < 18.5:
        return 'Bajo peso'
    elif 18.5 <= imc < 24.9:
        return 'Normal'
    elif 25 <= imc < 29.9:
        return 'Sobrepeso'
    else:
        return 'Obesidad'

df_social['Categoría IMC'] = df_social['IMC'].apply(categorizar_imc)

In [10]:
df_social

Unnamed: 0,Persona,Edad,Peso (kg),Altura (m),IMC,Categoría IMC
0,P1,25,70,1.75,22.857143,Normal
1,P2,30,80,1.8,24.691358,Normal
2,P3,22,65,1.68,23.030045,Normal
3,P4,28,75,1.7,25.951557,Sobrepeso


# **EJEMPLO 3 DE AUMENTO DIMENSIONALIDAD**

In [11]:
data_ingenieria = {
    'Material': ['M1', 'M2', 'M3', 'M4'],
    'Resistencia a la Tracción (MPa)': [400, 250, 800, 150],
    'Densidad (g/cm³)': [7.85, 2.70, 7.80, 2.65]
}

df_ingenieria = pd.DataFrame(data_ingenieria)

In [12]:
df_ingenieria

Unnamed: 0,Material,Resistencia a la Tracción (MPa),Densidad (g/cm³)
0,M1,400,7.85
1,M2,250,2.7
2,M3,800,7.8
3,M4,150,2.65


In [13]:
# Calcular la relación Resistencia/Densidad
df_ingenieria['Relación Resistencia/Densidad'] = df_ingenieria['Resistencia a la Tracción (MPa)'] / df_ingenieria['Densidad (g/cm³)']

# Clasificar según la Resistencia a la Tracción
df_ingenieria['Clasificación Resistencia'] = df_ingenieria['Resistencia a la Tracción (MPa)'].apply(lambda x: 'Alta Resistencia' if x > 500 else 'Baja Resistencia')

In [14]:
df_ingenieria

Unnamed: 0,Material,Resistencia a la Tracción (MPa),Densidad (g/cm³),Relación Resistencia/Densidad,Clasificación Resistencia
0,M1,400,7.85,50.955414,Baja Resistencia
1,M2,250,2.7,92.592593,Baja Resistencia
2,M3,800,7.8,102.564103,Alta Resistencia
3,M4,150,2.65,56.603774,Baja Resistencia


# **EJEMPLO 4 DE AUMENTO DIMENSIONALIDAD**

Imaginemos que queremos predecir el precio de una casa usando un conjunto de datos con las siguientes características:

In [16]:
# Datos originales
data_casas = {
    'Tamaño (m²)': [120, 85, 150, 70],
    'Número de Habitaciones': [3, 2, 4, 2],
    'Antigüedad (años)': [5, 10, 2, 15],
    'Precio (€)': [250000, 180000, 300000, 160000]
}

df_casas = pd.DataFrame(data_casas)
df_casas

Unnamed: 0,Tamaño (m²),Número de Habitaciones,Antigüedad (años),Precio (€)
0,120,3,5,250000
1,85,2,10,180000
2,150,4,2,300000
3,70,2,15,160000


Para mejorar el aprendizaje del modelo, podemos crear nuevas características a partir de las ya existentes, que podrían aportar más información. Aquí te doy algunas ideas de nuevas características:

Precio por metro cuadrado: Esta característica es muy relevante en el mercado inmobiliario. Se puede calcular como:

* Precio por m²
=
Precio (€)
Tamaño (m²)
Precio por m²=
Tamaño (m²)
Precio (€)
​

Relación habitaciones/m²: Podría ser interesante saber cómo se distribuyen las habitaciones en función del tamaño total de la casa. Esto nos da una idea de la amplitud de las habitaciones:

* Habitaciones por m²
=
N
u
ˊ
mero de Habitaciones
Tamaño (m²)
Habitaciones por m²=
Tamaño (m²)
Número de Habitaciones
​

Desgaste de la propiedad: Podemos crear una característica llamada "desgaste" en función de la antigüedad de la casa. Por ejemplo:

* Desgaste
=
1 /
+
Antiguedad (años)
Desgaste=
1+Antiguedad (años)
1
​

De esta manera, una casa más antigua tendrá un menor valor de "desgaste", lo cual podría influir en el precio de venta.

In [18]:
# Crear nuevas características
df_casas['Precio por m²'] = df_casas['Precio (€)'] / df_casas['Tamaño (m²)']
df_casas['Habitaciones por m²'] = df_casas['Número de Habitaciones'] / df_casas['Tamaño (m²)']
df_casas['Desgaste'] = 1 / (1 + df_casas['Antigüedad (años)'])

df_casas

Unnamed: 0,Tamaño (m²),Número de Habitaciones,Antigüedad (años),Precio (€),Precio por m²,Habitaciones por m²,Desgaste
0,120,3,5,250000,2083.333333,0.025,0.166667
1,85,2,10,180000,2117.647059,0.023529,0.090909
2,150,4,2,300000,2000.0,0.026667,0.333333
3,70,2,15,160000,2285.714286,0.028571,0.0625


Estas nuevas características pueden ser muy útiles para un modelo de aprendizaje automático (por ejemplo, regresión) ya que pueden aportar más información relevante que ayudará a hacer mejores predicciones sobre el precio de la casa.

Cómo mejora el aprendizaje automático
Precio por m² es una característica importante en bienes raíces y permite al modelo captar mejor las diferencias entre casas de tamaños y precios distintos.
Habitaciones por m² permite al modelo tener una referencia sobre la distribución y uso del espacio.
Desgaste introduce una forma de cuantificar el impacto de la antigüedad de la casa, en lugar de usar solo un valor lineal.

# **EJEMPLO 5 DE Discretización**

In [22]:
# Crear tabla de ejemplo con notas
data_notas = {
    'Estudiante': ['E1', 'E2', 'E3', 'E4', 'E5', 'E6', 'E7', 'E8'],
    'Nota': [7.5, 8.3, 6.7, 9.1, 7.9, 5.4, 8.0, 6.2]
}

df_notas = pd.DataFrame(data_notas)

df_notas

Unnamed: 0,Estudiante,Nota
0,E1,7.5
1,E2,8.3
2,E3,6.7
3,E4,9.1
4,E5,7.9
5,E6,5.4
6,E7,8.0
7,E8,6.2


Queremos discretizar las notas en grupos, por ejemplo:

* Grupo 1: 0 ≤ Nota < 5 (Suspenso)
* Grupo 2: 5 ≤ Nota < 6 (Aprobado bajo)
* Grupo 3: 6 ≤ Nota < 7 (Aprobado)
* Grupo 4: 7 ≤ Nota < 8 (Notable)
* Grupo 5: 8 ≤ Nota < 9 (Sobresaliente)
* Grupo 6: 9 ≤ Nota ≤ 10 (Excelente)

Discretización con pd.cut()
La función pd.cut() de pandas es perfecta para este tipo de tareas. Nos permite definir los límites de los intervalos (bins) y asignar una etiqueta a cada grupo.

In [27]:
# Definir los bins (intervalos) y las etiquetas para cada grupo
bins = [0, 2, 4, 6, 8, 10]
labels = ['Deficiente', 'Insuficiente', 'Aceptable', 'Sobresaliente', 'Excelente']

# Discretizar las notas en los grupos definidos
df_notas['Categoría'] = pd.cut(df_notas['Nota'], bins=bins, labels=labels, include_lowest=True)

df_notas

Unnamed: 0,Estudiante,Nota,Categoría
0,E1,7.5,Sobresaliente
1,E2,8.3,Excelente
2,E3,6.7,Sobresaliente
3,E4,9.1,Excelente
4,E5,7.9,Sobresaliente
5,E6,5.4,Aceptable
6,E7,8.0,Sobresaliente
7,E8,6.2,Sobresaliente


# **EJEMPLO 6 DE "Des" Discretización**

In [36]:
from datetime import datetime

# Datos de ejemplo con fechas de nacimiento
data_fechas = {
    'Persona': ['P1', 'P2', 'P3', 'P4'],
    'Fecha de Nacimiento': ['1998-05-10', '1993-11-15', '2001-03-20', '1995-07-25']
}

df_fechas = pd.DataFrame(data_fechas)
df_fechas

Unnamed: 0,Persona,Fecha de Nacimiento
0,P1,1998-05-10
1,P2,1993-11-15
2,P3,2001-03-20
3,P4,1995-07-25


In [37]:
# Convertir a formato de fecha
df_fechas['Fecha de Nacimiento'] = pd.to_datetime(df_fechas['Fecha de Nacimiento'])

In [38]:
# Fecha actual
fecha_actual = datetime.now()

# Calcular la edad discreta (años completos)
df_fechas['Edad Discreta (años)'] = df_fechas['Fecha de Nacimiento'].apply(lambda x: fecha_actual.year - x.year - ((fecha_actual.month, fecha_actual.day) < (x.month, x.day)))

df_fechas

Unnamed: 0,Persona,Fecha de Nacimiento,Edad Discreta (años)
0,P1,1998-05-10,26
1,P2,1993-11-15,30
2,P3,2001-03-20,23
3,P4,1995-07-25,29


In [39]:
# Función para calcular edad exacta en años con meses y días
def calcular_edad_exacta(fecha_nacimiento, fecha_actual):
    delta = fecha_actual - fecha_nacimiento
    edad_en_dias = delta.days
    edad_en_anos = edad_en_dias / 365.25  # Aproximación para años bisiestos
    return round(edad_en_anos, 2)

# Calcular la edad continua para cada persona
df_fechas['Edad Continua (años)'] = df_fechas['Fecha de Nacimiento'].apply(lambda x: calcular_edad_exacta(x, fecha_actual))

# Mostrar el resultado
df_fechas

Unnamed: 0,Persona,Fecha de Nacimiento,Edad Discreta (años),Edad Continua (años)
0,P1,1998-05-10,26,26.4
1,P2,1993-11-15,30,30.88
2,P3,2001-03-20,23,23.54
3,P4,1995-07-25,29,29.19


# **EJEMPLO 7 DE Numerización de atributos**

In [41]:
# Datos de ejemplo con atributos categóricos
data_categoricos = {
    'Persona': ['P1', 'P2', 'P3', 'P4'],
    'Género': ['Masculino', 'Femenino', 'Masculino', 'Femenino'],
    'Nivel Educativo': ['Secundaria', 'Universidad', 'Primaria', 'Secundaria']
}

df_categoricos = pd.DataFrame(data_categoricos)

df_categoricos

Unnamed: 0,Persona,Género,Nivel Educativo
0,P1,Masculino,Secundaria
1,P2,Femenino,Universidad
2,P3,Masculino,Primaria
3,P4,Femenino,Secundaria


Label Encoding para Género:
Se usa la función map() para asignar valores numéricos a las categorías "Femenino" (0) y "Masculino" (1).

In [42]:
# 1. Numerización con Label Encoding para 'Género'
df_categoricos['Género (codificado)'] = df_categoricos['Género'].map({'Femenino': 0, 'Masculino': 1})
df_categoricos

Unnamed: 0,Persona,Género,Nivel Educativo,Género (codificado)
0,P1,Masculino,Secundaria,1
1,P2,Femenino,Universidad,0
2,P3,Masculino,Primaria,1
3,P4,Femenino,Secundaria,0


One-Hot Encoding para Nivel Educativo:
Se usó la función pd.get_dummies() para convertir cada categoría de "Nivel Educativo" en columnas binarias (0 o 1).

In [43]:
# 2. Numerización con One-Hot Encoding para 'Nivel Educativo'
df_categoricos = pd.get_dummies(df_categoricos, columns=['Nivel Educativo'])
df_categoricos

Unnamed: 0,Persona,Género,Género (codificado),Nivel Educativo_Primaria,Nivel Educativo_Secundaria,Nivel Educativo_Universidad
0,P1,Masculino,1,False,True,False
1,P2,Femenino,0,False,False,True
2,P3,Masculino,1,True,False,False
3,P4,Femenino,0,False,True,False


In [45]:
# Convertir los valores de One-Hot Encoding a enteros
df_categoricos = df_categoricos.astype(int, errors='ignore')
df_categoricos

Unnamed: 0,Persona,Género,Género (codificado),Nivel Educativo_Primaria,Nivel Educativo_Secundaria,Nivel Educativo_Universidad
0,P1,Masculino,1,0,1,0
1,P2,Femenino,0,0,0,1
2,P3,Masculino,1,1,0,0
3,P4,Femenino,0,0,1,0


# **EJEMPLO 7 DE Normalización de atributos**

In [47]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Datos de ejemplo con atributos numéricos
data_normalizacion = {
    'Persona': ['P1', 'P2', 'P3', 'P4'],
    'Edad (años)': [25, 30, 35, 40],
    'Salario (€)': [30000, 45000, 50000, 60000]
}

df_normalizacion = pd.DataFrame(data_normalizacion)
df_normalizacion

Unnamed: 0,Persona,Edad (años),Salario (€)
0,P1,25,30000
1,P2,30,45000
2,P3,35,50000
3,P4,40,60000


In [48]:
# Separar las columnas numéricas para normalización
atributos_numericos = df_normalizacion[['Edad (años)', 'Salario (€)']]
atributos_numericos

Unnamed: 0,Edad (años),Salario (€)
0,25,30000
1,30,45000
2,35,50000
3,40,60000


Min-Max Scaling: Se reescala cada valor para que quede en el rango [0, 1], donde el valor mínimo de cada atributo se convierte en 0 y el máximo en 1.

In [49]:
# 1. Min-Max Scaling (Escalado entre 0 y 1)
min_max_scaler = MinMaxScaler()
df_normalizacion_min_max = pd.DataFrame(min_max_scaler.fit_transform(atributos_numericos), columns=['Edad (Min-Max)', 'Salario (Min-Max)'])


Z-Score Normalization: Se centra la media en 0 y se ajusta la desviación estándar a 1, lo cual es útil para modelos que dependen de la distribución de los datos.

In [50]:
# 2. Z-Score Normalization (Estandarización)
z_score_scaler = StandardScaler()
df_normalizacion_z_score = pd.DataFrame(z_score_scaler.fit_transform(atributos_numericos), columns=['Edad (Z-Score)', 'Salario (Z-Score)'])


In [51]:
# Unir los resultados al DataFrame original
df_normalizacion = pd.concat([df_normalizacion, df_normalizacion_min_max, df_normalizacion_z_score], axis=1)
df_normalizacion

Unnamed: 0,Persona,Edad (años),Salario (€),Edad (Min-Max),Salario (Min-Max),Edad (Z-Score),Salario (Z-Score)
0,P1,25,30000,0.0,0.0,-1.341641,-1.501111
1,P2,30,45000,0.333333,0.5,-0.447214,-0.11547
2,P3,35,50000,0.666667,0.666667,0.447214,0.34641
3,P4,40,60000,1.0,1.0,1.341641,1.270171
