# üß© 03 ‚Äî Feature Engineering
## Tabla de Contenido (Actualizar)
1. [Setup y Carga de Datos](#sec1)
2. [Separaci√≥n de Variables](#sec2)
3. [Feature Engineering Categ√≥rico](#sec3)
   - [An√°lisis de cardinalidad](#sec3_1)
   - [One-Hot Encoding](#sec3_2)
   - [Frequency Encoding](#sec3_3)
   - [Target Encoding](#sec3_4)
4. [Feature Engineering Num√©rico](#sec4)
   - [Escalado](#sec4_1)
   - [Transformaciones matem√°ticas](#sec4_2)
   - [Features polin√≥micas](#sec4_3)
5. [Creaci√≥n de Features Derivadas](#sec5)
6. [Selecci√≥n de Features](#sec6)
7. [Dataset Final](#sec7)
8. [Resumen Ejecutivo](#sec8)


# 1. Setup y Carga de Datos <a id='sec1'></a>

Nota: La intencion de esta parte es:
- Importacion de las librerias
- Carga de coffee_cleaned.csv
- Revisi√≥n r√°pida
- Confirmaci√≥n de tipos de datos

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('../data/processed/coffee_cleaned.csv')
df.head()

# 2. Separaci√≥n de Variables <a id='sec2'></a>

Nota: La intencion de esta parte es:
- Lista actualizada de columnas categ√≥ricas
- Lista actualizada de num√©ricas
- Verificaci√≥n de cardinalidad
- Detecci√≥n de variables ordinales (si existen)

In [1]:
#categorical_features = df.select_dtypes(include=['object']).columns.tolist()
#numerical_features = df.select_dtypes(include=['int64','float64']).columns.tolist()

# 3. Feature Engineering Categ√≥rico <a id='sec3'></a>

## 3.1 An√°lisis de cardinalidad <a id='sec3_1'></a>

Nota: La intencion de esta parte es:
- Cardinalidad baja ‚Üí One-Hot Encoding
- Cardinalidad media ‚Üí Frequency Encoding
- Cardinalidad alta ‚Üí Target Encoding (solo en train, evitando leakage)

In [2]:
# df[categorical_features].nunique()

## 3.2 One-Hot Encoding <a id='sec3_2'></a>

Nota: La intencion de esta parte es:
- Aplicaci√≥n a columnas seleccionadas
- Control de explosi√≥n dimensional
- Revisi√≥n de nuevas columnas

In [3]:
# ejemplo:
# df = pd.get_dummies(df, columns=['processing_method'], drop_first=True)

## 3.3 Frequency Encoding <a id='sec3_3'></a>

Nota: La intencion de esta parte es:
- Codificaci√≥n por frecuencia
- Validaci√≥n

In [4]:
# ejemplo:
# freq = df['country'].value_counts()
# df['country_freq'] = df['country'].map(freq)

## 3.4 Target Encoding <a id='sec3_4'></a> (Si es necesario)

Nota: La intencion de esta parte es:
- Divisi√≥n train/test antes de aplicar
- Aplicar solo en train
- Aplicar transformaci√≥n en test usando medias del train

In [5]:
# ejemplo con train/test split

## 3.5 Encoding de variables ordinales <a id='sec3_5'></a>

Nota: La intencion de esta parte es:
- Definici√≥n de orden
- Mapas de reemplazo

## 3.6 Validaci√≥n de codificaci√≥n categ√≥ricas <a id='sec3_6'> </ a>

In [6]:
Nota: La intencion de esta parte es:
- Verificar que no queden NaN
- Verificar tipos num√©ricos
- Revisar n√∫mero final de columnas generadas

SyntaxError: invalid syntax (1243925369.py, line 1)

# 4. Feature Engineering Num√©rico <a id='sec4'></a>

## 4.1 Escalado <a id='sec4_1'></a>

Nota: La intencion de esta parte es:
- StandardScaler
- MinMaxScaler (si aplica)
- RobustScaler (si hay outliers)
- Guardar par√°metros del escalador

In [None]:
# from sklearn.preprocessing import StandardScaler

## 4.2 Transformaciones matem√°ticas <a id='sec4_2'></a>

In [None]:
Nota: La intencion de esta parte es:
- Log / sqrt / box-cox
- Justificaci√≥n seg√∫n skewness
- Visualizaci√≥n antes/despu√©s

In [None]:
# df['acidity_log'] = np.log1p(df['acidity'])

## 4.3 Features polin√≥micas <a id='sec4_3'></a> (Opcional)

In [None]:
Nota: La intencion de esta parte es:
- PolynomialFeatures
- Interacciones seleccionadas
- Controlar explosi√≥n dimensional

In [None]:
# from sklearn.preprocessing import PolynomialFeatures

## 4.4 Validaci√≥n num√©rica <a id='sec4_4'></a>

In [None]:
Nota: La intencion de esta parte es:
- Distribuciones antes/despu√©s
- Comparaci√≥n estad√≠stica
- Chequeo de rangos

# 5. Creaci√≥n de Features Derivadas <a id='sec5'></a>

Se dejan algunas ideas:
- Crean ratios o combinaciones sensoriales "sweetness / acidity", "flavor + aroma"
- Interacciones basadas en dominio. Ejemplo: Efecto de ‚ÄúProcessing Method √ó Country of Origin‚Äù
- Features binarias derivadas: High altitude (si hubiera altitude), M√©todo lavado/no lavado, Categor√≠as raras agrupadas
- Features geogr√°ficas: Regi√≥n ‚Üí continente o Pa√≠s ‚Üí latitud/longitud

In [None]:
# df['balance_ratio'] = df['sweetness'] / df['acidity']

# 6. Selecci√≥n de Features <a id='sec6'></a> (Correlaci√≥n y Importancia)

En esta parte se pueden usar algunas de las caracteristicas, modelos y tecnicas que nos hablo el profesor. Echar un vistazo a las notas de clase.

In [None]:
# correlaciones

## 6.1 Matriz de correlaci√≥n num√©ricas <a id='sec6_1'> </a>

Nota: La intencion de esta parte es:
- Heatmap
- Top correlaciones con target

## 6.2 Multicolinealidad (VIF) <a id='sec6_2'></a>

Nota: La intencion de esta parte es:
- C√°lculo de VIF
- Eliminaci√≥n de variables redundantes

## 6.3 Importancia preliminar del modelo <a id='sec6_3'></a>

Nota: La intencion de esta parte es:
- Random Forest r√°pido
- Selecci√≥n de features por importancia
- Ranking visual

# 7. Dataset Final <a id='sec7'></a>

# 7.1 Unificaci√≥n de features transformadas <a id='sec7_1'></a>

Nota: La intencion de esta parte es:
- Concatenar categ√≥ricas codificadas + num√©ricas escaladas

# 7.2 Revisi√≥n final de integridad <a id='sec7_2'></a>

Nota: La intencion de esta parte es:
- Sin NaN
- Todas num√©ricas
- Matriz lista para modelos

# 7.3 Guardado de dataset final <a id='sec7_1'></a>

Nota: La intencion de esta parte es:
- coffee_features.csv
- Listas de features num√©ricas/categ√≥ricas finales
- Guardado de objetos de encoding y scaling (joblib)

In [None]:
df.to_csv('../data/processed/coffee_features.csv', index=False)

# 8. Resumen Ejecutivo <a id='sec8'></a>

Algunas cosas que puede incluir:
- Qu√© encoding se aplic√≥
- Qu√© escalado se aplic√≥
- Qu√© features nuevas se crearon
- Cu√°ntas features finales quedan
- Decisiones clave para modelamiento