# **Diplomado de Machine Learning con Python**
## Tarea 04 ‚Äì Sesi√≥n 06

## **Codificaci√≥n de variables**

üìä En el contexto de machine learning, muchas t√©cnicas requieren que todas las variables de entrada sean num√©ricas. Sin embargo, los conjuntos de datos reales suelen contener variables categ√≥ricas, como nombres ciudades, estado civil u otras. Para que estas variables puedan ser utilizadas por algoritmos, es necesario transformarlas mediante t√©cnicas de codificaci√≥n. Dos enfoques comunes son One-Hot Encoding y Ordinal Encoding.

La elecci√≥n del m√©todo depende del tipo de variable y del modelo que se va a utilizar. Una codificaci√≥n adecuada mejora la capacidad del modelo para aprender patrones relevantes y evita errores por interpretaciones num√©ricas incorrectas.

Para esta tarea se utilizar√° el **Palmer Penguins Extended Dataset**. 

![Palmer Penguins Illustration](https://allisonhorst.github.io/palmerpenguins/logo.png)


## Importaci√≥n de librer√≠as y lectura de archivo csv

In [19]:
# Importar librer√≠as
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer

# Leer el CSV
df = pd.read_csv("palmerpenguins_extended.csv")
print(f'Dimensiones del dataset: Filas: {df.shape[0]}, Columnas: {df.shape[1]} \n')
df.head(5)

Dimensiones del dataset: Filas: 3430, Columnas: 11 



Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,diet,life_stage,health_metrics,year
0,Adelie,Biscoe,53.4,17.8,219.0,5687.0,female,fish,adult,overweight,2021
1,Adelie,Biscoe,49.3,18.1,245.0,6811.0,female,fish,adult,overweight,2021
2,Adelie,Biscoe,55.7,16.6,226.0,5388.0,female,fish,adult,overweight,2021
3,Adelie,Biscoe,38.0,15.6,221.0,6262.0,female,fish,adult,overweight,2021
4,Adelie,Biscoe,60.7,17.9,177.0,4811.0,female,fish,juvenile,overweight,2021


## Revisi√≥n inicial de los datos

In [20]:
d_type = df.dtypes # Tipo de dato
n_non_null = df.count() # Numero de valores no nulos
n_unique = df.nunique() # Numero de valores unicos
n_null = df.isnull().sum() # Numero de valors nulos
ratio_null = df.isnull().sum()/df.shape[0] # Porcentaje de valores nulos

pd.DataFrame(
    {"d_type": d_type,
     "n_non_null": n_non_null,
     "n_unique": n_unique,
     "n_null": n_null,
     "ratio_null": ratio_null}
)

Unnamed: 0,d_type,n_non_null,n_unique,n_null,ratio_null
species,object,3430,3,0,0.0
island,object,3430,3,0,0.0
bill_length_mm,float64,3430,572,0,0.0
bill_depth_mm,float64,3430,169,0,0.0
flipper_length_mm,float64,3430,159,0,0.0
body_mass_g,float64,3430,2428,0,0.0
sex,object,3430,2,0,0.0
diet,object,3430,4,0,0.0
life_stage,object,3430,3,0,0.0
health_metrics,object,3430,3,0,0.0


## Definir el tipo de codficaci√≥n para cada columna

### üß© One-Hot Encoding

One-Hot Encoding transforma variables categ√≥ricas en columnas binarias, creando una nueva columna para cada categor√≠a posible. Cada fila tiene un valor de 1 en la columna correspondiente a su categor√≠a y 0 en las dem√°s.

Esta t√©cnica es ideal para variables sin orden l√≥gico, como colores, g√©neros o tipos de producto, ya que evita que el modelo interprete relaciones num√©ricas inexistentes entre las categor√≠as. Aunque puede generar muchas columnas si hay muchas categor√≠as, es una forma segura y efectiva de representar informaci√≥n categ√≥rica en modelos matem√°ticos.

### üéØ Ordinal Encoding

Ordinal Encoding asigna un n√∫mero entero a cada categor√≠a, respetando su orden natural. Por ejemplo, niveles como "bajo", "medio" y "alto" pueden codificarse como 0, 1 y 2. Esta t√©cnica es √∫til cuando las categor√≠as tienen una jerarqu√≠a impl√≠cita, ya que permite al modelo capturar esa relaci√≥n.
Sin embargo, si se aplica a variables sin orden real, puede inducir errores al sugerir una progresi√≥n que no existe. Por eso, es importante usarla solo cuando el orden entre categor√≠as tiene sentido en el contexto del an√°lisis.


In [22]:
# Columnas
cols_onehot  = ['species', 'island', 'sex', 'diet']   # NOMINALES ‚Üí One-Hot
cols_ordinal = ['life_stage','health_metrics']      # ORDINAS ‚Üí Ordinal

# Categor√≠as ordenadas para las ordinales (mismo orden que en cols_ordinal)
categorias_ordinales = [
    ["chick", "juvenile", "adult"],  # turno
    ["underweight", "healthy", "overweight"]  # nivel_prioridad
]

print(f'Columnas para codifiaci√≥n One-Hot:\n {cols_onehot}\n')
print(f'Columnas para codificaci√≥n ordinal:\n {cols_ordinal}\n')

Columnas para codifiaci√≥n One-Hot:
 ['species', 'island', 'sex', 'diet']

Columnas para codificaci√≥n ordinal:
 ['life_stage', 'health_metrics']



## Aplicar transformaciones a las columnas con `ColumnTransformer`

In [23]:
'''
Explicaci√≥n del ColumnTransformer usado

1) transformers = [ ... ]
   Cada tupla es (nombre_bloque, transformador, columnas_objetivo)

   a) ("onehot", OneHotEncoder(...), cols_onehot)
      - Aplica One-Hot Encoding a columnas nominales.
      - sparse_output=False  ‚Üí salida densa (m√°s c√≥modo para DataFrame).
      - drop=None            ‚Üí no se descarta ninguna categor√≠a.
      - handle_unknown="ignore" ‚Üí si aparece una categor√≠a NO vista en fit,
        no lanza error; la fila queda con ceros en todas las dummies de esa variable.

   b) ("ordinal", OrdinalEncoder(...), cols_ordinal)
      - Aplica codificaci√≥n ordinal respetando un ORDEN expl√≠cito por columna.
      - categories=categorias_ordinales ‚Üí listas con el orden de cada variable.
      - handle_unknown="use_encoded_value", unknown_value=-1  ‚Üí cualquier
        categor√≠a NO vista en fit se codifica como -1 (fuera del rango normal 0..k-1).
        Esto permite detectar f√°cilmente valores "desconocidos" en datos nuevos.

Resumen:
- One-Hot para nominales (sin orden), tolerante a categor√≠as nuevas (se codifican como todo ceros).
- Ordinal para variables con orden natural; categor√≠as nuevas se marcan con -1.
- El resto de columnas se descartan (remainder="drop").
'''

preprocesador = ColumnTransformer(
    transformers=[
        ("onehot",
         OneHotEncoder(sparse_output=False, drop=None, handle_unknown="ignore"),
         cols_onehot),
        ("ordinal",
         OrdinalEncoder(categories=categorias_ordinales,
                        handle_unknown="use_encoded_value", unknown_value=-1),
         cols_ordinal),
    ],
    remainder="drop",
    verbose_feature_names_out=False
)

preprocesador.fit(df)

X_encoded = preprocesador.transform(df)


## Reconstruir DataFrame con las variables transformadas


In [24]:
# Reconstruir DataFrame con nombres de columnas

# Obtiner los nombres de las columnas resultantes del preprocesador
cols_out = preprocesador.get_feature_names_out()

# Convertir la matriz NumPy codificada (X_encoded) en un DataFrame de pandas
df_encoded = pd.DataFrame(X_encoded, columns=cols_out, index=df.index)

# Muestra el DataFrame codificado, con variables categ√≥ricas transformadas en formato num√©rico
df_encoded


Unnamed: 0,species_Adelie,species_Chinstrap,species_Gentoo,island_Biscoe,island_Dream,island_Torgensen,sex_female,sex_male,diet_fish,diet_krill,diet_parental,diet_squid,life_stage,health_metrics
0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,2.0,2.0
1,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,2.0,2.0
2,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,2.0,2.0
3,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,2.0,2.0
4,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3425,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,2.0,1.0
3426,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,2.0,1.0
3427,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,2.0,2.0
3428,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,2.0,1.0


In [2]:
# Exportar DataFrame obtenido a CSV

df_encoded.to_csv("data_encoded.csv")

NameError: name 'df_encoded' is not defined