<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/3_machine_learning/clase_09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Procesamiento de datos categóricos

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [7]:
df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])

In [3]:
df

Unnamed: 0,0,1,2,3
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


In [5]:
size_mapping = {'XL': 3,
                'L': 2,
                'M': 1}

In [8]:
df.columns=['color', 'size', 'price', 'classlabel']

In [9]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


In [10]:
df['size']

Unnamed: 0,size
0,M
1,L
2,XL


# La función map() en Python

https://www.w3schools.com/python/ref_func_map.asp





## Definición
`map()` es una función incorporada en Python que aplica una función a cada elemento de uno o más iterables y devuelve un iterador con los resultados.

---

## Sintaxis

```python
map(function, iterable, ...)
```

- **function**: la función que se aplicará a los elementos.
- **iterable, ...**: uno o más iterables (listas, tuplas, etc.).

---

## Funcionamiento paso a paso

1. Se define una función que transforma un valor.
2. `map()` recorre los elementos de los iterables.
3. Aplica la función a cada elemento.
4. Devuelve un iterador con los resultados.

---

## Ejemplo con un iterable

```python
def cuadrado(x):
    return x ** 2

numeros = [1, 2, 3, 4]
resultado = map(cuadrado, numeros)
print(list(resultado))  # [1, 4, 9, 16]
```

**Explicación gráfica:**

```
[1, 2, 3, 4] → map(cuadrado) → [1, 4, 9, 16]
```

---

## Ejemplo con dos iterables

```python
def sumar(a, b):
    return a + b

lista1 = [1, 2, 3]
lista2 = [10, 20, 30]
resultado = map(sumar, lista1, lista2)
print(list(resultado))  # [11, 22, 33]
```

**Explicación gráfica:**

```
lista1: [1, 2, 3]
lista2: [10, 20, 30]

map(sumar, lista1, lista2) → [11, 22, 33]
```

---

## Ventajas y consideraciones

- `map()` devuelve un iterador, eficiente en memoria.
- Es más conciso que un bucle `for`.
- Puede usarse con varios iterables simultáneamente.
- Si solo se trabaja con un iterable, a veces una list comprehension es más legible.

---

## Resumen

- `map()` aplica una función a cada elemento de uno o más iterables.
- Devuelve un iterador que se puede convertir en lista, tupla, etc.
- Útil para transformar datos de manera concisa y eficiente.


**Explicación gráfica (ASCII):**

```
[1, 2, 3, 4]   <-- iterable de entrada
     │
     ▼
 ┌───────────┐
 │   map()   │  (aplica la función "cuadrado" a cada elemento)
 └───────────┘
     │
     ▼
cuadrado(1) → 1
cuadrado(2) → 4
cuadrado(3) → 9
cuadrado(4) → 16
     │
     ▼
[1, 4, 9, 16]  <-- iterador de salida (convertido a lista)
```

---

## Ejemplo con dos iterables

```python
def sumar(a, b):
    return a + b

lista1 = [1, 2, 3]
lista2 = [10, 20, 30]
resultado = map(sumar, lista1, lista2)
print(list(resultado))  # [11, 22, 33]
```

**Explicación gráfica (ASCII):**

```
lista1: [ 1,  2,  3 ]
lista2: [10, 20, 30 ]
     │       │
     ▼       ▼
 ┌──────────────────┐
 │      map()        │  (aplica "sumar" a los pares correspondientes)
 └──────────────────┘
     │
     ▼
sumar(1,10) → 11
sumar(2,20) → 22
sumar(3,30) → 33
     │
     ▼
[11, 22, 33]
```

---

## Diagrama de flujo (Mermaid)

Si el renderizador de Markdown soporta Mermaid, el siguiente bloque mostrará el diagrama de flujo:

```mermaid
flowchart TD
    A[Iterable de entrada] --> B[map()]
    B --> C[Aplicar función a cada elemento]
    C --> D[Iterador de salida]
    subgraph Ejemplo con dos iterables
      E1[Iterable A] --> M(map)
      E2[Iterable B] --> M
      M --> R[Resultados pares aplicados]
    end
```

---

In [11]:
df['size']=df['size'].map(size_mapping)

In [12]:
df['size']

Unnamed: 0,size
0,1
1,2
2,3


In [13]:
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2


In [14]:
df['classlabel']

Unnamed: 0,classlabel
0,class2
1,class1
2,class2


In [15]:
df['classlabel'].value_counts()

Unnamed: 0_level_0,count
classlabel,Unnamed: 1_level_1
class2,2
class1,1


In [16]:
np.unique(df['classlabel'])

array(['class1', 'class2'], dtype=object)

In [29]:
enumerate(np.unique(df['classlabel']))

<enumerate at 0x7dc6e06b1850>

In [18]:
for idx, label in enumerate(np.unique(df['classlabel'])):
    print(idx, label)

0 class1
1 class2


In [19]:
{label: idx for idx, label in enumerate(np.unique(df['classlabel']))}

{'class1': 0, 'class2': 1}

In [20]:
class_mapping={label: idx for idx, label in enumerate(np.unique(df['classlabel']))}

In [21]:
class_mapping

{'class1': 0, 'class2': 1}

In [22]:
df['classlabel']=df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,1
1,red,2,13.5,0
2,blue,3,15.3,1


## Formas de trabajar datos categóricos

1) Variables dummy: genero una tabla con una variable por elemento distnto y que completo con 0 ó 1 si encuentro la presencia de ese elemento



---

| green | red | blue | Size | Value | Class  |
|-------|-----|------|------|-------|--------|
| 1     | 0   | 0    | M    | 10.1  | class2 |
| 0     | 1   | 0    | L    | 13.5  | class1 |
| 0     | 0   | 1    | XL   | 15.3  | class2 |


Pero existe otra manera que es usada en algoritmos basados en árboles de decisión y derivados (como Random Forests, XGBoost, LightGBM, CatBoost), porque:

- Estos modelos no asumen orden lineal en los números (el valor 0, 1, 2 solo sirve como identificador de categorías).

- Los árboles pueden dividir por condiciones del tipo "feature ≤ valor" sin problema, por lo que aunque pongas M=0, L=1, XL=2, el árbol no interpreta que XL > L tiene un significado "numérico real", sino que solo usa los cortes para particionar.

Entonces ahí podemos usar el label encoding:

In [4]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# DataFrame original
data = {
    "Color": ["green", "red", "blue"],
    "Size": ["M", "L", "XL"],
    "Value": [10.1, 13.5, 15.3],
    "Class": ["class2", "class1", "class2"]
}

df = pd.DataFrame(data)
print("Original:")
print(df, "\n")

# Crear label encoders
le_color = LabelEncoder()
le_size = LabelEncoder()

# Aplicar label encoding
df["Color_encoded"] = le_color.fit_transform(df["Color"])
df["Size_encoded"] = le_size.fit_transform(df["Size"])

print("Con Label Encoding:")
print(df)


Original:
   Color Size  Value   Class
0  green    M   10.1  class2
1    red    L   13.5  class1
2   blue   XL   15.3  class2 

Con Label Encoding:
   Color Size  Value   Class  Color_encoded  Size_encoded
0  green    M   10.1  class2              1             1
1    red    L   13.5  class1              2             0
2   blue   XL   15.3  class2              0             2


In [23]:
df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])
df.columns=['color', 'size', 'price', 'classlabel']

In [24]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


Revisar: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [30]:
from sklearn.preprocessing import LabelEncoder

In [31]:
enc=LabelEncoder()

In [32]:
y=enc.fit_transform(df['classlabel'].values)

In [33]:
y

array([1, 0, 1])

### Uso de OHE

In [34]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import OneHotEncoder

In [35]:
iris = load_iris()

In [36]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [37]:
iris=pd.DataFrame(iris.target, columns=['species'])

In [40]:
iris

Unnamed: 0,species
0,0
1,0
2,0
3,0
4,0
...,...
145,2
146,2
147,2
148,2


In [41]:
iris['species'].replace({0:'setosa', 1:'versicolor', 2:'virginica'}, inplace=True)

# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.replace.html

In [42]:
pd.get_dummies(iris['species'])

Unnamed: 0,setosa,versicolor,virginica
0,True,False,False
1,True,False,False
2,True,False,False
3,True,False,False
4,True,False,False
...,...,...,...
145,False,False,True
146,False,False,True
147,False,False,True
148,False,False,True


In [43]:
from sklearn.preprocessing import OneHotEncoder

# https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

In [44]:
onehot_encoder=OneHotEncoder()

In [45]:
len_iris=len(iris['species'])

In [46]:
len_iris

150

In [47]:
np.array(iris['species'])

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [None]:
iris_species_2d=np.array(iris['species']).reshape(len_iris, 1)

iris_species_2d

In [49]:
onehot_encoder.fit_transform(iris_species_2d)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 150 stored elements and shape (150, 3)>

In [51]:
onehot_reshaped=onehot_encoder.fit_transform(iris_species_2d)

In [52]:
onehot_reshaped

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 150 stored elements and shape (150, 3)>

In [56]:
print(onehot_reshaped[0:50])

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 50 stored elements and shape (50, 3)>
  Coords	Values
  (0, 0)	1.0
  (1, 0)	1.0
  (2, 0)	1.0
  (3, 0)	1.0
  (4, 0)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0
  (10, 0)	1.0
  (11, 0)	1.0
  (12, 0)	1.0
  (13, 0)	1.0
  (14, 0)	1.0
  (15, 0)	1.0
  (16, 0)	1.0
  (17, 0)	1.0
  (18, 0)	1.0
  (19, 0)	1.0
  (20, 0)	1.0
  (21, 0)	1.0
  (22, 0)	1.0
  (23, 0)	1.0
  (24, 0)	1.0
  (25, 0)	1.0
  (26, 0)	1.0
  (27, 0)	1.0
  (28, 0)	1.0
  (29, 0)	1.0
  (30, 0)	1.0
  (31, 0)	1.0
  (32, 0)	1.0
  (33, 0)	1.0
  (34, 0)	1.0
  (35, 0)	1.0
  (36, 0)	1.0
  (37, 0)	1.0
  (38, 0)	1.0
  (39, 0)	1.0
  (40, 0)	1.0
  (41, 0)	1.0
  (42, 0)	1.0
  (43, 0)	1.0
  (44, 0)	1.0
  (45, 0)	1.0
  (46, 0)	1.0
  (47, 0)	1.0
  (48, 0)	1.0
  (49, 0)	1.0


In [54]:
print(onehot_reshaped[50:100])

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 50 stored elements and shape (50, 3)>
  Coords	Values
  (0, 1)	1.0
  (1, 1)	1.0
  (2, 1)	1.0
  (3, 1)	1.0
  (4, 1)	1.0
  (5, 1)	1.0
  (6, 1)	1.0
  (7, 1)	1.0
  (8, 1)	1.0
  (9, 1)	1.0
  (10, 1)	1.0
  (11, 1)	1.0
  (12, 1)	1.0
  (13, 1)	1.0
  (14, 1)	1.0
  (15, 1)	1.0
  (16, 1)	1.0
  (17, 1)	1.0
  (18, 1)	1.0
  (19, 1)	1.0
  (20, 1)	1.0
  (21, 1)	1.0
  (22, 1)	1.0
  (23, 1)	1.0
  (24, 1)	1.0
  (25, 1)	1.0
  (26, 1)	1.0
  (27, 1)	1.0
  (28, 1)	1.0
  (29, 1)	1.0
  (30, 1)	1.0
  (31, 1)	1.0
  (32, 1)	1.0
  (33, 1)	1.0
  (34, 1)	1.0
  (35, 1)	1.0
  (36, 1)	1.0
  (37, 1)	1.0
  (38, 1)	1.0
  (39, 1)	1.0
  (40, 1)	1.0
  (41, 1)	1.0
  (42, 1)	1.0
  (43, 1)	1.0
  (44, 1)	1.0
  (45, 1)	1.0
  (46, 1)	1.0
  (47, 1)	1.0
  (48, 1)	1.0
  (49, 1)	1.0


In [55]:
print(onehot_reshaped[100:])

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 50 stored elements and shape (50, 3)>
  Coords	Values
  (0, 2)	1.0
  (1, 2)	1.0
  (2, 2)	1.0
  (3, 2)	1.0
  (4, 2)	1.0
  (5, 2)	1.0
  (6, 2)	1.0
  (7, 2)	1.0
  (8, 2)	1.0
  (9, 2)	1.0
  (10, 2)	1.0
  (11, 2)	1.0
  (12, 2)	1.0
  (13, 2)	1.0
  (14, 2)	1.0
  (15, 2)	1.0
  (16, 2)	1.0
  (17, 2)	1.0
  (18, 2)	1.0
  (19, 2)	1.0
  (20, 2)	1.0
  (21, 2)	1.0
  (22, 2)	1.0
  (23, 2)	1.0
  (24, 2)	1.0
  (25, 2)	1.0
  (26, 2)	1.0
  (27, 2)	1.0
  (28, 2)	1.0
  (29, 2)	1.0
  (30, 2)	1.0
  (31, 2)	1.0
  (32, 2)	1.0
  (33, 2)	1.0
  (34, 2)	1.0
  (35, 2)	1.0
  (36, 2)	1.0
  (37, 2)	1.0
  (38, 2)	1.0
  (39, 2)	1.0
  (40, 2)	1.0
  (41, 2)	1.0
  (42, 2)	1.0
  (43, 2)	1.0
  (44, 2)	1.0
  (45, 2)	1.0
  (46, 2)	1.0
  (47, 2)	1.0
  (48, 2)	1.0
  (49, 2)	1.0


### Ejercicio individual

In [57]:
df_wine = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data',
                      header=None)

In [58]:
df_wine.columns = ['Class label', 'Alcohol', 'Malic acid', 'Ash',
                   'Alcalinity of ash', 'Magnesium', 'Total phenols',
                   'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                   'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                   'Proline']

In [60]:
df_wine['Class label'].unique()

array([1, 2, 3])

In [61]:
df_wine

Unnamed: 0,Class label,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,1,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,3,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,3,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


In [None]:
'''
1) EDA
2) Análisis estadístico
3) Hacer la división de los datos (X_train, X_test, y_train, y_test) semilla de 2025
4) Importar las libraries de sklearn de los algoritmos de RL, Tree y RF
5) Importar las métricas también sklearn https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report
6) Hacel el proceso de la API de sklearn: instancia del modelo, ajuste del modelo (fit) y predicción
7) Aplicar las métricas
8) Concluir ¿Cuál es el mejor modelo para clasificar los tipos de vino?

'''