In [15]:
import pandas as pd
import random

# Tipos de datos
En este curso vamos a trabajar sobre el tipo de datos base, que además es posiblemente el más común de todos: **datos tabulados**.

Cuando tenemos datos tabulados los ejemplos a partir de los cuales aprenderemos nuestro modelo se representan en una **tabla** donde:
- cada fila es un ejemplo,
- cada columna es un **atributo** de dicho ejemplo que ha sido medido en un proceso que no nos incumbe.

En general, diremos que hay $N$ ejemplos y $D$ columnas.<br>
La letra $D$ hace referencia a la dimensionalidad. Si pensamos que todo se terminará almacenando en un ordenador, entonces un ejemplo se puede ver como un vector de $D$ componentes, o sea un vector en un espacio $D$-dimensional.

Aunque los datos se presenten en forma de tabla numérica, cada columna puede tener un caracter diferente. Así podemos distinguir entre:
- atributos continuos
- atributos discretos
- atributos categóricos

## Atributos continuos

Son aquellos atributos que pueden tomar cualquier valor en un intervalo de $\mathbb R$.

Algunos ejemplos del intervalo puede ser: $(-\infty,+\infty)$, $(a,+\infty)$, $(-\infty,a)$ o $(a,b)$.

In [16]:
# Este código genera un pandas dataframe con 10 ejemplos de 2 atributos continuos
# en el intervalo (0,1) generados de manera aleatoria

N = 10
df_continuo = pd.DataFrame({
    'Atributo 1': [random.uniform(0, 1) for _ in range(N)],
    'Atributo 2': [random.uniform(0, 1) for _ in range(N)]
})

print(df_continuo)

   Atributo 1  Atributo 2
0    0.064457    0.588568
1    0.193589    0.004600
2    0.111972    0.462281
3    0.638090    0.761807
4    0.976907    0.272986
5    0.519408    0.145943
6    0.626601    0.739445
7    0.068321    0.774807
8    0.253299    0.755097
9    0.862840    0.225714


## Atributos discretos
Son aquellos atributos que pueden tomar solo un número finito de valores dentro de un intervalo $(a,b)$.

Los atributos booleanos son un caso particular de atributos discretos donde los únicos valores posibles son {0, 1}.

In [17]:
# Este código genera un pandas dataframe con 10 ejemplos de 2 atributos discretos
# en el intervalo (-5,5) generados de manera aleatoria

N = 10
df_discreto = pd.DataFrame({
    'Atributo 1': [random.randint(-5, 5) for _ in range(N)],
    'Atributo 2': [random.randint(-5, 5) for _ in range(N)]
})

print(df_discreto)

   Atributo 1  Atributo 2
0           3           5
1          -3           5
2          -3          -1
3           4          -2
4           2          -3
5           0          -4
6          -1           0
7           3           4
8          -5           1
9          -2          -3


## Atributos categóricos
Son aquellos atributos que pueden tomar sólo un número finito de valores dentro de un conjunto que puede no tener una relación de orden entre sus miembros.

Por ejemplo, un atributo *color* que pueda tomar valores en el conjunto {*rojo*, *verde*, *azul*} es categórico porque NO existe una relación de orden entre rojo, verde y azul; es decir uno no va ni delante ni detrás de los otros.

Sin embargo un atributo *dia_de_semana* con valores en el conjunto {*lunes*, *martes*, *miercoles*, *jueves*, *viernes*, *sábado*, *domingo*} además de ser categórico tiene una relación de orden entre sus elementos: *lunes* precede a todos, *miércoles* va antes que *sábado* pero después del *martes*, etc.

In [18]:
# Este código genera un pandas dataframe con 10 ejemplos de 2 atributos categóricos

N = 10
df_categorico = pd.DataFrame({
    'Atributo 1': [random.choice(['hombre', 'mujer']) for _ in range(N)],
    'Atributo 2': [random.choice(['rojo', 'verde', 'azul']) for _ in range(N)],
}, dtype="category")

print(df_categorico)

  Atributo 1 Atributo 2
0     hombre      verde
1     hombre      verde
2     hombre       azul
3     hombre      verde
4      mujer      verde
5     hombre       rojo
6      mujer       rojo
7     hombre       rojo
8      mujer       rojo
9     hombre      verde


### Codificación de los datos categóricos

Los datos continuos y discretos son números y por tanto no precisan de ninguna codificación.
Sin embargo los datos categóricos son elementos de un conjunto y normalmente vienen descritos por palabras.

Existe una relación biyectiva entre un conjunto de categorías y el conjunto de los números naturales.
Esto significa que a cada elemento del conjunto de categorías se le puede asignar un número natural. Si lo hacemos estaremos **codificando** el atributo categórico.
Hay dos maneras de hacer esto en Pandas:
- Asignando un entero a cada elemento del conjunto
- Utilizando una codificación *One-Hot*

#### Codificación con enteros
<hr>

**Previo**:<br>
Pandas distingue entre "Series" y "DataFrames".
- Una Serie es el equivalente a un array o un vector, es decir una estructura de datos lineal con $N$ filas.
- Un DataFrame es una tabla.

Cuando seleccionamos una única columna de una DataFrame el resultado se convierte automáticamente en una Serie.
<hr>

Pandas permite codificar con enteros una Serie.
<br>
Por ejemplo:  `df_categorico['Atributo 1'].cat.codes`

Si queremos codificar todos los atributos categóricos de un DataFrame debemos recorrer sus columnas ejecutando `cat.codes`.

Para saber a qué categoría se corresponde cada entero lo mejor es ir creando un diccionario al mismo tiempo. Para ello utilizaremos primero `cat.categories` y luego juntaremos códigos y categorías en la estructura de datos `dict` de Python.


In [19]:
# En este ejemplo vamos a ver como funciona `cat.codes` y `cat.categories`
# y creamos el diccionario de códigos a categorías.

codes1 = df_categorico['Atributo 1'].cat.codes
categ1 = df_categorico['Atributo 1'].cat.categories
code_to_categ1 = dict(zip(codes1,df_categorico['Atributo 1']))

codes2 = df_categorico['Atributo 2'].cat.codes
categ2 = df_categorico['Atributo 2'].cat.categories
code_to_categ2 = dict(zip(codes2,df_categorico['Atributo 2']))

print('Diccionario código->categoría: ',code_to_categ1)
print('Diccionario código->categoría: ',code_to_categ2)

Diccionario código->categoría:  {0: 'hombre', 1: 'mujer'}
Diccionario código->categoría:  {2: 'verde', 0: 'azul', 1: 'rojo'}


Si queremos asignar nosotros el código en vez de dejar a Python que lo elija, entonces debemos crear un diccionario con todas las categorías y su respectivo código y después aplicarlo usando `map`.

En el siguiente ejemplo lo hemos aplicado de dos maneras:

1. Para "Atributo1" hemos obtenido la lista de valores únicos y luego hemos asignado a cada uno el entero que marca su posición en la lista.
2. Para "Atributo2" hemos creado una lista con *todos* las categorias posibles (vamos a suponer que sólo  esos 10 colores son posibles) y luego hemos asignado a cada uno el entero correlativo, empezando por cero.<br>
Si quisieramos cambiar el código sólo habría que cambiar el orden de los colores.

In [20]:
# En este ejemplo vamos a crear el diccionario de categorías a códigos

categorias1 = df_categorico['Atributo 1'].unique()
categ_to_code1= {string: i for i, string in enumerate(categorias1)}
categ1 = df_categorico['Atributo 1'].map(categ_to_code1)

categorias2 = ['blanco','amarillo','verde','cian','rosa','azul','morado',
               'rojo','marrón','gris','negro']
categ_to_code2= {string: i for i, string in enumerate(categorias2)}
categ2 = df_categorico['Atributo 2'].map(categ_to_code2)

print('Diccionario categoría->código: ',categ_to_code1)
print(categ1)

print('Diccionario categoría->código: ',categ_to_code2)
print(categ2)

Diccionario categoría->código:  {'hombre': 0, 'mujer': 1}
0    0
1    0
2    0
3    0
4    1
5    0
6    1
7    0
8    1
9    0
Name: Atributo 1, dtype: category
Categories (2, int64): [0, 1]
Diccionario categoría->código:  {'blanco': 0, 'amarillo': 1, 'verde': 2, 'cian': 3, 'rosa': 4, 'azul': 5, 'morado': 6, 'rojo': 7, 'marrón': 8, 'gris': 9, 'negro': 10}
0    2
1    2
2    5
3    2
4    2
5    7
6    7
7    7
8    7
9    2
Name: Atributo 2, dtype: category
Categories (3, int64): [5, 7, 2]


Estos métodos están orientados a Series, es decir a columnas. <br>
Si queremos cambiar todas las columnas categóricas por un código debemos hacerlo en un bucle PERO primero hay que identificar en cuales hay que actuar.

In [21]:
# En este ejemplo vamos listar aquellas columnas que son categóricas
# y luego vamos a codificarlas

# 1) averiguamos las columnas categóricas
cat_cols = df_categorico.select_dtypes(include='category').columns.tolist()
# 2) creamos un dataframe con las columnas categóricas pero sin filas
df_cat_coded = pd.DataFrame(columns=cat_cols)
# 3) creamos un bucle que las recorra y las codifique, a la vez que..
#    creamos una diccionario de diccionarios para descodificar en el futuro
dict_decode={}
for col in cat_cols:
  codes = df_categorico[col].cat.codes
  code_to_categ = dict(zip(codes,df_categorico[col]))
  df_cat_coded[col] = codes
  dict_decode[col] = code_to_categ

print(df_cat_coded)
print(dict_decode)

   Atributo 1  Atributo 2
0           0           2
1           0           2
2           0           0
3           0           2
4           1           2
5           0           1
6           1           1
7           0           1
8           1           1
9           0           2
{'Atributo 1': {0: 'hombre', 1: 'mujer'}, 'Atributo 2': {2: 'verde', 0: 'azul', 1: 'rojo'}}


#### Codificación *One-hot*
En esta codificación se crean tantas columnas como categorías diferentes hay por cada atributo categórico.<br>
La codificación se realiza escribiendo un 1 en aquella columna que se corresponde con la categoría y un 0 en todas las demás.

<u>_Por ejemplo_</u><br>
Para una atributo "Color" con tres categorías {*Rojo*,*Verde*,*Azul*} la codificación One-hot crearía tres columnas: "Rojo". "Verde" y "Azul". A continuación, para un ejemplo de la tabla con atributo "Color"="Rojo", pondría un 1 en la columna "Rojo" y un 0 en las otras dos. Y así con todos los ejemplos.

Estas nuevas columnas reciben el nombre de **dummies**.

In [22]:
# En este ejemplo hacemos una codificación One-hot de "Atributo 1" del
# dataframe "df_categorical"

one_hot = pd.get_dummies(df_categorico['Atributo 1'])

# Unir el dataframe original con el dataframe codificado
df = pd.concat([df_categorico, one_hot], axis=1)

print(df)

  Atributo 1 Atributo 2  hombre  mujer
0     hombre      verde    True  False
1     hombre      verde    True  False
2     hombre       azul    True  False
3     hombre      verde    True  False
4      mujer      verde   False   True
5     hombre       rojo    True  False
6      mujer       rojo   False   True
7     hombre       rojo    True  False
8      mujer       rojo   False   True
9     hombre      verde    True  False


In [23]:
# label encoding

from sklearn.preprocessing import LabelEncoder
import pandas as pd

# Crear un dataframe de ejemplo
df = pd.DataFrame({'Atributo Categórico': ['Gato', 'Perro', 'Perro', 'Pájaro']})

# Codificar el atributo categórico con Label Encoding
le = LabelEncoder()
df['Atributo Categórico'] = le.fit_transform(df['Atributo Categórico'])

print(df)


   Atributo Categórico
0                    0
1                    1
2                    1
3                    2


# Utilidades extra

Una tabla de datos puede tener atributos de todos los tipos sin problema.

Eso sí, a la hora de manejarlos en dataframes de Pandas, es importante que cada atributo tenga un nombre diferente.

In [24]:
df = pd.concat([df_continuo, df_discreto , df_categorico], axis=1)
df.columns = ['atbCon1', 'atbCon2', 'atbDis1', 'atbDis2', 'atbCat1', 'atbCat2']

print(df)

    atbCon1   atbCon2  atbDis1  atbDis2 atbCat1 atbCat2
0  0.064457  0.588568        3        5  hombre   verde
1  0.193589  0.004600       -3        5  hombre   verde
2  0.111972  0.462281       -3       -1  hombre    azul
3  0.638090  0.761807        4       -2  hombre   verde
4  0.976907  0.272986        2       -3   mujer   verde
5  0.519408  0.145943        0       -4  hombre    rojo
6  0.626601  0.739445       -1        0   mujer    rojo
7  0.068321  0.774807        3        4  hombre    rojo
8  0.253299  0.755097       -5        1   mujer    rojo
9  0.862840  0.225714       -2       -3  hombre   verde


A lo largo del curso usaremos varias bibliotecas de Python.
Las más importantes y frecuentes serán:

| Biblioteca | Modo de importar | Utilidad |
|----|----|----|
| Pandas | `import pandas` | Manejo de datos tabulados |
| Numpy  | `import numpy`  | Manejo de arrays n-dimensionales y funciones matemáticas|
| Scipy  | `import scipy`  | Manejo de funciones matemáticas y distribuciones de probabilidad |
| Scikit-learn | `import sklearn` | Biblioteca de ML |
| Random | `import random` | Generación aleatoria
| Matplotlib   | `from matplotlib import pyplot` | Generación de gráficos |

En particular, en La biblioteca **SciKit-Learn** de Python podemos encontrar algunos métodos de codificación similares a los que hemos visto en Pandas. <br>
Conviene conocerlos pero no los utilizaremos hasta que no empezemos a aprender modelos.

| | |
|----|----|
| `preprocessing.LabelEncoder` | Encode target labels with value between 0 and n_classes-1 |
| `preprocessing.OneHotEncoder` | Encode categorical features as a one-hot numeric array |
| `preprocessing.OrdinalEncoder` | Encode categorical features as an integer array. |
| `preprocessing.TargetEncoder` |  	Target Encoder for regression and classification targets |

# Ejercicios

Utilizar el método `factorize` de Pandas para crear una codificación de un atributo categórico.<br>
¿Qué diferencia hay entre `factorize` y los métodos que hemos usado de codificación con enteros?

Al utilizar `get_dummies` hemos añadido dos columnas a la tabla ("hombre" y "mujer"), pero ¿cómo se eliminaría la columna "Atributo 1"?