| **Inicio** | **Siguiente 2** |
|----------- |-------------- |
| [🏠](../../README.md) | [⏩](./2.Regresion.ipynb)|

# **1. Pre procesado de datos**

## **Datos categóricos**

Los datos categóricos, también conocidos como variables categóricas, son aquellos que representan características o cualidades que pueden ser clasificadas en diferentes categorías o grupos. Estas categorías pueden ser nominales o ordinales, dependiendo del tipo de información que se esté representando.

`Las variables categóricas nominales` no tienen un orden lógico entre las diferentes categorías, simplemente se usan para clasificar la información en diferentes grupos.

**Ejemplos** de variables categóricas nominales son el género, la nacionalidad, la preferencia política o el color de ojos. Estas variables no pueden ser medidas o comparadas en términos de mayor o menor, simplemente se pueden contar la cantidad de individuos en cada categoría.

Por otro lado, `las variables categóricas ordinales` sí tienen un orden lógico entre las diferentes categorías.

**Ejemplos** de variables categóricas ordinales son el nivel educativo, la clasificación socioeconómica o el grado de satisfacción. En este caso, las diferentes categorías se pueden ordenar en función de un criterio lógico, por ejemplo, el nivel educativo se puede ordenar de menor a mayor: primaria, secundaria, universitaria, posgrado, etc.

En resumen, los datos categóricos son aquellos que representan características o cualidades que se pueden clasificar en diferentes categorías o grupos, y que pueden ser nominales o ordinales dependiendo del tipo de información que se esté representando.

### **Problemática de los datos categóricos**

Los datos categóricos son aquellos que representan una variable que toma valores de una lista finita y discreta de categorías o etiquetas. Aunque son comunes en muchos campos de estudio, los datos categóricos pueden presentar varias problemáticas que dificultan su análisis. Algunas de estas problemáticas son:

1. **Escalas de medición:**
 Las variables categóricas no tienen una escala de medición clara, lo que dificulta la comparación entre ellas. **Por ejemplo**, no se puede decir que una categoría es el doble o la mitad de otra categoría.

2. **Representación numérica:**
 A menudo, los datos categóricos se representan mediante números, pero estos números no tienen ningún significado numérico real. **Por ejemplo**, si tenemos una variable que representa colores, los números asignados a cada color no tienen un valor numérico real.

3. **Análisis estadístico:**
 Muchos métodos estadísticos requieren que los datos sean numéricos, por lo que los datos categóricos pueden presentar dificultades en el análisis. A menudo se utilizan técnicas especiales, como modelos de regresión logística o análisis de contingencia, para analizar datos categóricos.

4. **Sesgo de la muestra:** Los datos categóricos pueden estar sesgados si la muestra no es representativa de la población de interés. Por ejemplo, si se recopilan datos sobre preferencias de color solo de personas que trabajan en una empresa de moda, es posible que los resultados no sean generalizables a la población en general.

5. **Categorías incompletas:**
 A veces, las categorías en una variable categórica pueden ser incompletas o ambiguas, lo que dificulta su análisis. Por **ejemplo**, si se tiene una variable que representa la edad, pero algunas categorías están ausentes o no son claras, puede ser difícil interpretar los resultados.

![Variables](../imagenes%20Machine_Learning/Variables.webp "Variables")

### **Tipos de datos categóricos**

Existen diferentes tipos de datos categóricos, algunos de los cuales se detallan a continuación:

1. **Nominales:**
 Los datos nominales son aquellos que representan categorías sin ningún orden o jerarquía específica. Por **ejemplo**, el género, el país de origen, la marca de un producto, etc.

2. **Ordinales:**
 Los datos ordinales son aquellos que representan categorías con un orden o jerarquía específica. Por **ejemplo**, las calificaciones escolares (A, B, C, D, E), el nivel socioeconómico (bajo, medio, alto), la opinión sobre algo (muy bueno, bueno, regular, malo, muy malo), etc.

3. **Binarios:**
 Los datos binarios son aquellos que representan solo dos categorías posibles. Por **ejemplo**, sí o no, verdadero o falso, hombre o mujer, etc.

4. **Politómicos:**
 Los datos politómicos son aquellos que representan más de dos categorías posibles. Por **ejemplo**, el color de un objeto, las preferencias de comida (dulce, salado, amargo, ácido), el nivel de educación (primaria, secundaria, universitaria), etc.

Es importante tener en cuenta que la elección del tipo de dato categórico depende del contexto en el que se está trabajando y de la naturaleza de la variable que se está midiendo.

### **Ejemplos de datos ordinales**

Supongamos que tenemos un dataframe que representa la información de un conjunto de estudiantes y sus calificaciones en diferentes asignaturas. Algunos ejemplos de datos ordinales que podrían estar presentes en este dataframe son:

* La calificación en cada asignatura, que se puede representar mediante una escala ordinal, como A, B, C, D, E, donde A es la calificación más alta y E es la calificación más baja.

* El nivel de dificultad de cada asignatura, que también se puede representar mediante una escala ordinal, como alta, media, baja, donde alta representa el nivel más difícil y baja el nivel más fácil.

* El grado de satisfacción de los estudiantes con cada asignatura, que se puede representar mediante una escala ordinal, como muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho, donde muy satisfecho representa el nivel más alto de satisfacción y muy insatisfecho el nivel más bajo.

En todos estos casos, los datos tienen un orden o jerarquía específica que permite su clasificación y análisis.

Para ilustrar cómo se pueden representar datos ordinales en un dataframe utilizando Python, podemos crear un pequeño ejemplo utilizando la librería Pandas.

Supongamos que tenemos un dataframe que representa la información de un conjunto de estudiantes y sus calificaciones en tres asignaturas (Matemáticas, Física y Química), y que las calificaciones se han registrado utilizando la escala ordinal A, B, C, D, E. Podríamos crear el dataframe de la siguiente manera:

In [7]:
import pandas as pd

data = {
    'Estudiante': ['Juan', 'María', 'Pedro', 'Ana'],
    'Matemáticas': ['A', 'B', 'C', 'C'],
    'Física': ['B', 'C', 'D', 'E'],
    'Química': ['C', 'C', 'D', 'D']
}

df = pd.DataFrame(data)

print(df)

  Estudiante Matemáticas Física Química
0       Juan           A      B       C
1      María           B      C       C
2      Pedro           C      D       D
3        Ana           C      E       D


En este caso, las columnas de calificaciones para cada asignatura representan datos ordinales, ya que cada calificación tiene un orden específico. Podemos analizar estos datos de diferentes maneras, como calcular el promedio de calificaciones de cada estudiante o determinar la asignatura con la calificación más alta.

### **Contexto de los datos**

El contexto de los datos se refiere al conjunto de circunstancias y condiciones en las que se recopilaron los datos, incluyendo la fuente de los datos, el propósito de la recopilación de los datos, el método utilizado para recopilar los datos y cualquier otra información relevante.

El contexto es importante porque puede afectar la validez y la fiabilidad de los datos, y por lo tanto, la interpretación y los resultados que se pueden obtener a partir de ellos. Algunos factores importantes a considerar en el contexto de los datos son:

* **La fuente de los datos:**
 ¿Quién recopiló los datos? ¿Son datos de una fuente confiable y verificada?

* **El propósito de la recopilación de los datos:**
 ¿Cuál fue el objetivo principal de la recopilación de los datos? ¿Se recopilaron los datos para responder a una pregunta específica o para explorar un tema más amplio?

* **El método utilizado para recopilar los datos:**
 ¿Se utilizaron métodos adecuados y válidos para recopilar los datos? ¿Se consideraron los posibles sesgos en el método de recopilación de los datos?

* **La naturaleza de los datos:**
 ¿Son los datos categóricos o numéricos? ¿Cuál es la escala de medida utilizada para los datos?

* **El periodo de tiempo en que se recopilaron los datos:**
 ¿Los datos son actuales o se recopilaron en el pasado? ¿Es importante considerar los cambios en el contexto que pueden haber ocurrido desde que se recopilaron los datos?

En resumen, el contexto de los datos es esencial para interpretarlos de manera adecuada y utilizarlos de manera efectiva en la toma de decisiones o en la investigación.

### **Codificación ordinal (Ordinal Encoder)**

La codificación ordinal, también conocida como Ordinal Encoder, es una técnica de preprocesamiento de datos que se utiliza para convertir variables categóricas ordinales en valores numéricos ordenados. Esto se hace asignando un número entero único a cada categoría, basado en su posición en la escala ordinal.

Por **ejemplo**, supongamos que tenemos una columna llamada `"Nivel de educación"` con las siguientes categorías ordinales: `"Primaria"`, `"Secundaria"`, `"Bachillerato"`, `"Técnico"`, `"Profesional"`, `"Maestría"` y `"Doctorado"`.
 La codificación ordinal asignaría los siguientes números enteros a cada categoría: 1 para `"Primaria"`, 2 para `"Secundaria"`, 3 para `"Bachillerato"`, 4 para `"Técnico"`, 5 para `"Profesional"`, 6 para `"Maestría"` y 7 para `"Doctorado"`.

A continuación se presenta un ejemplo de cómo utilizar la codificación ordinal en Python con la biblioteca `Scikit-Learn`:

In [8]:
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd

# Creamos un dataframe con datos categóricos ordinales
df = pd.DataFrame({'Nivel de educación': ['Primaria', 'Secundaria', 'Bachillerato', 'Técnico', 'Profesional', 'Maestría', 'Doctorado']})

# Instanciamos el codificador ordinal
encoder = OrdinalEncoder()

# Ajustamos el codificador a los datos del dataframe
encoder.fit(df)

# Transformamos los datos categóricos ordinales en valores numéricos ordenados
transformed_data = encoder.transform(df)

# Creamos un nuevo dataframe con los datos transformados
transformed_df = pd.DataFrame(transformed_data, columns=df.columns)

print(transformed_df)

   Nivel de educación
0                 3.0
1                 5.0
2                 0.0
3                 6.0
4                 4.0
5                 2.0
6                 1.0


En este ejemplo, el codificador ordinal convierte la columna `"Nivel de educación"` en valores numéricos ordenados del 0 al 6, basado en la posición de cada categoría en la escala ordinal.

### **Codificación One-Hot (One-Hot Encoder)**

La codificación `One-Hot` (también conocida como One-Hot Encoder) es una técnica de preprocesamiento de datos que se utiliza para convertir variables categóricas en variables numéricas binarias. Cada categoría de la variable original se convierte en una nueva columna binaria, y se asigna un valor de 1 si la instancia pertenece a esa categoría, y 0 si no lo hace.

Por ejemplo, si tenemos una columna `"Color"` con tres categorías: `"Rojo"`, `"Verde"` y `"Azul"`, la codificación `One-Hot` crearía tres nuevas columnas: `"Rojo"`, `"Verde"` y `"Azul"`. Si una instancia tiene el color `"Rojo"`, su columna correspondiente tendrá un valor de 1 y las otras dos columnas tendrán un valor de 0.

A continuación, se presenta un ejemplo de cómo utilizar la codificación `One-Hot` en Python con la biblioteca `Scikit-Learn`:

In [9]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# Creamos un dataframe con datos categóricos
df = pd.DataFrame({'Color': ['Rojo', 'Verde', 'Azul', 'Rojo', 'Rojo', 'Verde']})

# Instanciamos el codificador One-Hot
encoder = OneHotEncoder()

# Ajustamos el codificador a los datos del dataframe
encoder.fit(df)

# Transformamos los datos categóricos en valores numéricos binarios
transformed_data = encoder.transform(df).toarray()

# Obtenemos los nombres de las nuevas columnas
feature_names = encoder.get_feature_names_out(input_features=['Color'])

# Creamos un nuevo dataframe con los datos transformados
transformed_df = pd.DataFrame(transformed_data, columns=feature_names)

print(transformed_df)

   Color_Azul  Color_Rojo  Color_Verde
0         0.0         1.0          0.0
1         0.0         0.0          1.0
2         1.0         0.0          0.0
3         0.0         1.0          0.0
4         0.0         1.0          0.0
5         0.0         0.0          1.0


En este ejemplo, el codificador `One-Hot` convierte la columna `"Color"` en tres nuevas columnas binarias `"x0_Azul"`, `"x0_Rojo"` y `"x0_Verde"`. Cada columna representa una categoría única y se asigna un valor de 1 si la instancia pertenece a esa categoría y 0 si no lo hace.

### **Comparación de las codificaciones vía un clasificador**

En este ejemplo, compararemos el desempeño de la codificación ordinal y `one-hot` encoding en un clasificador de regresión logística utilizando el conjunto de datos `Iris`. Primero, cargamos el conjunto de datos y separamos las características `(X)` y las etiquetas `(y)`:

In [10]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Cargar el conjunto de datos Iris
iris = load_iris()

# Separar características y etiquetas
X = iris.data
y = iris.target

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


A continuación, creamos dos transformadores utilizando el codificador ordinal y `one-hot encoder`:

In [11]:
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Definir las características categóricas y numéricas
categorical_cols = [3]
numeric_cols = [0, 1, 2]

# Crear un transformador con el codificador ordinal
ordinal_encoder = OrdinalEncoder()
ordinal_transformer = Pipeline(steps=[('ordinal_encoder', ordinal_encoder)])
preprocessor_ordinal = ColumnTransformer(transformers=[
    ('ordinal', ordinal_transformer, categorical_cols),
    ('numeric', 'passthrough', numeric_cols)
])

# Crear un transformador con el codificador one-hot
onehot_encoder = OneHotEncoder()
onehot_transformer = Pipeline(steps=[('onehot_encoder', onehot_encoder)])
preprocessor_onehot = ColumnTransformer(transformers=[
    ('onehot', onehot_transformer, categorical_cols),
    ('numeric', 'passthrough', numeric_cols)
])


Luego, creamos dos clasificadores de regresión logística, uno para cada transformador:

In [12]:
# Crear un clasificador de regresión logística con el transformador ordinal
clf_ordinal = Pipeline(steps=[
    ('preprocessor', preprocessor_ordinal),
    ('classifier', LogisticRegression())
])

# Crear un clasificador de regresión logística con el transformador one-hot
clf_onehot = Pipeline(steps=[
    ('preprocessor', preprocessor_onehot),
    ('classifier', LogisticRegression())
])


Entrenamos ambos clasificadores con los datos de entrenamiento:

In [13]:
# Entrenar el clasificador con el transformador ordinal
clf_ordinal.fit(X_train, y_train)

# Entrenar el clasificador con el transformador one-hot
clf_onehot.fit(X_train, y_train)


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Finalmente, evaluamos el desempeño de ambos clasificadores en los datos de prueba:

In [14]:
# Hacer predicciones con el clasificador con el transformador ordinal
y_pred_ordinal = clf_ordinal.predict(X_test)
accuracy_ordinal = accuracy_score(y_test, y_pred_ordinal)

# Hacer predicciones con el clasificador con el transformador one-hot
y_pred_onehot = clf_onehot.predict(X_test)
accuracy_onehot = accuracy_score(y_test, y_pred_onehot)

# Imprimir el desempeño de ambos clasificadores
print(f'Accuracy con codificación ordinal: {accuracy_ordinal:.2f}')
print(f'Accuracy con codificación one-hot: {accuracy_onehot:.2f}')

Accuracy con codificación ordinal: 1.00
Accuracy con codificación one-hot: 1.00


## **Cómo dividir el data set en entrenamiento y test**

En el aprendizaje automático, es común dividir el conjunto de datos en dos subconjuntos: el conjunto de entrenamiento y el conjunto de prueba. El conjunto de entrenamiento se utiliza para ajustar el modelo de aprendizaje automático, mientras que el conjunto de prueba se utiliza para evaluar el rendimiento del modelo.

Aquí te explicaré cómo dividir un conjunto de datos en Python utilizando la librería `Scikit-learn`.

Primero, necesitamos cargar el conjunto de datos. Para este ejemplo, utilizaremos el conjunto de datos `iris` que ya viene incluido en `Scikit-learn`:

In [1]:
from sklearn.datasets import load_iris
iris = load_iris()


A continuación, vamos a dividir los datos en un conjunto de entrenamiento y un conjunto de prueba. `Scikit-learn` proporciona la función `train_test_split` para dividir los datos de manera aleatoria.

In [2]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)


Aquí, `iris.data` son los datos de entrada y `iris.target` son las etiquetas de clase correspondientes. `test_size` es el porcentaje del conjunto de datos que se utilizará para el conjunto de prueba, que en este caso es del 30%. `random_state` es una semilla aleatoria para asegurarnos de que obtenemos la misma división de datos cada vez que ejecutamos el código.

Ahora tenemos cuatro conjuntos de datos: `X_train`, `X_test`, `y_train`, y `y_test`. `X_train` y `y_train` se utilizan para entrenar el modelo, mientras que `X_test` y `y_test` se utilizan para evaluar el rendimiento del modelo.

Finalmente, podemos verificar el tamaño de los conjuntos de datos de entrenamiento y prueba utilizando la función `shape`:

In [3]:
print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)


X_train shape: (105, 4)
y_train shape: (105,)
X_test shape: (45, 4)
y_test shape: (45,)


En resumen, la función `train_test_split` nos permite dividir un conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba de manera aleatoria en Python.

![Cómo dividir el data set en entrenamiento y test](../imagenes%20Machine_Learning/dataset%20_entrenamiento_test.webp "Cómo dividir el data set en entrenamiento y test")


## **Cómo escalar los datos**

En el aprendizaje automático, es común que las diferentes características (variables) de un conjunto de datos tengan diferentes escalas o rangos de valores. Por ejemplo, una característica puede tener valores entre 0 y 1, mientras que otra puede tener valores entre 0 y 1000. Escalar los datos es un proceso que transforma los valores de las características en una escala común, lo que puede mejorar la eficacia de los algoritmos de aprendizaje automático.

Aquí te explicaré cómo escalar los datos en Python utilizando la librería `Scikit-learn`.

Primero, necesitamos cargar el conjunto de datos. Para este ejemplo, utilizaremos el conjunto de datos iris que ya viene incluido en `Scikit-learn`:

In [4]:
from sklearn.datasets import load_iris
iris = load_iris()


A continuación, vamos a escalar los datos utilizando la función `StandardScaler` de `Scikit-learn`:

In [5]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(iris.data)


Aquí, `StandardScaler` es un objeto de la clase `StandardScaler` que se utiliza para escalar los datos. La función `fit_transform` se utiliza para ajustar el escalador a los datos y transformar los datos de entrada `iris.data` en una escala común `X_scaled`. El conjunto de datos escalado resultante `X_scaled` es un `numpy` `array` con las mismas dimensiones que `iris.data`.

Podemos verificar los valores escalados de los datos utilizando la función `mean` y `std` de `numpy`:

In [6]:
import numpy as np
print("Media de los datos originales:", np.mean(iris.data, axis=0))
print("Desviación estándar de los datos originales:", np.std(iris.data, axis=0))
print("Media de los datos escalados:", np.mean(X_scaled, axis=0))
print("Desviación estándar de los datos escalados:", np.std(X_scaled, axis=0))


Media de los datos originales: [5.84333333 3.05733333 3.758      1.19933333]
Desviación estándar de los datos originales: [0.82530129 0.43441097 1.75940407 0.75969263]
Media de los datos escalados: [-1.69031455e-15 -1.84297022e-15 -1.69864123e-15 -1.40924309e-15]
Desviación estándar de los datos escalados: [1. 1. 1. 1.]


Podemos ver que los datos escalados tienen una media de casi 0 y una desviación estándar de 1, lo que indica que están en una escala común.

En resumen, la función `StandardScaler` de `Scikit-learn` nos permite escalar los datos para transformar las diferentes características en una escala común.

| **Inicio** | **Siguiente 2** |
|----------- |-------------- |
| [🏠](../../README.md) | [⏩](./2.Regresion.ipynb)|