## Procesamiento de Datos

**La limpieza y preparación de datos es el paso más importante en cualquier proyecto de Inteligencia Artificial y Machine Learning.**

La limpieza de datos es el proceso de detectar y corregir o eliminar registros corruptos o inexactos de un conjunto de registros, tabla o base de datos y se refiere a la identificación de partes incompletas, incorrectas, inexactas o irrelevantes de los datos, para su posterior sustitución, modificación o eliminación de los datos sucios o poco precisos.

El procesamiento de datos se refiere al conjunto de técnicas, métodos y procesos utilizados para transformar datos brutos en información significativa y útil. Es una parte fundamental del ciclo de vida de los datos y juega un papel crucial en el análisis de datos y la generación de conocimiento.

### 1. Valores perdidos (NaN's)

Se presentan cuando el valor para al menos un rasgo o un patrón en el conjunto de datos no se encuentra presente. Generalmente se representan con:

1. **Valor fuera de rango**: -1 en un campo numérico que solo es positivo.


2. **Caracteres especiales**: -, ? o espacio en blanco.


3. **Valores perdidos identificados**: NaN's

**Causas**: mal funcionamiento de equipos de medición, cambio en el diseño durante la captura de datos, imposibilidad de recolectar los datos, entre otras.

### Estrategías de tratamiento de NaN's

- _**Eliminar los patrones**_ (filas) cuyos atributos contienen valores perdidos.
    - Pros:
        - Simple y rápido de implementar
    - Contras:
        - Al eliminar una fila entera por un NaN, perdemos otros datos potencialmente valiosos que contiene esa fila.

- Si el atributo que tiene valores perdidos es numérico se rellenan los valores con el _**valor promedio**_ del atributo o por la _**mediana**_.
    - Pros:
        - No perdemos datos.
        - La estimación de los valores perdidos está fundamentada en la estadística descriptiva de nuestro dataset.
    - Contras:
        - Podemos distorsionar significativamente la distribución de los datos, sobre todo cuando tenemos muchos valores perdidos.


- Si el atributo que tiene valores perdidos es categórico se rellenan los valores con la _**moda**_ del atributo.
    - Pros:
        - No perdemos datos.
        - La estimación de los valores perdidos está fundamentada en la estadística descriptiva de nuestro dataset.
    - Contras:
        - Podemos distorsionar significativamente la frecuencia de las categorías en favor a la categoría mayoritaria.
        
- Se pueden utilizar _**métodos de imputación**_ más avanzados haciéndo uso de algoritmos como KNN (K Nearest Neighbors) para rellenar los NaNs.
    - Pros:
        - No perdemos datos.
        - La estimación de los valores perdidos se hace en base a otros valores conocidos.
        - Respetamos la distribución de los datos.
    - Contras:
        - Los algoritmos de imputación tienen una muy alta complejidad temporal, por lo que es mucho más costoso utilizarlos con grandes volúmenes de datos de manera directa.
        
- Si el atributo contiene muchos valores perdidos podemos optar por _**eliminar la columna**_ en lugar de eliminar las filas.
    - Pros:
        - Simple y rápido de implementar.
    - Contras:
        - Si el atributo resulta ser un importante predictor de la variable objetivo estaremos perdiendo datos útiles.

### 2. Valores Atípicos (Outliers)

Los valores atípicos son datos que presentan una diferencia significativa del resto de elementos en un conjunto de datos o en una clase en particular.

**Causas:**
- **Malas mediciones al capturar los datos.**


- **Mal etiquetado del patrón al asignarle una clase.**


- **Características propias del atributo.**

### Tratamiento de Outliers

- Eliminar patrones atípicos que presentan _**valores evidentemente imposibles**_, un ejemplo sería edades negativas.
    - Pros:
        - Limpiamos los datos y mejoramos su calidad.
    - Contras:
        - Podemos entender también estos valores como valores perdidos, por lo que técnicas de tratado de NaNs podrían ser otra opción a considerar.

- _**Normalizar los datos**_. Al aplicar una transformación que normaliza los datos, podemos ver cómo algunos eleméntos que parecían ser outliers ya no lo son.
    - Pros:
        - Nos da una perspectiva única sobre los datos.
        - Podemos detectar outliers de una manera más "justa".
    - Contras:
        - Complejidad teórica. Hay que saber reconocer la distribución de datos que tenemos y qué transformación aplicarle para normalizarlos.

- Utilizar la _**puntuación Z**_ para filtrar outliers. Cuando nuestros datos siguen una distribución normal, podemos establecer un umbral utilizando la puntuación Z para determinar datos normales y atípicos.
    - Pros:
        - Flexibilidad al modificar el parámetro Z.
        - Muy simple y rápido de implementar.
    - Contras:
        - Solo es bueno con distribuciones normales.
        - Podemos eliminar muchos datos si lo utilizamos de forma reiterada con varias columnas.
        - Filtramos atributo por atributo, sin tener en cuenta la interacción entre variables.

- Utilizar la _**valla de Tukey**_. Considerar atípicos los valores inferiores a Q1–k·RIC o superiores a Q3+k·RIC. (bigotes del boxplot). RIC = Q3 – Q1 con k=1.5.
    - Pros:
        - Flexibilidad al modificar el parámetro k.
        - Robusto ante distribuciones asimétricas.
    - Contras:
        - Podemos eliminar muchos datos si lo utilizamos de forma reiterada con varias columnas.
        - Filtramos atributo por atributo, sin tener en cuenta la interacción entre variables.
        
- _**Visualizar los datos**_. Podemos establecer un punto de corte manual para filtrar outliers partiendo de lo que vemos en una visualización de la distribución de los datos (histograma).
    - Pros:
        - Es múy fácil de explicar la toma de decisiones a otra persona.
        - Más control humano y menos automatización.
    - Contras:
        - No siempre es fácil de ver visualmente donde se encuentran los outliers, o si existen.
        - Filtramos atributo por atributo, sin tener en cuenta la interacción entre variables.

- Aplicar métodos de _**clustering**_ que sean capaces de detectar los outliers. Ej: DBSCAN.
    - Pros:
        - Podemos aplicarlo con todo el dataset de golpe o solamente con las columnas que nos interesan.
    - Contras:
        - Es muy importante hacer un tuning correcto del modelo de clustering.
- Aplicar métodos de _**feature selection**_ para reducir la dimensionalidad. Ej: PCA.
    - Pros:
        - Podemos aplicar los métodos de umbrales como la puntuación Z y valla de Tukey sin perder muchos datos.
    - Contras:
        - Es un proceso tedioso con ventajas marginales.
        - Filtramos atributo por atributo, sin tener en cuenta la interacción entre variables.

### 3. Encodings

Los encodings son mapas que asocian las categorías de alguna columna categórica a valores numéricos. Son necesarios para que los diferentes algoritmos puedan interpretar nuestros datos categóricos, ya que estos algoritmos solo "entienden" números.

Scikit Learn trae varios objetos que podemos utilizar para codificar nuestras variables categóricas y convertir los valores en números:

1. _**Ordinal Encoding**_: transformamos toda la columna a números enteros, si la columna tiene _**n**_ elementos únicos, va a cambiar esos elementos por lo números desde el _**0**_ hasta _**n - 1**_.

    <br>
    <div style="display: flex;">
      <table>
        <tr>
          <th>Nivel Educativo</th>
        </tr>
        <tr>
          <td>ESO</td>
        </tr>
          <td>Bachillerato</td>
        <tr>
          <td>Grado Universitario</td>
        </tr>
        <tr>
          <td>Master</td>
        </tr>
        <tr>
          <td>Doctorado</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Nivel Educativo Ordinal</th>
        </tr>
        <tr>
          <td>0</td>
        </tr>
        <tr>
          <td>1</td>
        </tr>
        <tr>
          <td>2</td>
        </tr>
        <tr>
          <td>3</td>
        </tr>
        <tr>
          <td>4</td>
        </tr>
      </table>
    </div>

    - Pros:
        - Simple y rápido de implementar.
        - Puede capturar relaciones de ordinalidad entre las categorías.
        - Mantiene una relación equidistante entre las categorías asumiendo que siguen un orden.
    - Contras:
        - No es adecuado para variables categóricas nominales (sin orden), ya que puede introducir sesgos en nuestro modelo, enseñándole relaciones de ordinalidad, distancia y proporción entre categorías que no poseen dichos rasgos.
<br>

2. _**One Hot Encoding**_: este encoding se utiliza para transformar columnas categóricas en un conjunto de columnas binarias (0 o 1) que representan la presencia o ausencia de cada categoría en los datos originales.

    <br>
    <div style="display: flex;">
      <table>
        <tr>
          <th>Sex</th>
        </tr>
        <tr>
          <td>male</td>
        </tr>
        <tr>
          <td>female</td>
        </tr>
        <tr>
          <td>female</td>
        </tr>
        <tr>
          <td>male</td>
        </tr>
        <tr>
          <td>female</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Sex_male</th>
          <th>Sex_female</th>
        </tr>
        <tr>
          <td>1</td>
          <td>0</td>
        </tr>
        <tr>
          <td>0</td>
          <td>1</td>
        </tr>
        <tr>
          <td>0</td>
          <td>1</td>
        </tr>
        <tr>
          <td>1</td>
          <td>0</td>
        </tr>
        <tr>
          <td>0</td>
          <td>1</td>
        </tr>
      </table>
    </div>
    
    - Pros:
        - Simple y rápido de implementar.
        - No asume orden entre las categorías.
        - Compatible con la mayoría de los modelos de aprendizaje automático.
    - Contras:
        - Aumenta de manera significativa la dimensionalidad de los datos, especialmente con muchas categorías, por lo que puede generar problemas de multicolinealidad y sparsidad de datos.

<br>

3. _**Binary Encoding**_: Este es un método que nos permite reducir el impacto de los pesos asignados a las categorías por un encoding como el ordinal. Tenemos que representar los valores numéricos resultantes de un encoding ordinal en su forma binaria, y luego utilizar los dígitos de una manera similar a como lo hacemos en un one hot encoding.
    <br>
    <div style="display: flex;">
      <table>
        <tr>
          <th>Nivel Educativo</th>
        </tr>
        <tr>
          <td>ESO</td>
        </tr>
          <td>Bachillerato</td>
        <tr>
          <td>Grado Universitario</td>
        </tr>
        <tr>
          <td>Master</td>
        </tr>
        <tr>
          <td>Doctorado</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Nivel Educativo Ordinal</th>
        </tr>
        <tr>
          <td>0</td>
        </tr>
        <tr>
          <td>1</td>
        </tr>
        <tr>
          <td>2</td>
        </tr>
        <tr>
          <td>3</td>
        </tr>
        <tr>
          <td>4</td>
        </tr>
      </table>
    
      <table>
        <tr>
          <th>Nivel Educativo Binary 2</th>
          <th>Nivel Educativo Binary 1</th>
          <th>Nivel Educativo Binary 0</th>
        </tr>
        <tr>
          <td>0</td>
          <td>0</td>
          <td>0</td>
        </tr>
        <tr>
          <td>0</td>
          <td>0</td>
          <td>1</td>
        </tr>
        <tr>
          <td>0</td>
          <td>1</td>
          <td>0</td>
        </tr>
        <tr>
          <td>0</td>
          <td>1</td>
          <td>1</td>
        </tr>
        <tr>
          <td>1</td>
          <td>0</td>
          <td>0</td>
        </tr>
      </table>
    </div>

    - Pros:
        - Reduce la dimensionalidad en comparación con el One Hot Encoding.
        - Reduce la ordinalidad en comparación con el Ordinal Encoding.
    - Contras:
        - No es capaz de solucionar por completo las desventajas de One Hot Encoding y Ordinal Encoding.
        - Puede perder cierta información sobre la relación entre categorías y la variable objetivo.

<br>

4. _**Target Encoding**_: este método agrupa nuestros datos por las categorías y calcula el promedio, mediana o distribución de frecuencias de la columna _**target**_. El número obtenido para cada agrupación será el valor codificado para senda categoría.
    <br>
    <div style="display: flex;">

      <table>
        <tr>
          <th>Grupo de edad</th>
          <th>Gasto</th>
        </tr>
        <tr>
          <td>Joven</td>
          <td>100</td>
        </tr>
        <tr>
          <td>Joven</td>
          <td>80</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>200</td>
        </tr>
        <tr>
          <td>Joven</td>
          <td>120</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>180</td>
        </tr>
        <tr>
          <td>Anciano</td>
          <td>250</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Grupo de edad</th>
          <th>Gasto Promedio</th>
        </tr>
        <tr>
          <td>Joven</td>
          <td>100</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>190</td>
        </tr>
        <tr>
          <td>Anciano</td>
          <td>250</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Grupo de edad</th>
        </tr>
        <tr>
          <td>100</td>
        </tr>
        <tr>
          <td>100</td>
        </tr>
        <tr>
          <td>190</td>
        </tr>
        <tr>
          <td>100</td>
        </tr>
        <tr>
          <td>190</td>
        </tr>
        <tr>
          <td>250</td>
        </tr>
      </table>
    </div>
    

    - Pros:
        - Captura la relación entre las categorías y la variable objetivo de manera directa.
        - Conserva la dimensionalidad.
        - Destaca en algoritmos de regresión.
        - Se puede utilizar cuando hay muchas categorías nominales.
    - Contras:
        - Riesgo de sobreajuste, especialmente si las categorías tienen pocas observaciones.
        - Puede llevar a fuga o contaminación de datos (data leakage) si no se maneja con cuidado. Es obligatorio utilizar este encoding únicamente con el conjunto de entrenamiento.

<br>

5. _**Leave One Out Encoding**_: Similar al target encoding, solo que el valor numérico que se asigna a cada categoría es el promedio o mediana de todo el dataset menos esa categoría.

    <br>
    <div style="display: flex;">

      <table>
        <tr>
          <th>Grupo de edad</th>
          <th>Gasto</th>
        </tr>
        <tr>
          <td>Joven</td>
          <td>100</td>
        </tr>
        <tr>
          <td>Joven</td>
          <td>80</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>200</td>
        </tr>
        <tr>
          <td>Joven</td>
          <td>120</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>180</td>
        </tr>
        <tr>
          <td>Anciano</td>
          <td>250</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Grupo de edad</th>
          <th>Gasto Promedio LOO</th>
        </tr>
        <tr>
          <td>Joven</td>
          <td>210.0</td>
        </tr>
        <tr>
          <td>Adulto</td>
          <td>137.5</td>
        </tr>
        <tr>
          <td>Anciano</td>
          <td>136.0</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Grupo de edad</th>
        </tr>
        <tr>
          <td>210.0</td>
        </tr>
        <tr>
          <td>210.0</td>
        </tr>
        <tr>
          <td>137.5</td>
        </tr>
        <tr>
          <td>210.0</td>
        </tr>
        <tr>
          <td>137.5</td>
        </tr>
        <tr>
          <td>136.0</td>
        </tr>
      </table>
    </div>
    
    - Pros:
        - Reduce el riesgo de sobreajuste asociado al Target Encoding.
    - Contras:
        - Es de los encodings más lentos en términos de computación.
        - Es más complejo que otros encodings y puede ser difícil de implementar en conjunto con otras técnicas.

<br>

6. _**Frequency Encoding**_: También podemos asignarle a cada categoría un valor que corresponde con la frecuencia con la que aparece esa categoría en nuestro dataset.

    <br>
    <div style="display: flex;">

      <table>
        <tr>
          <th>Grupo de edad</th>
        </tr>
        <tr>
          <td>Joven</td>
        </tr>
        <tr>
          <td>Joven</td>
        </tr>
        <tr>
          <td>Adulto</td>
        </tr>
        <tr>
          <td>Joven</td>
        </tr>
        <tr>
          <td>Adulto</td>
        </tr>
        <tr>
          <td>Anciano</td>
        </tr>
      </table>

      <table>
        <tr>
          <th>Grupo de edad</th>
        </tr>
        <tr>
          <td>3</td>
        </tr>
        <tr>
          <td>3</td>
        </tr>
        <tr>
          <td>2</td>
        </tr>
        <tr>
          <td>3</td>
        </tr>
        <tr>
          <td>2</td>
        </tr>
        <tr>
          <td>1</td>
        </tr>
      </table>
    </div>

    - Pros:
        - Simple y rápida implementación
        - Es una opción sólida cuando las frecuencias de nuestras categorías representan bien la realidad.
        - Igual que Target Encoding y Leave One Out Encoding, se puede utilizar cuando hay muchas categorías nominales.
    - Contras:
        - Puede perder información sobre la relación entre las categorías y la variable objetivo.
        - Es una muy mala opción si las frecuencias de la muestra no representan bien las frecuencias de la población.

### 4. Escalado de Datos

El escalado de datos consiste en ajustar los valores medidos en diferentes escalas con respecto a una escala común. Esto es especialmente útil de cara a la utilización de algoritmos que comparan los atributos utilizando distancias. Si no se escalan los datos, el cálculo de distancias se verá distorsionado y se le dará mucho más peso a unos atributos que a otros, independientemente de su poder predictivo.

- _**Estandarización**_: `StandardScaler()`

    - Pros:
        - Simple y fácil de implementar.
        - Capta la media y la desviación estandar.
    - Contras:
        - Asume que los datos son normales.
        - Sensible a distribuciones asimétricas y a los outliers.
    
    $$
    x_{\text{est}} = \frac{x - \mu}{\sigma}
    $$
    
|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |         -1.78444  |        -0.383107  |          0.474263 |
|  0   |  300 | -500 |         -0.162221 |         1.14932   |         -2.23555  |
|  2.5 |  250 |  -12 |          0.648886 |         0.383107  |          0.414527 |
| -1.5 |  220 |  -10 |         -0.648886 |        -0.0766214 |          0.425388 |
|  4   |  280 |   -2 |          1.13555  |         0.842836  |          0.468832 |
|  3   |  100 |   -5 |          0.811107 |        -1.91554   |          0.452541 |



- _**Escalado Min Max**_: `MinMaxScaler()`

    - Pros:
        - Simple y fácil de implementar.
        - Escala los datos a un rango específico (entre 0 y 1).
        - Conserva las proporciones entre las observaciones.
    - Contras:
        - Muy sensible a valores atípicos, ya que afectan al rango de los datos.

    $$
    x_{\text{min-max}} = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}
    $$
    
|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |          0        |              0.5  |          1        |
|  0   |  300 | -500 |          0.555556 |              1    |          0        |
|  2.5 |  250 |  -12 |          0.833333 |              0.75 |          0.977956 |
| -1.5 |  220 |  -10 |          0.388889 |              0.6  |          0.981964 |
|  4   |  280 |   -2 |          1        |              0.9  |          0.997996 |
|  3   |  100 |   -5 |          0.888889 |              0    |          0.991984 |


- _**Escalado Robusto**_: `RobustScaler()`

    - Pros:
        - Como su nombre indica, es robusto a los valores atípicos, ya que utiliza medianas y cuantiles.
    - Contras:
        - No es la mejor opción cuando la distribución de los datos es simétrica.
        - Puede perder información en los extremos de la distribución.

    $$
    x_{\text{robusto}} = \frac{x - \text{mediana}}{\text{RIC}}
    $$

|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |           -1.5625 |         -0.518519 |          0.742857 |
|  0   |  300 | -500 |           -0.3125 |          0.962963 |        -56.2857   |
|  2.5 |  250 |  -12 |            0.3125 |          0.222222 |         -0.514286 |
| -1.5 |  220 |  -10 |           -0.6875 |         -0.222222 |         -0.285714 |
|  4   |  280 |   -2 |            0.6875 |          0.666667 |          0.628571 |
|  3   |  100 |   -5 |            0.4375 |         -2        |          0.285714 |

- _**Escalado Máximo Absoluto**_: `MaxAbsScaler()`

    - Pros:
        - Igual que Min Max, pero el acota entre -1 y 1.
    - Contras:
        - Igual que Min Max.

    $$
    x_{\text{abs}} = \frac{x}{|x_{\text{max}}|}
    $$

|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |              -1   |          0.666667 |            -0.002 |
|  0   |  300 | -500 |               0   |          1        |            -1     |
|  2.5 |  250 |  -12 |               0.5 |          0.833333 |            -0.024 |
| -1.5 |  220 |  -10 |              -0.3 |          0.733333 |            -0.02  |
|  4   |  280 |   -2 |               0.8 |          0.933333 |            -0.004 |
|  3   |  100 |   -5 |               0.6 |          0.333333 |            -0.01  |

- _**Escalado Cuantil**_: `QuantileTransformer()`

    - Pros:
        - Maneja bien los valores atípicos.
    - Contras:
        - Puede cambiar la relación original de los datos.
        - Requiere de un buen ajuste y es más caro computacionalmente que otros métodos.

    $$
    x_{\text{cuantil}} = Q(x)
    $$
    
|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |               0   |               0.2 |               1   |
|  0   |  300 | -500 |               0.4 |               1   |               0   |
|  2.5 |  250 |  -12 |               0.6 |               0.6 |               0.2 |
| -1.5 |  220 |  -10 |               0.2 |               0.4 |               0.4 |
|  4   |  280 |   -2 |               1   |               0.8 |               0.8 |
|  3   |  100 |   -5 |               0.8 |               0   |               0.6 |


- _**Escalado por Potencia**_: `PowerTransformer()`

    - Pros:
        - Transforma los datos acercándolos a una distribución normal.
        - Ayuda a reducir la varianza y los sesgos en los datos.
    - Contras:
        - Requiere de ajuste del parámetro λ.
        - Más complejo y costoso que otros métodos.

    $$
    x_{\text{potencia}} = \begin{cases}
  \left(\frac{x + \lambda - 1}{\lambda}\right)^{1/2} & \text{si} \; \lambda \neq 0 \\
  \log(x + 1) & \text{si} \; \lambda = 0
\end{cases}
    $$


|   x1 |   x2 |   x3 |   x1_transformada |   x2_transformada |   x3_transformada |
|-----:|-----:|-----:|------------------:|------------------:|------------------:|
| -5   |  200 |   -1 |         -1.56341  |         -0.577963 |          1.40598  |
|  0   |  300 | -500 |         -0.381935 |          1.35109  |         -1.71015  |
|  2.5 |  250 |  -12 |          0.602398 |          0.28377  |         -0.431557 |
| -1.5 |  220 |  -10 |         -0.798842 |         -0.25775  |         -0.317165 |
|  4   |  280 |   -2 |          1.31089  |          0.899312 |          0.885253 |
|  3   |  100 |   -5 |          0.830905 |         -1.69846  |          0.167641 |


### 5. Desbalance de Clases

Este fenómeno se presenta cuando **el número total de instancias en una clase (clase mayoritaria) es significativamente mayor que el número de instancias de otra clase (clase minoritaria)**.

Este es un problema que se presenta a menudo en situaciones comunes de la vida real. Por ejemplo imaginemos un sistema de detección de intrusos o de fraudes en tarjetas de crédito

**Desventajas:**
1. **Pobre desempeño de los modelos de predicción.**


2. **Proceso de aprendizaje guiado por métricas globales presenta una inclinación hacia la clase mayoritaria.**


3. **Instancias de la clase minoritaria pueden ser tratados como ruido.**


**Soluciones:**
1. **Undersampling**: remover algunos patrones de la clase mayoritaria.


2. **Oversampling**: crear patrones sintéticos que se agregan a la clase minoritaria.


3. **Híbrido**: combinar undersampling y oversampling.

### 6. Alta Dimensionalidad de los Atributos (Feature Selection)

En ocasiones nos encontramos con conjuntos de datos con gran cantidad de atributos (columnas). No necesariamente toda la información representada por los rasgos resulta relevante para hacer predicciones. Para atacar este problema se podría recurrir a:

- **Asistencia de un experto en el tema.**


- **Métodos automáticos para la selección de características.**
 
En general los métodos de selección de características consisten en realizar una búsqueda a través de diferentes sub-conjuntos de atributos.
- **Métodos óptimos**: búsqueda exhaustiva, branch and bound Search.


- **Métodos sub-óptimos**: sequential selection, stochastic search techniques (algoritmos genéticos).

In [None]:
################################################################################################################################