<a href="https://colab.research.google.com/github/ssanchezgoe/viu_aprendizaje_supervisado/blob/main/tema1/aprendizaje_supervisado_tema1_datos_imputacion_seleccion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://github.com/ssanchezgoe/viu_aprendizaje_supervisado/blob/main/logos/logo_viu.png?raw=true" align="left" hspace="10px" vspace="0px"></p>

<h1> Asignatura de Inteligencia Artificial</h1>


La presente asignatura hace parte del máster oficial en Inteligencia Artificial, impartido en la Universidad Internacional de Valencia (VIU).

<p><a name="contents"></a></p>

# Contenido

- <a href="#procesamiento_datos_faltantes">1. Procesamiento de datos faltantes (imputación de datos)</a><br>
- <a href="#seleccion_de_atributos">2. Selección de atributos</a><br>
  - <a href="#baja_varianza">2.1. Baja varianza</a><br>
  - <a href="#f_test_informacion_mutua">2.2. F-test e información mutua</a><br>

<p><a name="procesamiento_datos_faltantes"></a></p>

# Procesamiento de datos faltantes
[Contenidos](#contents)

El procesamiento de datos faltantes o *imputación* en ciencia de datos, corresponde al proceso en el cual un valor faltante en una colmna se reemplaza por un valor conocido, derivado del los datos existentes.

**Ejemplo 1**

In [None]:
import numpy as np
from sklearn.impute import SimpleImputer

In [None]:
# Carga de datos
X_train = [[1,      4],
           [np.nan, 3],
           [7,      8]]

In [None]:
# Limpieza de datos: imputación valores ausentes (modelo)
imputer = SimpleImputer(strategy='mean') # Utilizamos la estrategia de la media

# Aplicar los métodos "fit" y "transform" para imputar los valores pérdidos de X_train
# ???
# print(X_train_clean)

In [None]:
# Imputación de valores ausentes sobre el conjunto de test
X_test = [[np.nan, 10],
          [6,      np.nan],
          [8,      2]]

# Imputar los datos del conjunto de test
# ???
# print(X_test_clean)

**Ejercicio 2**

In [None]:
import pandas as pd

In [None]:
# Cargar dataframe
csv = pd.read_csv("https://raw.githubusercontent.com/ssanchezgoe/viu_aprendizaje_supervisado/main/datasets/penguins.csv", sep = ';')

csv.head()

In [None]:
csv.isna().sum()

In [None]:
csv[csv.isna().any(axis=1)]

In [None]:
# Conversión a numpy
data = np.array(csv)
data

In [None]:
pos_ausentes = np.where(np.isnan(data))[0]
print(pos_ausentes)

In [None]:
#Imputación de datos ausentes
imputer = SimpleImputer(strategy='mean')
data_clean = imputer.fit_transform(data)

In [None]:
pos_ausentes = np.where(np.isnan(data_clean))[0]
print(pos_ausentes)

In [None]:
data_clean[[3,271]]

<p><a name="seleccion_de_atributos"></a></p>

# Selección de Atributos

[Contenidos](#contents)

La selección de atributos corresponde al proceso en el cual se seleccionan las características que se espera guarden una mayor relación con la variable objetivo. Este proceso puede ser llevado a cabo de dos formas:

- Análisis no supervisados: En donde se analiza el/los atributo/s independientemente de la variable objetivo.
- Análisis supervisados: En donde se analiza el/los atributo/s conjuntamente con la variable objetivo.

A su vez, estos analires pueden llevarse a cabo de dos formas:

- Análisis univariantes: en los que se analiza uno a uno los atributos con la variable objetivo.
- Análisis multivariantes: en donde se analiza conjuntamente los atributos y su relación con la variable objetivo.

<p><a name="baja_varianza"></a></p>

## Baja Varianza

[Contenidos](#contents)

La varianza es una medida de dispersión de los datos determinada por la ecuación:

$$S^2 = \frac{\sum(x_i-\bar{x})^2}{n-1}$$

en donde

- $S^2$ es la varianza de la muestra.
- $x_i$ es el valor de una observación.
- $\bar{x}$ es el valor medio de las muestras.
- $n$ es el número de muestras.

Podemos interpretar la varianza como la desviación promedio de los datos respecto al valor medio.

El supuesto que realizamos al decidir eliminar una columna por baja varianza es que dicha característica no guarda ningún tipo de dependencia de la variable objetivo.

**Ejemplo**

In [None]:
import numpy as np
from sklearn.feature_selection import VarianceThreshold
from sklearn import datasets
import pandas as pd

In [None]:
iris = datasets.load_iris()
df_iris = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns= iris['feature_names'] + ['target'])
df_iris

In [None]:
df_iris.var()

In [None]:
X = df_iris.to_numpy()[:,:-1]
X[0:7]

In [None]:
thresholder = VarianceThreshold(threshold=.6)

X_high_variance = thresholder.fit_transform(X)

X_high_variance[0:7]

<p><a name="f_test_informacion_mutua"></a></p>

## F-Test e información mutua

[Contenidos](#contents)

Estos metodos tienen dos objetivos diferentes para probar el tipo de dependencia de las diferentes caracteríscias con la variable objetivo, a saber:

- **F-Test**: mide la dependencia lineal de una variable con la variable objetivo.

- Prueba de **información mutua**: test que mide la dependencia lineal o no de una variable respecto a la variable objetivo.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_selection import f_regression, mutual_info_regression

In [None]:
# Carga de datos.
np.random.seed(42)
X = np.random.rand(1000, 3)
print(X)
print(np.shape(X))

In [None]:
# Definimos la etiqueta (target, ground truth) haciéndola dependiente de las características x1 y x2
y = X[:, 0] + np.sin(6 * np.pi * X[:, 1]) + 0.1 * np.random.randn(1000)

In [None]:
# Evaluación de atributos: F-Test.
f_test, _ = f_regression(X, y) # Llamamos al estadístico F
f_test /= np.max(f_test) # Normalizamos

In [None]:
# Evaluación de atributos: información mutua.
mi = mutual_info_regression(X, y)
mi /= np.max(mi)

In [None]:
# Graficamos la distribución de los datos y evaluación de atributos.
plt.figure(figsize=(15, 5))
for i in range(3):
    plt.subplot(1, 3, i + 1)
    plt.scatter(X[:, i], y, edgecolor='black', s=20)
    plt.xlabel("$x_{}$".format(i + 1), fontsize=14)
    if i == 0:
        plt.ylabel("$y$", fontsize=14)
    plt.title("F-test={:.2f}, MI={:.2f}".format(f_test[i],
              mi[i]), fontsize=16)
plt.show()