## Práctica 03 &emsp;(23 de Septiembre)
## &emsp;Parte 01
## &emsp;Daniel Ricardo Ramírez Umaña, B45675

## Parte 01 <br>Cómo elegir un método de selección de características para el aprendizaje automático

### &emsp;1. Lo aprendido:

#### &emsp;&emsp;1. Métodos de selección de características

Con estos métodos se pretende reducir la cantidad de features (características o variables) con el fin de mantener aquellas que son de mayor utilidad para que el modelo de forma eficiente y precisa pueda predecir el valor en una variable objetivo. Además realizar esto nos permite:
* Reducir el tiempo de desarrollo de los modelos
* Reducir el tiempo de entrenamiento del modelo
* Reducir el requerimiento de uso de memoria del sistema
* Mejorar el rendimiento de algunos modelos al deshacerse de variables de entrada que no son relevantes.

Para filtrar variables podemos hablar de los siguientes modelos:
* **Feature Selection:** Estos seleccionan características o variables del dataset con en objetivo de mejorar su rendimiento, desempeño y eficientes.
  * **No supervisado:**<br>  Filtran variables sin tomar en consideración la variable objetivo.<br> Por ejemplo pensemos en varables que son en su mayoría nulos, son casi todos el mismo o casi todos muy distintos o presentan poca o ninguna correlación con las demás variables.
  * **Supervisado:**<br> Filtran variables considerando la variable objetivo.<br> Una variable no relevante o poco relevante se removerán del modelo.
    * **Wrapper:** Genera muchos subconjuntos de variables y selecciona aquel que tenga el mejor rendimiento.<br> Pueden llegar a ser computacionalmete costosos.
      * RFE (Recursive Feature Elimination)
    * **Filter:**<br> Estos relacionan la relación entre cada variable de entrada y la variable de salida por medio de técnicas estadísticas.
      * Métodos Estadísticos
      * Métodos de Importancia de la Variable 
    * **Intrinsic:** Algoritmos de Aprendizaje Automático que realizan la selección o filtrado de variables de forma automática.
      * **Algoritmos de Regresión Penalizada** (como por ejemplo *Lasso*).
      * Algunos tipos de árboles de desición como los de **Bosque Aleatório**.
* **Dimensionality Reduction:**<br> Mediante la representación de las variables de entrada en un espacio de menos dimesión.

#### &emsp;&emsp; 2. Estadísticas de los métodos de selección de características de los filtros

Las variables de entrada se pueden clasificar como:
* **Variables Numéricas:**<br> Por ejemplo variables de valor entero o variables de punto flotante.
* **Variables Categóricas:**<br> Por ejemplo valores de tipo booleano, variables ordinales y variables nominales.

Para saber qué modelo de predicción utilizar es bueno considerar el tipo de variable de salida. en estos casos:
* **Salida Numérica:** Uraremos modelos predictivos de regresión.
* **Salida Categórica:** Uraremos modelos predictivos de clasificación.


#### &emsp;&emsp;&emsp; 2.1. Entrada Numérica, Salida Numérica

* Si la correlación es lineal utilizar el coeficiente de correlación de **Pearson**.
* Si la correlación es no lineal utilizar  el rango de coeficiente de **Spearman**.

#### &emsp;&emsp;&emsp; 2.2. Entada Numérica, Salida Categórica

* Si la correlación es lineal, utilizar el modelo de coeficiente de correlación de **ANOVA**
* Si la correlación es no lineal, utilizar el coeficiente de rango de **Kendall**. Esta asume que la variable categórica es ordinal.

#### &emsp;&emsp;&emsp; 2.3. Entrada Categórica, Salida Numérica

Al revés del caso anterior:

* Si la correlación es lineal, utilizar el coeficiente de rango de **Kendall**. Esta asume que la variable categórica es ordinal.
* Si la correlación es no lineal, utilizar el modelo de coeficiente de correlación de **ANOVA**.

#### &emsp;&emsp;&emsp; 2.4. Entrada Categórica, Salida Categórica

Para este tenemos dos alternativas:
* Utilizar **Chi-squared test** (tablas de contingencia).
* O bien utilizar métode de **Información Mutua**.

![Input/Output Model](https://machinelearningmastery.com/wp-content/uploads/2019/11/How-to-Choose-Feature-Selection-Methods-For-Machine-Learning.png)*Figura 1. Cómo Escoger el Modelo de Selección de Variables para Machine Learning*

#### &emsp;&emsp; 3. Consejos y trucos para la selección de características

#### &emsp;&emsp;&emsp; 3.1. Estadísticas de Corelación

Podemos contar con funciones que ya nos brinda la bibioteca de **scikit-learn** para la mayoría de las estadísticas necesarias. 
* Para Person's Correlation Coefficient: `f_regression()`
* Para ANOVA: `f_classif()`
* Para Chi-Squared: `chi2()`
* Mutual Information: `mutual_info_classif()` y `mutual_info_regression()`

Y **SciPy** provee otras funciones como `kendalltau()` y `spearmanr()`.

#### &emsp;&emsp;&emsp; 3.2. Método para Selección

También con **scikit-learn** podemos hacer uso de distintos métodos de filtrado de variables cuando se ha calculado las estadísticas para cada variable de entrada. De las más usadas puedo contar con:
* Para seleccionar el top k de variables: `SelectBest()`
* Para seleccionar variables con el maypr percentil: `SelectPercentile()`


#### &emsp;&emsp;&emsp; 3.3. Transformación de Variables

En algunos casos es necesario transformar algunas variables de un tipo a otro, por ejemplo transformar una variable categórica en ordinal y ver si obtienen resultados interesantes.

#### &emsp;&emsp;&emsp; 3.4. ¿Cuál es el Mejor Método?

Para esto no hay receta mágica, por lo que para esto lo mejor es utilizar una exploración sistematizada intentando con distintos modelos en diferentes conjuntos de datos con diferentes variables seleccionadas con respecto a diferentes medidas estadísticas y así descubrir cual trabaja de la mejor manera para el problema específico.

#### &emsp;&emsp; 4. Ejemplos Trabajados

#### &emsp;&emsp;&emsp; 4.1. Selección de Caracteríticas de Regresión

In [1]:
# pearson's correlation feature selection for numeric input and numeric output
from sklearn.datasets import make_regression
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
# generate dataset
X, y = make_regression(n_samples=100, n_features=100, n_informative=10)
# define feature selection
fs = SelectKBest(score_func=f_regression, k=10)
# apply feature selection
X_selected = fs.fit_transform(X, y)
print(X_selected.shape)

(100, 10)


#### &emsp;&emsp;&emsp; 4.2. Selección de Caracteríticas de Clasificación

In [2]:
# ANOVA feature selection for numeric input and categorical output
from sklearn.datasets import make_classification
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
# generate dataset
X, y = make_classification(n_samples=100, n_features=20, n_informative=2)
# define feature selection
fs = SelectKBest(score_func=f_classif, k=2)
# apply feature selection
X_selected = fs.fit_transform(X, y)
print(X_selected.shape)

(100, 2)


### &emsp; 2. Posible uso que le dará a esta materia como profesional.

* En mi futuro como profesional en Ciencias de la Computación, es de gran necesidad de conocer modelos para medir el coeficiente de correlación entre mis variables y de esta manera poder tomar decisiones en las mejores convinacioenes de variables para el filtrado de variables antes del entrenamiento de mis modelos y además tener el conocimiento técnico para poder argumentar las decisiones tomadas. 

### &emsp; 3. Aspectos que no le quedan claros, o que quisiera conocer mejor.

* En cuanto a los casos en que tenemos inputs categóricos y outputs categóricos, no me queda claso exactamente en qué consiste el método de **Mutual Information** ya que no sé si esto es solo una comparación directa uno a uno de si siempre que una variable tiene una categoría, un valor en otra variable es siempre o casi siempre el mismo.
* Me gustaría poder usar ejemplos de cada tipo de filtro de variables para con respecto a la naturaleza del dataset entender mejor el porqué de la selección del modelo.
* En los códigos de ejemplo no me queda claro la necesidad de mostrar el shape ya que esto es algo que se estableció en el código, talvez suría útil que se mostrara cuales fueron los seleccionados.