## Práctica 03 &emsp;(23 de Septiembre)
## &emsp;Parte 03
## &emsp;Daniel Ricardo Ramírez Umaña, B45675

## Parte 03 <br>Selección de Variables para Aprendizaje Automático (ML)

### &emsp;1. Lo aprendido:

#### &emsp;&emsp; 1. Selección de Variables para Aprendizaje Mecánico

Este es un proceso en el que la selección de las variables o características de los datos son seleccionados de manera automatizada y en las que se escogen aquellas que mejor contribuyen a la variable de predicción.

La selección de variables antes de modelar los datos nos ofrece 3 beneficios:
* **Reduce el Sobreajuste (overfitting):**<br> Menos datos redundantes = Menos oportunidades de tomar decisiones basadas en ruido.
* **Mejora la Precisión (accuracy):**<br> Menos datos erroneos = Mejora en precisión de los modelos.
* **Reduce el tiempo de entrenamiento:**<br> Menos datos = Algoritmos entrenan más rápido.

#### &emsp;&emsp;&emsp; 1.1. Selección Univariante

Con la función de `SelectBest()` de **scikit-learn** podemos escoger un número específico de variables (aquellas que tengan una mayor relación con la variable de salida. Además muchos test estadísticos pueden ser utilizados de forma adicional con este método de selección.

Para este caso se seleccionarán las mejores 4 variables.

In [18]:
# Feature Selection with Univariate Statistical Tests
from pandas import read_csv
from numpy import set_printoptions
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif

# se cargan los datos
filename = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# extracción de variables
test = SelectKBest(score_func=f_classif, k=4)
fit = test.fit(X, Y)

# resumen de puntajes
set_printoptions(precision=3)
print(fit.scores_, '\n')
features = fit.transform(X)

# resumen de variables seleccionadas
for i in range(0,8):
  print(names[i], 'score:', fit.scores_[i])

print('\n',features[0:5,:])

[ 39.67  213.162   3.257   4.304  13.281  71.772  23.871  46.141] 

preg score: 39.670227393616116
plas score: 213.16175217803828
pres score: 3.256950397889028
skin score: 4.304380905008516
test score: 13.281107531096337
mass score: 71.7720721022405
pedi score: 23.871300204344593
age score: 46.140611238735865

 [[  6.  148.   33.6  50. ]
 [  1.   85.   26.6  31. ]
 [  8.  183.   23.3  32. ]
 [  1.   89.   28.1  21. ]
 [  0.  137.   43.1  33. ]]


Como se puede ver las 4 variables con puntuaciones más altas fueron *preq*, *plas*, *mass* y *age* y son estas mismas las que fueron seleccionadas.

#### &emsp;&emsp;&emsp; 1.2. Eliminación Recursiva de Valiables (RFE)<br> &emsp;&emsp;&emsp;&emsp;&emsp;  Recursive Feature Elimination

Este de forma recursiva contruye modelos removiendo distintos atributos, de esta manera combinando atributos y evaluándolos según su precisión (accuracy) identifica aquellos que mejor predicen (en conjunto) el atributo objetivo.

In [19]:
# Feature Extraction with RFE
from pandas import read_csv
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
model = LogisticRegression(solver='lbfgs')
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Num Features: %d" % fit.n_features_)
print("Selected Features: %s" % fit.support_)
print("Feature Ranking: %s" % fit.ranking_)

Num Features: 3
Selected Features: [ True False False False False  True  True False]
Feature Ranking: [1 2 4 5 6 1 1 3]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Al usar esta función noté que los atributos seleccionados aparecen como `True` en la lista de variables seleccionadas y con valor de 1 en la lista de ranking de variables.

#### &emsp;&emsp;&emsp; 1.3. Análisis de Componentes Principales<br> &emsp;&emsp;&emsp;&emsp;&emsp; Principal Component Análysis (PCA)

Este transforma los conjuntos de datos en una forma más comprimida mediante el uso de álgebra lineal, siendo una técnica de reducción. Esta permite escoger el número de dimensiones o componentes principales en el resultado transformado.

In [20]:
import numpy
from pandas import read_csv
from sklearn.decomposition import PCA
# load data
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# feature extraction
pca = PCA(n_components=3)
fit = pca.fit(X)
# summarize components
print("Explained Variance: %s" % fit.explained_variance_ratio_)
print(fit.components_)

Explained Variance: [0.889 0.062 0.026]
[[-2.022e-03  9.781e-02  1.609e-02  6.076e-02  9.931e-01  1.401e-02
   5.372e-04 -3.565e-03]
 [-2.265e-02 -9.722e-01 -1.419e-01  5.786e-02  9.463e-02 -4.697e-02
  -8.168e-04 -1.402e-01]
 [-2.246e-02  1.434e-01 -9.225e-01 -3.070e-01  2.098e-02 -1.324e-01
  -6.400e-04 -1.255e-01]]


#### &emsp;&emsp;&emsp; 1.4. Importancia de las Variables

Se pueden estimar la importancia de las variables por medio del uso de árboles de decisión en bolsa, como **Random Forest** y **Extra Trees**.

In [22]:
# Feature Importance with Extra Trees Classifier
from pandas import read_csv
from sklearn.ensemble import ExtraTreesClassifier

# se cargan los datos
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(url, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]

# extracción de variables
model = ExtraTreesClassifier(n_estimators=10)
model.fit(X, Y)
print(model.feature_importances_)

[0.107 0.241 0.095 0.074 0.077 0.142 0.12  0.146]


Estos puntajes obtenidos nos hablan de la importancia de cada variable para el modelo.

### &emsp; 2. Posible uso que le dará a esta materia como profesional.

* En mi futuro como profesional como Científico de Computación, el conocimiento de estos modelos para selección de Variables o Características me generarán un gran valor en cuanto tiempo, rendimiento y precisión de mis modelos al poder eliminar de mis conjuntos de datos aquellas variables que no aportan mucho o que puedrían generarme ruido.

### &emsp; 3. Aspectos que no le quedan claros, o que quisiera conocer mejor.

* Algo que no me quedó claro es que a diferencia de **RFE** que evalua la presición de las variables en su comportamiento en combinación, **Univariative Selection** lo hace evaluando cada variable de forma individual, por lo que si existe correlación entre variables para generar mejores resultados, esto no sería tomado en cuenta, por lo que no parece ser el mejor método a escoger. En qué casos sí se podría considerar dado que RFE nos puede garantizar un mejor filtrado al también considerar las combinaciones de variables.