# Practica 3 - Multiclasificadores y selección de variables

## Minería de Datos 2017/2018

* [**Hernán Indíbil de La Cruz Calvo**](https://github.com/Mowstyl)
* [**Alejandro Martín Simón Sánchez**](https://github.com/elssbbboy/)

## Introducción

Esta práctica se divide en dos partes:

**Multiclasificadores:** estudiaremos la API de scikit para los modelos de tipo ensemble y veremos como entrenar, seleccionar y utilizar estos modelos.

**Selección de variables:** veremos los distintos algoritmos de selección de variables disponibles en scikit y como aplicarlos.

In [1]:
# Always load all scipy stack packages
import numpy as np
import pandas as pd
from scipy import stats, integrate
import matplotlib as mpl
import matplotlib.pyplot as plt

import seaborn as sns
sns.set(color_codes=True)

In [2]:
# This code configures matplotlib for proper rendering
%matplotlib inline
mpl.rcParams["figure.figsize"] = "8, 4"
import warnings
warnings.simplefilter("ignore")

In [3]:
seed=6470
np.random.seed(seed)

In [4]:
from sklearn.datasets import load_breast_cancer
from sklearn.datasets import load_diabetes
dss = {}
dss['wisconsin'] = load_breast_cancer()
dss['pima'] = load_diabetes()
dir(dss['wisconsin'])

['DESCR', 'data', 'feature_names', 'target', 'target_names']

Como podemos ver, en dss['wisconsin'] tenemos los siguientes atributos:

* DESCR: descripción del dataset, con numero de casos, codificación de los valores perdidos, atributos, información de los mismos además de estadísticos y información adicional sobre la obtención de los datos y su origen.
* data: array de numpy con los valores de cada atributo para cada caso. En prácticas anteriores sería similar al train_atts o test_atts (aún no hemos hecho holdout), cambiando que no se utiliza pandas y no tenemos los nombres de las variables predictoras.
* feature_names: nombres de las variables categóricas, usado como columna en pandas anteriormente. De esta forma, dfs['wisconsin'].data[n][m] indica un valor de la variable dfs['wisconsin'].feature_names[m].
* target: array de numpy con los valores de la clase para cada instancia. No se trabaja con strings, sino que ha sido binarizada para trabajar con 0 y 1 (más eficiente que trabajar con strings).
* target_names: nombres de los distintos valores que toma la variable categórica original. De esta forma si tenemos un 0 en target sabemos que tenemos que se clasifica como target_names[0], en este caso 'malignant'.


In [5]:
dir(dss['pima'])

['DESCR', 'data', 'feature_names', 'target']

Como podemos ver, en dss['pima'] tenemos algunas diferencias con el dataset wisconsin:

* En target ya no tenemos 0 y 1, ya que la variable clase no es categórica, sino una medida cuantitativa de la progresión de la enfermedad un año después de la baseline.
* El atributo target_names no tiene sentido ya que no existe ninguna correspondencia como en wisconsin. La variable clase no es categórica.


In [6]:
from sklearn.model_selection import train_test_split
dssh = {}

for ds in dss:
    strat = None
    if ('target_names' in dir(dss[ds])): # Solo tiene sentido estratificar si la clase es categórica
        strat = dss[ds].target
    
    dssh[ds] = {'train': {}, 'test': {}}
    dssh[ds]['train']['atts'], dssh[ds]['test']['atts'], dssh[ds]['train']['label'], dssh[ds]['test']['label'] = train_test_split(
        dss[ds].data,
        dss[ds].target,
        random_state = seed,
        stratify = strat)