In [1]:
import warnings
warnings.filterwarnings('ignore')

# Ejercicio sobre contenidos de los vinos

Vamos a hacer un analisis de los datos relevados a tres clases de vinos cultivados en la misma region de Italia.

Las tres clases de vinos fueron sometidas analisis quimicos, donde se midieron un total de 13 caracteristicas.

## Datos

Los datos crudos se pueden descargar de https://archive.ics.uci.edu/ml/datasets/wine

En este ejercicio se utilizaran datos que ya han sido procesados y limpiados a partir de los datos crudos.

**Archivo de datos:** 'datos_vinos_limpios.csv'

## Objetivo

Crear un modelo que clasifique un vino a partir de sus caracteristicas quimicas.

## Procedimiento General

1. Librerias y Datos
    1. Importar librerias
    2. Importar Datos
    3. Revisar Datos
2. Modelar
    1. Seleccionar variables y objetivo
    2. Train-test split
    3. Normalizar
    4. Modelo KNN
    5. Ver resultado con matriz de confusion
3. Validar modelo con cross-validation
4. Modelo Final
    1. Evaluar en nuevos datos

-----

## Librerias y Datos

1) Importar las librerias necesarias:
    - pandas
    - KNeighborsClassifier (para armar un modelo KNN)
    - preprocessing (para normalizar los datos)
    - train_test_split (para particionar los datos)

In [6]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

2) Leer los datos de los vinos

In [5]:
vinos = pd.read_csv('datos_vinos_limpios.csv')

In [7]:
vinos.isnull().sum()

Clase                           0
Alcohol                         0
Malic.acid                      0
Ash                             0
Alcalinity.of.ash               0
Magnesium                       0
Total.phenols                   0
Flavanoids                      0
Nonflavanoid.phenols            0
Proanthocyanins                 0
Color.intensity                 0
Hue                             0
OD280.OD315.of.diluted.wines    0
Proline                         0
dtype: int64

In [8]:
vinos.dtypes

Clase                             int64
Alcohol                         float64
Malic.acid                      float64
Ash                             float64
Alcalinity.of.ash               float64
Magnesium                         int64
Total.phenols                   float64
Flavanoids                      float64
Nonflavanoid.phenols            float64
Proanthocyanins                 float64
Color.intensity                 float64
Hue                             float64
OD280.OD315.of.diluted.wines    float64
Proline                           int64
dtype: object

3) Nunca asumir que los datos estan limpios. Revisar:
    - tipo de datos (KNN requiere todas las columnas numericas salvo la clasificacion)

    - que no haya nulos (ver cantidad de nulos por columna)

Obs: *Si hay que limpiar, conviene hacerlo en otro notebook y guardar datos limpios en otro csv para luego cargar aca*

## Modelo

### Seleccionar variables y objetivo
Vamos a utilizar la columna 'Clase' como `objetivo` y las columnas restantes como `datos` del modelo

4. Crear `datos` (todas menos 'Clase') y `objetivo` (columna 'Clase')

In [None]:
datos = vinos.drop(.......)
objetivo = vinos[........]

### Separar datos en train y test

5. Separar `datos` y `objetivo` en dos conjuntos de entrenamiento y prueba (Googlear: *test train split python*).
    
    Utilizar:
    - test_size: 25%
    - random_state: 111

In [None]:
datos_entrenamiento, datos_prueba, objetivo_entrenamiento, objetivo_prueba = train_test_split(...., ...., test_size=...., random_state=....)

### Normalizar los datos
No todos los modelos necesitan un normalizado previo de los datos, pero los que si, sin el normalizado funcionan mal. KNN es uno de esos modelos que se benefician de un normalizado previo.

Antes de modelar con KNN es necesario que todos los datos esten dentro de la misma escala. Para lograr esto vamos a normalizar los datos restando el valor medio y dividiendo por el desvio estandard.  La biblioteca `preprocessing` tiene el metodo `.StandardScaler()` que hace exactamente eso.
6. Crear una transformacion estandar (StandardScaler) que usa los datos de entrenamiento y guardarla en `normalizador`. Esto requiere:
    - `.StandardScaler()`
    - `normalizador`
    - `.fit(datos_entrenamiento)`
    - `preprocessing`

In [None]:
normalizador = preprocessing.****().****(****)

7. Con el `normalizador` creado, ahora si normalizar los datos de entrenamiento y los de test. Esto requiere:
    - `normalizador`
    - `.transform(data a transformar)`
    - guardar en otra variable (por las dudas)

In [None]:
datos_entrenamiento_norm = normalizador.*****(*****)

### Modelo KNN
Ahora si, comencemos a armar un modelo KNN.

8. Definir cuantos `vecinos` vamos a usar (en este caso: 10)

In [None]:
vecinos = 10

9. Crear el modelo usando:
    - `weights`: `uniform`
    - `vecinos`
    - `KNeighborsClassifier`
    - guardarlo en la variable `modelo`

In [None]:
modelo = KN......( ....., weights=....)

10. Y ahora hacer el fit con los datos y objetivo de entrenamiento. Usar:
    - `.fit()`
    - `datos_entrenamiento_norm`
    - `objetivo_entrenamiento`
    - no hace falta asignarlo a una variable

In [None]:
modelo.fit(......, .......)

-----
### El modelo esta listo!
-----
### Validacion
Ahora que tenemos el modelo listo, tenemos que validarlo con los datos y objetivo de prueba.

Ya que es un problema de clasificacion podemos visualizar el resultado usando una matriz de confusion
#### Prediccion
11. Predecir la clase resultante para los datos de prueba. Usar:
    - `.predict(data)`
    - `modelo`
    - `datos de prueba (normalizados o no?)`
    - guardarlo en `objetivo_prediccion`

In [None]:
objetivo_prediccion = modelo.******( ******.*****(******))

#### Matriz de confusion

Pandas tiene un metodo que crea la matriz de confusion entre lo predecido y real. 

12. Crear la matriz de confusion. Necesitan:
    - objetivo de prueba
    - objetivo predecido
    - `pd.crosstab()`
    - colnames: "Predecido"
    - rownames: "Real"
    - margins: True

In [None]:
pd.crosstab( ....., ......, rownames=['Real'], colnames=['Predecido'], margins=True)

------

## Cross Validation

Ahora vamos a hacer una validacion del modelo KNN usando cross validation (**K-Fold validation**).

13. Importar las librerias para evaluar cross validation
    - cross_val_score
    - metrics

In [None]:
from sklearn.******* import *******
from sklearn import *******

14. Crear el modelo (mismo codigo que en el paso 9.)

In [None]:
vecinos = 10
.......... = ............

15. Evaluar los scores con `cross_val_score()`. Sus parametros son:
    - modelo
    - datos
    - cv: 5 grupos para el cross-validation (K-Fold)
    - scoring: funcion de scoring (usar: 'accuracy')

In [None]:
scores = cross_val_score( ......, datos, ......, cv= ..., scoring=.....)
scores

16. Los 'datos' en el paso anterior estaban normalizados? NO! Normalizar usando el normalizador que usamos arriba:
    - normalizador.transform(*data*)

In [None]:
scores = ........( ......, normalizador....... , ...... , cv= ..., ......='accuracy')
scores

Obs: *Esta claro que el normalizador habia sido creado y fiteado en la particion de training y que ahora se lo estamos aplicando a todos los datos. Esto no 100% correcto porque en la particion train-test podrian haber caido outliers en el set de test.*

-------

## Modelo final

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
import pandas
from sklearn.neighbors
from sklearn

vecinos =

vinos = 
datos = 
objetivo = 
normalizador =      #Ojo, tiene que tener el fit incluido!
modelo =            #Ojo, tiene que tener el fit incluido! Y con todos los datos conocidos

Leer los datos nuevos desde el archivo 'Vinos_desconocidos.csv'

In [None]:
nuevos_vinos = 

Catalogar los tres vinos desconocidos

In [None]:
modelo.predict(.......)

Si todo salio bien, los tres vinos son de Clase 1, 2 y 3 respectivamente.