# Explore and clean data

### Data Exploration
Haremos una breve exploración para tener una mejor idea de lo que contiene nuestro conjunto de datos; esto nos dará una mejor idea de cómo procesar los datos.

Lo primero que vamos a hacer es llamar al método **info()** en nuestro DataFrame de pandas; esto imprimirá un resumen conciso de los datos del vino contenidos en el DataFrame. Después de ejecutar esta celda, aprenderá:
- Los datos contienen 178 muestras de datos.
- Hay 14 columnas en total, incluida la columna de destino (lo que queremos predecir)
- Hay 0 columnas con valores faltantes; puede inferir esto de la columna "Recuento no nulo".
- Todas las funciones son del tipo de datos float64, mientras que la etiqueta de destino es int64.
- Los datos utilizan 19,6 KB de memoria.


In [57]:
import pandas as pd
import numpy as np
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

wine_data = datasets.load_wine() 

# Convert data to pandas dataframe
wine_df = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)

# Add the target label
wine_df["target"] = wine_data.target

In [41]:
wine_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178 non-null    float64
 8   proanthocyanins               178 non-null    float64
 9   color_intensity               178 non-null    float64
 10  hue                           178 non-null    float64
 11  od280/od315_of_diluted_wines  178 non-null    float64
 12  proline                       178 non-null    float64
 13  targe

**Describing the data**

Puede utilizar la función **describe()** para obtener varias estadísticas resumidas que excluyen los valores NaN sobre cada caracteristica del conjunto de datos.

In [42]:
wine_df.describe() 

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


También desea tener una idea del tipo de valores que se mantienen en cada característica. La forma más rápida de aprender esto es usar el método **head()** para mostrar las primeras cinco filas de datos o el método **tail()** para ver las últimas cinco filas de datos.


In [43]:
wine_df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


### Data Preprocessing

El procesamiento de datos es un paso vital en el flujo de trabajo del aprendizaje automático porque los datos del mundo real son confusos. Puede contener:  
- valores faltantes (Missing values)
- Valores redundantes (Redundant values)
- Valores atípicos (Outliers)
- Errores (Errors)
- Ruido (Noise)

Debe abordar todo esto antes de introducir los datos en un modelo de machine learning. De lo contrario, el modelo incorporará estos errores en su función de aproximación.

Aparte de que nuestros datos están en diferentes escalas, para combatir este problema, estandaricemos las funciones utilizando la clase [StandardScaler](regression/examples/scikit_learn_standard_scaler.ipynb) de sklearn. Divide por la desviación típica de cada característica, asegurándose de que las características tienen una media de 0 y una desviación típica de 1, con esto conseguiremos que todas las características están en la misma escala, lo que facilita a los algoritmos de aprendizaje automático el tratamiento eficaz de los datos.



In [54]:
# Split data into features and label 
x = wine_df[wine_data.feature_names].copy()
y = wine_df["target"].copy() 

# Instantiate scaler and fit on features
scaler = StandardScaler()
scaler.fit(x.values)

# Transform features
x_scaler = scaler.transform(x.values)

# Convert data to pandas dataframe
df_scaler = pd.DataFrame(np.round(x_scaler, 2), columns=x.columns)
x.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0


In [55]:
df_scaler.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,-0.000225,0.000281,0.000225,-0.001517,0.001067,0.000955,-0.000112,-0.000112,5.6e-05,4.989766e-18,-5.6e-05,-0.000393,-0.000169
std,1.003369,1.002726,1.002934,1.001869,1.002108,1.002647,1.002258,1.002359,1.00295,1.002696,1.002786,1.003162,1.002884
min,-2.43,-1.43,-3.68,-2.67,-2.09,-2.11,-1.7,-1.87,-2.07,-1.63,-2.09,-1.9,-1.49
25%,-0.7875,-0.6575,-0.57,-0.69,-0.82,-0.885,-0.825,-0.74,-0.6,-0.795,-0.7675,-0.95,-0.7875
50%,0.06,-0.425,-0.02,0.0,-0.12,0.095,0.105,-0.18,-0.06,-0.155,0.035,0.24,-0.235
75%,0.8375,0.6725,0.7,0.6,0.51,0.81,0.845,0.61,0.63,0.49,0.71,0.79,0.76
max,2.26,3.11,3.16,3.15,4.37,2.54,3.06,2.4,3.49,3.44,3.3,1.96,2.97


### Model Training

Antes de que un modelo de aprendizaje automático pueda hacer predicciones, debe entrenarse con un conjunto de datos para aprender una función de aproximación.

Pero, ¿cómo sabremos si el modelo funciona bien con datos que no ha visto antes? No lo haremos a menos que lo probemos.

Hay varias formas de dividir datos en conjuntos de entrenamiento y prueba, pero scikit-learn tiene una función incorporada para hacer esto en nuestro nombre llamada **train_test_split()**

Usaremos esta función para dividir nuestros datos de modo que el 70% se use para entrenar el modelo y el 30% se use para evaluar la capacidad del modelo para generalizar a instancias invisibles.


In [58]:
# Split data into train and test
x_train_scaler, x_test_scaler, y_train, y_test = train_test_split(x_scaler, y, test_size=.3, random_state=42)

print(f"Train size:\n{round(len(x_train_scaler) / len(x) * 100)}")
print(f"Test size:\n{round(len(x_test_scaler) / len(x) * 100)}")

Train size:
70
Test size:
30


### Building the model

Gracias a sklearn, construir un modelo de aprendizaje automático es extremadamente sencillo.  Vamos a construir tres modelos para predecir la clase de vino:
- Logistic regression
- Support vector machine 
- Decision tree classifier
