# sklearn 101

- Creador: &emsp;&emsp;&emsp;&emsp;&emsp; Ricardo Recarey Fernández [(LinkedIn)](https://www.linkedin.com/in/richyrecarey/)
- Creación: &emsp;&emsp;&emsp;&emsp;&emsp;2019-10-10  
- Última modificación: &nbsp;2019-10-10

In [26]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cm as color_maps
plt.style.use("ggplot")

# Modelos concretos 
from sklearn import datasets
from sklearn import svm
from sklearn.linear_model import LinearRegression

# Preprocesado:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer
from sklearn.preprocessing import LabelEncoder

# Selección de modelo:
from sklearn.model_selection import train_test_split


In [59]:
import sklearn; print("sklearn version:",sklearn.__version__)
print("pandas version: ",pd.__version__)
print("numpy version:  ",np.__version__)


sklearn version: 0.20.3
pandas version:  0.24.2
numpy version:   1.16.2


The data has to be __numeric__ and stored as a numpy-like array (i.e., a type that is convertible to numeric array, like Pandas DataFrame for example) or SciPy sparse matrices. 

In [3]:
iris = datasets.load_iris()
digits = datasets.load_digits()

In [6]:
print(f"The type of iris is {type(iris)}\n")
print(f"The type of iris is {type(digits)}\n")
type(iris)

The type of iris is <class 'sklearn.utils.Bunch'>

The type of iris is <class 'sklearn.utils.Bunch'>



sklearn.utils.Bunch

A __bunch__ is a container object for datasets. It contains the following:

In [9]:
dir(iris)

['DESCR', 'data', 'feature_names', 'filename', 'target', 'target_names']

In [25]:
for i in dir(iris):
    print(type(iris[i]))

<class 'str'>
<class 'numpy.ndarray'>
<class 'list'>
<class 'str'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


Obviamente, se puede ver que hay y de que forma son los datos de cada uno de los __bunchs__

In [38]:
print(digits.data.shape)
print("(filas, cols)")

(1797, 64)
(filas, cols)


# 1. Preprocesadro básico

## 1.1. Estandarización de los datos

La __estandarización__ y la __normalización__ son cosas distintas: [__Link__](https://stats.stackexchange.com/questions/10289/whats-the-difference-between-normalization-and-standardization)

- Por un lado la estandarización es (x-min)/(max-min). Lo que da lugar a que todos los datos se "estandarizarán" entre 0 y 1, dejando a los más "outliers" por arriba y por abajo en 1 y 0 respectivamente. Puede ser muy agresivo, pero por otra parte todos los datos tienen la misma escala positiva.

- Por otro lado la normalización sigue la ecuación de (x-mu)/sigma clásica, donde se resta la media y se divide por la desviación típica. Suele ser más __recomendada__ para la mayoría de casos de uso. Además, no obliga a todos los datos a estar entre 0 y 1 necesariamente, lo cual es más razonable.

In [60]:
# Cargamos un scaler: 
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(iris.data)

# Una vez construido el scaler, podemos transformar los datos originales
std_iris = scaler.transform(iris.data)

# Comprobamos que efectivamente cada una de las 4 variables se ha estandarizado con el método escogido.
print(iris.data[1, :])
print(std_iris[1, :])

[4.9 3.  1.4 0.2]
[-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]


## 1.2. Normalización de los datos

In [62]:
# Cargamos otro scaler:
from sklearn.preprocessing import Normalizer
scaler = Normalizer().fit(iris.data)

norm_iris = scaler.transform(iris.data)

# Comprobamos cambios
print(iris.data[1, :])
print(norm_iris[1, :])

[4.9 3.  1.4 0.2]
[0.82813287 0.50702013 0.23660939 0.03380134]


## 1.3. Binarización de los datos

In [64]:
from sklearn.preprocessing import Binarizer
binarizer = Binarizer(threshold=0.0).fit(iris.data)
binary_iris = binarizer.transform(iris.data)

# Comprobamos cambios
print(iris.data[1, :])
print(binary_iris[1, :])

[4.9 3.  1.4 0.2]
[1. 1. 1. 1.]


## 1.4. Codificación de los datos

In [65]:
from sklearn.preprocessing import LabelEncoder
enc = LabelEncoder()
encoded_target = enc.fit_transform(iris.target)

In [66]:
encoded_target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2], dtype=int64)

In [67]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

## 2. Dividir entreno y test

In [69]:
from sklearn.model_selection import train_test_split

# Autoexplicativa
X_train, X_test, y_train, y_test = train_test_split(iris.data,iris.target,random_state=0)

In [10]:
# We create the support vector machine, with its parameters
clf = svm.SVC(gamma=0.001, C=100.)

In [11]:
# We git fir it in our data. All the digits but the last one.
clf.fit(digits.data[:-1], digits.target[:-1])

[LibSVM]

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=True)

In [12]:
clf.predict(digits.data[-1:])

array([8])

In [13]:
clf

SVC(C=100.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=True)