# Sickit Learn

Librería estrella para modelizar datos en Python. 

**Website:** https://scikit-learn.org/stable/index.html

* Simple and efficient tools for predictive data analysis
* Accessible to everybody, and reusable in various contexts
* Built on NumPy, SciPy, and matplotlib
* Open source, commercially usable - BSD license




### Scikit-Learn API paper

El principal objetivo es diseñar un paquete que englobe los diferentes modelos con unos principios en mente. Como indica en su [paper](https://arxiv.org/pdf/1309.0238.pdf):

- *Consistency*: All objects share a common interface drawn from a limited set of methods, with consistent documentation.

- *Inspection*: All specified parameter values are exposed as public attributes.

- *Limited object hierarchy*: Only algorithms are represented by Python classes; datasets are represented
  in standard formats (NumPy arrays, Pandas ``DataFrame``s, SciPy sparse matrices) and parameter
  names use standard Python strings.

- *Composition*: Many machine learning tasks can be expressed as sequences of more fundamental algorithms,
  and Scikit-Learn makes use of this wherever possible.

- *Sensible defaults*: When models require user-specified parameters, the library defines an appropriate default value.





## Link al API Reference
Una gran guía de referencia: https://scikit-learn.org/stable/modules/classes.html

Pasos de trabajo sobre un modelo en Sickit- Learn

## Pasos para trabajar con Sklearn
1. Importar la clase
2. Seleccionar los parámetros de la clase y crear el objeto del modelo
3. Importar y adaptar los datos
4. Ajustar el modelo
5. Interpretar el modelo / evaluar las predicciones
6. Predecir sobre nuevas muestras 

In [None]:
# Importar la librería entera o solo la clase que nos interese
# import sklearn
from sklearn.linear_model import LinearRegression

In [None]:
# Siempre que importemos sklearn, vendrá de la mano de otras librerías
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

In [None]:
# ¿El modelo que importamos tiene hiperparámetros?
lm = LinearRegression(fit_intercept=True)
# model = LinearRegression(fit_intercept=False) 
## Modelo sin intercept
lm

LinearRegression()

In [None]:
# Poner los datos en el formato para modelar
## Cargamos los datos
data = pd.read_csv('https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv', index_col=0)
data.columns = ['TV','Radio','Newspaper','Sales']
data.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


In [None]:
## Sepramos las variables descriptivas: X
## De la variable a predecir: Y
feature_cols = ['TV','Radio','Newspaper']
X = data[feature_cols]
y = data['Sales']

In [None]:
# Ajustar el modelo utilizando la función fit()
lm.fit(X, y)

LinearRegression()

In [None]:
# Una vez ajustado un modelo puedo mirar los atributos que tiene
print(lm.intercept_)
print(lm.coef_)

2.938889369459412
[ 0.04576465  0.18853002 -0.00103749]


In [None]:
# Una vez entrenado, aplicarlo a nuevos datos
## Predict para supervisado
## Transform / predict para no supervisado
# Nuevo Dato
X_new = pd.DataFrame({'TV': [60],'Radio': [40],'Newspaper': [55]})
X_new.head()
# predecir para un nuevo valor
lm.predict(X_new)

array([13.16890666])

## Ejemplo de ajustar un Random Forest al modelo anterior

1. Importar la clase
2. Seleccionar los parámetros de la clase y crear el objeto del modelo
3. Importar y adaptar los datos
4. Ajustar el modelo
5. Interpretar el modelo / evaluar las predicciones
6. Predecir sobre nuevas muestras 

In [None]:
## EJERCICIO
# 1) Importar la clase
from sklearn.ensemble import RandomForestRegressor

# 2) Crear el objeto rf, de la clase RandomForestRegressor, con max_depth =2
rf = 


# 3) Utilizar la X e y anteriores
data = pd.read_csv('https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv', index_col=0)
data.columns = ['TV','Radio','Newspaper','Sales']
feature_cols = ['TV','Radio','Newspaper']
X = [...]
y = [...]

# 4) Ajustar el modelo con el método .fit, sobre el objeti rf


# 5) Predecir sobre la siguiente muestra: compara con el predict del LM
X_new = pd.DataFrame({'TV': [60],'Radio': [40],'Newspaper': [55]})
X_new.head()

## 5 Añade el .predict del rf y lm dentro de la función print
print("RF")
print(...)
print("LM")
print(...)


# 6) Repite el proceso con max_depth=5, ¿varían las predicciones?


RF
[10.67606243]
LM
[13.16890666]


## Comparativa entre modelos

Comparar los dos modelos con un test que no ha visto

In [None]:
# Separamos train y test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data.drop('Sales',axis=1), 
                                                    data['Sales'], 
                                                    test_size=0.25, 
                                                    random_state=101)

In [None]:
data.shape

(200, 4)

In [None]:
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(150, 3)
(150,)
(50, 3)
(50,)


In [None]:
from sklearn.metrics import mean_squared_error
# Cargo "modelo"
rf_2 = RandomForestRegressor(max_depth=100)
lm_2 = LinearRegression(fit_intercept=True)

# Ajuste
rf_2.fit(X_train,y_train)
lm_2.fit(X_train,y_train)

# Predicción
Y_test_lm = lm_2.predict(X_test)
Y_test_rf = rf_2.predict(X_test)

# Resultado
print("LM")
print(mean_squared_error(y_test, Y_test_lm))
print("RF")
print(mean_squared_error(y_test, Y_test_rf))

# TO DO: Re-ejecuta la celda con valores de max_depth 2, 5, 8
# Cual tiene mejor resultado?

LM
2.1086081578175144
RF
0.6506169999999996


In [None]:
import pandas as pd
#Importar la clase / Modelo
from sklearn.linear_model import LinearRegression

#Seleccionar los parámetros de la clase y crear el objeto del modelo
lm = LinearRegression(fit_intercept=True)

#Importar y adaptar los datos y adaptarlos
data = pd.read_csv('https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/master/data/Advertising.csv', index_col=0)
feature_cols = ['TV','Radio','Sales']
X = data[feature_cols]
y = data.Sales

#Ajustar el modelo
lm.fit(X, y)

#Interpretar el modelo / evaluar las predicciones
print(lm.intercept_)
print(lm.coef_)

#Predecir sobre nuevas muestras
X_new = pd.DataFrame({'TV': [60],'Radio': [40],'Newspaper': [55]})
X_new.head()
# predecir para un nuevo valor
lm.predict(X_new)

-1.7763568394002505e-15
[ 2.46350373e-18 -1.11022302e-16  1.00000000e+00]


Feature names unseen at fit time:
- Newspaper
Feature names seen at fit time, yet now missing:
- Sales



array([55.])