# Introducción al machine learning con python: sklearn
---

<div class="panel panel-success">
    <div class='panel-heading'>
    <h4>Empecemos</h4>
    </div>
    <div class='panel-body'>
    <ol type="A">
    <li>sklearn</li>
    <li>Example: LogisticRegression</li>
</ol>
    
</div>
</div>


# sci-kit learn

<img src='img/sklearn.png'>

SKlearn es la librería de facto para construir modelos de ML en python. Poseé una arquitectura intuitiva y generalizada a todos los tipos de modelos. Además, incluye una serie de herramientas que nos ayudarán no solo a entrenar y ejecutar modelos, si no también a seleccionarlos, trabajar las variables, y evaluar la eficiencia de nuestros sistemas de ML.

Según su descripción en la página web:

* Simple and efficient tools for data mining and data analysis
* Accessible to everybody, and reusable in various contexts
* Built on NumPy, SciPy, and matplotlib


# Ejemplo básico

Antes de empezar a usarla, deberemos importar la libreria. Por convención, se utilizará la fuente entera y el modulo a cargar. Por ejemplo, si queremos cargar un arbol de decisión, deberíamos ejecutar:

```python
from sklearn.tree import DecisionTreeClassifier
```

El número de modelos de ML, así como las distintas funcionalidades auxiliares son muy extensas. Por suerte, la documentación de sklearn es muy completa y explicativa, por lo que una busqueda rápida en google sobre la libreria que buscamos debería bastar para encontrarlo.

### Ejercicio 0: Carga las librerías básicas para crear un entorno de analisis de datos

In [2]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

En este ejemplo, empezaremos por ver como crear un clasificador binario

### Ejercicio 1: Carga los datos en un dataframe. Busca como leer un fichero desde una url en python e imprime la información. Renombra las columnas de acuerdo a la información sobre las variables

In [3]:
url_pima_info = 'https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.names'
url_pima_diabetes_data= 'https://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data'

In [16]:
### TIP: usar la libreria requests
import requests
response = requests.get(url_pima_info)
print(response.text)

1. Title: Pima Indians Diabetes Database

2. Sources:
   (a) Original owners: National Institute of Diabetes and Digestive and
                        Kidney Diseases
   (b) Donor of database: Vincent Sigillito (vgs@aplcen.apl.jhu.edu)
                          Research Center, RMI Group Leader
                          Applied Physics Laboratory
                          The Johns Hopkins University
                          Johns Hopkins Road
                          Laurel, MD 20707
                          (301) 953-6231
   (c) Date received: 9 May 1990

3. Past Usage:
    1. Smith,~J.~W., Everhart,~J.~E., Dickson,~W.~C., Knowler,~W.~C., \&
       Johannes,~R.~S. (1988). Using the ADAP learning algorithm to forecast
       the onset of diabetes mellitus.  In {\it Proceedings of the Symposium
       on Computer Applications and Medical Care} (pp. 261--265).  IEEE
       Computer Society Press.

       The diagnostic, binary-valued variable investigated is whether the
       patien

In [7]:
df = pd.read_csv(url_pima_diabetes_data, header=None)

In [18]:
columns = ['times_pregnant', 'glucosa', 'presion', 'skinfold', 'insulina', 'bmi', 'pedigree', 'edad', 'diabetes']
df.columns = columns

In [19]:
 df.head()

Unnamed: 0,times_pregnant,glucosa,presion,skinfold,insulina,bmi,pedigree,edad,diabetes
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Ejercicio 2: Genera los descriptivos básicos e intenta contestar a:

1. Es un problema desbalanceado?
1. Existen valores nulos?
1. Existen outliers?

In [20]:
df.describe()

Unnamed: 0,times_pregnant,glucosa,presion,skinfold,insulina,bmi,pedigree,edad,diabetes
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


### Ejercicio 3: Divide los datos en dos partes, df_train y df_test con el 80% y el 20% de los datos repartidos de forma aleatoria.

### Por qué hacemos esto?

In [33]:
### Mezcla el dataframe y utiliza una random_seed = 42
df = df.sample(frac=1, random_state=42)
### Cuanto es el 80% de los datos?
train_size = int(0.8*df.shape[0])
### Crea una df_train y el df_test a partir del resultado anterior y el metodo .loc[]
df_train = df.loc[:train_size]
df_test = df.loc[train_size:]

### Ejercicio 3: Carga la libreria de sklearn que permite entrenar una regresión logística. Instancia el modelo bajo el nombre `clf_lr`

In [34]:
from sklearn.linear_model import LogisticRegression

clf_lr = LogisticRegression()

### Ejercicio 4: Entrena el modelo y evalualo con el dataframe de test

In [35]:
X_train = df_train.drop('diabetes', axis=1)

y_train = df_train['diabetes']

In [36]:
clf_lr.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [37]:
clf_lr.coef_

array([[  1.37954871e-01,   2.94257826e-02,  -1.95861454e-02,
          2.73308894e-03,  -8.29103160e-04,   5.64330177e-02,
          7.88354023e-01,  -6.51257022e-05]])

In [39]:
X_test = df_test.drop('diabetes', axis=1)
y_test = df_test['diabetes']
clf_lr.score(X_test, y_test)

0.71739130434782605

### Ejercicio 5: Repite el mismo proceso cambiando el parametro C y compara los resultados

In [41]:
clf_lr_c_10 = LogisticRegression(C=10)

In [42]:
clf_lr_c_10.fit(X_train, y_train)

LogisticRegression(C=10, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [43]:
clf_lr_c_10.score(X_test, y_test)

0.75