<font size="+5">#04. Comparacion de Modelos: Arboles de Decision vs Support Vector Machines vs Regresion Logistica</font>

<ul>
    <li>Resolver dudas → Pregunta en <img src="https://discord.com/assets/f9bb9c4af2b9c32a2c5ee0014661546d.png" style="height: 1em; vertical-align: middle;"> <a href="https://discord.gg/cmB3KGsqMy">Discord</a></li>
    <li>Tutoriales → <img src="https://openmoji.org/php/download_asset.php?type=emoji&emoji_hexcode=E044&emoji_variant=color" style="height: 1em; vertical-align: middle;"> <a href="https://www.youtube.com/channel/UCovCte2I3loteQE_kRsfQcw">YouTube</a></li>
    <li>Reservar Clases → <span style="color: orange">@</span> <a href="https://sotastica.com/reservar">sotastica</a></li>
</ul>

# Cargar Datos

> Usaremos la base de datos del **CIS** sobre una muestra de 2455, cuyas características son de aspecto sociológico. El `objetivo es determinar si una persona usa internet o no`. Ejecutaríamos los siguientes comandos para cargar los datos en nuestro `entorno`.

```python
df = pd.read_csv('https://raw.githubusercontent.com/jesusloplar/data/main/uso_internet_espana.csv')
df.head()
```

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/jesusloplar/data/main/uso_internet_espana.csv')
df.head()

Unnamed: 0,uso_internet,sexo,edad,estudios
0,0,Mujer,66,Primaria
1,1,Hombre,72,Primaria
2,1,Hombre,48,Medios universitarios
3,0,Hombre,59,Superiores
4,1,Mujer,44,Superiores


# Seleccionar Variables para el Modelo

> 1.  Explicativas/Features/Input `X`
> 2.  Objetivo/Class/Target `y`

In [4]:
explicativas = df.drop(columns='uso_internet')

In [5]:
objetivo = df.uso_internet

# Modelo de Árboles de Decisión en Python

> Vamos a aplicar la lógica natural que hemos seguido durante todo el programa. Por tanto, los pasos a seguir son:

```python
model.fit() # calcular los mejores números en la ecuación matemática
model.score() # calcular cómo de bueno es el modelo: Realidad vs Predicción
```

In [6]:
from sklearn.tree import DecisionTreeClassifier

In [7]:
model = DecisionTreeClassifier()

In [8]:
explicativas = pd.get_dummies(explicativas, drop_first=True)

In [9]:
model.fit(X=explicativas, y=objetivo)

DecisionTreeClassifier()

In [10]:
model.score(X=explicativas, y=objetivo)

0.859877800407332

# Crear Funciones para Automatizar Procesos

> El objetivo de este capítulo es comprender cómo se comparan los diferentes modelos de ML. En este punto concreto del programa, deberíamos saber que los modelos siempre funcionan igual:

```python
model.fit() # calcular los mejores números en la ecuación matemática
model.score() # calcular cómo de bueno es el modelo: Realidad vs Predicción
```

> El modelo a usar es lo único que cambiaría. Por tanto, nos preguntamos lo siguiente: ¿por qué no **crear una función** que te calcule las predicciones directamente al **pasarle un modelo**, como `parametro`? De esta forma podríamos ejecutar las siguientes líneas y entrenar todos los modelos con la misma función.

```python
dt = DecisionTreeClassifier()
calcular_precision(model=dt)

svm = SVC()
calcular_precision(model=svm)

lr = LogisticRegression()
calcular_precision(model = lr)
```

In [11]:
def calcular_precision(model):

    model.fit(X=explicativas, y=objetivo)

    precision = model.score(X=explicativas, y=objetivo)
    
    return precision

## Modelo de Árboles de Decisión

- Aplicamos la función que hemos creado anteriormente en el objeto `DecisionTreeClassifier()`

In [12]:
dt = DecisionTreeClassifier()

In [13]:
calcular_precision(model = dt)

0.859877800407332

## Modelo de Support Vector Machine

- Aplicamos la función que hemos creado anteriormente en el objeto `SVC()`

In [14]:
from sklearn.svm import SVC

In [15]:
svm = SVC()

In [16]:
calcular_precision(model = svm)

0.7934826883910387

## Modelo de Regresión Logística

- Aplicamos la función que hemos creado anteriormente en el objeto `LogisticRegression()`

In [17]:
from sklearn.linear_model import LogisticRegression

In [18]:
lr = LogisticRegression()

In [19]:
calcular_precision(model = lr)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.8334012219959267

# ¿Cuál es el Mejor Modelo?

> Tomamos la decisión con el modelo que haya tenido mayor precisión porque nos indicaría que ha acertado más veces la realidad.

## Analogía del Examen de Selectividad

> Basándonos en el resultado anterior, elegiríamos el modelo `DecisionTreeClassifier()`. No obstante, los modelos no se están comparando correctamente porque el modelo conocía los datos que trata de predecir. Déjanos explicarte este fenómeno con la siguiente analogía:
>
> 1. Tenemos el examen de selectividad de matemáticas el próximo sábado.
> 2. Disponemos de 100 preguntas con sus 100 soluciones de años anteriores para estudiar de cara a la prueba final.
> 3. Hoy es lunes y debemos calibrar cómo de preparados estamos de cara al sábado para ver si estudiamos más o menos en los próximos días.
> 4. Estudiamos las 100 preguntas con las soluciones al lado.
> 5. Hacemos una prueba sin mirar a las soluciones y vemos que hemos acertado 90 preguntas. Por tanto, pensamos que sacaremos un 90 en el examen.
> 6. Llega el examen y las preguntas no son las mismas con las que hemos estudiado.
> 7. Sacamos 40 preguntas acertadas de 100.
> 8. ¿Qué nos ha pasado?
> 9. Hemos sobreentrenado las preguntas que conocíamos. Sin embargo, nos hubiera gustado ver cómo de preparados estábamos con preguntas con las que no hemos entrenado.
> 10. De la misma manera, nos gustaría evaluar el modelo con datos que no ha usado durante el entrenamiento.
> 11. **La solución**: vamos a separar los datos en Train & Test con la función `train_test_split()`.

# Separar Datos en Train & Test

> **1. Entrenar Modelo con Train**
>
> Al separar los datos en `Entreno` y `Testeo` nos encontraríamos en el siguiente supuesto según la analogía del examen de selectividad:
>
> Estudiamos/Entrenamos `.fit()` para el examen con 70 preguntas `X_train` y respectivas 70 soluciones `y_train`.
>
> - `model.fit(X_train, y_train)`
>
> **2. Realizar Predicciones en Test**
>
> Hacemos un examen `.predict()` de mentira **sin ver las soluciones `y_test`**. Tan solo con lo que sabemos de antes y las **30 nuevas preguntas que no vimos `X_test`** durante el estudio/entrenamiento.
>
> - `y_pred = model.predict(X_test)`
>
> **3. Comparar Predicciones vs Realidad de Test**
>
> Por último veríamos cómo de preparados estamos para el examen de selectividad al comprobar si las respuestas que hemos desarrollado `y_pred` coinciden con las soluciones reales `y_test`.
>
> - `y_pred == y_test`?

# Optimizar Modelos y Comparar Otra Vez

> Ahora deberíamos entrenar un modelo aplicando la lógica que acabamos de exponer: ajustamos la ecuación matemática con los datos de entrenamiento y comprobamos **cómo de bueno es el modelo en los datos de testeo**.

In [20]:
from sklearn.model_selection import train_test_split

In [23]:
a = train_test_split(explicativas, objetivo, test_size=0.30, random_state=42)

In [28]:
X_train, X_test, y_train, y_test = train_test_split(explicativas, objetivo, test_size=0.30, random_state=42)

In [24]:
a[0]

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
198,54,0,0,1,0,0,0
561,50,0,0,0,0,0,1
685,26,0,1,0,0,0,0
1321,62,0,1,0,0,0,0
590,86,1,0,0,0,1,0
...,...,...,...,...,...,...,...
1638,37,1,0,0,1,0,0
1095,35,1,0,0,0,0,0
1130,58,1,0,1,0,0,0
1294,52,1,0,1,0,0,0


In [25]:
a[1]

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
1598,52,1,0,1,0,0,0
620,48,0,0,0,0,0,0
1266,53,1,0,0,0,0,1
649,43,0,1,0,0,0,0
1908,43,0,0,0,0,0,0
...,...,...,...,...,...,...,...
377,28,0,0,0,0,0,1
535,35,1,0,0,0,0,0
1535,23,0,0,0,1,0,0
902,38,0,1,0,0,0,0


In [25]:
type(a)

list

In [26]:
len(a)

4

In [27]:
a[0]

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
198,54,0,0,1,0,0,0
561,50,0,0,0,0,0,1
685,26,0,1,0,0,0,0
1321,62,0,1,0,0,0,0
590,86,1,0,0,0,1,0
...,...,...,...,...,...,...,...
1638,37,1,0,0,1,0,0
1095,35,1,0,0,0,0,0
1130,58,1,0,1,0,0,0
1294,52,1,0,1,0,0,0


In [28]:
a[1]

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
1598,52,1,0,1,0,0,0
620,48,0,0,0,0,0,0
1266,53,1,0,0,0,0,1
649,43,0,1,0,0,0,0
1908,43,0,0,0,0,0,0
...,...,...,...,...,...,...,...
377,28,0,0,0,0,0,1
535,35,1,0,0,0,0,0
1535,23,0,0,0,1,0,0
902,38,0,1,0,0,0,0


In [30]:
a[2]

198     0
561     1
685     1
1321    1
590     0
       ..
1638    1
1095    1
1130    0
1294    0
860     1
Name: uso_internet, Length: 1718, dtype: int64

In [31]:
a[3]

1598    0
620     1
1266    1
649     1
1908    1
       ..
377     1
535     1
1535    1
902     1
1967    1
Name: uso_internet, Length: 737, dtype: int64

In [29]:
X_train, X_test, y_train, y_test = a

In [39]:
def calcular_precision(model):
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    precision = (y_pred == y_test).mean()

    return precision

## Modelo de Árboles de Decisión con Train Test Split

- Deberíamos obtener la precisión del `DecisionTreeClassifier()` con los datos de `Testeo`.

In [40]:
calcular_precision(dt)

0.8086838534599728

## Modelo de Support Vector Machine con Train Test Split

- Deberíamos obtener la precisión del `SVC()` con los datos de `Testeo`.

In [41]:
calcular_precision(svm)

0.7801899592944369

## Modelo de Regresión Logística con Train Test Split

- Deberíamos obtener la precisión del `LogisticRegression()` con los datos de `Testeo`.

In [44]:
lr = LogisticRegression(max_iter=1000)

In [45]:
calcular_precision(lr)

0.8534599728629579

In [46]:
df

Unnamed: 0,uso_internet,sexo,edad,estudios
0,0,Mujer,66,Primaria
1,1,Hombre,72,Primaria
2,1,Hombre,48,Medios universitarios
3,0,Hombre,59,Superiores
4,1,Mujer,44,Superiores
...,...,...,...,...
2450,1,Hombre,43,Primaria
2451,1,Mujer,18,Secundaria
2452,0,Mujer,54,Primaria
2453,1,Hombre,31,Secundaria


In [63]:
from sklearn.preprocessing import OneHotEncoder

In [65]:
explicativas = df.drop(columns='uso_internet')

In [66]:
encoder = OneHotEncoder()

In [76]:
res = encoder.fit_transform(explicativas.loc[:,['sexo', 'estudios']])

In [80]:
sexo = 'Hombre'

In [81]:
estudios = 'Primaria'

In [85]:
to_predict = pd.DataFrame({'sexo': 'Hombre', 'estudios':'Primaria'}, index=['juan'])

In [92]:
a = encoder.transform(to_predict).toarray().tolist()

In [96]:
a = [edad] + a[0]

In [102]:
to_predict = pd.DataFrame(a).T

In [104]:
to_predict

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,89.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0


In [106]:
X_train.shape

(1718, 7)

In [110]:
df = pd.get_dummies(df)

In [112]:
objetivo = df.uso_internet

In [113]:
explicativas = df.drop(columns='uso_internet')

In [114]:
X_train, X_test, y_train, y_test = train_test_split(explicativas, objetivo)

In [116]:
calcular_precision(lr)

0.8257328990228013

In [117]:
lr.predict(to_predict)

array([0])

In [118]:
lr.predict_proba(to_predict)

array([[0.98509393, 0.01490607]])

In [None]:
with open('modelo.pkl', 'w') as f:
    pickle.dumps()

In [79]:
pd.concat([explicativas[['edad']], pd.DataFrame(res.toarray())], axis=1)

Unnamed: 0,edad,0,1,2,3,4,5,6,7
0,66,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0
1,72,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,48,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
3,59,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,44,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...
2450,43,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2451,18,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0
2452,54,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0
2453,31,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


In [62]:
explicativas

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
0,66,1,0,1,0,0,0
1,72,0,0,1,0,0,0
2,48,0,1,0,0,0,0
3,59,0,0,0,0,0,1
4,44,1,0,0,0,0,1
...,...,...,...,...,...,...,...
2450,43,0,0,1,0,0,0
2451,18,1,0,0,1,0,0
2452,54,1,0,1,0,0,0
2453,31,0,0,0,1,0,0


In [47]:
sexo = 'Hombre'

In [48]:
edad = 89

In [49]:
estudios = 'Primaria'

In [54]:
to_predict = pd.DataFrame({'sexo': sexo, 'edad': edad, 'estudios': estudios}, index=['Juan'])

In [55]:
to_predict

Unnamed: 0,sexo,edad,estudios
Juan,Hombre,89,Primaria


In [57]:
explicativas.head()

Unnamed: 0,edad,sexo_Mujer,estudios_Medios universitarios,estudios_Primaria,estudios_Secundaria,estudios_Sin estudios,estudios_Superiores
0,66,1,0,1,0,0,0
1,72,0,0,1,0,0,0
2,48,0,1,0,0,0,0
3,59,0,0,0,0,0,1
4,44,1,0,0,0,0,1


In [58]:
edad = 89

In [59]:
sexo_Mujer = 'Hombre'

In [60]:
if sexo_Mujer == 'Hombre':
    sexo_Mujer = 0
else:
    sexo_Mujer = 1

In [61]:
import numpy as np

In [None]:
np.rea

In [56]:
model.predict(to_predict)

ValueError: could not convert string to float: 'Hombre'

# ¿Cuál es el Mejor Modelo con Train Test Split?

> Tomamos la decisión con el modelo que haya tenido mayor precisión porque nos indicaría que ha acertado más veces la realidad en los datos de `Testeo`.

# La Importancia del Remuestreo

> Las métricas nos dicen ahora que el mejor modelo es otro...
>
> Qué hubiera pasado si, por cada centésima de fallo `0.01` en datos que no conoce, perdemos 1 Millón de Euros. No sabría deciros en vuestro caso, pero con lo que da la diferencia yo me retiro...
>
> Los modelos pueden ser muy buenos en datos que conocen de antemano durante el entrenamiento. Sin embargo, quisiéramos emplear el modelo en datos que no conoció durante el entrenamiento (predecir si un cliente futuro afrontará un préstamo).
>
> El hecho de haber calibrado nuestro modelo, de ver lo bueno que es nuestro modelo en datos que no conoció **(Test)** durante el entrenamiento **(Train)** hace que nos fiemos mejor de su rendimiento frente a datos que no conoce.
>
> Por tanto, la técnica `train test split` debemos usarla siempre que queramos calibrar cómo de bueno es nuestro modelo.