<font size="+5">#04. Model Selection. Decision Tree vs Support Vector Machines vs Logistic Regression</font>

<ul>
    <li>Doubts? → Ask me in <img src="https://emoji.gg/assets/emoji/3970-discord.png" style="height: 1em; vertical-align: middle;"> <a href="https://discord.gg/cmB3KGsqMy">Discord</a></li>
    <li>Tutorials → <img src="https://openmoji.org/php/download_asset.php?type=emoji&emoji_hexcode=E044&emoji_variant=color" style="height: 1em; vertical-align: middle;"> <a href="https://www.youtube.com/channel/UCovCte2I3loteQE_kRsfQcw">YouTube</a></li>
    <li>Book Private Lessons → <span style="color: orange">@</span> <a href="https://sotastica.com/reservar">sotastica</a></li>
</ul>

# Load the Data

Load the dataset from [CIS](https://www.cis.es/cis/opencms/ES/index.html) executing the lines of code below:
> - The goal of this dataset is
> - To predict `internet_usage` of **people** (rows)
> - Based on their **socio-demographical characteristics** (columns)

In [2]:
import pandas as pd

url = 'https://raw.githubusercontent.com/py-thocrates/data/main/internet_usage_spain.csv'

df = pd.read_csv(url)
df.head()

Unnamed: 0,internet_usage,sex,age,education
0,0,Female,66,Elementary
1,1,Male,72,Elementary
2,1,Male,48,University
3,0,Male,59,PhD
4,1,Female,44,PhD


# `DecisionTreeClassifier()` Model in Python

> Vamos a aplicar la lógica natural que hemos seguido durante todo el programa. Por tanto, los pasos a seguir son:

```python
model.fit() # calcular los mejores números en la ecuación matemática
model.score() # calcular cómo de bueno es el modelo: Realidad vs Predicción
```

# Function to Automate Lines of Code

> El objetivo de este capítulo es comprender cómo se comparan los diferentes modelos de ML. En este punto concreto del programa, deberíamos saber que los modelos siempre funcionan igual:

```python
model.fit() # calcular los mejores números en la ecuación matemática
model.score() # calcular cómo de bueno es el modelo: Realidad vs Predicción
```

> El modelo a usar es lo único que cambiaría. Por tanto, nos preguntamos lo siguiente: ¿por qué no **crear una función** que te calcule las predicciones directamente al **pasarle un modelo**, como `parametro`? De esta forma podríamos ejecutar las siguientes líneas y entrenar todos los modelos con la misma función.

```python
dt = DecisionTreeClassifier()
calcular_precision(model=dt)

svm = SVC()
calcular_precision(model=svm)

lr = LogisticRegression()
calcular_precision(model = lr)
```

## `DecisionTreeClassifier()` Accuracy

## `SVC()` Accuracy

## `LogisticRegression()` Accuracy

# Which is the Best Model?

> Which model has the **highest accuracy**?

## University Access Exams Analogy

> Let's **imagine**:
>
> 1. You have a `math exam` on Saturday
> 2. Today is Monday
> 3. You want to **calculate if you need to study more** for the math exam
> 4. How do you calibrate your `math level`?
> 5. Well, you've got **100 questions `X` with 100 solutions `y`** from past years exams
> 6. You may study the 100 questions with 100 solutions `fit(questions, solutions)`
> 7. Then, you may do a `mock exam` with the 100 questions `predict(questions)`
> 8. And compare `your_solutions` with the `real_solutions`
> 9. You've got **90/100 correct answers** `accuracy` in the mock exam
> 10. You think you are **prepared for the maths exam**
> 11. And when you do **the real exam on Saturday, the mark is 40/100**
> 12. Why? How could have we prevented this?
> 13. **Solution**: separate the 100 questions in
> - `70 train` to study & `30 test` for the mock exam.

# Separar Datos en Train & Test

> **1. Entrenar Modelo con Train**
>
> Al separar los datos en `Entreno` y `Testeo` nos encontraríamos en el siguiente supuesto según la analogía del examen de selectividad:
>
> Estudiamos/Entrenamos `.fit()` para el examen con 70 preguntas `X_train` y respectivas 70 soluciones `y_train`.
>
> - `model.fit(X_train, y_train)`
>
> **2. Realizar Predicciones en Test**
>
> Hacemos un examen `.predict()` de mentira **sin ver las soluciones `y_test`**. Tan solo con lo que sabemos de antes y las **30 nuevas preguntas que no vimos `X_test`** durante el estudio/entrenamiento.
>
> - `y_pred = model.predict(X_test)`
>
> **3. Comparar Predicciones vs Realidad de Test**
>
> Por último veríamos cómo de preparados estamos para el examen de selectividad al comprobar si las respuestas que hemos desarrollado `y_pred` coinciden con las soluciones reales `y_test`.
>
> - `y_pred == y_test`?

# Optimizar Modelos y Comparar Otra Vez

> Ahora deberíamos entrenar un modelo aplicando la lógica que acabamos de exponer: ajustamos la ecuación matemática con los datos de entrenamiento y comprobamos **cómo de bueno es el modelo en los datos de testeo**.

## Modelo de Árboles de Decisión con Train Test Split

- Deberíamos obtener la precisión del `DecisionTreeClassifier()` con los datos de `Testeo`.

## Modelo de Support Vector Machine con Train Test Split

- Deberíamos obtener la precisión del `SVC()` con los datos de `Testeo`.

## Modelo de Regresión Logística con Train Test Split

- Deberíamos obtener la precisión del `LogisticRegression()` con los datos de `Testeo`.

# ¿Cuál es el Mejor Modelo con Train Test Split?

> Tomamos la decisión con el modelo que haya tenido mayor precisión porque nos indicaría que ha acertado más veces la realidad en los datos de `Testeo`.

# La Importancia del Remuestreo

> Las métricas nos dicen ahora que el mejor modelo es otro...
>
> Qué hubiera pasado si, por cada centésima de fallo `0.01` en datos que no conoce, perdemos 1 Millón de Euros. No sabría deciros en vuestro caso, pero con lo que da la diferencia yo me retiro...
>
> Los modelos pueden ser muy buenos en datos que conocen de antemano durante el entrenamiento. Sin embargo, quisiéramos emplear el modelo en datos que no conoció durante el entrenamiento (predecir si un cliente futuro afrontará un préstamo).
>
> El hecho de haber calibrado nuestro modelo, de ver lo bueno que es nuestro modelo en datos que no conoció **(Test)** durante el entrenamiento **(Train)** hace que nos fiemos mejor de su rendimiento frente a datos que no conoce.
>
> Por tanto, la técnica `train test split` debemos usarla siempre que queramos calibrar cómo de bueno es nuestro modelo.