<br>
<img src="pics/logo_hct.png" alt="Figure 1" style="width: 300px;"/>
<!-- <h4 style="text-align: center;" markdown="1">  Figure 2c from (Ferreira et al. 2014). Note that the colorbar legend at the bottom as well as the arrows are not required in the assignment descriptions below.</h4> -->
<br>

**Elaborado por**: Pérez-Estrada, Adolfo & Peña-Mata, Claudia Elizabeth 

**Fecha de elaboración**: 16 de mayo de 2024

# CLASE 2. METODOS DE APRENDIZAJE AUTOMATICO (*MACHINE LEARNING*): K-Nearest Neighbors (KNN),  Árboles de decisión y Support Vector Machine (SVM)

¡Bienvenidos a la segunda sesión de nuestro curso! Hoy vamos a profundizar en dos métodos fundamentales del aprendizaje automático (*machine learning*): K-Nearest Neighbors (KNN), Support Vector Machine (SVM) y Árboles de Decisión. Estas técnicas son esenciales para cualquier científico de datos y nos ofrecen una visión clara sobre cómo se pueden hacer predicciones a partir de datos existentes.

En la clase anterior, recopilamos y exploramos las variables atmosféricas proporcionadas por el Buró de Meteorología de Australia. Este conjunto de datos será la base de nuestro trabajo práctico hoy. Nuestro objetivo es aplicar los modelos de KNN y Árboles de Decisión para prever fenómenos meteorológicos, utilizando el conocimiento adquirido sobre el comportamiento de las variables atmosféricas.

El notebook está estructurado de la siguiente manera para facilitar el aprendizaje y la aplicación de estos modelos:

1. **Preparación del Entorno:** Configuraremos nuestro espacio de trabajo importando las librerías necesarias y preparando las herramientas que nos ayudarán a manejar los datos eficientemente.

2. **Adquisición de Datos:** Cargaremos el conjunto de datos del Buró de Meteorología, que ya conocemos, y realizaremos una revisión rápida para asegurarnos de que esté listo para el análisis y modelado.

3. **Aplicación del Modelo de KNN:** Implementaremos el modelo de K-Nearest Neighbors para analizar cómo podemos utilizar los datos atmosféricos para hacer predicciones. Exploraremos cómo la elección del número de vecinos afecta la precisión de nuestras predicciones.

4. **Aplicación del Modelo de Árboles de Decisión:** Construiremos y evaluaremos un modelo basado en árboles de decisión. Este modelo nos ayudará a entender las decisiones detrás de las predicciones y cómo las diferentes variables influencian estos resultados.

Al final de esta clase, tendrás una comprensión sólida de cómo estos dos modelos pueden ser aplicados a problemas reales y la capacidad de interpretar sus resultados. ¡Empecemos a descubrir lo que el aprendizaje automático puede hacer por nosotros en el campo de la meteorología!

## 1. Preparación del entorno g

Para este notebook serán necesarias las librerías que ya conocemos de la clase anterior:


In [1]:
# Importación de bibliotecas para manipulación de datos
import pandas as pd
import numpy as np

# Importación de modelos de machine learning de scikit-learn
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm

# Importación de herramientas de preprocesamiento de scikit-learn
from sklearn import preprocessing

# Importación de funciones de división de datos y evaluación de modelos
from sklearn.model_selection import train_test_split
from sklearn.metrics import jaccard_score, f1_score, log_loss
from sklearn.metrics import confusion_matrix, accuracy_score
import sklearn.metrics as metrics

## 2. ADQUISICIÓN DE DATOS

Como ya sabemos la fuente de los datos son del Buró de Meteorología de Australia [http://www.bom.gov.au/climate/dwo/](http://www.bom.gov.au/climate/dwo/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01).

<br>
<img src="pics/BOM.png" alt="Figure 2" style="width: 300px;"/>

El conjunto de datos que se utilizará tiene columnas adicionales como 'RainToday' y nuestro objetivo es 'RainTomorrow', que se obtuvo de Rattle en [https://bitbucket.org/kayontoga/rattle/src/master/data/weatherAUS.RData](https://bitbucket.org/kayontoga/rattle/src/master/data/weatherAUS.RData?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01).

Contiene observaciones de métricas meteorológicas para cada día desde 2008 hasta 2017.

El conjunto de datos **df_sydney_processed.csv** incluye los siguientes campos así como las columnas preprocesadas la clase pasada:


| Campo           | Descripción                                           | Unidad            | Tipo   |
| --------------- | ----------------------------------------------------- | ---------------- | ------ |
| Date            | Fecha de la observación en YYYY-MM-DD                 | Fecha            | object |
| Location        | Ubicación de la observación                           | Ubicación        | object |
| MinTemp         | Temperatura mínima                                    | Celsius          | float  |
| MaxTemp         | Temperatura máxima                                    | Celsius          | float  |
| Rainfall        | Cantidad de precipitación                             | Milímetros       | float  |
| Evaporation     | Cantidad de evaporación                               | Milímetros       | float  |
| Sunshine        | Cantidad de luz solar directa                         | Horas            | float  |
| WindGustDir     | Dirección de la ráfaga más fuerte                     | Puntos cardinales| object |
| WindGustSpeed   | Velocidad de la ráfaga más fuerte                     | Kilómetros/Hora  | object |
| WindDir9am      | Dirección del viento promediada 10 minutos antes de las 9am | Puntos cardinales| object |
| WindDir3pm      | Dirección del viento promediada 10 minutos antes de las 3pm | Puntos cardinales| object |
| WindSpeed9am    | Velocidad del viento promediada 10 minutos antes de las 9am | Kilómetros/Hora  | float  |
| WindSpeed3pm    | Velocidad del viento promediada 10 minutos antes de las 3pm | Kilómetros/Hora  | float  |
| Humidity9am     | Humedad a las 9am                                     | Porcentaje       | float  |
| Humidity3pm     | Humedad a las 3pm                                     | Porcentaje       | float  |
| Pressure9am     | Presión atmosférica reducida al nivel medio del mar a las 9am | Hectopascal     | float  |
| Pressure3pm     | Presión atmosférica reducida al nivel medio del mar a las 3pm | Hectopascal     | float  |
| Cloud9am        | Fracción del cielo oscurecida por nubes a las 9am     | Octavos          | float  |
| Cloud3pm        | Fracción del cielo oscurecida por nubes a las 3pm     | Octavos          | float  |
| Temp9am         | Temperatura a las 9am                                 | Celsius          | float  |
| Temp3pm         | Temperatura a las 3pm                                 | Celsius          | float  |
| RainToday       | Si llovió hoy                                         | Sí/No            | object |
| RainTomorrow    | Si lloverá mañana                                     | Sí/No            | float  |

Las definiciones de las columnas se recopilaron de [http://www.bom.gov.au/climate/dwo/IDCJDW0000.shtml](http://www.bom.gov.au/climate/dwo/IDCJDW0000.shtml?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkML0101ENSkillsNetwork20718538-2022-01-01)

**Cargamos los datos leyendo desde la función de lectura de PANDAS**

In [2]:
df_sydney_processed = pd.read_csv("df_sydney_processed.csv").iloc[:, 1:]
df_sydney_processed.head() 

Unnamed: 0,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,...,WindDir3pm_NNW,WindDir3pm_NW,WindDir3pm_S,WindDir3pm_SE,WindDir3pm_SSE,WindDir3pm_SSW,WindDir3pm_SW,WindDir3pm_W,WindDir3pm_WNW,WindDir3pm_WSW
0,19.5,22.4,15.6,6.2,0.0,41.0,17.0,20.0,92.0,84.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,19.5,25.6,6.0,3.4,2.7,41.0,9.0,13.0,83.0,73.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,21.6,24.5,6.6,2.4,0.1,41.0,17.0,2.0,88.0,86.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,20.2,22.8,18.8,2.2,0.0,41.0,22.0,20.0,83.0,90.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,19.7,25.7,77.4,4.8,0.0,41.0,11.0,6.0,88.0,74.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0


# 3. Aplicación del Modelo de KNN (K-Nearest Neighbors)

En nuestra sesión de hoy, nos enfocaremos en uno de los métodos más intuitivos y simples de aprendizaje supervisado: el K-Nearest Neighbors (KNN). Este modelo es especialmente valioso por su facilidad de implementación y su efectividad en una gran variedad de problemas de clasificación y regresión.

### ¿Qué es KNN?

El algoritmo KNN funciona bajo un principio bastante sencillo: "Dime con quién andas, y te diré quién eres". En términos de datos, esto significa que un nuevo punto de datos se clasifica según la mayoría de votos de sus 'k' vecinos más cercanos. Cada vecino vota por su clase y la clase con más votos se asigna al punto en cuestión. Si k = 1, entonces el punto simplemente adopta la clase de su vecino más cercano.

### Implementación en Python con scikit-learn

Para aplicar el modelo KNN, utilizaremos la biblioteca `scikit-learn`, específicamente el módulo `KNeighborsClassifier`. Esta es una de las bibliotecas de machine learning más populares y robustas en Python, ofreciendo una amplia gama de algoritmos y herramientas para el preprocesamiento de datos, validación cruzada, y mucho más.

### Pasos para la Implementación de KNN con `scikit-learn`

1. **Preparar los datos:** Asegurarse de que los datos estén limpios, normalizados y listos para ser procesados.
2. **Instanciar el modelo:** Se crea una instancia de `KNeighborsClassifier`, donde se puede especificar el número de vecinos entre otros parámetros.
3. **Entrenar el modelo:** Aunque KNN es un "lazy learner", scikit-learn permite estructurar el proceso de manera similar a otros modelos predictivos, lo que ayuda en la validación y selección de modelos.
4. **Evaluación del modelo:** Después de hacer las predicciones, evaluamos cómo de bien está funcionando nuestro modelo utilizando métricas como precisión, matriz de confusión, entre otras.

### 1. Preparar los datos:

Recordemos que los datos ya pasaron un pre-procesamiento analizado la clase anterior. No obstante es importante retomar la parte de la división del conjunto de datos.

In [3]:
# Nos aseguramos que los datos sean de tipo númerico
df_sydney_processed = df_sydney_processed.astype(float)

# Dividimos el dataframe en conjunto de datos para entrar a los modelos
features = df_sydney_processed.drop(columns='RainTomorrow', axis=1)
Y = df_sydney_processed['RainTomorrow']

## 2. Instansear el modelo
En esta sección de nuestro notebook, vamos a crear y entrenar un modelo de K-Nearest Neighbors (KNN), que llamaremos `KNN`. Utilizaremos los datos de entrenamiento (`x_train`, `y_train`) y estableceremos el parámetro `n_neighbors` en 4 para configurar el modelo para que considere los 4 vecinos más cercanos durante la clasificación.

### Preprocesamiento de los Datos

Antes de entrenar nuestro modelo, es crucial que todos los datos estén en una escala comparable para evitar que las variables con magnitudes más grandes dominen cómo el modelo hace predicciones. Para lograr esto, utilizaremos la clase `StandardScaler` de `scikit-learn`.

```python
scaler_ = preprocessing.StandardScaler().fit(features)
```

La línea de código anterior crea una instancia del escalador y lo ajusta a las características del conjunto de datos, calculando así la media y desviación estándar que se usarán para la transformación de las características.

```python
x_train_transf = scaler_.transform(x_train.astype(float))
x_test_transf = scaler_.transform(x_test.astype(float))
```

Aquí transformamos los datos de entrenamiento y de prueba. Convertimos `x_train` y `x_test` a tipo float y los escalamos usando el `scaler_` que ajustamos anteriormente. Este paso asegura que nuestras variables de entrada están normalizadas, lo que significa que cada característica contribuirá equitativamente al análisis de distancia en el modelo KNN.

### Entrenamiento del Modelo KNN

```python
KNN = KNeighborsClassifier(n_neighbors=4).fit(x_train_transf, y_train)
```

Finalmente, instanciamos el modelo `KNeighborsClassifier` con `n_neighbors` igual a 4 y lo entrenamos con los datos de entrenamiento transformados (`x_train_transf`, `y_train`). Esta línea no solo crea el modelo KNN sino que también lo ajusta a los datos de entrenamiento, preparándolo para hacer predicciones futuras.

Este proceso prepara nuestro modelo para entender y predecir los fenómenos meteorológicos basados en las variables atmosféricas, asegurando que se considere el impacto equitativo de cada variable a través de la normalización. Estamos listos para utilizar este modelo para realizar predicciones sobre datos nuevos y ver cómo se comporta en escenarios reales.

In [4]:
scaler_ = preprocessing.StandardScaler().fit(features)

In [5]:
x_train, x_test, y_train, y_test = train_test_split(features, Y, random_state=10, test_size=.2)

In [6]:
x_train_transf = scaler_.transform(x_train.astype(float))
x_test_transf = scaler_.transform(x_test.astype(float))

In [7]:
KNN = KNeighborsClassifier(n_neighbors=4).fit(x_train_transf, y_train)

## 3. Entrenar el modelo

Una vez que nuestro modelo KNN está entrenado, el siguiente paso es utilizarlo para hacer predicciones sobre los datos de prueba. Este es un paso crucial para evaluar la efectividad del modelo en la clasificación de nuevos datos, que no fueron utilizados durante la fase de entrenamiento.

### Realizando Predicciones con KNN

```python
predictions = KNN.predict(x_test_transf)
```

En esta línea de código, utilizamos el método `predict` del modelo `KNN` que entrenamos anteriormente. El método `predict` requiere como entrada los datos de prueba que ya han sido transformados (`x_test_transf`) para asegurar que están en la misma escala que los datos de entrenamiento.

La salida del método `predict` se almacena en la variable `predictions`, que es un arreglo que contiene las etiquetas predichas para cada uno de los ejemplos en nuestro conjunto de datos de prueba.

### ¿Qué Sigue?

Ahora que tenemos las predicciones, podemos proceder a comparar estas etiquetas predichas con las etiquetas reales del conjunto de datos para evaluar qué tan bien nuestro modelo está funcionando. Esto se puede hacer a través de métricas como la precisión, la matriz de confusión, entre otras, para obtener una comprensión clara del rendimiento del modelo en la clasificación de condiciones meteorológicas basadas en datos atmosféricos.

Este paso nos ayuda a validar la eficacia de nuestro modelo KNN y a realizar ajustes si es necesario, mejorando así su capacidad para predecir con precisión en aplicaciones futuras.

In [8]:
predictions = KNN.predict(x_test_transf)

## 4. Evaluación del Modelo Usando Métricas de Desempeño

Una vez que hemos realizado predicciones con nuestro modelo KNN, el siguiente paso es evaluar cuán precisas son estas predicciones. Para ello, compararemos las etiquetas predichas (`predictions`) con las etiquetas reales (`y_test`) utilizando diferentes métricas de desempeño. Cada métrica nos proporciona una perspectiva diferente sobre la eficacia del modelo.

### Calculando las Métricas de Precisión

```python
KNN_Accuracy_Score = accuracy_score(y_test, predictions)
```
La **precisión** es la fracción de predicciones correctas entre el total de casos evaluados. Es una medida general que nos dice qué tan bien el modelo ha identificado todas las etiquetas correctamente.

```python
KNN_JaccardIndex = jaccard_score(y_test, predictions)
```
El **índice de Jaccard** mide la similitud entre los conjuntos de las etiquetas reales y las etiquetas predichas. Este índice es útil para entender cuán similares son los dos conjuntos, es decir, la intersección sobre la unión de las etiquetas.

```python
KNN_F1_Score = f1_score(y_test, predictions)
```
El **puntaje F1** es una medida que combina la precisión y la sensibilidad (recall) en un solo número. Calcula el promedio armónico de la precisión y la sensibilidad, ofreciendo un balance entre estas dos métricas. Es especialmente útil cuando las clases son desequilibradas.

### Interpretación de las Métricas

- **Precisión (Accuracy Score):** Una alta precisión indica que el modelo puede etiquetar correctamente una gran proporción del conjunto de datos.
- **Índice de Jaccard (Jaccard Index):** Un alto índice de Jaccard sugiere que hay una gran coincidencia entre las etiquetas predichas y las reales.
- **Puntaje F1 (F1 Score):** Un alto F1 Score es indicativo de un buen equilibrio entre precisión y sensibilidad, lo que es crucial para modelos en los que las falsas alarmas y las omisiones tienen costos significativos.

Utilizando estas métricas, podemos obtener una comprensión detallada del rendimiento del modelo KNN en nuestro conjunto de datos. Esto nos ayuda a determinar si el modelo es adecuado para implementar en situaciones reales o si necesitamos hacer ajustes para mejorar su precisión y confiabilidad.

In [9]:
KNN_Accuracy_Score = accuracy_score(y_test, predictions)
KNN_JaccardIndex = jaccard_score(y_test, predictions)
KNN_F1_Score = f1_score(y_test, predictions)

print(KNN_Accuracy_Score,KNN_JaccardIndex,KNN_F1_Score)

0.7603053435114504 0.24154589371980675 0.38910505836575876


# 4. Aplicación del Modelo de Árboles de Decisión

Continuando con nuestra exploración de métodos de aprendizaje automático, ahora nos adentraremos en uno de los modelos más populares y poderosos: los Árboles de Decisión. Este modelo es ampliamente reconocido por su interpretabilidad y eficacia en una variedad de tareas de clasificación y regresión.

### ¿Qué son los Árboles de Decisión?

Los Árboles de Decisión son modelos predictivos que representan una serie de decisiones y sus posibles consecuencias, incluyendo los resultados de eventos aleatorios y los costos. Se construyen mediante un proceso de división binaria recursiva de los datos: en cada nodo del árbol se toma una decisión que divide los datos en dos según alguna condición, buscando maximizar la homogeneidad de las respuestas en cada subdivisión.

### Implementación en Python con scikit-learn

Utilizaremos la biblioteca `scikit-learn` para implementar un Árbol de Decisión, específicamente utilizando la clase `DecisionTreeClassifier`. `scikit-learn` ofrece herramientas robustas que facilitan la creación, visualización y evaluación de árboles de decisión.

### Pasos para la Implementación de Árboles de Decisión con `scikit-learn`

1. **Instanciar el modelo:** Crear una instancia de `DecisionTreeClassifier`, donde se pueden ajustar parámetros como la profundidad máxima del árbol, entre otros.
2. **Entrenar el modelo:** Entrenar el modelo con los datos de entrenamiento. Los árboles de decisión son fáciles de ajustar a los datos, pero se debe tener cuidado para evitar el sobreajuste.
3. **Evaluación del modelo:** Utilizar métricas para evaluar la eficacia del modelo y visualizar el árbol para entender las decisiones tomadas.


## 1 y 2. Creación y entrenamiento de un modelo de Árbol de Decisión

En esta etapa, vamos a desarrollar y entrenar un modelo de Árbol de Decisión utilizando los datos de entrenamiento (`x_train`, `y_train`). Este proceso es fundamental para construir un modelo que pueda tomar decisiones basadas en los patrones observados en los datos.

### Construcción del Árbol de Decisión

Para construir nuestro Árbol de Decisión, emplearemos la clase `DecisionTreeClassifier` de la biblioteca `scikit-learn`. Esta clase nos permite configurar diferentes aspectos del árbol, como la profundidad máxima y el criterio de división.

```python
Tree = DecisionTreeClassifier(max_depth=4, criterion='entropy')
```

Aquí, `DecisionTreeClassifier` se inicializa con dos parámetros importantes:
- **max_depth=4:** Este parámetro limita la profundidad máxima del árbol. Una profundidad máxima de 4 significa que el árbol puede hacer hasta cuatro divisiones. Limitar la profundidad del árbol ayuda a prevenir el sobreajuste, es decir, que el modelo sea demasiado complejo y específico para los datos de entrenamiento, lo que podría reducir su capacidad de generalización.
- **criterion='entropy':** Este criterio se usa para medir la calidad de una división. La entropía es una medida de impureza que intenta maximizar la ganancia de información —cuanto menor sea la entropía, más homogéneas son las muestras en cada grupo.

### Entrenamiento del Modelo

```python
Tree.fit(x_train, y_train)
```

El método `fit` se utiliza para entrenar el modelo `Tree` con los datos de entrenamiento (`x_train`, `y_train`). Durante este proceso, el algoritmo decidirá automáticamente cómo dividir los datos en el árbol utilizando el criterio de entropía, con el objetivo de organizar los datos de tal manera que cada decisión tomada optimice la clasificación final basada en la información proporcionada.

In [10]:
Tree = DecisionTreeClassifier(max_depth=4, criterion='entropy')

In [11]:
Tree.fit(x_train, y_train)

## Uso del Método Predict con el Modelo de Árbol de Decisión

Una vez que el modelo de Árbol de Decisión ha sido entrenado con los datos de entrenamiento (`x_train`, `y_train`), el siguiente paso es utilizarlo para hacer predicciones sobre el conjunto de datos de prueba (`x_test`). Este es un paso crucial para evaluar cómo el modelo performa en datos que no ha visto anteriormente, lo cual es un indicativo de su capacidad de generalización.

### Realizando Predicciones

```python
predictions = Tree.predict(x_test)
```

En esta línea de código, estamos utilizando el método `predict` del modelo de Árbol de Decisión llamado `Tree` que hemos entrenado. El método `predict` toma como entrada el conjunto de datos de prueba (`x_test`) y devuelve las predicciones generadas por el modelo.

### Guardando las Predicciones

La salida del método `predict`, que son las predicciones, se guarda en la variable `predictions`. Este arreglo contiene las etiquetas predichas por el árbol de decisión para cada uno de los ejemplos en el conjunto de datos de prueba.

### Evaluación del Modelo

Con las predicciones en mano, el siguiente paso es evaluar la precisión del modelo comparando estas etiquetas predichas con las etiquetas reales asociadas a los datos de prueba. Esto se puede hacer utilizando diferentes métricas de evaluación, como la precisión, la matriz de confusión, el puntaje F1, entre otras. Estas métricas nos ayudarán a entender mejor la efectividad del modelo de Árbol de Decisión y si es adecuado para implementaciones futuras basadas en sus capacidades de predicción en condiciones reales.

In [12]:
predictions = Tree.predict(x_test)

## Evaluación del Modelo de Árbol de Decisión Usando Métricas de Rendimiento

Después de haber realizado las predicciones con el modelo de Árbol de Decisión sobre el conjunto de datos de prueba (`x_test`), es importante evaluar cuán efectivas fueron estas predicciones. Para ello, utilizaremos varias métricas estadísticas que compararán las predicciones realizadas (`predictions`) con las etiquetas reales (`y_test`) contenidas en el dataframe de prueba. Estas métricas nos ayudarán a entender la calidad del modelo desde diferentes perspectivas.

### Cálculo de las Métricas

```python
Tree_Accuracy_Score = accuracy_score(y_test, predictions)
Tree_JaccardIndex = jaccard_score(y_test, predictions)
Tree_F1_Score = f1_score(y_test, predictions)
```

#### 1. **Accuracy Score (Puntaje de Exactitud)**
   - `accuracy_score(y_test, predictions)`: Esta función calcula la exactitud del modelo, que es la proporción de predicciones correctas (tanto verdaderos positivos como verdaderos negativos) entre el total de casos examinados. Proporciona una medida general de cuán bien el modelo predijo las etiquetas correctas para todos los ejemplos de prueba.

#### 2. **Jaccard Index (Índice de Jaccard)**
   - `jaccard_score(y_test, predictions)`: El índice de Jaccard mide la similitud entre los conjuntos de las etiquetas predichas y las etiquetas reales, calculando la intersección sobre la unión de las etiquetas. Es especialmente útil para problemas de clasificación binaria y multiclase, y ofrece una perspectiva de cuán similares son los grupos predicho y real.

#### 3. **F1 Score**
   - `f1_score(y_test, predictions)`: Esta métrica combina la precisión y la sensibilidad (recall) en un solo puntaje que proporciona una mejor medida del rendimiento incorrecto balanceado. Es especialmente valioso en situaciones donde las clases son desbalanceadas.

### Interpretación de las Métricas

- **Alta Exactitud (Accuracy)** indica que el modelo es generalmente preciso en sus predicciones.
- **Índice de Jaccard elevado** sugiere que hay una gran superposición entre las etiquetas predichas y las reales.
- **Alto Puntaje F1** refleja un equilibrio favorable entre precisión y sensibilidad, indicando un buen rendimiento en ambas métricas.

Estas métricas de rendimiento proporcionan una visión comprensiva y detallada de cómo el modelo de Árbol de Decisión maneja los datos de prueba y ayudan a identificar áreas de mejora para futuras iteraciones del modelo. Es crucial para cualquier analista o científico de datos entender estos resultados para realizar ajustes necesarios en la modelación o la preparación de datos, con el objetivo de mejorar continuamente el rendimiento del modelo.

In [13]:
Tree_Accuracy_Score = accuracy_score(y_test, predictions)
Tree_JaccardIndex = jaccard_score(y_test, predictions)
Tree_F1_Score = f1_score(y_test, predictions)

print(Tree_Accuracy_Score, Tree_JaccardIndex, Tree_F1_Score)

0.8183206106870229 0.48034934497816595 0.6489675516224189


## Introducción a Support Vector Machine (SVM)

En la siguiente sección de nuestro notebook, nos centraremos en explorar y aplicar uno de los modelos más poderosos y versátiles en el campo del aprendizaje automático: la Máquina de Vectores de Soporte (Support Vector Machine o SVM). Este modelo es conocido por su capacidad de manejar tanto problemas lineales como no lineales y es ampliamente utilizado para problemas de clasificación y regresión.

### Descripción del Modelo SVM

El modelo SVM es una técnica de aprendizaje supervisado que busca encontrar el hiperplano óptimo que mejor separe las clases en el espacio de características. En problemas linealmente separables, SVM busca el margen máximo entre las clases, es decir, la mayor distancia entre las líneas de decisión y los puntos más cercanos de cada clase (llamados vectores de soporte). En casos donde no es posible una separación lineal, SVM utiliza una función kernel para transformar el espacio de características a una dimensión donde la separación lineal sea posible, permitiendo así manejar la complejidad y la no linealidad de los datos.

### Utilización de `scikit-learn` para SVM

Para implementar SVM, usaremos la biblioteca `scikit-learn` de Python, que proporciona la implementación de `SVC` (Support Vector Classification) para problemas de clasificación. Esta herramienta nos ofrece flexibilidad para elegir entre diferentes kernels (como lineal, polinomial, y radial basis function o RBF) y configurar parámetros clave como el parámetro de regularización `C` y el coeficiente `gamma` del kernel, lo que nos permite ajustar la complejidad del modelo y su capacidad de generalización.

### Estructura de la Sección

La sección se organizará de la siguiente manera:
1. **Preparación del Entorno**: Configuraremos nuestro entorno de trabajo cargando las librerías necesarias y preparando los datos para el modelado.
2. **Construcción del Modelo SVM**: Crearemos el modelo SVM, seleccionaremos el kernel apropiado y ajustaremos los parámetros.
3. **Entrenamiento del Modelo**: Entrenaremos el modelo SVM utilizando los datos de entrenamiento.
4. **Evaluación del Modelo**: Finalmente, evaluaremos el rendimiento del modelo usando el conjunto de datos de prueba y diversas métricas de evaluación.

Al final de esta sección, tendremos una comprensión clara del funcionamiento de SVM y su implementación práctica, así como una evaluación de su efectividad en la clasificación de nuestros datos meteorológicos. Esta herramienta no solo amplía nuestra caja de herramientas analíticas sino que también mejora nuestra capacidad para abordar problemas de clasificación complejos con alta precisión.

## Creación y Entrenamiento del Modelo SVM

Ahora procederemos a crear y entrenar un modelo utilizando la técnica de Máquina de Vectores de Soporte (SVM), específicamente para nuestro conjunto de datos de entrenamiento (`x_train`, `y_train`). Este paso es crucial para desarrollar un modelo que pueda clasificar de manera efectiva nuestras observaciones.

### Configuración del Modelo SVM

```python
SVM = svm.SVC(kernel='linear')
```

En esta línea, estamos inicializando un modelo SVM con un kernel lineal mediante la clase `SVC` de la biblioteca `scikit-learn`. El kernel lineal es una elección común para este tipo de modelos y funciona bien cuando se presume que la separación entre las diferentes clases se puede hacer a través de una línea recta en el espacio de características. La elección del kernel depende de la naturaleza de los datos y, en este caso, un kernel lineal simplifica el modelo evitando la complejidad innecesaria.

### Entrenamiento del Modelo

```python
SVM.fit(x_train, y_train)
```

Aquí, empleamos el método `fit` para entrenar nuestro modelo SVM con los datos de entrenamiento (`x_train`, `y_train`). Este proceso implica ajustar el hiperplano de decisión que maximizará el margen entre las distintas clases del conjunto de entrenamiento. El entrenamiento es una etapa crucial donde el modelo aprende a diferenciar entre las clases basándose en las características de los datos proporcionados.

### Importancia del Entrenamiento

El entrenamiento del modelo SVM con el kernel adecuado y los datos relevantes es fundamental para su capacidad de hacer predicciones precisas. Un modelo bien entrenado podrá generalizar mejor a partir de los datos no vistos, lo cual es el objetivo final del aprendizaje automático. Al finalizar esta etapa, nuestro modelo `SVM` estará listo para ser evaluado con el conjunto de datos de prueba para verificar su rendimiento y efectividad en la clasificación de nuevos datos.

Este proceso no solo fortalece el modelo para nuestras necesidades específicas, sino que también nos prepara para la siguiente fase de evaluación, donde realmente podemos medir y entender la capacidad del modelo para manejar datos del mundo real.

In [14]:
SVM = svm.SVC(kernel='linear')

In [15]:
SVM.fit(x_train, y_train)

### Predicción Usando el Modelo SVM

Una vez que nuestro modelo SVM ha sido entrenado, el siguiente paso es utilizarlo para hacer predicciones sobre el conjunto de datos de prueba (`x_test`). Esto se logra a través del método `predict`, que aplicamos de la siguiente manera:

```python
predictions = SVM.predict(x_test)
```

Este código ejecuta el modelo SVM entrenado sobre el conjunto de datos de prueba y guarda las predicciones resultantes en el arreglo `predictions`. Este arreglo contiene las clasificaciones estimadas para cada muestra en `x_test`, basadas en el aprendizaje que el modelo ha realizado durante la fase de entrenamiento.

La ejecución de este paso es esencial para evaluar la eficacia del modelo SVM en términos de su capacidad para generalizar a nuevos datos, es decir, cómo se comporta el modelo con datos que no fueron utilizados durante la fase de entrenamiento. Las predicciones generadas nos permitirán llevar a cabo una evaluación detallada del rendimiento del modelo en la próxima sección.

In [16]:
predictions = SVM.predict(x_test)

### Evaluación del Modelo SVM Usando Métricas de Rendimiento

Después de haber obtenido las predicciones del modelo SVM para el conjunto de datos de prueba (`x_test`), procedemos a evaluar el rendimiento del modelo utilizando estas predicciones y comparándolas con las etiquetas reales (`y_test`). Para esto, emplearemos tres métricas estadísticas clave que nos proporcionarán una visión clara de la efectividad del modelo.

#### Cálculo de las Métricas de Rendimiento

```python
SVM_Accuracy_Score = accuracy_score(y_test, predictions)
SVM_JaccardIndex = jaccard_score(y_test, predictions)
SVM_F1_Score = f1_score(y_test, predictions)
```

1. **Puntuación de Precisión (Accuracy Score)**: Esta métrica mide la proporción de predicciones correctas respecto al total de predicciones hechas. Un valor más alto indica que el modelo ha realizado muchas predicciones correctas.
   
   ```python
   SVM_Accuracy_Score = accuracy_score(y_test, predictions)
   ```

2. **Índice de Jaccard**: Esta métrica evalúa la similitud y la diversidad entre los conjuntos de etiquetas verdaderas y las etiquetas predichas. Es especialmente útil para entender cómo se superponen las etiquetas predichas con las etiquetas reales.

   ```python
   SVM_JaccardIndex = jaccard_score(y_test, predictions)
   ```

3. **Puntuación F1**: El puntaje F1 es una medida de la precisión de la prueba. Considera tanto la precisión de la predicción como la tasa de recuperación (recall) para calcular el puntaje, lo que proporciona una imagen más completa del rendimiento del modelo, especialmente en situaciones donde las clases están desbalanceadas.

   ```python
   SVM_F1_Score = f1_score(y_test, predictions)
   ```

Cada una de estas métricas ofrece una perspectiva diferente sobre el rendimiento del modelo, ayudándonos a entender tanto sus fortalezas como sus posibles debilidades. Utilizar estas métricas en conjunto proporciona una evaluación robusta y completa del modelo SVM en nuestro problema de clasificación.

In [17]:
SVM_Accuracy_Score = accuracy_score(y_test, predictions)
SVM_JaccardIndex = jaccard_score(y_test, predictions)
SVM_F1_Score = f1_score(y_test, predictions)

print(SVM_Accuracy_Score, SVM_JaccardIndex, SVM_F1_Score)

0.833587786259542 0.509009009009009 0.6746268656716418


### Resumen de Rendimiento de los Modelos

Para finalizar nuestro análisis, presentaremos un resumen comparativo del rendimiento de los modelos K-Nearest Neighbors (KNN), Árboles de Decisión y Máquina de Vectores de Soporte (SVM) en un formato tabular. Este resumen incluirá las métricas de Precisión (Accuracy), Índice de Jaccard, Puntuación F1 y Log Loss, lo que nos permitirá evaluar de manera directa y clara cuál modelo ha tenido un mejor desempeño general basado en nuestros datos.

#### Construcción del Reporte

```python
# Crear un DataFrame para visualizar los resultados de manera tabular
Report = pd.DataFrame(
    index=['KNN', 'Decision Tree', 'SVM'],
    data={
        'Accuracy': [KNN_Accuracy_Score, Tree_Accuracy_Score, SVM_Accuracy_Score],
        'Jaccard Index': [KNN_JaccardIndex, Tree_JaccardIndex, SVM_JaccardIndex],
        'F1-Score': [KNN_F1_Score, Tree_F1_Score, SVM_F1_Score]
    }
)

Report
```

En este DataFrame, hemos organizado los resultados de las pruebas de los tres modelos de aprendizaje automático que hemos entrenado y evaluado. Observamos que la columna de 'Log Loss' está llena de valores `np.nan`, lo que indica que no se calculó esta métrica para los modelos KNN, Árbol de Decisión y SVM en nuestro análisis. La métrica de Log Loss se utiliza típicamente para modelos de clasificación que proporcionan estimaciones probabilísticas de pertenencia a clases, como la regresión logística.

#### Interpretación

Este reporte nos permite visualizar de manera eficiente cómo cada modelo ha performado según las métricas seleccionadas. Comparar estas métricas puede ayudar en la toma de decisiones sobre qué modelo podría ser más apropiado para implementar en función de los requerimientos específicos del problema o del entorno de producción.

Este tipo de resumen es fundamental para la fase final de evaluación de cualquier proyecto de aprendizaje automático, donde la elección del modelo correcto puede depender no solo de la precisión general, sino también de cómo el modelo maneja los errores y qué tan bien generaliza a datos no vistos.

In [18]:
# Crear un DataFrame para visualizar los resultados de manera tabular
Report = pd.DataFrame(
    index=['KNN', 'Decision Tree', 'SVM'],
    data={
        'Accuracy': [KNN_Accuracy_Score, Tree_Accuracy_Score, SVM_Accuracy_Score],
        'Jaccard Index': [KNN_JaccardIndex, Tree_JaccardIndex, SVM_JaccardIndex],
        'F1-Score': [KNN_F1_Score, Tree_F1_Score, SVM_F1_Score]
    }
)

Report

Unnamed: 0,Accuracy,Jaccard Index,F1-Score
KNN,0.760305,0.241546,0.389105
Decision Tree,0.818321,0.480349,0.648968
SVM,0.833588,0.509009,0.674627
