<a href="https://colab.research.google.com/github/francoo98/ia/blob/main/tp_clasificaci%C3%B3n_Franco_Ayala_2023.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#<font style: color='lime'> Clasificación </font>

En este colab se van a encontrar con un problema de clasificación con tres posibles salidas, es decir la variable explicada `y` puede tomar tres valores categoricos (cualitativos) en este caso.

[Iris dataset](https://raw.githubusercontent.com/amankharwal/Website-data/master/IRIS.csv)

Este dataset es un recopilación de datos de flores de 3 tipos: setosa, versicolor, and virginica.

La idea es que con las medidas del sepalo (ancho,alto) y del petalo (ancho,alto)
podemos entrenar un modelo de clasificación para que aprenda a distinguir entre estos 3 tipos de flores.

Para investigar acerca del dataset: [link](https://archive.ics.uci.edu/ml/datasets/iris)

## Descargamos el dataset

In [None]:
!wget https://raw.githubusercontent.com/amankharwal/Website-data/master/IRIS.csv

## Inspeccionamos el dataset

In [None]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [None]:
iris = pd.read_csv('IRIS.csv')
iris.head(3) #Observamos los 3 primeros registros con la función .head(), también pueden usar .tail() para ver los ultimos

In [None]:
iris.info()

In [None]:
iris.describe().T

>**Nota:** Podemos observar que las variables explicativas son 4: sepal_length, sepal_width, petal_lenght y petal_width, donde sus datos son del tipo flotantes, sin valores nulos. Estos simplifica el proceso de limpieza de datos. La variable explicada en este caso es species que contiene el nombre de cada especie.

In [None]:
# Vemos la cantidad de registros para cada especie
iris['species'].value_counts() #también pueden usar el argumento True -> .value_counts(True) para ver de forma proporcional los datos

In [None]:
sns.displot(iris['species'],color='green');

>**Nota:** Observamos que el dataset esta `balanceado`, es decir, tiene la misma cantidad de registros para cada especie lo cual resulta beneficioso para eviatr que el modelo caiga en un mal aprendizaje.

In [None]:
# Podemos usar un pairplot para correlacionar las variables explicativas
sns.pairplot(data=iris,hue='species')

## Armamos el dataset para entrenar

In [None]:
X = iris.drop(columns='species').to_numpy()
y = iris['species'].to_numpy()

from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size = 0.25, random_state=42)

print(f"Set de entenamiento: {Xtrain.shape}, {ytrain.shape}")
print(f"Set de testeo: {Xtest.shape}, {ytest.shape}")

## Entrenamos el modelo Logistic Regression

El modelo logistic regression está construido para optimizar los párametros mediante el error de la función `BinaryCrossEntropy` para lo cual sería ideal dos clases.

Cuando existen más clases lo que hace es hacer en cada iteración una `clase vs todas las otras`de esta manera conserva el mismo principio.

Para setear el algoritmo en sklearn de logistic regression aplicado a multiclase, como en este caso que son 3 clases de flores, usamos el parametro `multi_class: {‘auto’, ‘ovr’, ‘multinomial’}` seteado en 'multinomial'.

In [None]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(multi_class='multinomial')
log_reg.fit(Xtrain,ytrain)

## Evaluamos el modelo

In [None]:
from sklearn import metrics as ms
y_pred_logreg = log_reg.predict(Xtest)
confusion_matrix = ms.confusion_matrix(y_true = ytest, y_pred = y_pred_logreg)
sns.heatmap(confusion_matrix,annot=True,cbar=False,cmap='Dark2')
plt.xlabel("Predicted labels")
plt.ylabel("Ground truth labels")
plt.title("Confusion Matrix");

In [None]:
acc_logreg = ms.accuracy_score(y_true = ytest, y_pred = y_pred_logreg)
precision_logreg = ms.precision_score(y_true = ytest, y_pred = y_pred_logreg,average='weighted')
recall_logreg = ms.recall_score(y_true = ytest, y_pred = y_pred_logreg,average='weighted')
f1_logreg = ms.f1_score(y_true = ytest, y_pred = y_pred_logreg,average='weighted')

logreg_metrics = {"Accuracy":acc_logreg,
                  "Precision":precision_logreg,
                  "Recall":recall_logreg,
                  "F1":f1_logreg}
logreg_metrics

## Predicción

Tomamos un conjunto de datos que represente las variables de entradas para ver que nos devuelve el modelo.

La idea es simular al modelo tomando datos nuevos, ya sea através de algun sensor de los datos:

* sepal_length
* sepal_width
* petal_length
* petal_width

In [None]:
#Creamos datos nuevos
X_prueba = np.array([[3.4, 1.9, 1.2, 0.3]]) # en el array tenemos: sepal_length,	sepal_width,	petal_length,	petal_width

#Luego predecimos
y_pred = log_reg.predict(X_prueba)

#Observamos la salida
print(f"Predicción del modelo: {y_pred}")



---



# Naive Bayes

Ahora el ejercicio es que repitan la experiencia que se realizó con Logistic Regression.

Para eso deben:
1. Explorar el dataset por su cuenta.
2. Anotar observaciones que ustedes concluyan.
3. Armar el dataset para entrenar y testear.
4. Implementar el algoritmo de Naive Bayes -> [MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB)
5. Evaluarlo con las metricas que hemos visto (ROC-AUC es solo para clasificación binaria).
6. Hacer un predicción.



---



> 🦾 **Ejercicio Extra:** Si te animas te dejo el link para implementar un algoritmo de ensamble del tipo *Boosting* en este [link](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html). Podes repetir los pasos igual que en `Naive Bayes` y comparar cuál de los 3 te dio mejores métricas. Suerte 🤙