# Aula 1 - Clasificación: ¿Cómo funciona?

## 1.1 - Importando los datos

In [None]:
import pandas as pd

In [None]:
datos = pd.read_csv('Customer.csv')

In [None]:
datos.shape

In [None]:
datos.head()

## 1.2 - Analizando las Variables

In [None]:
#Modificación de forma manual
diccionario = {'Si': 1,
                'No': 0}

datosmodificados = datos[['Conyuge', 'Dependientes', 'TelefonoFijo', 'PagoOnline', 'Churn']].replace(diccionario)
datosmodificados.head()

In [None]:
#Transformación con get_dummies
dummie_datos = pd.get_dummies(datos.drop(['Conyuge', 'Dependientes', 'TelefonoFijo', 'PagoOnline', 'Churn'],
                axis=1))

#Unión de los datos transformados con los que ya teníamos
datos_final = pd.concat([datosmodificados, dummie_datos], axis=1)

In [None]:
datos_final.head()

## 1.3 - Definición Formal

Informaciones para la clasificación:

$X$ = inputs (datos de entrada)

$y$ = outputs (datos de salida)

In [None]:
#TIP
pd.set_option('display.max_columns', 39)

In [None]:
datos_final.head()


$y_i$ = $f(x_i)$

In [None]:
Xmaria = [[0,0,1,1,0,0,39.90,1,0,0,0,1,0,1,0,0,0,0,1,1,1,0,0,1,0,1,0,0,0,0,1,0,0,1,0,0,0,1]]

In [None]:
#ymaria = ?

Nuevo par de informaciones = ($Xmaria$, $ymaria$)

## 1.4 - Balanceamiento de los datos

In [None]:
#variable target está desbalanceada
import seaborn as sns
%matplotlib inline
ax = sns.countplot(x='Churn', data=datos_final)

In [None]:
datos_final.Churn.value_counts()

In [None]:
#biblioteca para balancear los datos utilizando over_sampling
from imblearn.over_sampling import SMOTE

In [None]:
#dividiendo los datos en características y target
X = datos_final.drop('Churn', axis = 1)
y = datos_final['Churn']

In [None]:
smt = SMOTE(random_state=123)
X, y = smt.fit_resample(X, y)

In [None]:
#unión de los datos balanceados
datos_final = pd.concat([X, y], axis=1)

In [None]:
#verificación 1 - unión de los datos
datos_final.head(2)

In [None]:
#verificación 2 - balanceamiento
ax = sns.countplot(x='Churn', data=datos_final)

In [None]:
datos_final.Churn.value_counts()

# Aula 2 - Método baseado en la proximidad

## 2.1 - Modelo K-nearest neighbors (KNN)

(PPT)

## 2.2 - KNN en la práctica

In [None]:
Xmaria

In [None]:
#ymaria = ?

In [None]:
#División en inputs y outputs
X = datos_final.drop('Churn', axis = 1)
y = datos_final['Churn']

In [None]:
#biblioteca para padronizar los datos
from sklearn.preprocessing import StandardScaler

In [None]:
norm = StandardScaler()
X_normalizado = norm.fit_transform(X)
X_normalizado

In [None]:
X_normalizado[0]

In [None]:
Xmaria_normalizado = norm.transform(pd.DataFrame(Xmaria, columns = X.columns))
Xmaria_normalizado

Distancia Euclidiana:

$\sqrt{\sum_{i=1}^k(a_{i}-b_{i})^2}$


In [None]:
import numpy as np

In [None]:
a = Xmaria_normalizado

In [None]:
b = X_normalizado[0]

In [None]:
#1 - comenzamos restando
a - b

In [None]:
#2 - después realizamos la exponenciación
np.square(a-b)

In [None]:
#3 - realizamos la suma
np.sum(np.square(a-b))

In [None]:
#4 - finalmente obtenemos la raiz cuadrada y tenemos nuestra distancia
np.sqrt(103.36325779671671)

## 2.3 - Implementando el modelo

In [None]:
#biblioteca para división de los datos
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_normalizado, y, test_size=0.3, random_state=123)

### Entrenamiento y prueba

In [None]:
#biblioteca para crear el modelo de machine learning
from sklearn.neighbors import KNeighborsClassifier

In [None]:
#iniciar el modelo (creamos el modelo) - por default son 5 vecinos
knn = KNeighborsClassifier(metric='euclidean')

In [None]:
#entrenando el modelo con los datos de entrenamiento
knn.fit(X_train, y_train)

In [None]:
#probando el modelo con los datos de prueba
prediccion_knn = knn.predict(X_test)

In [None]:
prediccion_knn

# Aula 3 - Método probabilístico

## 3.1 - Teorema de Naive Bayes

(PPT)

## 3.2 - Modelo Bernoulli Naive Bayes

(PPT)

## 3.3 - Entrenamiento y prueba

In [None]:
#biblioteca para crear el modelo de machine learning
from sklearn.naive_bayes import BernoulliNB

In [None]:
#escojo utilizar mediana, porque es el valor central de nuestros datos ordenados
mediana = np.median(X_train)
mediana

In [None]:
#Binarizando los recursos usando la mediana
X_train_binarizado = np.where(X_train > mediana, 1, 0)

In [None]:
X_train_binarizado

In [None]:
y_train

In [None]:
#creamos el modelo
bnb = BernoulliNB()

In [None]:
#entrenando el modelo
bnb.fit(X_train_binarizado, y_train)

In [None]:
#Binarizando la base de prueba
X_test_binarizado = np.where(X_test > np.median(X_test), 1, 0)

In [None]:
#probando el modelo
prediccion_BNb = bnb.predict(X_test_binarizado)

In [None]:
prediccion_BNb

# Aula 4 - Método Simbólico

## 4.1 - ¿Qué es un árbol de decisión?

(PPT)

## 4.2 - ¿Cómo funciona un árbol de decisión?

(PPT)

## 4.3 - Implementando el modelo

In [None]:
#biblioteca para crear el modelo de machine learning
from sklearn.tree import DecisionTreeClassifier

In [None]:
#iniciando el modelo
dtc = DecisionTreeClassifier(criterion='entropy', random_state=42)

In [None]:
#entrenando el modelo
dtc.fit(X_train, y_train)

In [None]:
#verificando la importancia de cada atributo
dtc.feature_importances_

In [None]:
prediccion_ArbolDecision = dtc.predict(X_test)

In [None]:
prediccion_ArbolDecision

# Aula 5 - Validación de los modelos

## 5.1 - Matriz de confusión



![image.png](https://raw.githubusercontent.com/ElProfeAlejo/machine_learning_clasificacion/main/imagen_5_1.png)

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
print(confusion_matrix(y_test, prediccion_knn))

In [None]:
print(confusion_matrix(y_test, prediccion_BNb))

In [None]:
print(confusion_matrix(y_test, prediccion_ArbolDecision))

## 5.2 - Accuracy
A partir del cálculo de la matriz de confusión, podemos inferir otras métricas, como el accuracy.




$ACC$ = ${TP + TN \over TP + FP + TN + FN}$

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
#modelo KNN
print(accuracy_score(y_test, prediccion_knn))

In [None]:
#modelo Bernoulli de Naive Bayes
print(accuracy_score(y_test, prediccion_BNb))

In [None]:
#modelo Arbol de Decisión
print(accuracy_score(y_test, prediccion_ArbolDecision))

## 5.3 - Precisión

Otra métrica importante es la precisión, que calcula cuántos se clasificaron correctamente como positivos ($TP$).

$PS$ = ${TP \over TP + FP}$

In [None]:
from sklearn.metrics import precision_score

In [None]:
#modelo KNN
print(precision_score(y_test, prediccion_knn))

In [None]:
#modelo Bernoulli de Naive Bayes
print(precision_score(y_test, prediccion_BNb))

In [None]:
#modelo Arbol de Decisión
print(precision_score(y_test, prediccion_ArbolDecision))

## 5.4 - Recall

Otra métrica es el Recall o sensibilidad, calcula qué tan bueno es el modelo para clasificar correctamente un resultado positivo ($TP$).

$RC$ = ${TP \over TP + FN}$

In [None]:
from sklearn.metrics import recall_score

In [None]:
#modelo KNN
print(recall_score(y_test, prediccion_knn))

In [None]:
#modelo Bernoulli de Naive Bayes
print(recall_score(y_test, prediccion_BNb))

In [None]:
#modelo Arbol de Decisión
print(recall_score(y_test, prediccion_ArbolDecision))

## 5.5 - Escogiendo el mejor modelo


In [None]:
#Ejemplo - análisis de las precisiones previamente calculadas
print('Modelo KNN: ', precision_score(y_test, prediccion_knn))
print('Modelo Bernoulli de Naive Bayes: ', precision_score(y_test, prediccion_BNb))
print('Modelo Arbol de Decisión: ', precision_score(y_test, prediccion_ArbolDecision))

In [None]:
#Probando el mejor modelo para Maria
prediccion_maria = knn.predict(Xmaria_normalizado)
diccionario = {'Si': 1, 'No': 0}

clave_encontrada = next((clave for clave, valor in diccionario.items() if valor == prediccion_maria[0]), None)
print(f"La probabilidad de que Maria se convierta en Churn es: {clave_encontrada}")