## Carga de los módulos

In [None]:
import numpy as np
import pandas as pd

### Para fines de estética en la salida, se desactivan las advertencias que pueda informar el intérprete Python

In [None]:
import warnings 
warnings.filterwarnings("ignore")

## Importación método para creación del conjunto de entrenamiento desde paquete *sklearn*

In [None]:
from sklearn.model_selection import train_test_split

## Paquete sklearn que contiene los métodos para las Mezclas Gaussianas

In [None]:
from sklearn.mixture import GaussianMixture

## Lectura de los datos desde el archivo *datosAB.txt*

In [None]:
datos = pd.read_table("datosAB.txt", sep='\t')

## Creación de conjunto de datos 

In [None]:
X = datos.iloc[:,:-1]
y = datos.iloc[:,2]

## Creación de subconjutos CP y CE

In [None]:
# Se elige una semilla para la selección pseudo-aleatoria
semilla = 123456

In [None]:
X_ce, X_cp, y_ce, y_cp = train_test_split(X, y, test_size=0.3, random_state=semilla)

## Creación y ajuste del Clasificador Mezclas Gaussianas

In [None]:
# Entrenamiento y ajuste
clasificador = GaussianMixture(n_components=2, random_state=semilla)
clasificador.fit(X_ce)

## La media de cada componente Gaussiano

In [None]:
clasificador.means_

## La covarianza de cada componente Gaussiano

In [None]:
clasificador.covariances_

## Matrices de precisión de cada componente Gaussiano

In [None]:
clasificador.precisions_

## Predicción

In [None]:
y_pred = clasificador.predict(X_cp)

## Creación de los resultados estadísticos de la clasificación

### Importación de método para la matriz de confusión desde paquete *sklearn*

Predicción de la GMM: 0->r y 1->n

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

In [None]:
# Importación del etiquetador
from sklearn.preprocessing import LabelEncoder
# Creación del etiquetador
labelencoder_y = LabelEncoder()
# Etiquetado y ajuste
y_cp = labelencoder_y.fit_transform(y_cp)

### Cálculo de la matriz de confusión

In [None]:
mconf = confusion_matrix(y_cp, y_pred)

### Impresión de la matriz de confusión

In [None]:
mconfg = ConfusionMatrixDisplay(mconf).plot(cmap='Blues') 

### Importación de método para la puntuación de precisión desde paquete *sklearn*

In [None]:
from sklearn.metrics import accuracy_score

### Cálculo de la puntuación de precisión

In [None]:
cc = accuracy_score(y_cp, y_pred)

### Impresión de la puntuación

In [None]:
print(f'Accuracy Score = {cc}')

## Importación de métodos para el gráfico 

In [None]:
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

## Ajuste del etiquetado de la variable y

In [None]:
# Importación del etiquetador
from sklearn.preprocessing import LabelEncoder
# Creación del etiquetador
labelencoder_y = LabelEncoder()
# Etiquetado y ajuste
y_ce = labelencoder_y.fit_transform(y_ce)

### **Nota:** Es necesario realizar el ajuste de nuevo dado que cambió la variable y debido al proceso de etiquetado

In [None]:
clasificador.fit(X_ce, y_ce)

# Se grafica todo el conjunto de datos empleando el clasificador DT para cada dato

In [None]:
# Etiquetado y ajuste del conjunto de datos original
X_set, y_set = X, labelencoder_y.fit_transform(y)

## Creación de la malla (plano cartesiano)

In [None]:
X1, X2 = np.meshgrid(
    np.arange(start = X_set.iloc[:,0].min()-1, stop = X_set.iloc[:,0].max()+1, step=0.1),
    np.arange(start = X_set.iloc[:,1].min()-1, stop = X_set.iloc[:,1].max()+1, step=0.1)
)

## Creación del gráfico

In [None]:
# Al construir la malla, se colorea la región de naranja o rojo 
# de acuerdo al clasificador DT obtenido
plt.contourf(X1, X2, 
    clasificador.predict(
        np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
        alpha = 0.75, cmap = ListedColormap(('orange', 'red'))                
)

# Se establecen los límites de los ejes x,y en el gráfico
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())

# Se grafica cada dato en el plano cartesiano, la clase de cada dato determina el color. 
# Debido al proceso de etiquetado, 'n' fue sustituido por 0 y 'r' sustituido por 1
# 0 -> Naranja
# 1 -> Rojo
j=0
for i in y_set:
    if i==0:
        color = "orange"
    else:
        color = "red"
    plt.scatter(
        X_set.iloc[j,0],
        X_set.iloc[j,1],
        c = color,
        label = i
    )
    j=j+1

# Etiqueta del gráfico y sus ejes
plt.title('Árboles de Decisión: Conjunto de datos')
plt.xlabel('a')
plt.ylabel('b')

# Creación del gráfico
plt.show()

## Creación de los resultados estadísticos de la clasificación

Probabilidad de semejanza de los datos

In [None]:
clasificador.predict_proba(X_cp)

Score general de la clasificación, en escala logarítmica

In [None]:
clasificador.score(X_cp)

Score por dato de la clasificación, en escala logarítmica

In [None]:
clasificador.score_samples(X_cp)

# Clasificar nuevos datos con DT

## Se clasifica un dato con el clasificador construido con DT

dato = (160, 145)

In [None]:
# Predicción del dato = (160, 145)
x = clasificador.predict([[160, 145]])
if x==0:
    print('naranja')
else:
    print('rojo')

## Se clasifica otro dato con el clasificador construido con DT

dato = (160, 165)

In [None]:
# Predicción del dato = (160, 165)
x = clasificador.predict([[160, 165]])
if x==0:
    print('naranja')
else:
    print('rojo')

## Ahora, a manera de prueba, se clasifica el promedio de los datos

In [None]:
# X_set es un DataFrame de pandas
X_set.mean(0)

In [None]:
# Predicción del dato promedio = (169.6944, 155)
x = clasificador.predict([[169.6944, 155]])
if x==0:
    print('naranja')
else:
    print('rojo')