# ALGORITMO GAUSSIAN NAIVE BAYES

#Descripción:

El concepto fundamental del teorema de Bayes, en el que se basa Naive Bayes, fue desarrollado por el matemático y teólogo británico Thomas Bayes en el siglo XVIII, aunque su trabajo no fue ampliamente conocido hasta que fue publicado póstumamente en 1763. El uso de este teorema en el contexto de la clasificación de datos se ha desarrollado en el campo de la estadística y el aprendizaje automático a lo largo del tiempo.

La versión "naive" del algoritmo, que asume independencia condicional entre características, se originó en el campo de la estadística y se aplicó por primera vez en el contexto de la clasificación en la década de 1950. Desde entonces, ha sido ampliamente adoptada y es una de las técnicas de clasificación más simples y efectivas.

El algoritmo Gaussian Naive Bayes se utiliza para estimar la probabilidad de que un objeto pertenezca a una clase específica dadas sus características observadas. Utiliza la distribución normal (Gaussiana) para modelar la distribución de las características en cada clase. A continuación, se describen los pasos básicos del algoritmo:

#Bibtext y Referencias

@inproceedings{jahromi2017non,
  title={A non-parametric mixture of Gaussian naive Bayes classifiers based on local independent features},
  author={Jahromi, Ali Haghpanah and Taheri, Mohammad},
  booktitle={2017 Artificial intelligence and signal processing conference (AISP)},
  pages={209--212},
  year={2017},
  organization={IEEE}
}

# Herramientas utilizadas:
* Obtención de información:
* https://www.perplexity.ai/search/a96a2798-e2da-470b-a0ec-48a3f67c76ce?s=u
* Dataset: @misc{playground-series-s3e14,
    author = {Walter Reade, Ashley Chow},
    title = {Prediction of Wild Blueberry Yield},
    publisher = {Kaggle},
    year = {2023},
    url = {https://kaggle.com/competitions/playground-series-s3e14}
} 
* donde la variable objetivo 'yield' se encuentra segmentada en categorías de alta o baja producción, definiendo dichas categorías en función de la media de los valores.

#Tipo de Modelo:
* MODELO DE APRENDIZAJE: Supervisado
* POR PARAMETROS: Parametrico
* DATOS APRENDIZAJE: Offline
* RESULTADOS DEL ENTRENAMIENTO: Basado en modelos

#Supuestos y Restricciones

#Supuestos

* El supuesto más fundamental es que las características son independientes entre sí dadas las clases. En otras palabras, se asume que la presencia o el valor de una característica no afecta la presencia o el valor de otras características. 
* Se asume que las características siguen una distribución normal (Gaussiana) en cada clase. Esto significa que la probabilidad de observar un valor particular de una característica sigue una curva de campana.
* Se asume que todas las clases tienen la misma varianza en sus distribuciones Gaussianas.

#Restricciones

* El modelo es sensible a características irrelevantes o ruidosas, ya que considera todas las características en el cálculo de probabilidades.
* Dado que el modelo asume independencia condicional, puede tener dificultades para manejar características altamente correlacionadas.
* Debido a su simplicidad y suposiciones, el modelo Gaussian Naive Bayes puede no capturar relaciones complejas entre las características.

#Ejemplo en codigo

In [12]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report, auc, roc_auc_score, roc_curve
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.naive_bayes import MultinomialNB, GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import LabelEncoder
import pandas  as pd
import numpy as np
import zipfile
import os


In [2]:
def descomprimir_y_cargar_csv(archivo_zip, directorio_destino='.'):
    dataframes = {}

    with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
        zip_ref.extractall(directorio_destino)

        for nombre_archivo in zip_ref.namelist():
            if nombre_archivo.endswith('.csv'):
                nombre_variable = os.path.splitext(os.path.basename(nombre_archivo))[0]
                ruta_archivo = os.path.join(directorio_destino, nombre_archivo)
                dataframes[nombre_variable] = pd.read_csv(ruta_archivo)
    
    return dataframes

In [3]:
archivo_zip = 'playground-series-s3e14.zip'
dataframes = descomprimir_y_cargar_csv(archivo_zip)
print(dataframes.keys())

dict_keys(['sample_submission', 'test', 'train'])


In [4]:
df_train_cat= dataframes['train']
if 'id' in df_train_cat.columns:
    df_train_cat.drop(['id'], axis=1, inplace=True)
else:
    print("No se encontró la columna 'id'")
mean_yield = df_train_cat["yield"].mean()
print(f"Rendimiento promedio: {mean_yield:.2f}"+"[Kg/Ha]")
y_cat = df_train_cat["yield"]
y_cat = np.where(y_cat <= mean_yield, "Baja", "Alta")
print(y_cat)
print('Shape of y: {}'.format(y_cat.shape))
y_cat = pd.DataFrame(y_cat, columns=["yield"])
y_cat.value_counts()

df_train_cat['yield'] = y_cat
le = LabelEncoder()
le.fit(df_train_cat['yield'])
df_train_cat['yield'] = le.transform(df_train_cat['yield'])
df_train_cat.head(5)

Rendimiento promedio: 6025.19[Kg/Ha]
['Baja' 'Baja' 'Alta' ... 'Baja' 'Alta' 'Baja']
Shape of y: (15289,)


Unnamed: 0,clonesize,honeybee,bumbles,andrena,osmia,MaxOfUpperTRange,MinOfUpperTRange,AverageOfUpperTRange,MaxOfLowerTRange,MinOfLowerTRange,AverageOfLowerTRange,RainingDays,AverageRainingDays,fruitset,fruitmass,seeds,yield
0,25.0,0.5,0.25,0.75,0.5,69.7,42.1,58.2,50.2,24.3,41.2,24.0,0.39,0.425011,0.417545,32.460887,1
1,25.0,0.5,0.25,0.5,0.5,69.7,42.1,58.2,50.2,24.3,41.2,24.0,0.39,0.444908,0.422051,33.858317,1
2,12.5,0.25,0.25,0.63,0.63,86.0,52.0,71.9,62.0,30.0,50.8,24.0,0.39,0.552927,0.470853,38.341781,0
3,12.5,0.25,0.25,0.63,0.5,77.4,46.8,64.7,55.8,27.0,45.8,24.0,0.39,0.565976,0.478137,39.467561,0
4,25.0,0.5,0.25,0.63,0.63,77.4,46.8,64.7,55.8,27.0,45.8,24.0,0.39,0.579677,0.494165,40.484512,0


In [6]:
def standardize_and_normalize(df):
    scaler_std = StandardScaler()
    df_standardized = pd.DataFrame(scaler_std.fit_transform(df), columns=df.columns)

    scaler_norm = MinMaxScaler()
    df_normalized = pd.DataFrame(scaler_norm.fit_transform(df), columns=df.columns)

    return df_standardized, df_normalized, scaler_std, scaler_norm

In [9]:
df_train_std_cat, df_train_norm_cat, scaler_std_train_cat, scaler_norm_train_cat = standardize_and_normalize(df_train_cat)
df_train_std_cat['yield'] = df_train_std_cat['yield'] * scaler_std_train_cat.scale_[-1] + scaler_std_train_cat.mean_[-1]

X_cat = df_train_std_cat.drop('yield', axis=1)
y_cat = df_train_std_cat['yield']

print('Shape of X: {}'.format(X_cat.shape))
print('Shape of y: {}'.format(y_cat.shape))
X_train_cat, X_test_cat, y_train_cat, y_test_cat = train_test_split(X_cat, y_cat, test_size=0.2, random_state=957)
print("Instancias X_train (category) dataset: ", X_train_cat.shape)
print("Instancias y_train (category) dataset: ", y_train_cat.shape)
print("Instancias X_test (category) dataset: ", X_test_cat.shape)
print("Instancias y_test (category) dataset: ", y_test_cat.shape,'\n')

Shape of X: (15289, 16)
Shape of y: (15289,)
Instancias X_train (category) dataset:  (12231, 16)
Instancias y_train (category) dataset:  (12231,)
Instancias X_test (category) dataset:  (3058, 16)
Instancias y_test (category) dataset:  (3058,) 



In [21]:
def naive_bayes_classification_cv(X_train, y_train, X_test, y_test, cv=2):
    
    gaussian_nb = GaussianNB()
    gaussian_nb.fit(X_train, y_train)
 
    for model_name, model in [('GaussianNB', gaussian_nb)]:

        scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='accuracy')

        print(f"{model_name}:")
        print(f"  Cross-validation Scores: {scores}")
        print(f"  Mean Accuracy: {scores.mean():.2f}")
        print(f"  Standard Deviation: {scores.std():.2f}\n")
        
        y_pred = model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred)
        recall = recall_score(y_test, y_pred)
        f1 = f1_score(y_test, y_pred)

        print(f"  Test Accuracy: {accuracy:.2f}")
        print(f"  Test Precision: {precision:.2f}")
        print(f"  Test Recall: {recall:.2f}")
        print(f"  Test F1 Score: {f1:.2f}\n")
        print(confusion_matrix(y_test, y_pred))
        print(classification_report(y_test, y_pred))
        print("Precision:",accuracy_score(y_test, y_pred)*100,"%\n")

    return gaussian_nb

In [22]:
gaussian_NB = naive_bayes_classification_cv(X_train_cat, y_train_cat, X_test_cat, y_test_cat)

GaussianNB:
  Cross-validation Scores: [0.88276651 0.88634505]
  Mean Accuracy: 0.88
  Standard Deviation: 0.00

  Test Accuracy: 0.88
  Test Precision: 0.89
  Test Recall: 0.85
  Test F1 Score: 0.87

[[1461  148]
 [ 212 1237]]
              precision    recall  f1-score   support

         0.0       0.87      0.91      0.89      1609
         1.0       0.89      0.85      0.87      1449

    accuracy                           0.88      3058
   macro avg       0.88      0.88      0.88      3058
weighted avg       0.88      0.88      0.88      3058

Precision: 88.2275997383911 %

