<a href="https://colab.research.google.com/github/Arielhernandezp/hello-world/blob/main/Copia_de_Fundamento_Cuaderno_8_Modelo_Naive_Bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="red">Naïve Bayes: Introducción y Aplicación </font>
El modelo Naive Bayes es uno de los algoritmos de clasificación más simples pero efectivos en aprendizaje supervisado. Este modelo se basa en la probabilidad de que una instancia pertenezca a una clase específica, utilizando el Teorema de Bayes. Su simplicidad radica en un supuesto clave: todas las características (o atributos) son independientes entre sí dentro de una clase, lo que rara vez es cierto en escenarios reales, pero aun así permite obtener resultados sorprendentes en muchos problemas.

En la imagen se oberva la ecuación base del Teorema de Bayes, donde la clasificación se realiza por la probabilidad condicionada de los dierentes factores para clasficar triangulos, cuadrado y circulos, en cada una de sus clases.

![imagen](https://github.com/adiacla/bigdata/blob/master/niavebayes.png?raw=true)

---

## <font color="red">8.1 Ventajas y Desventajas del Modelo </font>
### <font color="blue">8.1.1 Ventajas:</font>

* Eficiencia: Naive Bayes es extremadamente rápido en entrenamiento y predicción, especialmente para conjuntos de datos grandes.
* Manejo de datos pequeños: Funciona bien con conjuntos de datos de tamaño reducido.
* Casos específicos: Es muy efectivo en problemas de clasificación de texto, como detección de spam y análisis de sentimientos.
* Probabilístico: Genera predicciones con una estimación de probabilidad, lo que puede ser útil para interpretaciones adicionales.

### <font color="blue">8.1.2 Desventajas </font>

* Suposición de independencia: El supuesto de independencia entre características rara vez se cumple, lo que puede afectar la precisión del modelo.
* Datos categóricos: No maneja naturalmente datos continuos a menos que se transforme mediante discretización o utilizando métodos probabilísticos avanzados.
* Clase con frecuencia cero: Si una clase no aparece en los datos de entrenamiento, la probabilidad asignada será cero (aunque esto se soluciona con suavizado de Laplace).


---

## <font color="red">8.2 El Teorema de Bayes</font>

El Teorema de Bayes describe la relación entre probabilidades condicionales y marginales. La fórmula básica es:

$P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)}$

Donde:
* $P(A \mid B)$: Probabilidad de $A$ dado $B$
* $P(B \mid A)$: Probabilidad de $B$ dado $A$
* $P(A)$: Probabilidad previa de $A$
* $P(B)$: Probabilidad previa de $B$

En el contexto de Naive Bayes, para un conjunto de características  $X = \{x_1, x_2, \ldots, x_n\}$, la probabilidad de una clase \(C_k\) se calcula como:

$P(C_k \mid X) = \frac{P(C_k) \prod_{i=1}^n
P(x_i \mid C_k)}{P(X)}.$

El modelo selecciona la clase con la probabilidad máxima $P(C_k \mid X)$, ignorando $P(X)$ ya que es constante para todas las clases.



---

### <font color="blue">8.2.1 Ejemplo Básico</font>

Supongamos que tenemos el siguiente conjunto de datos para predecir si un estudiante aprobará (Sí) o no aprobará (No) un curso, basándonos en dos características:
* Horas de estudio (Alta/Baja).
* Asistencia (Buena/Mala).

#### Conjunto de datos:

| Horas de Estudio | Asistencia | Resultado |
|------------------|------------|-----------|
| Alta             | Buena      | Sí        |
| Baja             | Buena      | No        |
| Baja             | Mala       | No        |
| Alta             | Mala       | Sí        |
| Alta             | Buena      | Sí        |

Problema: Queremos predecir si un estudiante con "Horas de Estudio: Alta" y "Asistencia: Mala" aprobará.


####**Paso 1:** Calcular las probabilidades a priori (previas):
* $P(Sí) = \frac{3}{5} = 0.6$

####**Paso 2:** Calcular las probabilidades condicionales:
* Para $P(Horas = Alta \mid Sí)$:
  
  * Hay 3 casos con \(Sí\), de los cuales 2 tienen "Horas = Alta".
  * $P(Horas = Alta \mid Sí) = \frac{3}{3}.$

* Para $P(Horas = Alta \mid No)$:
  * Hay 2 casos con $No$, de los cuales ninguno tiene "Horas = Alta".
  * $P(Horas = Alta \mid No) = 0$

* Para $P(Asistencia = Mala \mid Sí)$:
  * Hay 3 casos con $Sí$, de los cuales 1 tiene "Asistencia = Mala".
  * $P(Asistencia = Mala \mid Sí) = \frac{1}{3}.$
* Para $P(Asistencia = Mala \mid No)$:
  * Hay 2 casos con $No$, de los cuales 1 tiene "Asistencia = Mala".
  * $P(Asistencia = Mala \mid No) = \frac{1}{2}.$

#### Paso 3 Aplicar el Teorema de Bayes:
$P(Sí \mid X) = P(Sí) \cdot P(Horas = Alta \mid Sí) \cdot P(Asistencia = Mala \mid Sí)$

$P(No \mid X) = P(No) \cdot P(Horas = Alta \mid No) \cdot P(Asistencia = Mala \mid No)$

Sustituyendo valores:

$P(Sí \mid X) = 0.6 \cdot \frac{3}{3} \cdot \frac{1}{3} = 0.133$

$P(No \mid X) = 0.4 \cdot 0 \cdot \frac{1}{2} = 0$

Como $P(Sí \mid X) > P(No \mid X)$, la predicción es que el estudiante **Sí aprobará**.


---

## <font color="red">8.3 Implementación en Python

En este ejercicio, vamos a utilizar el ambiene de desarrollo en Python que ustedes prefieran, por favor transcriba el código y pruebe el algorimo. Aqui se utiliza un modelo de clasificación Naive Bayes Multinomial para predecir un resultado binario basado en variables categóricas. Este tipo de modelo es útil para clasificar datos discretos y se basa en el cálculo de probabilidades bajo el supuesto de independencia entre las características.

El conjunto de datos describe la relación entre las horas de estudio, la asistencia y el resultado (aprobado o no). Se plantea predecir si un estudiante aprobará o no dado un nivel específico de "Horas de Estudio" y "Asistencia".

Pasos a desarrollar
* Preparar los datos:

  * Crear un conjunto de datos con columnas que representen las variables independientes ("Horas de Estudio" y "Asistencia") y la variable dependiente ("Resultado").
  * Convertir las categorías a valores numéricos para que el modelo pueda procesarlas.
* Codificar las variables categóricas:

  * Utilizar LabelEncoder para transformar las categorías en valores numéricos.
  * Asegurar que el mismo mapeo de categorías se aplique tanto a los datos de entrenamiento como a nuevas observaciones.
* Separar las características y la etiqueta:

  * Dividir los datos en un conjunto de características (X) y una etiqueta objetivo (y) para entrenar el modelo.
* Entrenar el modelo:

  * Usar el clasificador Naive Bayes Multinomial (MultinomialNB) de sklearn para entrenar el modelo con los datos procesados.
* Crear una nueva observación:

  * Codificar una nueva observación (por ejemplo, "Horas de Estudio" = Alta, "Asistencia" = Mala) utilizando los mismos mapeos de las variables categóricas.
* Realizar una predicción:

  * Pasar la nueva observación al modelo entrenado para obtener la predicción.
  * Decodificar la etiqueta numérica predicha a su categoría original utilizando LabelEncoder.
* Imprimir el resultado:

  * Mostrar la predicción de manera clara, indicando si el estudiante aprobará o no según los datos ingresados.











#Iniciemos el ejercicio

Crear un conjunto de datos: Definir un diccionario con tres columnas: "Horas de Estudio", "Asistencia" y "Resultado", donde los valores son categorías (por ejemplo, "Alta", "Baja", "Buena", "Mala", "Sí", "No").

Convertir los datos a un DataFrame: Usar pandas para convertir el diccionario en un DataFrame, lo cual facilita el manejo y análisis de los datos.

Crear LabelEncoders para cada columna: Utilizar LabelEncoder de sklearn para crear un diccionario de codificadores, uno para cada columna del DataFrame. Esto es necesario para transformar las categorías en números.

Codificar las columnas del DataFrame: Aplicar los codificadores a cada columna del DataFrame utilizando el método apply() de pandas, lo que convierte las categorías de texto en números enteros.

Mostrar el DataFrame codificado: El DataFrame resultante tendrá los valores de las categorías transformados en números, lo que es adecuado para ser utilizado en modelos de machine learning.

In [2]:
import pandas as pd
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder

# Crear el conjunto de datos
data = {
    "Horas de Estudio": ["Alta", "Baja", "Baja", "Alta", "Alta"],
    "Asistencia": ["Buena", "Buena", "Mala", "Mala", "Buena"],
    "Resultado": ["Sí", "No", "No", "Sí", "Sí"]
}

df = pd.DataFrame(data)
df


Unnamed: 0,Horas de Estudio,Asistencia,Resultado
0,Alta,Buena,Sí
1,Baja,Buena,No
2,Baja,Mala,No
3,Alta,Mala,Sí
4,Alta,Buena,Sí


In [4]:
#codifique la variable hora de estudio donde alta=1 y baja=0, asistncia donde buena=1 mala=0 y resultado donde si=1 y no=0
# Crear LabelEncoders para cada columna
label_encoders = {}
for column in df.columns:
    label_encoders[column] = LabelEncoder()
    df[column] = label_encoders[column].fit_transform(df[column])

# Mostrar el DataFrame codificado
df






Unnamed: 0,Horas de Estudio,Asistencia,Resultado
0,0,0,1
1,1,0,0
2,1,1,0
3,0,1,1
4,0,0,1
