<a href="https://colab.research.google.com/github/julianzr27/Business-Intelligence/blob/main/Reto_1_Modelo_Naive_Bayes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 1 – Modelos de Clasificación (Naive Bayes)**

**0. Se procede a cargar las librerías de trabajo**

In [None]:
import numpy as np
import pandas as pd

**1. Cargar la base de datos**

In [None]:
nxl= '/content/1. BD1_Longitudinal Survey_Int.xlsx'
XDB = pd.read_excel(nxl)

total_respondents = len(XDB)

print(f"El número total de personas que respondieron fue: {total_respondents}")

El número total de personas que respondieron fue: 12686


***1.1. Se definen las variables de interés***

In [None]:
#Se seleccionan las variables de interés
XDB= XDB[['Age','Urban','Mother_Edu','Father_Edu','FamilySize','Self_Esteem','Height','Weight','Income']]
XDB.head(10)

Unnamed: 0,Age,Urban,Mother_Edu,Father_Edu,FamilySize,Self_Esteem,Height,Weight,Income
0,21,1.0,8.0,8.0,5,,65.0,,
1,20,1.0,5.0,8.0,5,16.0,62.0,120.0,0.0
2,18,1.0,10.0,12.0,5,20.0,,,0.0
3,17,1.0,11.0,12.0,5,,67.0,110.0,
4,20,1.0,12.0,12.0,4,23.0,63.0,130.0,
5,19,1.0,12.0,12.0,4,27.0,64.0,200.0,40000.0
6,15,1.0,12.0,12.0,3,26.0,65.0,131.0,25000.0
7,21,1.0,9.0,6.0,3,23.0,65.0,179.0,27400.0
8,16,1.0,12.0,10.0,6,26.0,66.0,145.0,52000.0
9,19,1.0,12.0,12.0,3,19.0,66.0,115.0,


In [None]:
#Recuento de valores nulos
nas=XDB.isna().sum()
print(nas)

Age               0
Urban            40
Mother_Edu      808
Father_Edu     1806
FamilySize        0
Self_Esteem     694
Height          543
Weight          554
Income         5112
dtype: int64


***1.2. Número de datos total de la base de datos depurada***

*   Elemento de lista
*   Elemento de lista



In [None]:
#Se eliminan las filas con un valor faltante
XDB = XDB.dropna()

total_respondents = len(XDB)

print(f"El número total de personas que respondieron fue: ", len(XDB))

El número total de personas que respondieron fue:  5948


***1.3. Se separan las variables de interés***

In [None]:
#Se separan las variables
XD= XDB[['Age', 'Mother_Edu','Father_Edu', 'FamilySize','Self_Esteem','Height','Weight','Income']] #Variable de entrada
yd= XDB['Urban'] #Variable de salida


***1.4. Porcentaje de los datos que hacen parte de cada una de las categorías de clasificación***

In [None]:
# Calcular el porcentaje de cada categoría en "Urban"
categories = XDB['Urban'].value_counts(normalize=True) * 100

# Asignar nombres claros a las categorías
categories = categories.rename({1.0: 'Urbano', 0.0: 'Rural'})

# Mostrar los resultados con etiquetas
print("Porcentaje de datos por categoría:")
for category, percentage in categories.items():
    print(f"{category}: {percentage:.2f}%")

Porcentaje de datos por categoría:
Urbano: 79.17%
Rural: 20.83%


***1.5.Determinación de intervalos en variables de interés***

In [None]:
# Determinación de los intervalos de variación
print("Intervalo de variación de Edad:", XD['Age'].min(), "-", XD['Age'].max())
print("Intervalo de variación de Altura:", XD['Height'].min(), "-", XD['Height'].max())
print("Intervalo de variación de Peso:", XD['Weight'].min(), "-", XD['Weight'].max())

Intervalo de variación de Edad: 15 - 22
Intervalo de variación de Altura: 51.0 - 80.0
Intervalo de variación de Peso: 72.0 - 375.0


**2. Se procede con la implementación del modelo**

In [None]:
from sklearn.naive_bayes import GaussianNB

mnb=GaussianNB()
mnb.fit(XD,yd)

#Obtenemos la información del modelo
#Media
u=mnb.theta_
print("La media de las variables de la muestra es de:\n",u)
#Varianza
var=mnb.var_
print("La varianza de la muestra es de:\n",var)
#Desviación estándar
s=np.sqrt(var)
print("La desviación estándar de la muestra es de:\n",s)

#Se determinan los límtes superiores e inferiores de las variables analizadas
LS=u+s
LI=u-s
print("El límite superior de las variables de la muestra es:\n",LS)
print("El límite inferior de las variables de la muestra es:\n",LI)



La media de las variables de la muestra es de:
 [[1.83640032e+01 1.07312349e+01 1.02711864e+01 4.73930589e+00
  2.19951574e+01 6.72429379e+01 1.49003228e+02 3.01248854e+04]
 [1.83618603e+01 1.11613931e+01 1.12331705e+01 4.68103631e+00
  2.25744319e+01 6.69116585e+01 1.44750903e+02 3.32736742e+04]]
La varianza de la muestra es de:
 [[6.11377773e+00 9.96419474e+00 1.51194652e+01 6.51406931e+00
  1.77789403e+01 1.66650620e+01 9.21039647e+02 1.00161093e+09]
 [6.11792319e+00 1.15645045e+01 1.69373304e+01 5.96364977e+00
  1.76201044e+01 1.76562243e+01 9.01712618e+02 1.30246862e+09]]
La desviación estándar de la muestra es de:
 [[2.47260545e+00 3.15661127e+00 3.88837565e+00 2.55226748e+00
  4.21650807e+00 4.08228636e+00 3.03486350e+01 3.16482374e+04]
 [2.47344359e+00 3.40066236e+00 4.11549881e+00 2.44205851e+00
  4.19763081e+00 4.20193102e+00 3.00285301e+01 3.60897302e+04]]
El límite superior de las variables de la muestra es:
 [[2.08366087e+01 1.38878461e+01 1.41595621e+01 7.29157338e+00
  2

**3. Evaluamos el desempeño del modelo**

In [None]:
from sklearn.metrics import confusion_matrix

#Barrido de los datos
ydp=mnb.predict(XD)
cm=confusion_matrix(yd,ydp)
print("La matriz de confusión es:\n",cm)

VN=cm[0,0];FP=cm[0,1];FN=cm[1,0];VP=cm[1,1]

#Métricas de desempeño
Exactitud=(VP+VN)/(VP+VN+FP+FN)
Sensibilidad=VP/(VP+FN)
Especificidad=VN/(VN+FP)
Precision=VP/(VP+FP)
PrNeg= VN/(VN+FN)
TE=(FP+FN)/(VP+VN+FP+FN)

print("La exactitud del modelo es:\n",Exactitud)
print("La sensibilidad del modelo es:\n",Sensibilidad)
print("La especificidad del modelo es:\n",Especificidad)
print("La precisión del modelo es:\n",Precision)
print("La precisión negativa del modelo es:\n ",PrNeg)
print("La tasa de error del modelo es:\n ",TE)


La matriz de confusión es:
 [[   3 1236]
 [   8 4701]]
La exactitud del modelo es:
 0.7908540685944856
La sensibilidad del modelo es:
 0.9983011255043533
La especificidad del modelo es:
 0.002421307506053269
La precisión del modelo es:
 0.7918140474987367
La precisión negativa del modelo es:
  0.2727272727272727
La tasa de error del modelo es:
  0.20914593140551446


**4. Evaluamos una persona**

In [None]:
#Evaluamos un solicitannte
XDS=[[34,12,15,2,24,69,160,48000]]
ydp2=mnb.predict(XDS) #Se obtiene la predicción
print("La predicción es:\n ",ydp2)

if ydp2==0:
  print("El solicitante vive en áreas rurales")
if ydp2==1:
  print("El solicitante vive en áreas urbanas")

La predicción es:
  [1.]
El solicitante vive en áreas urbanas




**Respuesta a las preguntas**

***¿Cuál es el número de datos total de la base de datos?***

El número total de personas que respondieron fue de 12686, pero tras la depuración de la base de datos de aquellos datos nulos, la cantidad de registros en los que se trabajaron fue de 5984

***¿Cuál es el porcentaje de los datos que hacen parte de cada una de las categorías de clasificación?***

Porcentaje de datos por categoría:
- Urbano: 79.17%
- Rural: 20.83%

***Los intervalos en los que se encuentran la variación de Edad, Altura y Peso son: ***

- Intervalo de variación de Edad: 15 - 22
- Intervalo de variación de Altura: 51.0 - 80.0
- Intervalo de variación de Peso: 72.0 - 375.0

***¿Cuál es la exactitud alcanzada por el modelo?***

La exactitud alcanzada por el modelo fue de 79.08%

***¿Cuál es la tasa de error alcanzada por el modelo?***

La tasa de error del modelo fue de 20.91%

***¿Cuál es la Sensibilidad alcanzada por el modelo?***

La sensibilidad alcanzada por el modelo fue de 99.83%

***¿Cuál es la Especificidad alcanzada por el modelo? ***

La especificidad del modelo fue de 0.24%

***¿Para una persona con las siguientes características ['Age','Mother_Edu','Father_Edu','FamilySize','Self_Esteem','Height','Weight','Income']=[34,12,15,2,24,69,160,48000] indicar si vive en la ciudad o las áreas rurales?***

La predicción hecha mediante el modelo es [1.], lo que quiere decir que la persona con esas características vive en la ciudad

  

**Análisis de Resultados**

Basándonos en los resultados obtenidos con el modelo Naive Bayes aplicado a la base de datos proporcionada, se utilizaron las variables 'Age', 'Mother_Edu', 'Father_Edu', 'FamilySize', 'Self_Esteem', 'Height', 'Weight' e 'Income' para determinar si una persona reside en una zona urbana o rural.

Inicialmente, la base de datos contenía 12,686 registros, pero tras eliminar aquellos con información incompleta, se redujo a 5,984 datos válidos para el análisis. Del total, el 79.17% corresponde a personas que viven en áreas urbanas y el 20.83% a quienes residen en zonas rurales.

El modelo alcanzó una exactitud del **79.08%,** lo que indica que cerca del 80% de las predicciones fueron acertadas. No obstante, también presentó una tasa de error del **20.91%**, reflejando un porcentaje bastante bajo en el que la clasificación no fue correcta, lo que refuerza la validez del modeloe.

Por otro lado, en términos de sensibilidad, el modelo obtuvo un desempeño sobresaliente con un **99.83%**, evidenciando una gran capacidad para identificar correctamente a las personas que residen en zonas urbanas. Sin embargo, es importante anotar que la especificidad fue extremadamente baja (0.24%), lo que puede indicar dificultades al momento de predecir con precisión quienes habitan en áreas rurales.

Finalmente,  la precisión del modelo fue del **79.18%**, lo que significa que la mayoría de las veces predice correctamente la residencia en zonas urbanas. Sin embargo, la precisión negativa fue baja **(27.27%)**, lo que resalta una deficiencia en la identificación de personas que viven en áreas rurales.