In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB # naive bayes multinomial para clasificación
from sklearn.naive_bayes import GaussianNB # naive bayes gausiano para clasificación
from sklearn.metrics import accuracy_score # métrica de evaluación
from sklearn.metrics import classification_report


# Análisis Exploratorio

In [None]:
df_50 = pd.read_csv('https://raw.githubusercontent.com/pokengineer/DataScience/main/datasets/adult_income.csv', header=None)
col_names = ['age', 'workclass', 'fnlwgt', 'education', 'education_num', 'marital_status', 'occupation', 'relationship',
             'race', 'sex', 'capital_gain', 'capital_loss', 'hours_per_week', 'native_country', 'target']
df_50.columns = col_names
df_50.head(5)

In [None]:
# verificamos los tipos de datos
df_50.dtypes

In [None]:
print("Tamaño del dataframe : {}".format(df_50.shape))

In [None]:
# Verificamos si hay valores nulos para imputar
df_50.isnull().sum()

In [None]:
# Analisis de la distribución de la variable target
print( df_50.target.value_counts() )
sns.countplot(x='target', data=df_50, hue='target', legend=False)

In [None]:
# identificamos las variables categóricas
categorical = [var for var in df_50.columns if df_50[var].dtype=='O']
print('las variables categoricas son:\n', categorical)
print("\nchequeamos la dimensionalidad de las variables")
for var in categorical:
    print(len(df_50[var].unique()), ' valores unicos en ', var )

In [14]:
# paso target a una variable numerica
df_50['target'] = df_50['target'].apply(lambda x: 1 if x == ' >50K' else 0 )

In [None]:
# identificamos las variables numéricas
numerical = [var for var in df_50.columns if df_50[var].dtype!='O']
print('las variables numéricas son:\n', numerical)

# Correlación de Variables

In [None]:
plt.figure(figsize=(14,7))
sns.heatmap(df_50[numerical].corr(), vmax=.7, cmap ='Blues', fmt=".2f")

In [None]:
df_corr = df_50[numerical].corr()[["target"]]*100 # lo pasamos a porcentajes
df_corr = df_corr.drop("target", axis=0) # eliminamos la variable target
df_corr = df_corr.sort_values(["target"], ascending=False) # ordenamos en forma descendente
df_corr = abs(df_corr) # nos interesa el valor absouluto
df_corr

# Seleccionamos las variables que vamos a utilizar y hacemos el Split

In [None]:
df_50.columns

In [None]:
# usamos todas las columnas numércias
df = df_50[numerical]
X = df.drop("target",axis=1)
y = df["target"]
X.head()

In [53]:
# Hacemos el Split 70-30 para train-test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify = y, random_state=42)

In [None]:
# Creamos y entrenamos el clasificador bayesiano
bayes_multi = MultinomialNB()
bayes_multi.fit(X_train, y_train) # entrenamos el clasificador

In [None]:
y_pred_nb = bayes_multi.predict(X_test)

#Exactitud del modelo
print('Exactitud (accuracy) del modelo: {:.2f} %'.format(accuracy_score(y_test, y_pred_nb)*100))
print("-"*100)

# Reporte del clasificador
from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred_nb))

# Ejercicio
- ¿hay variables redundantes en este dataframe? ¿que variables feature engineering incluirias en este modelo?
- Reemplazar MultinomialNB por GaussianNB y comparar el desempeño
- Usando OneHotEncoder o pd.get_dummies() en las variables categóricas de baja dimensionalidad, obtener columnas numericas para representarlas. incluirlas al modelo y comparar el resultado