# 📥 Importação das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

# 📊 Função `vis(df)`: Visualização dos Dados

In [8]:
def vis(df):
    
    # Pie Chart da variável alvo (depósitos)
    plt.pie(df['deposit'].value_counts(), labels=['no', 'yes'], autopct='%1.1f%%', startangle=-90, colors=['lightcoral', 'lightgreen'])
    plt.title('Distribuição dos Depósitos')
    plt.show()

    # Ordenar os meses antes de exibir
    ordem_meses = ['jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec']
    df['month'] = pd.Categorical(df['month'], categories=ordem_meses, ordered=True)

    # Gráfico de barras para depósitos por profissão
    plt.figure(figsize=(20, 10))
    df.groupby(['job', 'deposit']).size().unstack().plot(
        kind='bar',
        stacked=False,
        ax=plt.gca(),
        color=['lightcoral', 'lightgreen'],
        edgecolor='black'
    )
    plt.title('Distribuição dos Depósitos por Profissão')
    plt.xlabel('Profissão')
    plt.ylabel('Contagem')
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()

    plt.figure(figsize=(20,10))
    i = 0
    for col in df.columns:
        if (df[col].dtype == 'object' and col not in ['deposit', 'job']) or col == 'month':  
            i += 1  
            plt.subplot(4, 2, i)
            df.groupby([col, 'deposit']).size().unstack().plot(
                kind='bar', 
                stacked=False, 
                ax=plt.gca(),
                color=['lightcoral','lightgreen'],
                edgecolor='black')
            plt.title(f'Distribuição de Depósitos por {col}')
            plt.xlabel(col)
            plt.ylabel('Contagem')
            plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()

    i = 0
    plt.figure(figsize=(20,10))
    for col in df.columns:
        if df[col].dtype == 'int64':
            i += 1
            plt.subplot(4, 2, i)

            yes_data = df[df['deposit'] == 'yes'][col]
            no_data = df[df['deposit'] == 'no'][col]
            total_data = df[col]
            data_to_plot = [yes_data, no_data, total_data]
            colors = ['lightgreen', 'lightcoral', 'lightblue']
            boxprops = [dict(facecolor=color, color='blue') for color in colors]

            bp = plt.boxplot(data_to_plot, labels=['Yes', 'No', 'Total'], patch_artist=True, 
                    vert=False,
                    medianprops=dict(color='red'),
                    whiskerprops=dict(color='blue'),
                    capprops=dict(color='blue'),
                    flierprops=dict(markerfacecolor='blue', marker='o', markersize=5, linestyle='none'))

            for patch, color in zip(bp['boxes'], colors):
                patch.set_facecolor(color)

            plt.title(f'BoxPlot de {col}')
            plt.xlabel(col)
            plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()



# 🧹 Função `preposessing(df)`: Pré-Processamento dos Dados

In [9]:
def preposessing(df):

    dic = {"yes":1,"no":0}
    lst = ["deposit","loan","default","housing"]
    for i in lst:
        df[i] = df[i].map(dic).astype(int)

    l=['month',"contact","poutcome"]
    for i in l:
        le=LabelEncoder()
        df[i]=le.fit_transform(df[i].values)

    df = pd.get_dummies(df, columns = ['job','marital','education'])

    # Convertendo colunas booleanas para inteiros
    for column in df.columns:
        if df[column].dtype == 'bool':
            df[column] = df[column].astype(int)

    return df