# üì• Importa√ß√£o das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder

## üìä Fun√ß√£o `vis(df)`: Visualiza√ß√£o dos Dados
A fun√ß√£o `vis(df)` gera gr√°ficos para entender a distribui√ß√£o dos dep√≥sitos e sua rela√ß√£o com outras vari√°veis.

### üîπ O que faz?
1. **Pie Chart** ‚Üí Mostra a propor√ß√£o de dep√≥sitos (`yes` vs `no`).
2. **Gr√°ficos de Barras** ‚Üí Compara a distribui√ß√£o dos dep√≥sitos para diferentes categorias, como:
   - Profiss√£o (`job`)
   - Estado civil (`marital`)
   - Educa√ß√£o (`education`)
   - Tipo de contato (`contact`)
3. **Box Plots** ‚Üí Exibe a distribui√ß√£o de vari√°veis num√©ricas separadas por `deposit` (`yes` ou `no`).

üìå **Objetivo:** Identificar padr√µes visuais nos dados para entender melhor a influ√™ncia de diferentes fatores na decis√£o do cliente.


In [None]:
def vis(df):
    
    # Pie Chart da vari√°vel alvo (dep√≥sitos)
    plt.pie(df['deposit'].value_counts(), labels=['no', 'yes'], autopct='%1.1f%%', startangle=-90, colors=['lightcoral', 'lightgreen'])
    plt.title('Distribui√ß√£o dos Dep√≥sitos')
    plt.show()

    # Ordenar os meses antes de exibir
    ordem_meses = ['jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec']
    df['month'] = pd.Categorical(df['month'], categories=ordem_meses, ordered=True)

    # Gr√°fico de barras para dep√≥sitos por profiss√£o
    plt.figure(figsize=(20, 10))
    df.groupby(['job', 'deposit']).size().unstack().plot(
        kind='bar',
        stacked=False,
        ax=plt.gca(),
        color=['lightcoral', 'lightgreen'],
        edgecolor='black'
    )
    plt.title('Distribui√ß√£o dos Dep√≥sitos por Profiss√£o')
    plt.xlabel('Profiss√£o')
    plt.ylabel('Contagem')
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()

    plt.figure(figsize=(20,10))
    i = 0
    for col in df.columns:
        if (df[col].dtype == 'object' and col not in ['deposit', 'job']) or col == 'month':  
            i += 1  
            plt.subplot(4, 2, i)
            df.groupby([col, 'deposit']).size().unstack().plot(
                kind='bar', 
                stacked=False, 
                ax=plt.gca(),
                color=['lightcoral','lightgreen'],
                edgecolor='black')
            plt.title(f'Distribui√ß√£o de Dep√≥sitos por {col}')
            plt.xlabel(col)
            plt.ylabel('Contagem')
            plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()

    i = 0
    plt.figure(figsize=(20,10))
    for col in df.columns:
        if df[col].dtype == 'int64':
            i += 1
            plt.subplot(4, 2, i)

            yes_data = df[df['deposit'] == 'yes'][col]
            no_data = df[df['deposit'] == 'no'][col]
            total_data = df[col]
            data_to_plot = [yes_data, no_data, total_data]
            colors = ['lightgreen', 'lightcoral', 'lightblue']
            boxprops = [dict(facecolor=color, color='blue') for color in colors]

            bp = plt.boxplot(data_to_plot, labels=['Yes', 'No', 'Total'], patch_artist=True, 
                    vert=False,
                    medianprops=dict(color='red'),
                    whiskerprops=dict(color='blue'),
                    capprops=dict(color='blue'),
                    flierprops=dict(markerfacecolor='blue', marker='o', markersize=5, linestyle='none'))

            for patch, color in zip(bp['boxes'], colors):
                patch.set_facecolor(color)

            plt.title(f'BoxPlot de {col}')
            plt.xlabel(col)
            plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()



## üßπ Fun√ß√£o `preposessing(df)`: Pr√©-Processamento dos Dados
A fun√ß√£o `preposessing(df)` prepara os dados para uso em Machine Learning, convertendo vari√°veis categ√≥ricas e booleanas para valores num√©ricos.

### üîπ O que faz?
1. **Convers√£o de Sim/N√£o (`yes`/`no`) para 1/0**  
   - Aplicado √†s colunas: `deposit`, `loan`, `default`, `housing`.

2. **Label Encoding** ‚Üí Transforma valores categ√≥ricos em num√©ricos.  
   - Aplicado a: `month`, `contact`, `poutcome`.

3. **One-Hot Encoding** ‚Üí Cria colunas bin√°rias para vari√°veis categ√≥ricas.  
   - Aplicado a: `job`, `marital`, `education`.

4. **Convers√£o de colunas booleanas para inteiros**  
   - Garante compatibilidade com modelos de Machine Learning.

üìå **Objetivo:** Garantir que os dados estejam no formato correto para treinar um modelo de Machine Learning.


In [None]:
def preposessing(df):

    dic = {"yes":1,"no":0}
    lst = ["deposit","loan","default","housing"]
    for i in lst:
        df[i] = df[i].map(dic).astype(int)

    l=['month',"contact","poutcome"]
    for i in l:
        le=LabelEncoder()
        df[i]=le.fit_transform(df[i].values)

    df = pd.get_dummies(df, columns = ['job','marital','education'])

    # Convertendo colunas booleanas para inteiros
    for column in df.columns:
        if df[column].dtype == 'bool':
            df[column] = df[column].astype(int)

    return df