In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# **Projeto EBAC - Python para análise em Ciência de Dados**

**Objetivo**: fazer a exploração, manipulação, limpeza e visualização de dados utilizando todos os métodos abordados nas aulas. Além disso, criar insight sobre o exercício.

**Problemática**: Por que o cliente se torna inadimplente? Esta é a pergunta central desse exercício. Para isso, analisar-lhe-emos os dados de uma instituição financeira fictícia, mais precisamente a variável resposta que está na segunda coluna denominada *default*, onde teremos:
    0 = adimplente
    1 = inadimplente

# **Project EBAC - Python for Analysis in Data Science**

**Objective**: to explore, manipulate, clean and visualize data using all the methods covered in classes. Additionally, create insight into the exercise.

**Problematic**: Why does the customer default? This is the central question of this exercise. To do this, we will analyze data from a fictitious financial institution, more precisely the response variable that is in the second column called *default*, where we will have:
    0 = payer
    1 = defaulter

In [None]:
# Célula com as importações necessárias para o projeto
# Cell with the imports needed for the project

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os
import warnings

In [None]:
warnings.filterwarnings('ignore')

In [None]:
# Salvando o caminho do arquivo em DF
# Salving the path of file in DF

df = pd.read_csv('/kaggle/input/dados-ebac/Python_M10_support material.csv')
df.head(10)


In [None]:
df.shape

In [None]:
# Aqui é possível visualizar a proporção de adimplentes e inadimplentes.
# Here is possible see the proportion of payer and defaulter

df[df['default'] == 0].shape
df[df['default'] == 1].shape

qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print('\n')
print(f"The proportion of payer customers is {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"The proportion of defaulter customers is {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

In [None]:
df.dtypes

In [None]:
df.select_dtypes('object').describe().transpose()

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

# **IDENTIFICANDO OS DADOS FALTANTES**

Após estruturar os dados e verificar os atributos, é hora de identificar os dados faltantes.

# **IDENTIFYING MISSING DATA**
After structuring the data and checking the attributes, it is time to identify the missing data.

In [None]:
df.head()

In [None]:
df.isna().any()

# Utilizando o tipo booleano para identificar quais colunas possuem dados faltantes.

# Using the Boolean type to identify which columns have missing data.

In [None]:
def stats_dados_faltantes(df: pd.DataFrame) -> None:
    
    stats_dados_faltantes = []
    for col in df.columns:
        if df[col].isna().any():
            qtd, _ = df[df[col].isna()].shape
            total, _ = df.shape
            dict_dados_faltantes = {col:{'quantidade': qtd, 'porcentagem': round(100 * qtd/total, 2)}}
            stats_dados_faltantes.append(dict_dados_faltantes)
        
        for stat in stats_dados_faltantes:
            print(stat)

In [None]:
stats_dados_faltantes(df=df)

In [None]:
stats_dados_faltantes(df=df[df['default'] == 0])

In [None]:
stats_dados_faltantes(df=df[df['default'] == 1])

# **HORA DE LIMPAR OS DADOS**

   Após extrair, manipular e identificar, chegou o momento de limpar os dados para, posteriormente, visualizarmos as informações em um gráfico
   Nesta etapa, vamos corrigir o schema das colunas e remover os dados faltantes encontrados anteriormente.

# **ITS TIME TO CLEAN DATA**


   After extracting, manipulating and identifying, it is time to clean the data so that we can later visualize the information in a graph.
   In this step, we'll correct the column schema and remove the missing data found previously.

______________________________

Anteriormente identificamos que duas colunas estavam sendo interpretadas como categóricas(object). Sendo estas as '*limite_credito*' e '*valor_transacoes_12m*'.

Previously, we identify that two columns wew being interpreted as categorical(object). Since they '*limite_de_credito*' and '*valor_transacoes_12m*'.



In [None]:
df[['limite_credito', 'valor_transacoes_12m']].dtypes

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].head(n=5)

In [None]:
fn = lambda valor: float(valor.replace(".", "").replace(",", "."))

valores_originais = ['12.691,51', '8.256,96', '3.418,56', '3.313,03', '4.716,22']
valores_limpos = list(map(fn, valores_originais))

print(valores_originais)
print(valores_limpos)

In [None]:
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)

In [None]:
df.dtypes

Perceba que a coluna ***limite_credito*** e ***valor_transacoes_12m*** alteraram para float64 após a aplicação do *lambda*.

Note that the column ***limite_credito*** and ***valor_transacoes_12m*** changed to float64 after applying *lambda*.

In [None]:
print('Os atributos categóricos são:')
df.select_dtypes('object').describe().transpose()

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

# REMOÇÃO DOS DADOS FALTANTES # 

Com a função shape, vamos analisar a estrutura dos dados novamente.

# REMOTION OF MISSING DATA #

With the function of shape, we will analyse the structure of data 

In [None]:
qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

In [None]:
print(f"A proporcão adimplentes ativos é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes adimplentes é de {round(100 * qtd_adimplentes_novo / qtd_total_novo, 2)}%")
print("")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * qtd_inadimplentes_novo / qtd_total_novo, 2)}%")

# VISUALIZAÇÃO DOS DADOS #

Chegou a hora de visualizarmos os dados que foram extraídos e limpos. É uma etapa extremamente importante para o projeto, pois aqui o cliente terá uma ideia concreta do projeto.

# DATA VIEW #

The time has come to visualize the data that has been extracted and cleaned. It is an extremely important stage for the project, as here the client will have a concrete idea of ​​the project.

In [None]:
sns.set_style("whitegrid")

In [None]:
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]


In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações em 12 meses', 'Qtd. de Transações em 12 meses de Adimplentes', 'Qtd. de Transações em 12 meses de Inadimplentes']

eixo = 0
max_y = 0 # variável para armazenar o valor máximo do eixo Y de todos os gráficos
figura, eixos = plt.subplots(1,3, figsize=(40, 10), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  # stat: qual é a métrica realizada para fazer a contagem
  # ax: indica que está trabalhando no número 0,1,2
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações em 12 meses', 'Valor das Transações em 12 meses de Adimplentes', 'Valor das Transações em 12 meses de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(40, 10), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações em 12 meses',
    xlabel='Valor das Transações em 12 meses',
    ylabel='Quantidade das Transações em 12 meses'
  )

# CONCLUSÃO #

Com isso, podemos concluir que, de acordo com os dados apurados e visualizados nesses gráficos, os **inadimplentes** (default 1) se aglomeram nos valores de 2500 - 9000 com transações entre 20 - 70. Os **adimplentes**, por sua vez, estão isolados nos valores de 14000 - 17000 e transações de 80 - 130. Perceba que quanto maiores os valores de transações e a quantidade de transações em um ano, maior a probabilidade deste usuário ser um adimplente; onde o contrário também é verdade, ou seja, quanto manor o valor e menores as transações, maior a possibilidade deste ser adimplente.
Com essas informações em mãos, o time de gestão poderá organizar um plano de ação mais efetivo, monitorando os usuários inadimplentes a fim de minimizar o déficit da companhia. Além deste plano de ação de monitoriamento, a gestão poderá criar estratégias para transformar os inadimplentes em adimplentes, maximizando os ganhos para a companhia.

# CONCLUSION #

   With this, we can conclude that, according to the data collected and visualized in these graphs, the **defaulters** (default 1) cluster in values ​​of 2500 - 9000 with transactions between 20 - 70. The **defaulters**, in turn, they are isolated in values ​​of 14000 - 17000 and transactions of 80 - 130. Note that the higher the transaction values ​​and the number of transactions in a year, the greater the probability of this user being a defaulter; where the opposite is also true, that is, the lower the value and the smaller the transactions, the greater the possibility of this being in compliance.
   With this information in hand, the management team will be able to organize a more effective action plan, monitoring non-paying users in order to minimize the company's deficit. In addition to this monitoring action plan, management will be able to create strategies to transform defaulters into defaulters, maximizing gains for the company.