## 0. Setup & Motivação

Esse projeto consiste em realizar uma EDA em dados de crédito, para confecção do 3º projeto prático do curso de Análise de Dados da EBAC.

Após analisar e entender os dados, meu objetivo será levantar e responder algumas questões sobre os dados.

Caso seja relevante, aplicarei o(s) modelo(s) de Machine Learning adequado(s) para a situação.

Fonte dos dados [aqui](https://github.com/andre-marcos-perez/ebac-course-utils/tree/main/dataset)



<center><b><font size=5><i>Sobre os Dados</i></font></b></center>

---

>Os dados representam informações de clientes de um banco e contam com as seguintes colunas:
>
>**idade** = idade do cliente
>
>**sexo** = sexo do cliente (F ou M)
>
>**dependentes** = número de dependentes do cliente
>
>**escolaridade** = nível de escolaridade do clientes
>
>**salario_anual** = faixa salarial do cliente
>
>**tipo_cartao** = tipo de cartao do cliente
>
>**qtd_produtos** = quantidade de produtos comprados nos últimos 12 meses
>
>**iteracoes_12m** = quantidade de iterações/transacoes nos ultimos 12 meses
>
>**meses_inativo_12m** = quantidade de meses que o cliente ficou inativo
>
>**limite_credito** = limite de credito do cliente
>
>**valor_transacoes_12m** = valor das transações dos ultimos 12 meses
>
>**qtd_transacoes_12m** = quantidade de transacoes dos ultimos 12 meses
>


In [3]:
# Carregando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
# Carregando os Dados
url = 'https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/credito.csv'
credit_raw = pd.read_csv(filepath_or_buffer= url)

## 1. Data Wrangling

* Checando a Estrutura

In [10]:
credit_raw.head(10)

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,na,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28
5,713061558,0,44,M,2,mestrado,casado,$40K - $60K,blue,36,3,2,1,"4.010,69","1.088,07",24
6,810347208,0,51,M,4,na,casado,$120K +,gold,46,6,3,1,"34.516,72","1.330,87",31
7,818906208,0,32,M,0,ensino medio,na,$60K - $80K,silver,27,2,2,2,"29.081,49","1.538,32",36
8,710930508,0,37,M,3,sem educacao formal,solteiro,$60K - $80K,blue,36,5,0,2,"22.352,50","1.350,14",24
9,719661558,0,48,M,2,mestrado,solteiro,$80K - $120K,blue,36,6,3,3,"11.656,41","1.441,73",32


* Checando as dimensões

In [12]:
print(f'linhas: {credit_raw.shape[0]}\ncolunas: {credit_raw.shape[1]}')

linhas: 10127
colunas: 16


* Checando a presença de linhas duplicadas

In [15]:
credit_raw.duplicated().any()

False

* Checando se existe algum **id** de cliente duplicado

In [90]:
credit_raw['id'].duplicated().any()

False

* Checando os `dtypes`

In [8]:
credit_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   id                       10127 non-null  int64 
 1   default                  10127 non-null  int64 
 2   idade                    10127 non-null  int64 
 3   sexo                     10127 non-null  object
 4   dependentes              10127 non-null  int64 
 5   escolaridade             10127 non-null  object
 6   estado_civil             10127 non-null  object
 7   salario_anual            10127 non-null  object
 8   tipo_cartao              10127 non-null  object
 9   meses_de_relacionamento  10127 non-null  int64 
 10  qtd_produtos             10127 non-null  int64 
 11  iteracoes_12m            10127 non-null  int64 
 12  meses_inativo_12m        10127 non-null  int64 
 13  limite_credito           10127 non-null  object
 14  valor_transacoes_12m     10127 non-nul

* Checando a Presença de Nulos

In [13]:
credit_raw.isnull().any()

id                         False
default                    False
idade                      False
sexo                       False
dependentes                False
escolaridade               False
estado_civil               False
salario_anual              False
tipo_cartao                False
meses_de_relacionamento    False
qtd_produtos               False
iteracoes_12m              False
meses_inativo_12m          False
limite_credito             False
valor_transacoes_12m       False
qtd_transacoes_12m         False
dtype: bool

* Embora nenhum nulo tenha sido identificado, vimos que logo nas primeiras linhas existem valores `"na"`. Isso é comum, uma vez que o Pandas interpreta uma entrada (na) em uma coluna do tipo object como um texto. Vamos identificar aonde essas ocorrencias estão e quantifica-las.

In [57]:
# Identificando as variáveis
(credit_raw == 'na').any()

id                         False
default                    False
idade                      False
sexo                       False
dependentes                False
escolaridade                True
estado_civil                True
salario_anual               True
tipo_cartao                False
meses_de_relacionamento    False
qtd_produtos               False
iteracoes_12m              False
meses_inativo_12m          False
limite_credito             False
valor_transacoes_12m       False
qtd_transacoes_12m         False
dtype: bool

In [75]:
# Observando as linhas em que a varíavel 'escolaridade' é nula
credit_raw[['escolaridade', 'estado_civil', 'salario_anual']].query('escolaridade == @syntax')

Unnamed: 0,escolaridade,estado_civil,salario_anual
6,na,casado,$120K +
11,na,casado,$40K - $60K
15,na,na,$80K - $120K
17,na,casado,$80K - $120K
23,na,solteiro,menos que $40K
...,...,...,...
10090,na,casado,$40K - $60K
10094,na,solteiro,$60K - $80K
10095,na,casado,$80K - $120K
10118,na,na,$80K - $120K


In [76]:
# Observando as linhas em que a varíavel 'estado_civil' é nula
credit_raw[['escolaridade', 'estado_civil', 'salario_anual']].query('estado_civil == @syntax')

Unnamed: 0,escolaridade,estado_civil,salario_anual
3,ensino medio,na,menos que $40K
7,ensino medio,na,$60K - $80K
10,sem educacao formal,na,$120K +
13,mestrado,na,$60K - $80K
15,na,na,$80K - $120K
...,...,...,...
10070,ensino medio,na,$80K - $120K
10100,mestrado,na,$60K - $80K
10101,mestrado,na,$40K - $60K
10118,na,na,$80K - $120K


In [78]:
# Observando as linhas em que a varíavel 'salario_anual' é nula
credit_raw[['escolaridade', 'estado_civil', 'salario_anual']].query('salario_anual == @syntax')

Unnamed: 0,escolaridade,estado_civil,salario_anual
19,mestrado,casado,na
28,sem educacao formal,solteiro,na
39,doutorado,casado,na
44,mestrado,solteiro,na
58,mestrado,casado,na
...,...,...,...
10021,mestrado,casado,na
10040,doutorado,solteiro,na
10083,sem educacao formal,casado,na
10092,mestrado,casado,na


In [72]:
# Olhando mais a fundo: Observando as 3 variáveis juntas
syntax = 'na'
credit_raw[['escolaridade', 'estado_civil', 'salario_anual']].query('escolaridade == @syntax | estado_civil == @syntax | salario_anual == @syntax')

Unnamed: 0,escolaridade,estado_civil,salario_anual
3,ensino medio,na,menos que $40K
6,na,casado,$120K +
7,ensino medio,na,$60K - $80K
10,sem educacao formal,na,$120K +
11,na,casado,$40K - $60K
...,...,...,...
10101,mestrado,na,$40K - $60K
10118,na,na,$80K - $120K
10119,sem educacao formal,solteiro,na
10123,na,divorciado,$40K - $60K


* Podemos notar que existem pelo menos `3046` linhas em que pelo menos uma das 3 variáveis está faltando. Isso equivale a cerca de `30%` da nossa base de dados.

* Por ora, apenas irei descartar a hipotese de remover as linhas com dados faltantes e não realizar nenhuma modificação. **Este passo será revisitado em breve.**

*Podemos observar também algumas transformações necessárias:*

1. As variáveis `limite_credito` e `valor_transacoes_12m` precisam ser convertidas de object para float.

2. As variáveis `sexo`, `estado_civil`, `tipo_cartao` e `escolaridade` podem ser convertidas de object para category.

3. As variáveis `salario_anual` e `escolaridade` podem ser convertidas de object para category, porém possuem ordem associada (*variáveis ordinais*)

4. As variáveis `id` e `default` podem ser eliminadas, uma vez que não agregam valor.

Irei realizar os itens 1 e 4, enquanto os itens 2 e 3 serão tratados mais adiante, junto com o tratamento de dados faltantes.

> Obs. A variável `tipo_cartao` será considerada **nominal**, embora possua ordem associada. Essa abordagem será tomada uma vez que não temos informações sobre a ordenação dos produtos por parte da empresa.

* Removendo as variáveis `id` e `default` (5)

In [92]:
credit = credit_raw.drop(['id', 'default'], axis= 1).copy()
credit.head()

Unnamed: 0,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,40,F,4,ensino medio,na,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


* Tratando as variáveis `limite_credito` e `valor_transacoes_12m` (1)

In [102]:
# Corrigindo o formato dos valores
credit['limite_credito'] = credit['limite_credito'].map(lambda value: value.replace('.','').replace(',','.'))
credit['valor_transacoes_12m'] = credit['valor_transacoes_12m'].map(lambda value: value.replace('.','').replace(',','.'))

In [107]:
# Realizando o type casting
credit['limite_credito'] = credit['limite_credito'].astype('float64')
credit['valor_transacoes_12m'] = credit['valor_transacoes_12m'].astype('float64')

## 2. EDA

In [113]:
# TBA