# 1º Semana

Na primeira semana nos foi solicitado para fazer o tratamento dos dados conforme abaixo:

- Analisar quais os tipos de dados.
- Verificar quais são as inconsistências nos dados.
- Corrigir as inconsistências nos dados.
- Entender quais informações o conjunto de dados possui.
- Unir as tabelas de dados de acordo com os IDs.
- Exportar a tabela de dados unidos como csv
- Traduzir as colunas.

## Importando dados

A fonte dos nossos dados é um dump.

**O que é um dump?** Um dump ou database dump, contém um registro da estrutura de tabela e/ou dados de um banco de dados. Normalmente está na forma de uma lista de comandos SQL. O dump é muito utilizado para realização de cópia de segurança de um banco de dados. Assim, seus conteúdos podem ser recuperados em caso de perda de dados.

Como eu tenho mais familiaridade com o Pandas, decidi que iria unificar os dados no MySQL e faria todas as tratativas usando Pandas.

### Unificando tabelas de acordo com os IDs

Criei um novo banco de dados a partir do arquivo [dump](https://github.com/Dev-Zz/Alura_Challenge_Data_Science_2/blob/main/Dados/dump-analise_risco-202207271411.sql.txt) chamado **'Alura Cash'**, utilizei o [SCRIPT](https://github.com/Dev-Zz/Alura_Challenge_Data_Science_2/blob/main/Dados/sql_unir_tabelas.sql) no MySQL para unificar as tabelas de acordo com os IDs, após unificar as tabelas, criei um novo arquivo do tipo **.csv** que será o conjunto de dados que usaremos nesse notebook.

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv(r'C:\Users\Jose Eduardo\Documents\GitHub\challenge_alura_DataScience_2\Dados\dados_unificados.csv')
dados.head(3)

Unnamed: 0,person_id,loan_id,cb_id,person_id.1,person_age,person_income,person_home_ownership,person_emp_length,loan_id.1,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_id.1,cb_person_default_on_file,cb_person_cred_hist_length
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,JAz2tRvQ-14cy,,41160.0,Rent,2.0,pjEu6snv-4t33,Debtconsolidation,A,6500.0,13.57,0.0,,FIgNSkrG-wen7,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,MZSefq9m-loYS,22.0,29000.0,Mortgage,5.0,Mfn0Csx4-LGM3,Debtconsolidation,B,9000.0,,1.0,0.31,QPDJUQfQ-DJqK,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,cRItaaPB-pRvT,31.0,19968.0,Rent,1.0,Ks4nz74P-z6Iq,Education,B,2500.0,9.62,1.0,0.13,hzAXqSDh-ay7Q,N,6


É possível notar que **['person_id', 'loan_id', 'cb_id']** são colunas duplicadas com ['person_id.1', 'loan_id.1', 'cb_id.1'], por essa razão irei retirar do conjunto de dados.

In [3]:
dados.drop(['person_id.1', 'loan_id.1', 'cb_id.1'], axis=1, inplace=True)
dados.head(3)

Unnamed: 0,person_id,loan_id,cb_id,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,,41160.0,Rent,2.0,Debtconsolidation,A,6500.0,13.57,0.0,,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,22.0,29000.0,Mortgage,5.0,Debtconsolidation,B,9000.0,,1.0,0.31,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Rent,1.0,Education,B,2500.0,9.62,1.0,0.13,N,6


## Traduzir as colunas

Uma das solicitações foi para que traduzíssemos as colunas.

In [4]:
dados.columns = ['pessoaID',
                 'solicitacaoID',
                 'historicoID',
                 'idadePessoa',
                 'salarioAnualPessoa',
                 'moradiaPessoa',
                 'tempoTrabalhoPessoa',
                 'motivoEmprestimo',
                 'pontuacaoEmprestimo',
                 'totalEmprestimo',
                 'taxaJuros',
                 'statusInadimplencia',
                 'comprometimentoRendaPorcentagem',
                 'pessoaInadimplente',
                 'tempoUltimaSolicitacaoCredito'
]

dados.head(3)

Unnamed: 0,pessoaID,solicitacaoID,historicoID,idadePessoa,salarioAnualPessoa,moradiaPessoa,tempoTrabalhoPessoa,motivoEmprestimo,pontuacaoEmprestimo,totalEmprestimo,taxaJuros,statusInadimplencia,comprometimentoRendaPorcentagem,pessoaInadimplente,tempoUltimaSolicitacaoCredito
0,JAz2tRvQ-14cy,pjEu6snv-4t33,FIgNSkrG-wen7,,41160.0,Rent,2.0,Debtconsolidation,A,6500.0,13.57,0.0,,Y,2
1,MZSefq9m-loYS,Mfn0Csx4-LGM3,QPDJUQfQ-DJqK,22.0,29000.0,Mortgage,5.0,Debtconsolidation,B,9000.0,,1.0,0.31,N,4
2,cRItaaPB-pRvT,Ks4nz74P-z6Iq,hzAXqSDh-ay7Q,31.0,19968.0,Rent,1.0,Education,B,2500.0,9.62,1.0,0.13,N,6


## Analisar quais os tipos de dados.

Para analisar quais os tipos de dados usaremos a função **.info()**.

In [8]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14952 entries, 0 to 14951
Data columns (total 15 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   pessoaID                         14952 non-null  object 
 1   solicitacaoID                    14952 non-null  object 
 2   historicoID                      14952 non-null  object 
 3   idadePessoa                      14819 non-null  float64
 4   salarioAnualPessoa               14809 non-null  float64
 5   moradiaPessoa                    14800 non-null  object 
 6   tempoTrabalhoPessoa              14389 non-null  float64
 7   motivoEmprestimo                 14844 non-null  object 
 8   pontuacaoEmprestimo              14828 non-null  object 
 9   totalEmprestimo                  14813 non-null  float64
 10  taxaJuros                        13384 non-null  float64
 11  statusInadimplencia              14795 non-null  float64
 12  comprometimentoRen

## Verificar quais são as inconsistências nos dados 

Irei verificar a quantidade de valores **nulos** no conjunto de dados.

In [7]:
dados.isnull().sum()

pessoaID                              0
solicitacaoID                         0
historicoID                           0
idadePessoa                         133
salarioAnualPessoa                  143
moradiaPessoa                       152
tempoTrabalhoPessoa                 563
motivoEmprestimo                    108
pontuacaoEmprestimo                 124
totalEmprestimo                     139
taxaJuros                          1568
statusInadimplencia                 157
comprometimentoRendaPorcentagem     140
pessoaInadimplente                  161
tempoUltimaSolicitacaoCredito         0
dtype: int64

Ainda não sei dizer se terei que retirar todos os valores nulos do conjunto de dados, por essa razão manterei dessa forma por enquanto.

In [5]:
for data in dados:
    print('='*50)
    print()
    print(dados[data].value_counts())
    print()


JAz2tRvQ-14cy    1
hHoyQbth-N61L    1
jyDTAJed-t9m9    1
8M1xAaF0-gBJl    1
BB0ivfdF-Qliu    1
                ..
JOiSfdRd-PIWZ    1
SuL3sTiM-u1tq    1
HqGZYISm-Gu7W    1
wmfjfXkd-vOQd    1
TtHLTHlj-3cNc    1
Name: pessoaID, Length: 14952, dtype: int64


pjEu6snv-4t33    1
CHz6kSxh-frE1    1
5v2xQijq-azdO    1
FJky53Un-eEAo    1
U4eiJ4gB-Qu2w    1
                ..
cnHzXF2x-bdhK    1
XN9KNmES-MNfw    1
J4hEWU8p-5gIv    1
lSBunHSP-eaLz    1
TlYigBW1-7nbT    1
Name: solicitacaoID, Length: 14952, dtype: int64


FIgNSkrG-wen7    1
uZeanEJQ-q5l4    1
SCXAyN0g-EzCX    1
yJEfU1DQ-DoPn    1
vDzfNLi8-dHta    1
                ..
LykPSQS0-0Nwr    1
Ada6IXbz-noby    1
iefFq430-kMty    1
zsy5wud4-115y    1
Mf20xgEH-Jq9k    1
Name: historicoID, Length: 14952, dtype: int64


23.0     1758
24.0     1648
22.0     1644
25.0     1350
26.0     1077
27.0      995
28.0      827
29.0      800
30.0      583
21.0      555
31.0      534
32.0      430
33.0      420
34.0      316
35.0      294
36.0      262
37