# **INTEGRANTES - GRUPO LEADTECH**

- Bianca Leticia Roman Caldeira - RM: 552267 - Turma: 2TDSPH
- Charlene Aparecida Estevam Mendes Fialho - RM: 552252 - Turma: 2TDSPH
- Lais Alves da Silva Cruz - RM: 552258 - Turma: 2TDSPH
- Fabricio Torres Antonio - RM: 97916 - Turma: 2TDSPH
- Lucca Raphael Pereira dos Santos - RM: 99675 - Turma: 2TDSPH

# **Análise de Crédito - Resolução**

> Utilização de deep analytics e machine learning para solução de um problema.

### ***Descrição :***
Neste notebook, apresentamos uma análise abrangente sobre os desafios enfrentados pela ABX Tecnologia no processo de análise de crédito de seus clientes. Abordamos questões como padronização da análise de crédito, classificação automática de clientes e automação da recomendação de crédito. Utilizamos técnicas de deep analytics e modelos de machine learning para propor soluções eficazes que visam melhorar a eficiência e a precisão da análise de crédito. Este notebook oferece insights valiosos e soluções práticas para aprimorar o processo de tomada de decisão da ABX Tecnologia no que diz respeito à concessão de crédito.

### ***Objetivos :***
1. Padronização da Análise de Crédito.
2. Classificação Automática de Clientes.
3. Automação da Recomendação de Crédito.

## ***Importação das bibliotecas***
Nesta seção, importamos as bibliotecas Python necessárias para realizar a análise.

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 

## ***Carregamento dos Dados***

Nesta seção, carregamos os dados fornecidos.

In [5]:
# Adicionando url do dataset
url = '../dataset/solicitacoescredito.csv'

# Carregando o conjunto de dados do arquivo CSV para um DataFrame
df = pd.read_csv(url)

In [6]:
# Visualize as primeiras linhas do dataset
df.head()

Unnamed: 0,numero_solicitacao,razaoSocial,nomeFantasia,cnpjSemTraco,maiorAtraso,margemBrutaAcumulada,percentualProtestos,primeiraCompra,prazoMedioRecebimentoVendas,titulosEmAberto,...,periodoDemonstrativoEmMeses,custos,anoFundacao,intervaloFundacao,capitalSocial,restricoes,empresa_MeEppMei,scorePontualidade,limiteEmpresaAnaliseCredito,dataAprovadoNivelAnalista
0,1,James Richardson-Patel,Alexandra Williams,KEBE17609492220843,0,0.252448,0.0,2015-12-10T00:00:00,0,0.0,...,12.0,0.0,2003.0,Acima de 17 anos,90000.0,False,True,1.0,43200.0,2020-02-03T20:57:33
1,2,Dr. Geoffrey Walsh,Mr. Darren Arnold,JRBK88908250677300,0,0.0,,2019-06-12T17:28:31,0,0.0,...,,,,,,,,0.0,,
2,3,Joanna Hudson,Dr. David Rees,GCVQ28531614261293,4,0.624777,0.0,2019-11-27T00:00:00,0,0.0,...,7.0,0.0,2014.0,De 6 a 10 anos,20000.0,False,True,1.0,4320.0,2020-02-04T16:40:49
3,4,Gordon Jones-Hopkins,Sara Reid-Robson,KJND32266018316396,20,0.0,,2017-02-13T17:20:27,0,0.0,...,12.0,0.0,2013.0,De 6 a 10 anos,30000.0,False,True,0.0,5920.0,2020-02-04T16:37:52
4,5,Nigel Lee,Dr. Stanley Duncan,CGQN15826802440348,20,0.454088,0.0,2010-07-13T00:00:00,20,1486.95,...,9.0,40680051.0,2002.0,Acima de 17 anos,75000.0,False,False,1.0,89000.0,2020-02-04T15:06:28


## ***Preparação dos Dados***

Nesta seção, realizamos as etapas iniciais de preparação dos dados, incluindo a limpeza, transformação e análise exploratória.

### *Análise Exploratória dos Dados*

Realizamos uma análise exploratória inicial dos dados para entender melhor sua estrutura, distribuição e características. 

In [7]:
# Visualizando ultimas linhas
df.tail()

Unnamed: 0,numero_solicitacao,razaoSocial,nomeFantasia,cnpjSemTraco,maiorAtraso,margemBrutaAcumulada,percentualProtestos,primeiraCompra,prazoMedioRecebimentoVendas,titulosEmAberto,...,periodoDemonstrativoEmMeses,custos,anoFundacao,intervaloFundacao,capitalSocial,restricoes,empresa_MeEppMei,scorePontualidade,limiteEmpresaAnaliseCredito,dataAprovadoNivelAnalista
8968,9041,Leah Williams,Georgia Booth,YKGZ02907098931653,149,0.30658,0.0,2006-04-26T00:00:00,59,599964.04,...,,,,,,,,0.990876,,
8969,9042,Mr. Jordan Stevens,Miss Ellie Kelly,UCBM91111020900951,23,0.329796,0.0,2016-08-03T00:00:00,0,0.0,...,,,,,,,,0.958869,,
8970,9043,Mr. Barry Wells,Danielle Hudson,CLDB61185288622179,3,0.383919,0.0,2018-10-25T00:00:00,4,2933.38,...,,,,,,,,1.0,,
8971,9044,Keith Jones,Steven Kennedy-Jones,BRJP37453437154592,11,0.424099,0.0,2011-08-10T00:00:00,31,559679.98,...,,,,,,,,0.994786,,
8972,9045,Cheryl Johnson,Chelsea Kay-Sinclair,COZD54939108010752,4,0.365041,0.0,2009-05-27T00:00:00,56,13640.01,...,,,,,,,,1.0,,


In [8]:
# Vendo types
df.dtypes

numero_solicitacao               int64
razaoSocial                     object
nomeFantasia                    object
cnpjSemTraco                    object
maiorAtraso                      int64
margemBrutaAcumulada           float64
percentualProtestos            float64
primeiraCompra                  object
prazoMedioRecebimentoVendas      int64
titulosEmAberto                float64
valorSolicitado                float64
status                          object
definicaoRisco                  object
diferencaPercentualRisco       float64
percentualRisco                float64
dashboardCorrelacao            float64
valorAprovado                  float64
dataAprovadoEmComite            object
periodoBalanco                  object
ativoCirculante                float64
passivoCirculante              float64
totalAtivo                     float64
totalPatrimonioLiquido         float64
endividamento                  float64
duplicatasAReceber             float64
estoque                  

In [9]:
# Vendo tamanho
df.shape

(8973, 38)

In [10]:
# Vendo informações
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8973 entries, 0 to 8972
Data columns (total 38 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   numero_solicitacao           8973 non-null   int64  
 1   razaoSocial                  8973 non-null   object 
 2   nomeFantasia                 8973 non-null   object 
 3   cnpjSemTraco                 8973 non-null   object 
 4   maiorAtraso                  8973 non-null   int64  
 5   margemBrutaAcumulada         8973 non-null   float64
 6   percentualProtestos          7475 non-null   float64
 7   primeiraCompra               8867 non-null   object 
 8   prazoMedioRecebimentoVendas  8973 non-null   int64  
 9   titulosEmAberto              8973 non-null   float64
 10  valorSolicitado              8973 non-null   float64
 11  status                       8973 non-null   object 
 12  definicaoRisco               8973 non-null   object 
 13  diferencaPercentua

In [11]:
# Vendo dados descritivos
df.describe()

Unnamed: 0,numero_solicitacao,maiorAtraso,margemBrutaAcumulada,percentualProtestos,prazoMedioRecebimentoVendas,titulosEmAberto,valorSolicitado,diferencaPercentualRisco,percentualRisco,dashboardCorrelacao,...,duplicatasAReceber,estoque,faturamentoBruto,margemBruta,periodoDemonstrativoEmMeses,custos,anoFundacao,capitalSocial,scorePontualidade,limiteEmpresaAnaliseCredito
count,8973.0,8973.0,8973.0,7475.0,8973.0,8973.0,8973.0,8973.0,8973.0,8973.0,...,4733.0,4733.0,8223.0,8223.0,8223.0,8223.0,8228.0,8228.0,8973.0,8228.0
mean,4550.042015,24.642594,0.362176,0.01926,23.083027,64871.01,749243.6,0.750321,0.249679,0.047236,...,16633970.0,15239560.0,55974200.0,16209880.0,10.377356,28390610.0,2006.027467,11214530.0,0.798346,2851017.0
std,2603.485853,66.180793,0.201455,0.593579,68.177649,248285.2,22618750.0,0.146058,0.146058,0.472476,...,297902900.0,83837920.0,334435700.0,116348200.0,3.220965,207214800.0,19.42412,97428530.0,0.379186,26723240.0
min,1.0,0.0,0.0,0.0,0.0,0.0,100.0,0.207547,0.0,-0.99999,...,-22780710.0,-263226.0,0.0,-614872100.0,1.0,-346633800.0,1000.0,0.0,0.0,0.0
25%,2316.0,3.0,0.281395,0.0,0.0,0.0,25000.0,0.642857,0.142857,0.0,...,39205.0,171286.0,1191995.0,0.0,11.0,0.0,2000.0,50000.0,0.887479,7360.0
50%,4559.0,6.0,0.402895,0.0,0.0,0.0,50000.0,0.75,0.25,0.0,...,1088164.0,1063783.0,3599483.0,0.0,12.0,0.0,2009.0,100000.0,1.0,48600.0
75%,6802.0,22.0,0.50786,0.0,30.0,17250.0,120000.0,0.857143,0.357143,0.0,...,6576243.0,5493839.0,15842220.0,3357474.0,12.0,4520907.0,2015.0,500000.0,1.0,345000.0
max,9045.0,1265.0,1.0,36.983728,1605.0,3938590.0,1500000000.0,1.0,0.792453,0.99999,...,20093580000.0,1293428000.0,6426115000.0,3366843000.0,12.0,4393536000.0,2020.0,4100000000.0,1.0,1974261000.0


numero_solicitacao                0
razaoSocial                       0
nomeFantasia                      0
cnpjSemTraco                      0
maiorAtraso                       0
margemBrutaAcumulada              0
percentualProtestos            1498
primeiraCompra                  106
prazoMedioRecebimentoVendas       0
titulosEmAberto                   0
valorSolicitado                   0
status                            0
definicaoRisco                    0
diferencaPercentualRisco          0
percentualRisco                   0
dashboardCorrelacao               0
valorAprovado                  1404
dataAprovadoEmComite           8415
periodoBalanco                 4240
ativoCirculante                4240
passivoCirculante              4240
totalAtivo                     4240
totalPatrimonioLiquido         4240
endividamento                  4240
duplicatasAReceber             4240
estoque                        4240
faturamentoBruto                750
margemBruta                 

### *Pré-processamento dos Dados*

Realizamos as etapas de pré-processamento necessárias para preparar os dados para modelagem, incluindo tratamento de valores ausentes, codificação de variáveis categóricas, normalização ou padronização de variáveis numéricas, entre outros.