# CODENATION - Semana 3 - Desafio

Análise de pontuação de crédito de clientes por estado.

#### Participante: Renan Francis Moises
Linkekdin: https://linkedin.com/in/renanmoises

## Carregando bibliotécas

In [232]:
import pandas as pd
import numpy as np

## Carregando base de dados no Jupyter Notebook

In [248]:
path = "desafio1.csv"

In [249]:
base = pd.read_csv(path)
base.head(10)

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1
5,6,db5cf32c3fbc7c5d8f8313afca1d099de6dc055f,a596384ca70664af4c5fac9f935cff186b8e8bc0,645,RS,M,44,8,113755.78,2,1,0
6,7,8f3cc64a0a84bab38fefb030f09757d0cbf03bb2,abec3e525ab40e45975c91d4fa2bc7b318d93de4,822,SC,M,50,7,0.0,2,1,1
7,8,6704b822c203e2dda9f225dfc4f1bed2ae9044e6,336b42483e6a17f48eb040a251b5d6e64d1351a9,376,PR,F,29,4,115046.74,4,1,0
8,9,35f41954a87f722a3960e5fa8ce898a09398a564,53a417796c777851003b3f2431e8eef5625ec15b,501,SC,M,44,4,142051.07,2,0,1
9,10,f110be36fc6171a7da472b9cbac8698df880aac6,b89d09fc7719cb3c4a87e4a61cb87b3465e9d8ff,684,SC,M,27,2,134603.88,1,1,1


## Conhecendo a base

In [250]:
base.shape
#Verifica-se que a base possui 7000 linhas e 12 colunas.

(7000, 12)

In [251]:
base.info()
#Verifica-se que a base não possui valores nulos nas colunas e que todas os dados estão tipificados corretamente.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   RowNumber                 7000 non-null   int64  
 1   id                        7000 non-null   object 
 2   sobrenome                 7000 non-null   object 
 3   pontuacao_credito         7000 non-null   int64  
 4   estado_residencia         7000 non-null   object 
 5   genero                    7000 non-null   object 
 6   idade                     7000 non-null   int64  
 7   nivel_estabilidade        7000 non-null   int64  
 8   saldo_conta               7000 non-null   float64
 9   numero_produtos           7000 non-null   int64  
 10  possui_cartao_de_credito  7000 non-null   int64  
 11  membro_ativo              7000 non-null   int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 656.4+ KB


In [252]:
base['estado_residencia'].unique()
# Há apenas três estados nos registros da base: SC, RS e PR

array(['SC', 'RS', 'PR'], dtype=object)

In [253]:
base['estado_residencia'].value_counts()

SC    3519
RS    1750
PR    1731
Name: estado_residencia, dtype: int64

## Análise - Estatística Descritiva

In [254]:
base['pontuacao_credito'].mean() # Calcula o valor médio da pontuacao_credito de todos os estados.

649.787

In [255]:
base['pontuacao_credito'].median() # Calcula a mediana da pontuacao_credito de todos os estados.

651.0

In [256]:
base['pontuacao_credito'].mode() # Calcula a moda da pontuacao_credito de todos os estados.

0    850
dtype: int64

In [257]:
base['pontuacao_credito'].std() # Calcula o desvio padrão da pontuacao_credito de todos os estados.

97.0462786489001

### Agrupamento de dados para filtragem para análise de Estatística Descritiva por estado

In [258]:
# Agrupando Pontuação de Crédito por Estado para cálculo de moda, mediana, média, e desvio padrão
base_estats = base.groupby('estado_residencia').agg({
    'pontuacao_credito': [
        pd.Series.mode,
        'median',
        'mean',
        'std',
    ]
})

In [259]:
# Renomeando nomes das colunas, conforme resultados e orientação de devolução do desafio
base_estats.columns = ['moda', 'mediana', 'media', 'desvio_padrao']
base_estats

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,850,650,648.961294,98.607186
RS,850,650,651.105143,95.136598
SC,850,653,649.537653,97.233493


In [260]:
# Convertendo DataFrame com resultados para formato .json
base_estats.to_json('submission.json', orient = 'index')

In [261]:
# Visualizando arquivo .json para conferência antes da entrega
pd.read_json('submission.json')

Unnamed: 0,PR,RS,SC
moda,850.0,850.0,850.0
mediana,650.0,650.0,653.0
media,648.961294,651.105143,649.537653
desvio_padrao,98.607186,95.136598,97.233493
