# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.


In [2]:
import pandas as pd

In [41]:
df = pd.read_csv("desafio1.csv", sep = ',', usecols=range(1,12), index_col=id)

In [43]:
df.shape

(7000, 11)

In [44]:
df.head()

Unnamed: 0,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [45]:
# Colunas disponíveis no dataset
df.columns

Index(['id', 'sobrenome', 'pontuacao_credito', 'estado_residencia', 'genero',
       'idade', 'nivel_estabilidade', 'saldo_conta', 'numero_produtos',
       'possui_cartao_de_credito', 'membro_ativo'],
      dtype='object')

In [72]:
# SC ẽ o estado que apresenta mais observações no dataset
df['estado_residencia'].value_counts().reset_index()

Unnamed: 0,index,estado_residencia
0,SC,3519
1,RS,1750
2,PR,1731


In [73]:
# Podemos ver também que o somatório da pontuação de crédito do estado de SC é o maior e isso pode ser explicado pelo motivo de ser o estado com mais observações no dataset
df.groupby('estado_residencia')['pontuacao_credito'].sum().sort_values(ascending=False).reset_index()

#  Exibir índice da linhas com maior valor
# df_sum_pontuacao.loc[df_sum_pontuacao.pontuacao_credito.idxmax()]

Unnamed: 0,estado_residencia,pontuacao_credito
0,SC,2285723
1,RS,1139434
2,PR,1123352


In [67]:
# Considerando somente os membros ativos, o estado de RS tem a melhor média de pontuação de crédito seguido do PR e SC.
df.loc[df['membro_ativo'] == 1].groupby('estado_residencia')['pontuacao_credito'].mean().sort_values(ascending=False).reset_index()

Unnamed: 0,estado_residencia,pontuacao_credito
0,RS,654.686891
1,PR,654.05951
2,SC,651.647091


In [158]:
# Resposta para o desafio
df1 = df.groupby('estado_residencia')['pontuacao_credito'].agg({'moda': lambda x: x.mode(),
                                                              'mediana' : 'median', 
                                                              'media' : 'mean', 
                                                              'desvio_padrao' : 'std'})



In [25]:
# O RS tem a melhor média de pontuação de crédito considerando todos os membros (ativos ou não), mas diferente do que foi visto anteriormente SC passa a ter uma pontuação melhor que PR.
df1

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,850,650,648.961294,98.607186
RS,850,650,651.105143,95.136598
SC,850,653,649.537653,97.233493


In [32]:
# Transposição do dataframe
df_T = df1.transpose()
df_T

estado_residencia,PR,RS,SC
moda,850.0,850.0,850.0
mediana,650.0,650.0,653.0
media,648.961294,651.105143,649.537653
desvio_padrao,98.607186,95.136598,97.233493


In [34]:
# Converte para arquivo json
df_T.to_json('submission.json')