# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.

## Detalhes

**O arquivo para submissão deve estar em formato json, e deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset.**

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('./desafio1.csv')

In [4]:
df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [5]:
df.shape

(7000, 12)

In [6]:
estados = df['estado_residencia'].unique()

In [7]:
analise_dict = dict()

for estado in estados:

    estado_mask = df['estado_residencia'] == estado
    
    pontuacao_por_estado = df.loc[estado_mask].loc[:,'pontuacao_credito'] 
    
    moda = pontuacao_por_estado.max()
    mediana = pontuacao_por_estado.median()
    media = pontuacao_por_estado.mean()
    desvio_padrao = pontuacao_por_estado.std()
    
    analise_dict[estado] = {'moda':moda, 'mediana':mediana, 'media':media, 'desvio_padrao':desvio_padrao}

In [8]:
analise_dict

{'SC': {'moda': 850,
  'mediana': 653.0,
  'media': 649.5376527422563,
  'desvio_padrao': 97.233492793433},
 'RS': {'moda': 850,
  'mediana': 650.0,
  'media': 651.1051428571428,
  'desvio_padrao': 95.13659841383574},
 'PR': {'moda': 850,
  'mediana': 650.0,
  'media': 648.9612940496822,
  'desvio_padrao': 98.60718591309758}}

In [9]:
analise = pd.DataFrame(analise_dict)

In [10]:
analise

Unnamed: 0,SC,RS,PR
desvio_padrao,97.233493,95.136598,98.607186
media,649.537653,651.105143,648.961294
mediana,653.0,650.0,650.0
moda,850.0,850.0,850.0


In [11]:
analise.to_json('./submission.json')

In [12]:
#resolução alternativa:
analise = df.groupby('estado_residencia')['pontuacao_credito'].agg([pd.Series.mode, 'median', 'mean', 'std']).T
analise.rename({'mode': 'moda', 'median': 'mediana', 'mean': 'media', 'std' : 'desvio_padrao'}, inplace = True)

In [13]:
analise

estado_residencia,PR,RS,SC
moda,850.0,850.0,850.0
mediana,650.0,650.0,653.0
media,648.961294,651.105143,649.537653
desvio_padrao,98.607186,95.136598,97.233493
