## Objetivo
<p>Queremos conhecer melhor nossos clientes por estado. <br>
    Para isso, iniciamos uma análise na pontuação de crédito. 
    Para realizar a verificação inicial, precisamos de alguns valores.
    Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.</p>
    
## Detalhes
A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset. O arquivo para submissão deve estar em formato json, conforme o arquivo exemplo “submission.json”.

#### OBSERVAÇÃO: É recomendado utilizar Python e pandas para esse desafio, mas também é possível utilizar outras ferramentas e linguagens de programação.

Descrição dos dados: 
- ‘id’: Identificador do cliente 
- ‘sobrenome’: Sobrenome do cliente 
- ‘pontuacao_credito’: Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
- ‘estado_residencia’: Estado de residência do cliente 
- ‘genero’: Gênero do cliente 
- ‘nivel_estabilidade’: Nível de estabilidade do cliente 
- ‘saldo_conta’: Saldo disponível na conta do cliente 
- ‘numero_produtos’: Número de produtos que o cliente consome 
- ‘possui_cartao_de_credito’: Possui um cartão de crédito cadastrado 
- ‘membro_ativo’: Membro acessa e consome frequentemente

Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS.    

In [1]:
import pandas as pd
import numpy as np
import json

In [2]:
df_credito = pd.read_csv('desafio1.csv',usecols=['estado_residencia','pontuacao_credito'])
df_credito.groupby('estado_residencia')['pontuacao_credito'].agg(['mean','median','std',lambda x: x.mode()[0]])

Unnamed: 0_level_0,mean,median,std,<lambda>
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,648.961294,650,98.607186,850
RS,651.105143,650,95.136598,850
SC,649.537653,653,97.233493,850


In [3]:
# Contornei o problema da moda com isso
moda_sc = (df_credito[df_credito['estado_residencia'] == 'SC'][['pontuacao_credito']].mode())
moda_rs = (df_credito[df_credito['estado_residencia'] == 'RS'][['pontuacao_credito']].mode())
moda_pr = (df_credito[df_credito['estado_residencia'] == 'PR'][['pontuacao_credito']].mode())

# Criando a Estrutura
dados = [[moda_sc['pontuacao_credito'][0],moda_rs['pontuacao_credito'][0],moda_pr['pontuacao_credito'][0]],
         [df_credito[df_credito['estado_residencia'] == 'SC'][['pontuacao_credito']].median()[0],
          df_credito[df_credito['estado_residencia'] == 'RS'][['pontuacao_credito']].median()[0],
          df_credito[df_credito['estado_residencia'] == 'PR'][['pontuacao_credito']].median()[0]
         ],
         [df_credito[df_credito['estado_residencia'] == 'SC'][['pontuacao_credito']].mean()[0],
          df_credito[df_credito['estado_residencia'] == 'RS'][['pontuacao_credito']].mean()[0],
          df_credito[df_credito['estado_residencia'] == 'PR'][['pontuacao_credito']].mean()[0]
         ],
         [df_credito[df_credito['estado_residencia'] == 'SC'][['pontuacao_credito']].std()[0],
          df_credito[df_credito['estado_residencia'] == 'RS'][['pontuacao_credito']].std()[0],
          df_credito[df_credito['estado_residencia'] == 'PR'][['pontuacao_credito']].std()[0]
         ]
        ]
# Colunas
colunas = ['SC','RS','PR']

# Indice
indice = ['moda','mediana','media','desvio_padrao']

# Criando o DataFrame
df = pd.DataFrame(data = dados,columns = colunas,index = indice)

# Exibindo os dados
df.head()

Unnamed: 0,SC,RS,PR
moda,850.0,850.0,850.0
mediana,653.0,650.0,650.0
media,649.537653,651.105143,648.961294
desvio_padrao,97.233493,95.136598,98.607186


In [4]:
# Gerando o arquivo
df.to_json('submission.json')

In [5]:
df_1 = pd.read_json('submission.json')
df_1.head(10)

Unnamed: 0,SC,RS,PR
desvio_padrao,97.233493,95.136598,98.607186
media,649.537653,651.105143,648.961294
mediana,653.0,650.0,650.0
moda,850.0,850.0,850.0
