#**Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?**

#Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. Para realizar a verificação inicial, precisamos de alguns valores. Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

#Tópicos
Neste desafio você aprenderá:

*   Média;
*   Mediana;
*   Moda;
*   Desvio padrão.


#Detalhes
Detalhes
A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset. O arquivo para submissão deve estar em formato json, conforme o arquivo exemplo “submission.json”.

OBSERVAÇÃO: É recomendado utilizar Python e pandas para esse desafio, mas também é possível utilizar outras ferramentas e linguagens de programação.

Descrição dos dados: ‘id’: Identificador do cliente ‘sobrenome’: Sobrenome do cliente ‘pontuacao_credito’: Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente) ‘estado_residencia’: Estado de residência do cliente ‘genero’: Gênero do cliente ‘nivel_estabilidade’: Nível de estabilidade do cliente ‘saldo_conta’: Saldo disponível na conta do cliente ‘numero_produtos’: Número de produtos que o cliente consome ‘possui_cartao_de_credito’: Possui um cartão de crédito cadastrado ‘membro_ativo’: Membro acessa e consome frequentemente

Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS.

In [0]:
import pandas as pd
import numpy as np
import json

In [0]:
df = pd.read_csv('desafio1.csv')


In [0]:
df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [0]:
df.shape

(7000, 12)

In [0]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   RowNumber                 7000 non-null   int64  
 1   id                        7000 non-null   object 
 2   sobrenome                 7000 non-null   object 
 3   pontuacao_credito         7000 non-null   int64  
 4   estado_residencia         7000 non-null   object 
 5   genero                    7000 non-null   object 
 6   idade                     7000 non-null   int64  
 7   nivel_estabilidade        7000 non-null   int64  
 8   saldo_conta               7000 non-null   float64
 9   numero_produtos           7000 non-null   int64  
 10  possui_cartao_de_credito  7000 non-null   int64  
 11  membro_ativo              7000 non-null   int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 656.4+ KB


In [0]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
RowNumber,7000.0,3500.5,2020.870275,1.0,1750.75,3500.5,5250.25,7000.0
pontuacao_credito,7000.0,649.787,97.046279,350.0,582.0,651.0,717.0,850.0
idade,7000.0,38.892714,10.465562,18.0,32.0,37.0,44.0,92.0
nivel_estabilidade,7000.0,5.010286,2.8875,0.0,3.0,5.0,7.25,10.0
saldo_conta,7000.0,76471.883751,62403.383911,0.0,0.0,97277.13,127537.155,250898.09
numero_produtos,7000.0,1.526,0.583047,1.0,1.0,1.0,2.0,4.0
possui_cartao_de_credito,7000.0,0.703286,0.456842,0.0,0.0,1.0,1.0,1.0
membro_ativo,7000.0,0.512143,0.499888,0.0,0.0,1.0,1.0,1.0


In [0]:
def resposta(dataframe):
    estados = dataframe['estado_residencia'].unique()
    submissao = pd.read_json('submission.json', dtype='float')
    for i in estados:
        estado = dataframe[(dataframe['estado_residencia'] == i) ]['pontuacao_credito']
        submissao[i]['moda'] = estado.mode()
        submissao[i]['mediana'] = estado.median()
        submissao[i]['media'] = estado.mean()
        submissao[i]['desvio_padrao'] = estado.std()
    submissao.to_json('submission.json', double_precision=15)
    return submissao

In [0]:
resposta(df)

Unnamed: 0,SC,RS,PR
moda,850.0,850.0,850.0
mediana,653.0,650.0,650.0
media,649.537653,651.105143,648.961294
desvio_padrao,97.233493,95.136598,98.607186
