<p align="center">
    <img width=500 src="https://github.com/DanOliveira-DS/codenation/blob/master/semana%203/imgs/logo.png?raw=true">
</p>

# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.


## Detalhes

A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset.
O arquivo para submissão deve estar em formato json.

Descrição dos dados:

* 'id': Identificador do cliente
* 'sobrenome': Sobrenome do cliente
* 'pontuacao_credito': Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
* 'estado_residencia': Estado de residência do cliente
* 'genero': Gênero do cliente
* 'nivel_estabilidade': Nível de estabilidade do cliente
* 'saldo_conta': Saldo disponível na conta do cliente
* 'numero_produtos': Número de produtos que o cliente consome
* 'possui_cartao_de_credito': Possui um cartão de crédito cadastrado
* 'membro_ativo': Membro acessa e consome frequentemente

**Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS.** 

# Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np
from scipy import stats


In [2]:
# importando o conjunto de dados somente com a colunas que utilizarei para o desafio
cols = ['estado_residencia','pontuacao_credito']
df_stats = pd.read_csv("desafio1.csv", usecols=cols)
df_stats = df_stats[['estado_residencia','pontuacao_credito']]
df_stats.head()

Unnamed: 0,estado_residencia,pontuacao_credito
0,SC,619
1,RS,608
2,SC,502
3,SC,699
4,RS,850


In [3]:
# instanciando variável submit que vai conter resposta para desafio
submit = df_stats.groupby('estado_residencia')['pontuacao_credito'].agg([pd.Series.mode,'median','mean', 'std'])

In [4]:
# ordenando índice
submit = submit.sort_index(ascending=False)
# renomeando colunas
submit = submit.rename(columns = {"mode":"moda","median":"mediana","mean":"media","std":"desvio_padrao"})

In [5]:
# visualizando resposta
submit

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SC,850,653,649.537653,97.233493
RS,850,650,651.105143,95.136598
PR,850,650,648.961294,98.607186


In [6]:
# salvando arquivo no formato .json orientado ao índice
submit.to_json('submission.json', orient='index')