# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.

## Requisitos

Você precisará de python 3.6 (ou superior).

O recomendado é você utilizar um [ambiente virtual](https://pythonacademy.com.br/blog/python-e-virtualenv-como-programar-em-ambientes-virtuais). Para isto, execute os comandos como no exemplo abaixo:

    pip3 install virtualenv
    virtualenv venv -p python3
    source venv/bin/activate 

Ao terminar o desafio, você pode sair do ambiente criado com o comando `deactivate`

## Detalhes

A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset.
O arquivo para submissão deve estar em formato json, conforme o arquivo exemplo "submission.json".

**OBSERVAÇÃO:**  É recomendado utilizar Python e pandas para esse desafio, mas também é possível utilizar outras ferramentas e linguagens de programação.

Descrição dos dados:
'id': Identificador do cliente
'sobrenome': Sobrenome do cliente
'pontuacao_credito': Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
'estado_residencia': Estado de residência do cliente
'genero': Gênero do cliente
'nivel_estabilidade': Nível de estabilidade do cliente
'saldo_conta': Saldo disponível na conta do cliente
'numero_produtos': Número de produtos que o cliente consome
'possui_cartao_de_credito': Possui um cartão de crédito cadastrado
'membro_ativo': Membro acessa e consome frequentemente

Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS. 

# RESPOSTA DESAFIO
1. Verificação do dataset
2. Análise exploratória

## Verificação do dataset

In [1]:
import pandas as pd
from IPython.display import display

In [2]:
df = pd.read_csv('desafio1.csv')
print("Formato dos dados:")
display(df.head(5))

print(df.shape)

print("\nDescritivo da base:\n")
display(df.info())


print("\nEstatísticas básicas:")
display(df.describe())

Formato dos dados:


Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


(7000, 12)

Descritivo da base:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   RowNumber                 7000 non-null   int64  
 1   id                        7000 non-null   object 
 2   sobrenome                 7000 non-null   object 
 3   pontuacao_credito         7000 non-null   int64  
 4   estado_residencia         7000 non-null   object 
 5   genero                    7000 non-null   object 
 6   idade                     7000 non-null   int64  
 7   nivel_estabilidade        7000 non-null   int64  
 8   saldo_conta               7000 non-null   float64
 9   numero_produtos           7000 non-null   int64  
 10  possui_cartao_de_credito  7000 non-null   int64  
 11  membro_ativo              7000 non-null   int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 656.4+ KB


None


Estatísticas básicas:


Unnamed: 0,RowNumber,pontuacao_credito,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
count,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0
mean,3500.5,649.787,38.892714,5.010286,76471.883751,1.526,0.703286,0.512143
std,2020.870275,97.046279,10.465562,2.8875,62403.383911,0.583047,0.456842,0.499888
min,1.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0
25%,1750.75,582.0,32.0,3.0,0.0,1.0,0.0,0.0
50%,3500.5,651.0,37.0,5.0,97277.13,1.0,1.0,1.0
75%,5250.25,717.0,44.0,7.25,127537.155,2.0,1.0,1.0
max,7000.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0


## Análise exploratória
Responder as seguintes perguntas:
1. Quantidade de clientes únicos.
2. Clientes por estado.
3. Média, Mediana, Moda e Desvio padrão das  variáveis numéricar por estado



In [3]:
num_clientes = df['id'].nunique()
print("1. Número de clientes únicos: ", num_clientes)

1. Número de clientes únicos:  7000


In [4]:
num_estados = df['estado_residencia'].value_counts()
print("2. Clientes por estado: ")
num_estados

2. Clientes por estado: 


SC    3519
RS    1750
PR    1731
Name: estado_residencia, dtype: int64

In [7]:
import scipy
from scipy import stats
lst_var_estatisc = ['estado_residencia', 'pontuacao_credito','idade', 'nivel_estabilidade',
       'saldo_conta', 'numero_produtos', 'possui_cartao_de_credito',
       'membro_ativo']

df_est_estado = df[['estado_residencia', 'pontuacao_credito']]


print('3. Resposta final, onde lambda_0 é a moda:')
df_est_estado.groupby('estado_residencia').agg({'pontuacao_credito':['mean', 'median', 
                                                                     lambda x: scipy.stats.mode(x)[0], 
                                                                     'std']})
                              
        

3. Resposta final, onde lambda_0 é a moda:


Unnamed: 0_level_0,pontuacao_credito,pontuacao_credito,pontuacao_credito,pontuacao_credito
Unnamed: 0_level_1,mean,median,<lambda_0>,std
estado_residencia,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
PR,648.961294,650,850,98.607186
RS,651.105143,650,850,95.136598
SC,649.537653,653,850,97.233493
