# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.

## Requisitos

Você precisará de python 3.6 (ou superior).

O recomendado é você utilizar um [ambiente virtual](https://pythonacademy.com.br/blog/python-e-virtualenv-como-programar-em-ambientes-virtuais). Para isto, execute os comandos como no exemplo abaixo:

    pip3 install virtualenv
    virtualenv venv -p python3
    source venv/bin/activate 

Ao terminar o desafio, você pode sair do ambiente criado com o comando `deactivate`

## Detalhes

A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset.
O arquivo para submissão deve estar em formato json, conforme o arquivo exemplo "submission.json".

**OBSERVAÇÃO:**  É recomendado utilizar Python e pandas para esse desafio, mas também é possível utilizar outras ferramentas e linguagens de programação.

Descrição dos dados:
'id': Identificador do cliente
'sobrenome': Sobrenome do cliente
'pontuacao_credito': Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
'estado_residencia': Estado de residência do cliente
'genero': Gênero do cliente
'nivel_estabilidade': Nível de estabilidade do cliente
'saldo_conta': Saldo disponível na conta do cliente
'numero_produtos': Número de produtos que o cliente consome
'possui_cartao_de_credito': Possui um cartão de crédito cadastrado
'membro_ativo': Membro acessa e consome frequentemente

Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS. 


In [1]:
import pandas as pd 
import numpy as np 

In [2]:
credito = pd.read_csv('desafio1.csv')

Autenticação com o google colab 

In [3]:
#from google.colab import drive 
#drive.mount('/content/drive')

In [4]:
#credito = pd.read_csv('/content/drive/My Drive/Data Science/coestatistica-1/desafio1.csv', index_col=0, sep=",", encoding='ISO-8859-1')

In [5]:
credito.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


Verificando os tipos de variáveis 

In [6]:
credito. dtypes

RowNumber                     int64
id                           object
sobrenome                    object
pontuacao_credito             int64
estado_residencia            object
genero                       object
idade                         int64
nivel_estabilidade            int64
saldo_conta                 float64
numero_produtos               int64
possui_cartao_de_credito      int64
membro_ativo                  int64
dtype: object

Verificando o tamanho do dataframe

In [7]:
credito.shape

(7000, 12)

Verificar dados nulos 

In [8]:
credito.isna().sum()

RowNumber                   0
id                          0
sobrenome                   0
pontuacao_credito           0
estado_residencia           0
genero                      0
idade                       0
nivel_estabilidade          0
saldo_conta                 0
numero_produtos             0
possui_cartao_de_credito    0
membro_ativo                0
dtype: int64

In [9]:
credito.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   RowNumber                 7000 non-null   int64  
 1   id                        7000 non-null   object 
 2   sobrenome                 7000 non-null   object 
 3   pontuacao_credito         7000 non-null   int64  
 4   estado_residencia         7000 non-null   object 
 5   genero                    7000 non-null   object 
 6   idade                     7000 non-null   int64  
 7   nivel_estabilidade        7000 non-null   int64  
 8   saldo_conta               7000 non-null   float64
 9   numero_produtos           7000 non-null   int64  
 10  possui_cartao_de_credito  7000 non-null   int64  
 11  membro_ativo              7000 non-null   int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 656.4+ KB


In [10]:
credito.describe()

Unnamed: 0,RowNumber,pontuacao_credito,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
count,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0
mean,3500.5,649.787,38.892714,5.010286,76471.883751,1.526,0.703286,0.512143
std,2020.870275,97.046279,10.465562,2.8875,62403.383911,0.583047,0.456842,0.499888
min,1.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0
25%,1750.75,582.0,32.0,3.0,0.0,1.0,0.0,0.0
50%,3500.5,651.0,37.0,5.0,97277.13,1.0,1.0,1.0
75%,5250.25,717.0,44.0,7.25,127537.155,2.0,1.0,1.0
max,7000.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0


In [11]:
credito.estado_residencia.value_counts()

SC    3519
RS    1750
PR    1731
Name: estado_residencia, dtype: int64

 **Questão 1**

In [14]:
credito_final = credito.groupby('estado_residencia')['pontuacao_credito'].agg([
      pd.Series.mode,
      pd.Series.median,
      pd.Series.mean,  
      pd.Series.std])

In [15]:
credito_final.columns = ['moda', 'mediana', 'media','desvio_padrao']


In [16]:
credito_final

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,850,650,648.961294,98.607186
RS,850,650,651.105143,95.136598
SC,850,653,649.537653,97.233493


In [17]:
credito_final.T

estado_residencia,PR,RS,SC
moda,850.0,850.0,850.0
mediana,650.0,650.0,653.0
media,648.961294,651.105143,649.537653
desvio_padrao,98.607186,95.136598,97.233493


In [18]:
credito_final.T.to_json('submission.json')