# Conhecendo melhor nossa base de consumidores: qual estado possui os clientes com melhores pontuações de crédito?

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores:
- `Média`
- `Moda`
- `Mediana`
- `Desvio Padrão` 

## Descrição dos dados:
- `id`: Identificador do cliente
- `sobrenome`: Sobrenome do cliente
- `pontuacao_credito`: Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
- `estado_residencia`: Estado de residência do cliente
- `genero`: Gênero do cliente
- `nivel_estabilidade`: Nível de estabilidade do cliente
- `saldo_conta`: Saldo disponível na conta do cliente
- `numero_produtos`: Número de produtos que o cliente consome
- `possui_cartao_de_credito`: Possui um cartão de crédito cadastrado
- `membro_ativo`: Membro acessa e consome frequentemente

*Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS*


## Explorando os Dados

In [1]:
import pandas as pd


df_clientes = pd.read_csv('desafio1.csv')
df_clientes.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [12]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   RowNumber                 7000 non-null   int64  
 1   id                        7000 non-null   object 
 2   sobrenome                 7000 non-null   object 
 3   pontuacao_credito         7000 non-null   int64  
 4   estado_residencia         7000 non-null   object 
 5   genero                    7000 non-null   object 
 6   idade                     7000 non-null   int64  
 7   nivel_estabilidade        7000 non-null   int64  
 8   saldo_conta               7000 non-null   float64
 9   numero_produtos           7000 non-null   int64  
 10  possui_cartao_de_credito  7000 non-null   int64  
 11  membro_ativo              7000 non-null   int64  
dtypes: float64(1), int64(7), object(4)
memory usage: 656.4+ KB


Como não há valores vazios/faltantes, segue o procedimento direto para a resolução de fato do que se pede.

In [81]:
df_clientes['pontuacao_credito'].describe()

count    7000.000000
mean      649.787000
std        97.046279
min       350.000000
25%       582.000000
50%       651.000000
75%       717.000000
max       850.000000
Name: pontuacao_credito, dtype: float64

## Resolvendo o problema

In [49]:
df_cliente_estado = df_clientes.groupby('estado_residencia')
result = df_cliente_estado.agg(**{
    'moda' : pd.NamedAgg('pontuacao_credito', pd.Series.mode),
    'mediana' : pd.NamedAgg('pontuacao_credito', 'median'),
    'media' : pd.NamedAgg('pontuacao_credito', 'mean'),
    'desvio_padrao' : pd.NamedAgg('pontuacao_credito', 'std')
})
result

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,850,650,648.961294,98.607186
RS,850,650,651.105143,95.136598
SC,850,653,649.537653,97.233493


Os três estados têm, portanto, pontuações de créditos similares com base nestas análises feitas.

In [53]:
result.to_json(orient='index', path_or_buf = 'test.json')