# Análise Exploratória

## Qual estado possui os clientes com melhores pontuações de crédito?

    Caro leitor, o objetivo deste desafio é realizar uma análise na pontuação de crédito. E como verificação inicial necessitamos explorar os valores para a média, a mediana, a moda e o desvio padrão da pontuação de crédito em cada estado. Deixo claro que há inúmeras formas que realizar este cálculo, aqui mostrei o que me cabe em conhecimento atualmente (confesso que não muito) mas talvez ajude, até breve ;)

In [94]:
import pandas as pd

In [95]:
credit_df = pd.read_csv('desafio1.csv')
credit_df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


### 1. O que faz cada comando?

A operação **groupby** agrupa os termos únicos contidos em _estado_residencia_ por todas as funções agregadas pelo método **agg**, sendo estas o desvio padrão, a mediana e a média (*std*, *median* e *mean*). Por fim, aplica-se esta operação apenas a coluna *pontuacao_credito*.

In [96]:
df1 = credit_df.groupby('estado_residencia').pontuacao_credito.agg(['median', 'mean', 'std'])

#### Observações relevantes!

1. A moda não é uma função naturalmente disponível no método **agg**, por isso faço uso de uma função auxiliar.

2. *lambda* é uma função anônima que pode receber qualquer número de argumentos, mas apenas uma única expressão.

3. É possível utilizar também *pd.Series.mode* desta função e aplicar diretamente no **agg**. :)

In [97]:
#Função que calcula a moda
mode_function = lambda x: x.mode()[0]

In [103]:
#Aplica a função criada a pontuação de crédito de cada estado
## Gera novo dataframe
df2 = pd.DataFrame(credit_df.groupby('estado_residencia').pontuacao_credito.apply(mode_function),
                   index=['PR', 'RS', 'SC'])

### 2. Deixando apresentável!

In [99]:
#Une os dois dataframes
submission = df2.join(df1)

In [100]:
#Altera o nome das colunas
submission.columns = ['moda', 'mediana', 'media', 'desvio_padrao']

In [101]:
#Define a ordem descendente para as colunas
submission.sort_values(by = ['moda', 'mediana', 'media', 'desvio_padrao'], ascending=False, inplace=True)

#Antes
submission

Unnamed: 0,moda,mediana,media,desvio_padrao
SC,850,653,649.537653,97.233493
RS,850,650,651.105143,95.136598
PR,850,650,648.961294,98.607186


In [102]:
#Salava em formato json
submission.to_json('submission.json', orient = 'index')

#Depois
submission.to_json()

'{"moda":{"SC":850,"RS":850,"PR":850},"mediana":{"SC":653,"RS":650,"PR":650},"media":{"SC":649.5376527423,"RS":651.1051428571,"PR":648.9612940497},"desvio_padrao":{"SC":97.2334927934,"RS":95.1365984138,"PR":98.6071859131}}'