# Atividade sobre estatística

## Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. 
Para realizar a verificação inicial, precisamos de alguns valores.
Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

## Tópicos

Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.

## Requisitos

Você precisará de python 3.6 (ou superior).

O recomendado é você utilizar um [ambiente virtual](https://pythonacademy.com.br/blog/python-e-virtualenv-como-programar-em-ambientes-virtuais). Para isto, execute os comandos como no exemplo abaixo:

    pip3 install virtualenv
    virtualenv venv -p python3
    source venv/bin/activate 

Ao terminar o desafio, você pode sair do ambiente criado com o comando `deactivate`

## Detalhes

A resposta deve conter os valores da média, mediana, moda e desvio padrão da pontuação de crédito para cada estado do dataset.
O arquivo para submissão deve estar em formato json, conforme o arquivo exemplo "submission.json".

**OBSERVAÇÃO:**  É recomendado utilizar Python e pandas para esse desafio, mas também é possível utilizar outras ferramentas e linguagens de programação.

Descrição dos dados:
'id': Identificador do cliente
'sobrenome': Sobrenome do cliente
'pontuacao_credito': Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)
'estado_residencia': Estado de residência do cliente
'genero': Gênero do cliente
'nivel_estabilidade': Nível de estabilidade do cliente
'saldo_conta': Saldo disponível na conta do cliente
'numero_produtos': Número de produtos que o cliente consome
'possui_cartao_de_credito': Possui um cartão de crédito cadastrado
'membro_ativo': Membro acessa e consome frequentemente

Obs: Os dados são fictícios, mas tentam representar a realidade de uma base de clientes de um produto SaaS

In [2]:
{"SC": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}, "RS": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}, "PR": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}}

{'SC': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0},
 'RS': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0},
 'PR': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0}}

In [3]:
#Importando os pacotes
import pandas as pd 
import numpy as np


In [4]:
df = pd.read_csv('desafio1.csv')

In [5]:
df.head(5)

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [6]:
df.columns

Index(['RowNumber', 'id', 'sobrenome', 'pontuacao_credito',
       'estado_residencia', 'genero', 'idade', 'nivel_estabilidade',
       'saldo_conta', 'numero_produtos', 'possui_cartao_de_credito',
       'membro_ativo'],
      dtype='object')

### Analisando os dados

In [7]:
#Medidas totais
df['pontuacao_credito'].describe()

count    7000.000000
mean      649.787000
std        97.046279
min       350.000000
25%       582.000000
50%       651.000000
75%       717.000000
max       850.000000
Name: pontuacao_credito, dtype: float64

In [8]:
#Medidas por estado

analise = pd.DataFrame(df.groupby('estado_residencia')['pontuacao_credito'].agg(['mean', 'median', lambda x: x.mode(),'std']))

analise

Unnamed: 0_level_0,mean,median,<lambda_0>,std
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,648.961294,650,850,98.607186
RS,651.105143,650,850,95.136598
SC,649.537653,653,850,97.233493


In [9]:
#mudando o nome das colunas
analise.columns = [ 'media', 'mediana', 'moda', 'desvio_padrao']

analise

Unnamed: 0_level_0,media,mediana,moda,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,648.961294,650,850,98.607186
RS,651.105143,650,850,95.136598
SC,649.537653,653,850,97.233493


### Organizando para o envio 

In [10]:
#fazendo a transposta

analise=analise.transpose()

analise

estado_residencia,PR,RS,SC
media,648.961294,651.105143,649.537653
mediana,650.0,650.0,653.0
moda,850.0,850.0,850.0
desvio_padrao,98.607186,95.136598,97.233493


In [11]:
#Invertendo para colocar na ordem que esta a questão 

analise = analise.reindex((analise.columns.sort_values(ascending=False)), axis=1)

analise

estado_residencia,SC,RS,PR
media,649.537653,651.105143,648.961294
mediana,653.0,650.0,650.0
moda,850.0,850.0,850.0
desvio_padrao,97.233493,95.136598,98.607186


### Salvando os dados

In [12]:
analise.to_json('submission1.json', orient='columns')
analise.to_json(orient='columns')


'{"SC":{"media":649.5376527423,"mediana":653.0,"moda":850.0,"desvio_padrao":97.2334927934},"RS":{"media":651.1051428571,"mediana":650.0,"moda":850.0,"desvio_padrao":95.1365984138},"PR":{"media":648.9612940497,"mediana":650.0,"moda":850.0,"desvio_padrao":98.6071859131}}'

# Fazendo outras análises com os dados

  - Qual relação de salário com  créditos?

In [13]:
df

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.00,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.80,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.00,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...
6995,6996,3e607c788c09d6e1f99cc50575e471fee41a322a,ef547badb8b0801d06a93155cc052341c749d1c0,633,SC,F,32,1,104001.38,1,0,1
6996,6997,2afdb40334e1bef3451f3db02b12c255c7a9ff57,e3eb2eea41a60b08392da20a49543d05ac484255,623,RS,F,50,2,87116.71,1,1,1
6997,6998,6a0589e36c12f95a8d3678b460519ed654fe0a3e,e65e12a7eb4e0b15e6d3afb127ce38c0a5303188,611,SC,M,68,5,82547.11,2,1,1
6998,6999,c042de909a1fb157765c84c3278d8e6500807367,a52bbf77611eab47a6eff8641a1a9bd01006acbe,666,RS,F,47,5,0.00,1,0,0


In [21]:
aux=df
aux = aux.drop(columns=['RowNumber','numero_produtos','possui_cartao_de_credito','membro_ativo'])
aux

Unnamed: 0,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta
0,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.00
1,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86
2,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.80
3,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.00
4,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82
...,...,...,...,...,...,...,...,...
6995,3e607c788c09d6e1f99cc50575e471fee41a322a,ef547badb8b0801d06a93155cc052341c749d1c0,633,SC,F,32,1,104001.38
6996,2afdb40334e1bef3451f3db02b12c255c7a9ff57,e3eb2eea41a60b08392da20a49543d05ac484255,623,RS,F,50,2,87116.71
6997,6a0589e36c12f95a8d3678b460519ed654fe0a3e,e65e12a7eb4e0b15e6d3afb127ce38c0a5303188,611,SC,M,68,5,82547.11
6998,c042de909a1fb157765c84c3278d8e6500807367,a52bbf77611eab47a6eff8641a1a9bd01006acbe,666,RS,F,47,5,0.00


In [22]:
aux.corr(method = 'spearman')

Unnamed: 0,pontuacao_credito,idade,nivel_estabilidade,saldo_conta
pontuacao_credito,1.0,-0.004167,0.006912,0.01264
idade,-0.004167,1.0,-0.005723,0.032826
nivel_estabilidade,0.006912,-0.005723,1.0,-0.018372
saldo_conta,0.01264,0.032826,-0.018372,1.0
