### Imports necessários

In [2]:
import pandas as pd
import json
import numpy as np
import seaborn as sns

In [3]:
# Carregando o dataset

df = pd.read_csv('desafio1.csv')

In [4]:
df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [5]:
# Observando o descritivo do dados
df.describe()

Unnamed: 0,RowNumber,pontuacao_credito,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
count,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0,7000.0
mean,3500.5,649.787,38.892714,5.010286,76471.883751,1.526,0.703286,0.512143
std,2020.870275,97.046279,10.465562,2.8875,62403.383911,0.583047,0.456842,0.499888
min,1.0,350.0,18.0,0.0,0.0,1.0,0.0,0.0
25%,1750.75,582.0,32.0,3.0,0.0,1.0,0.0,0.0
50%,3500.5,651.0,37.0,5.0,97277.13,1.0,1.0,1.0
75%,5250.25,717.0,44.0,7.25,127537.155,2.0,1.0,1.0
max,7000.0,850.0,92.0,10.0,250898.09,4.0,1.0,1.0


In [6]:
df.dtypes

RowNumber                     int64
id                           object
sobrenome                    object
pontuacao_credito             int64
estado_residencia            object
genero                       object
idade                         int64
nivel_estabilidade            int64
saldo_conta                 float64
numero_produtos               int64
possui_cartao_de_credito      int64
membro_ativo                  int64
dtype: object

In [7]:
# Lendo as colunas

df.columns

Index(['RowNumber', 'id', 'sobrenome', 'pontuacao_credito',
       'estado_residencia', 'genero', 'idade', 'nivel_estabilidade',
       'saldo_conta', 'numero_produtos', 'possui_cartao_de_credito',
       'membro_ativo'],
      dtype='object')

### Quantos estados há no dataset?

In [8]:
# Mostrar estados organizados de forma alfabética
estado = df['estado_residencia'].sort_values().unique()
estado

array(['PR', 'RS', 'SC'], dtype=object)

### Agrupando as informações requeridas

In [9]:
# Calculando as médias da pontuação por estado

media = df.groupby('estado_residencia')['pontuacao_credito'].mean()
media

estado_residencia
PR    648.961294
RS    651.105143
SC    649.537653
Name: pontuacao_credito, dtype: float64

In [10]:
# Calculando as medianas da pontuação por estado

mediana = df.groupby('estado_residencia')['pontuacao_credito'].median()
mediana

estado_residencia
PR    650
RS    650
SC    653
Name: pontuacao_credito, dtype: int64

In [11]:
# Calculando as modas da pontuação por estado

moda = df.groupby('estado_residencia')['pontuacao_credito'].agg(pd.Series.mode)
moda

estado_residencia
PR    850
RS    850
SC    850
Name: pontuacao_credito, dtype: int64

In [12]:
# Calculando os desvios da pontuação por estado

desvio = df.groupby('estado_residencia')['pontuacao_credito'].std()
desvio

estado_residencia
PR    98.607186
RS    95.136598
SC    97.233493
Name: pontuacao_credito, dtype: float64

In [13]:
# Criando um dicioonário para armazenar as informações

dic = {}

for i in range(len(estado)):
    dados = {'media':media[i], 'mediana':mediana[i], 'moda':moda[i], 'desvio_padrao':desvio[i]}
    dic.update({estado[i]:dados})

dic

{'PR': {'media': 648.9612940496822,
  'mediana': 650,
  'moda': 850,
  'desvio_padrao': 98.60718591309755},
 'RS': {'media': 651.1051428571428,
  'mediana': 650,
  'moda': 850,
  'desvio_padrao': 95.1365984138358},
 'SC': {'media': 649.5376527422563,
  'mediana': 653,
  'moda': 850,
  'desvio_padrao': 97.23349279343314}}

In [14]:
# Ver o dic em formato de dataframe

pd.DataFrame(dic)

Unnamed: 0,PR,RS,SC
media,648.961294,651.105143,649.537653
mediana,650.0,650.0,653.0
moda,850.0,850.0,850.0
desvio_padrao,98.607186,95.136598,97.233493


## Salvando o json para resposta do desafio

In [15]:
# Salvando o json por meio do dataframe

pd.DataFrame(dic).to_json('submission.json', orient='columns')

## Observações adicionais

**Qual a média da pontuação por sexo?**

In [27]:
media_genero = df.groupby('genero')['pontuacao_credito'].mean()
media_genero

genero
F    648.607666
M    650.785281
Name: pontuacao_credito, dtype: float64

**Qual a média da pontuação por sexo e por estado?**

In [17]:
media_genero2 = df.groupby(['genero', 'estado_residencia'])['pontuacao_credito'].mean()
media_genero2

genero  estado_residencia
F       PR                   648.570208
        RS                   649.738306
        SC                   648.067542
M       PR                   649.312500
        RS                   652.232534
        SC                   650.761979
Name: pontuacao_credito, dtype: float64

**Quem são mais ativos? Homens ou mulheres? e por região?**

In [18]:
ativoGeral = df.groupby(['genero'])['membro_ativo'].sum()
ativoGeral

genero
F    1611
M    1974
Name: membro_ativo, dtype: int64

In [19]:
ativoRegiao = df.groupby(['genero', 'estado_residencia'])['membro_ativo'].sum()
ativoRegiao

genero  estado_residencia
F       PR                   386
        RS                   409
        SC                   816
M       PR                   471
        RS                   514
        SC                   989
Name: membro_ativo, dtype: int64

**Qual grupo de idade tem mais pontuação de crédito?**

In [20]:
# Observando idades únicas

df['idade'].sort_values().unique()

array([18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 84, 85, 88,
       92])

In [21]:
# Criando 6 categorias

df['idadeIntervalo'] = pd.cut(df['idade'], bins=6)

In [22]:
df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo,idadeIntervalo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1,"(30.333, 42.667]"
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1,"(30.333, 42.667]"
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0,"(30.333, 42.667]"
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0,"(30.333, 42.667]"
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1,"(42.667, 55.0]"


In [23]:
mediaCat = df.groupby(['idadeIntervalo'])['pontuacao_credito'].mean()
mediaCat

idadeIntervalo
(17.926, 30.333]    648.915401
(30.333, 42.667]    650.946913
(42.667, 55.0]      647.424916
(55.0, 67.333]      648.164319
(67.333, 79.667]    660.085470
(79.667, 92.0]      654.600000
Name: pontuacao_credito, dtype: float64