# AceleraDev Data Science - Codenation | Conhecendo melhor nossa base de consumidores

### Bibliotecas básicas

In [1]:
import numpy as np
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

print(f'Versão Pandas: {pd.__version__}')
print(f'Versão Numpy: {np.__version__}')

Versão Pandas: 0.24.2
Versão Numpy: 1.17.4


### Dicionário dos dados

**id**: identificador do cliente.

**sobrenome**: sobrenome do cliente.

**pontuacao_credito**: pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente).

**estado_residencia**: estado de residência do cliente.

**genero**: gênero do cliente.

**nivel_estabilidade**: nível de estabilidade do cliente.

**saldo_conta**: saldo disponível na conta do cliente.

**numero_produtos**: número de produtos que o cliente consome.

**possui_cartao_de_credito**: possui um cartão de crédito cadastrado.

**membro_ativo**: membro acessa e consome frequentemente.

### Carregamento dos dados

In [2]:
data_orig = pd.read_csv('desafio1.csv')

### Cópia dos dados

In [3]:
data = data_orig.copy()

### Características dos dados

In [4]:
data.head(2).T

Unnamed: 0,0,1
RowNumber,1,2
id,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,28dcb083ad90512da16b9430085c2cddb8ca5e12
sobrenome,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,48e1ad846796fa314f1b4a6702b83343eb5482c5
pontuacao_credito,619,608
estado_residencia,SC,RS
genero,F,F
idade,42,41
nivel_estabilidade,2,1
saldo_conta,0,83807.9
numero_produtos,1,1


In [5]:
print(f'Linhas: {data.shape[0]} | Colunas: {data.shape[1]}')

Linhas: 7000 | Colunas: 12


In [6]:
print(f'Colunas presentes: {data.columns.values}')

Colunas presentes: ['RowNumber' 'id' 'sobrenome' 'pontuacao_credito' 'estado_residencia'
 'genero' 'idade' 'nivel_estabilidade' 'saldo_conta' 'numero_produtos'
 'possui_cartao_de_credito' 'membro_ativo']


In [7]:
print(f'Tipos dos dados: {data.dtypes.unique()}')

Tipos dos dados: [dtype('int64') dtype('O') dtype('float64')]


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7000 entries, 0 to 6999
Data columns (total 12 columns):
RowNumber                   7000 non-null int64
id                          7000 non-null object
sobrenome                   7000 non-null object
pontuacao_credito           7000 non-null int64
estado_residencia           7000 non-null object
genero                      7000 non-null object
idade                       7000 non-null int64
nivel_estabilidade          7000 non-null int64
saldo_conta                 7000 non-null float64
numero_produtos             7000 non-null int64
possui_cartao_de_credito    7000 non-null int64
membro_ativo                7000 non-null int64
dtypes: float64(1), int64(7), object(4)
memory usage: 656.3+ KB


### Estatística dos dados

In [9]:
data.drop(['RowNumber', 'possui_cartao_de_credito', 'membro_ativo'], axis=1).describe()

Unnamed: 0,pontuacao_credito,idade,nivel_estabilidade,saldo_conta,numero_produtos
count,7000.0,7000.0,7000.0,7000.0,7000.0
mean,649.787,38.892714,5.010286,76471.883751,1.526
std,97.046279,10.465562,2.8875,62403.383911,0.583047
min,350.0,18.0,0.0,0.0,1.0
25%,582.0,32.0,3.0,0.0,1.0
50%,651.0,37.0,5.0,97277.13,1.0
75%,717.0,44.0,7.25,127537.155,2.0
max,850.0,92.0,10.0,250898.09,4.0


In [10]:
data.drop(['id'], axis=1).describe(include='O')

Unnamed: 0,sobrenome,estado_residencia,genero
count,7000,7000,7000
unique,2448,3,2
top,96bcf8c98f94b6ace4a4b716cf0e3b32743a08b1,SC,M
freq,20,3519,3791


### Valores nulos

In [11]:
data_missing = pd.DataFrame({'nomes': data.columns, 
                             'tipos': data.dtypes, 
                             'NA #': data.isna().sum(),
                             'NA %': (data.isna().sum() / data.shape[0]) * 100
                            })

data_missing.set_index('nomes')

Unnamed: 0_level_0,tipos,NA #,NA %
nomes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RowNumber,int64,0,0.0
id,object,0,0.0
sobrenome,object,0,0.0
pontuacao_credito,int64,0,0.0
estado_residencia,object,0,0.0
genero,object,0,0.0
idade,int64,0,0.0
nivel_estabilidade,int64,0,0.0
saldo_conta,float64,0,0.0
numero_produtos,int64,0,0.0


### Dados duplicados

In [12]:
data_duplicated = pd.DataFrame({'nomes': data.columns, 
                                'tipos': data.dtypes, 
                                'duplicados #': data.duplicated().sum(),
                                'duplicados %': (data.duplicated().sum() / data.shape[0]) * 100
                            })

data_duplicated.set_index('nomes')

Unnamed: 0_level_0,tipos,duplicados #,duplicados %
nomes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RowNumber,int64,0,0.0
id,object,0,0.0
sobrenome,object,0,0.0
pontuacao_credito,int64,0,0.0
estado_residencia,object,0,0.0
genero,object,0,0.0
idade,int64,0,0.0
nivel_estabilidade,int64,0,0.0
saldo_conta,float64,0,0.0
numero_produtos,int64,0,0.0


### Análise da pontuação de crédito por estado

In [13]:
operations = {
    'moda' : pd.Series.mode,
    'mediana' : np.median,
    'media' : np.mean,   
    'desvio_padrao' : np.std  
}

result = data.groupby(['estado_residencia'])['pontuacao_credito'].agg(operations)
result

Unnamed: 0_level_0,moda,mediana,media,desvio_padrao
estado_residencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PR,850,650,648.961294,98.607186
RS,850,650,651.105143,95.136598
SC,850,653,649.537653,97.233493


In [14]:
result.index

Index(['PR', 'RS', 'SC'], dtype='object', name='estado_residencia')

### Gerando o json

In [15]:
result.to_json('submission.json', orient='index')