<a href="https://colab.research.google.com/github/silviolima07/Codenation-Data-Science/blob/master/desafio_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Desafio 1
# Conhecendo melhor nossa base de consumidores: 
# qual estado possui os clientes com melhores pontuações de crédito?

# Objetivo
Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. Para realizar a verificação inicial, precisamos de alguns valores. Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

Tópicos
Neste desafio você aprenderá:

- Média;
- Mediana;
- Moda;
- Desvio padrão.

In [0]:
#!pip install seaborn
# Carregando os pacotes
import pandas as pd
import numpy as np
import seaborn as sns
sns.set(color_codes=True)
import matplotlib.pyplot as plt

# Evitar que aparece os warnings
import warnings
warnings.filterwarnings("ignore")

# Seta algumas opções no Jupyter para exibição dos datasets
#pd.set_option('display.max_columns', 200)
#pd.set_option('display.max_rows', 200)

In [0]:
def start():
    options = {
        'display': {
            'max_columns': None,
            'max_colwidth': 25,
            'expand_frame_repr': False,  # Don't wrap to multiple pages
            'max_rows': 14,
            'max_seq_items': 50,         # Max length of printed sequence
            'precision': 2,
            'show_dimensions': False
        },
        'mode': {
            'chained_assignment': None   # Controls SettingWithCopyWarning
        }
    }

    for category, option in options.items():
        for op, value in option.items():
            pd.set_option(f'{category}.{op}', value)  # Python 3.6+

In [0]:
start()

In [0]:
# Funcao para reducao da memoria utilizada
def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

In [0]:
# Funcao para realizar a leitura dos arquivos
def read_data():
     
        print('Carregando os arquivos...')
        data = pd.read_csv('desafio1.csv', encoding='latin')
        data = reduce_mem_usage(data)
        print('desafio1.csv tem {} linhas e {} colunas'.format(data.shape[0], data.shape[1]))
    
        return data

In [0]:
# Funcao para retornar a média, mediana, moda e desvio padrao por Estado de residencia da pontuacao de credtio
def pontua(dados):
    media = df2.groupby(dados.estado_residencia).mean()/1.0
    mediana = df2.groupby(dados.estado_residencia).median()/1.0
    des_pad = df2.groupby(dados.estado_residencia).std()/1.0
    mode = df2.groupby(dados.estado_residencia).pontuacao_credito.apply((lambda x: x.mode()))/1.0
    return media.pontuacao_credito, mediana.pontuacao_credito, des_pad.pontuacao_credito,mode

In [0]:
df = read_data()

Carregando os arquivos...
Mem. usage decreased to  0.30 Mb (53.1% reduction)
desafio1.csv tem 7000 linhas e 12 colunas


In [0]:
df.head()

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c...,6d6e0aa1b9b413e442e2f...,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9...,48e1ad846796fa314f1b4...,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c759...,f2b29d5d934de615812b6...,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7...,85d5c9da7cddd8109ad32...,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605...,ddc89c837a6933639de75...,850,RS,F,43,2,125510.82,1,1,1


In [0]:
colunas = df.columns
colunas

Index(['RowNumber', 'id', 'sobrenome', 'pontuacao_credito',
       'estado_residencia', 'genero', 'idade', 'nivel_estabilidade',
       'saldo_conta', 'numero_produtos', 'possui_cartao_de_credito',
       'membro_ativo'],
      dtype='object')

In [0]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
RowNumber,7000.0,3500.5,2020.87,1.0,1750.75,3500.5,5250.25,7000.0
pontuacao_credito,7000.0,649.79,97.05,350.0,582.0,651.0,717.0,850.0
idade,7000.0,38.89,10.47,18.0,32.0,37.0,44.0,92.0
nivel_estabilidade,7000.0,5.01,2.89,0.0,3.0,5.0,7.25,10.0
saldo_conta,7000.0,76471.88,62403.38,0.0,0.0,97277.13,127537.15,250898.09
numero_produtos,7000.0,1.53,0.58,1.0,1.0,1.0,2.0,4.0
possui_cartao_de_credito,7000.0,0.7,0.46,0.0,0.0,1.0,1.0,1.0
membro_ativo,7000.0,0.51,0.5,0.0,0.0,1.0,1.0,1.0


In [0]:
df2 = df[['estado_residencia','pontuacao_credito']]


In [0]:
media, mediana, desv_pad, mode = pontua(df2)



In [0]:
media_list = list(media)
mediana_list = list(mediana)
dp_list = list(desv_pad)
moda_list = list(mode)

In [0]:
media

estado_residencia
PR    648.96
RS    651.11
SC    649.54
Name: pontuacao_credito, dtype: float64

In [0]:
# Create DataFrame
data = {'estado_residencia':['PR', 'RS', 'SC'], 'moda':moda_list, 'mediana':mediana_list,'media': media_list,'desvio_padrao':dp_list} 
df3 = pd.DataFrame(data) 

In [0]:
df3

Unnamed: 0,estado_residencia,moda,mediana,media,desvio_padrao
0,PR,850.0,650.0,648.96,98.61
1,RS,850.0,650.0,651.11,95.14
2,SC,850.0,653.0,649.54,97.23


In [0]:
#from scipy import stats
#df2.groupby('estado_residencia').pontuacao_credito.apply(stats.mode)
#mode = df2.groupby('estado_residencia').pontuacao_credito.apply((lambda x: x.mode()))

In [0]:
# Formato para submissao
{"SC": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}, 
 "RS": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}, 
 "PR": {"moda": 0.0, "mediana": 0.0, "media": 0.0, "desvio_padrao": 0.0}}

{'SC': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0},
 'RS': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0},
 'PR': {'moda': 0.0, 'mediana': 0.0, 'media': 0.0, 'desvio_padrao': 0.0}}

In [0]:
df3[['moda','mediana','media','desvio_padrao']].to_json ('submission.json', orient='records')

In [0]:
# Incluir a sigla de cada Estado no arquivo json gerado na célula anterior
df_final = {'PR':{"moda":850.0,"mediana":650.0,"media":648.9612940497,"desvio_padrao":98.6071859131},
 'RS':{"moda":850.0,"mediana":650.0,"media":651.1051428571,"desvio_padrao":95.1365984138},
 'SC':{"moda":850.0,"mediana":653.0,"media":649.5376527423,"desvio_padrao":97.2334927934}}

In [0]:
df_final

{'PR': {'moda': 850.0,
  'mediana': 650.0,
  'media': 648.9612940497,
  'desvio_padrao': 98.6071859131},
 'RS': {'moda': 850.0,
  'mediana': 650.0,
  'media': 651.1051428571,
  'desvio_padrao': 95.1365984138},
 'SC': {'moda': 850.0,
  'mediana': 653.0,
  'media': 649.5376527423,
  'desvio_padrao': 97.2334927934}}