# Objetivo

Queremos conhecer melhor nossos clientes por estado. Para isso, iniciamos uma análise na pontuação de crédito. Para realizar a verificação inicial, precisamos de alguns valores. Os valores são a média, a mediana, a moda e o desvio padrão da pontuação de crédito.

# Descrição dos dados:

'id': Identificador do cliente

'sobrenome': Sobrenome do cliente

'pontuacao_credito': Pontuação de crédito do cliente (quanto maior, melhor o cliente geralmente)

'estado_residencia': Estado de residência do cliente

'genero': Gênero do cliente

'nivel_estabilidade': Nível de estabilidade do cliente

'saldo_conta': Saldo disponível na conta do cliente

'numero_produtos': Número de produtos que o cliente consome

'possui_cartao_de_credito': Possui um cartão de crédito cadastrado

'membro_ativo': Membro acessa e consome frequentemente

In [1]:
import pandas as pd
import numpy as np
from scipy.stats import mode
import matplotlib as plt
import seaborn as sns
%matplotlib inline  

In [2]:
df = pd.read_csv("desafio1.csv")

In [3]:
df.head(5)

Unnamed: 0,RowNumber,id,sobrenome,pontuacao_credito,estado_residencia,genero,idade,nivel_estabilidade,saldo_conta,numero_produtos,possui_cartao_de_credito,membro_ativo
0,1,e7f44fcbd380d4cef7e6c232cc7e37895c3fd197,6d6e0aa1b9b413e442e2fb68df14b4fc3f91de50,619,SC,F,42,2,0.0,1,1,1
1,2,28dcb083ad90512da16b9430085c2cddb8ca5e12,48e1ad846796fa314f1b4a6702b83343eb5482c5,608,RS,F,41,1,83807.86,1,0,1
2,3,774bc378f787438c9c7594e536787d07a097a54b,f2b29d5d934de615812b697132e767dea0f1e9e2,502,SC,F,42,8,159660.8,3,1,0
3,4,043a71326f7096de155e7f0c559dc62b5e4b7239,85d5c9da7cddd8109ad32a6c348fe2bb10bf99f2,699,SC,F,39,1,0.0,2,0,0
4,5,37b3bb8ca243955fb3605ec7e1c2a4607cdb3b22,ddc89c837a6933639de75f28171057060bd322df,850,RS,F,43,2,125510.82,1,1,1


In [4]:
df.shape

(7000, 12)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
#Quantidade de clientes de cada sexo por Estado

sexo_estado = df.groupby(['estado_residencia', 'genero']).agg({'id':'count'})
sexo_estado

In [None]:
sexo_estado.plot(kind = 'bar', title = "Gênero do cliente por Estado")

In [None]:
#Número de membros ativos por sexo em cada Estado

sexo_ativo = df.groupby(['estado_residencia', 'genero', 'membro_ativo']).agg({'id':'count'})
sexo_ativo

In [None]:
#Média de idade de cada gênero por Estado

sexo_idade = df.groupby(['estado_residencia', 'genero']).agg({'idade':'mean'}).round()
sexo_idade

In [None]:
sexo_idade.plot(kind = 'bar', title = 'Média de idade x Gênero x Estado', legend=False)

In [None]:
#Número de clientes por Estado

cliente_estado = df.groupby('estado_residencia').agg({'id':'count'})
cliente_estado

In [None]:
cliente_estado.plot(kind = 'bar', title = 'Clientes por Estado', legend=False)

In [None]:
#Membro igual a 1: acessa e consome frequentemente
#Quantidade de membros ativos e inativos por estado

ativo_estado = df.groupby(['estado_residencia', 'membro_ativo']).agg({'id':'count'})
ativo_estado

In [None]:
ativo_estado.plot(kind = 'bar', title = 'Membro ativo e inativo por Estado', legend=False)

In [None]:
#DataFrame auxiliar apenas com os dados de pontuacao_credito e estado_residencia

df_estado_credito = df[['pontuacao_credito','estado_residencia']]
df_estado_credito

In [None]:
#DataFrame com os dados de quantidade de clientes por Estado e média, mediana, moda e desvio padrão da pontuação de credito

pontuacao_estado = df.groupby('estado_residencia').agg({'id': 'count','pontuacao_credito':['mean', 'median', pd.Series.mode, 'std']})
pontuacao_estado

In [None]:
#DataFrame apenas com média, mediana, moda e desvio padrão da pontuação de crédito por Estado

df_to_json = pontuacao_estado['pontuacao_credito']
df_to_json.columns = ['media','mediana','moda','desvio_padrao']
df_to_json

In [None]:
# Criando o Json de Submissão

df_to_json.to_json('submission.json', orient='index')

In [None]:
pd.read_json('submission.json')

# Pontuação de crédito

Considerando:

Score entre 701 e 1.000 pontos: Baixo risco de inadimplência

Score entre 301 e 700 pontos: Médio risco de inadimplência

Score entre 0 e 300 pontos: Alto risco de inadimplência

In [None]:
df['score'] = ['alto' if x > 701 else 'baixo' if x<301 else 'medio' for x in df['pontuacao_credito']]
df.head()

In [None]:
#Em cada tipo de score (alto e médio) quantos membros são ativos e inativos em cada Estado

ativo_score = df.groupby(['estado_residencia','score']).agg({'membro_ativo':'count'})
ativo_score

In [None]:
ativo_score.plot(kind ='bar', title = 'Membros ativos e inativos por Score em cada Estado')

In [None]:
#Quantidade de clientes por sexo

cliente_sexo = df.groupby('genero').agg({'id':'count'})
cliente_sexo

In [None]:
#Quantidade de membros por Score em cada  gênero

sexo_score = df.groupby(['genero', 'score']).agg({'id':'count'})
sexo_score

# Correlação 

In [None]:
df[['pontuacao_credito', 'saldo_conta']].corr()

In [None]:
sns.scatterplot(x='pontuacao_credito', y='saldo_conta', data= df)

In [None]:
df.corr()

In [None]:
df_aux = df._get_numeric_data()

In [None]:
sns.heatmap(df_aux, annot=True)