## Exploracao e analise de dados de credito com SQL

|Variavel             |Descrição      |
|---------------------|:----------------:|
|idade                |idade do cliente |
|sexo                 |sexo do cliente (F ou M) |
|dependentes          |número de dependentes do cliente |
|escolaridade         |nível de escolaridade do clientes |
|salario_anual        |faixa salarial do cliente |
|tipo_cartao          |tipo de cartao do cliente |
|qtd_produtos         |quantidade de produtos comprados nos últimos 12 meses |
|iteracoes_12m        |quantidade de iterações/transacoes nos ultimos 12 meses |
|meses_inativo_12m    |quantidade de meses que o cliente ficou inativo |
|limite_credito       |limite de credito do cliente|
|valor_transacoes_12m |valor das transações dos ultimos 12 meses |
|qtd_transacoes_12m   |quantidade de transacoes dos ultimos 12 meses |


## Exploração de Dados

Neste projeto, realizaremos uma análise exploratória dos dados de uma instituição bancária, com os seguintes objetivos principais:

* Identificar a quantidade de clientes que possuem cartões de crédito das categorias Gold, Silver e Blue.

*Realizar uma análise descritiva do nível de escolaridade dos clientes, verificando se existe alguma correlação entre o nível educacional, o limite de crédito e o salário anual.

In [12]:
%%sql
-- lendo o conjunto de dataset no sql
select * from credito.csv;

Unnamed: 0,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,45,M,3,ensino medio,casado,$60K - $80K,blue,5,3,1,12691.51,1144.90,42
1,49,F,5,mestrado,solteiro,menos que $40K,blue,6,2,1,8256.96,1291.45,33
2,51,M,3,mestrado,casado,$80K - $120K,blue,4,0,1,3418.56,1887.72,20
3,40,F,4,ensino medio,na,menos que $40K,blue,3,1,4,3313.03,1171.56,20
4,40,M,3,sem educacao formal,casado,$60K - $80K,blue,5,0,1,4716.22,816.08,28
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2559,34,M,1,na,casado,$60K - $80K,blue,3,3,2,3890.30,1889.41,51
2560,55,M,3,mestrado,solteiro,$80K - $120K,blue,6,3,2,17198.56,4042.73,62
2561,53,M,4,ensino medio,casado,$120K +,blue,6,4,3,3401.79,1924.55,54
2562,37,M,1,na,casado,$60K - $80K,blue,6,2,1,18951.70,2874.56,58


In [25]:
%%sql
-- fazer a contagem da tabela
select count(*) from credito.csv

Unnamed: 0,count_star()
0,2564


fazendo a contagem do conjunto notamos que temos 2564 linhas na tabela acima


In [30]:
%%sql
-- ultilizando o metodo describe do sql para exibir a estrutura do conjunto de dados
DESCRIBE credito.csv

Unnamed: 0,column_name,column_type,null,key,default,extra
0,idade,BIGINT,YES,,,
1,sexo,VARCHAR,YES,,,
2,dependentes,BIGINT,YES,,,
3,escolaridade,VARCHAR,YES,,,
4,estado_civil,VARCHAR,YES,,,
5,salario_anual,VARCHAR,YES,,,
6,tipo_cartao,VARCHAR,YES,,,
7,qtd_produtos,BIGINT,YES,,,
8,iteracoes_12m,BIGINT,YES,,,
9,meses_inativo_12m,BIGINT,YES,,,


como podemos ve na tabela acima temos algums dados faltantes no tabela mais precisamente nas colunas key, default, extra

In [1]:
%%sql
-- removendo linhas duplicatas na tabela escolaridade
SELECT DISTINCT escolaridade FROM credito.csv

Unnamed: 0,escolaridade
0,doutorado
1,na
2,graduacao
3,mestrado
4,sem educacao formal
5,ensino medio


In [17]:
%%sql
-- fazendo um agrupamente salarial de cada pessoa
select count(*), salario_anual from credito.csv group by salario_anual

Unnamed: 0,count_star(),salario_anual
0,451,$60K - $80K
1,235,na
2,488,$80K - $120K
3,467,$40K - $60K
4,701,menos que $40K
5,222,$120K +


podemos ve na tabela acima que um grupo pessoas recebe menos que 40 mill anual
ja um outro grupo recebe mais de 70 mil anual


In [18]:
%%sql
-- fazendo um agrupamento de pessoas do sexo masculino e feminino
select count(*), sexo from credito.csv group by sexo

Unnamed: 0,count_star(),sexo
0,1563,M
1,1001,F


na tabela acima temos um grupo de pessoas M,F como na sua grande maioria e Maculino

In [19]:
%%sql
-- agora fazer uma correlacao com as informacoes acima
select max(limite_credito) as limite_credito, escolaridade, tipo_cartao, sexo from credito.csv
where escolaridade != 'na' and tipo_cartao != 'na'
group by escolaridade, tipo_cartao, sexo
order by limite_credito desc
limit 10

Unnamed: 0,limite_credito,escolaridade,tipo_cartao,sexo
0,34516.99,sem educacao formal,blue,M
1,34516.98,mestrado,gold,M
2,34516.97,mestrado,blue,M
3,34516.96,doutorado,platinum,F
4,34516.96,sem educacao formal,silver,M
5,34516.95,ensino medio,gold,M
6,34516.94,graduacao,gold,M
7,34516.94,graduacao,gold,F
8,34516.89,graduacao,silver,M
9,34516.74,ensino medio,blue,M


com toda analise descritiva feita acima, nessa tabela mostra as tabelas `limite_credito`, `escolaridade`, `tipo_cartao`, `sexo`,
com todas essas informacoes temos a conclusao que o nivel de escolaridade nao tem a ver limite de credito
provavelmente as pessoas sem formacao sao empressarios que nao concluiro o ensino medio

In [20]:
%%sql

select max(valor_transacoes_12m) as maior_valor_gasto, avg(valor_transacoes_12m) as media_valor_gasto, min(valor_transacoes_12m) as min_valor_gasto, sexo
from credito.csv
group by sexo

Unnamed: 0,maior_valor_gasto,media_valor_gasto,min_valor_gasto,sexo
0,4776.58,1839.622507,510.16,F
1,4686.93,1807.968004,530.36,M


analisando a media de valor gasto por pessoa na tabela acima mostra que nao temos uma media precisa
para fala quem gasta mais esta muito equilibrado os valores gasto por pessoas do sexo F,M em media 0,89% muito baixo nao
da para fazer um comparacao

In [21]:
%%sql
select avg(qtd_produtos) as qts_produtos, avg(valor_transacoes_12m) as media_valor_transacoes, avg(limite_credito) as media_limite, sexo, salario_anual
from credito.csv
where salario_anual != 'na'
group by sexo, salario_anual
order by avg(valor_transacoes_12m) desc

Unnamed: 0,qts_produtos,media_valor_transacoes,media_limite,sexo,salario_anual
0,4.394231,1963.671923,3452.403462,M,menos que $40K
1,4.291971,1878.297299,5753.310255,M,$40K - $60K
2,4.40871,1845.133149,4212.198744,F,menos que $40K
3,4.35255,1818.636341,9096.028337,M,$60K - $80K
4,4.440415,1781.429948,4773.446373,F,$40K - $60K
5,4.329918,1755.249877,14886.555717,M,$80K - $120K
6,4.328829,1701.465225,17801.488243,M,$120K +


por fim media de trancoes por cliente esta bem equilibraba para pessoas com media salarial
mas podemos nota que pessoas que recebe mais 120k nao customa esta gastando muito possa ser que essa pessoas esteja invertindo seu dinheiro
em algum ativo ou ne alguma carteira de invertimento.

In [None]:
%%sql
