## **Análise Exploratória de Dados com dados reais**

# **1. Contexto**
<a id="section-1"></a>

A proposta desse projeto é realizar uma análise exploratória dos dados disponibilizados, para o curso de para Python para análise de Dados da EBAC.

Este conjunto de dados de um banco ou instituição financeira, com informações sobre os clientes e suas interações com o banco, além de analisar os gráficos e realizar insights ao final do projeto:

1. Perfil do cliente: Qual é a distribuição de idade, sexo, estado civil e nível de escolaridade dos clientes? Quais são os salários anuais médios dos clientes?

2. Comportamento do cliente: Quantos produtos, em média, um cliente possui? Qual é a quantidade média de transações que um cliente faz em 12 meses? Qual é o valor médio dessas transações?

3. Inatividade do cliente: Quantos clientes estão inativos há 12 meses? Existe alguma correlação entre a inatividade e outras variáveis, como salário anual ou limite de crédito?

O projeto está dividido nas seguintes etapas:

Importação de pacotes e blibiotecas

Exploração de dados

Manipulação

Visualização

Caso tenha alguma sugestão e/ou dúvida sobre o código ou o projeto como um todo

<a id="section-2"></a>
# **2. Pacotes e bibliotecas**

In [None]:
# instalando pacote geopandas no ambiente virtual

!pip3 install geopandas;

In [None]:
# importando bibliotecas

import csv
import json
import geopandas
import geopy
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from geopy.extra.rate_limiter import RateLimiter
from geopy.geocoders import Nominatim

<a id="section-3"></a>
# **3. Exploração de dados**

A exploração de dados é uma etapa fundamental , pois permite entender melhor os dados e identifiquem padrões e tendências.

<a id="section-3.1"></a>
# 3. 1.  Coleta de Dados

In [None]:
# lendo o arquivo csv
df = pd.read_csv('material.csv')

# visualizando as primeiras linhas do dataframe
print(df.head())

In [209]:
# extraindo dados brutos para um dict
with open('material.csv', mode='r', encoding='utf8') as file:
    reader = csv.DictReader(file)
    data = [row for row in reader]

In [211]:
# Adicione separadores de milhar:
if coluna in linha:
    coluna = coluna.replace(".", ",")
    coluna = coluna.replace(",", ".", 3)

    # Atualize a coluna:
    linha[linha.index(coluna)] = coluna

In [212]:
#checando quantidade de registros do arquivo
len(data)

10127

In [213]:
# extraindo exemplo para exploração
example = data[0]

In [214]:
# consultando chaves da estrutura
example.keys()

dict_keys(['id', 'default', 'idade', 'sexo', 'dependentes', 'escolaridade', 'estado_civil', 'salario_anual', 'tipo_cartao', 'meses_de_relacionamento', 'qtd_produtos', 'iteracoes_12m', 'meses_inativo_12m', 'limite_credito', 'valor_transacoes_12m', 'qtd_transacoes_12m'])

In [215]:
# explorando valores de cada chave estrutural
for key in example:
  print(key + ' ' + str(type(example[key])) + ' : ' + str(example[key]) + '\n')

id <class 'str'> : 768805383

default <class 'str'> : 0

idade <class 'str'> : 45

sexo <class 'str'> : M

dependentes <class 'str'> : 3

escolaridade <class 'str'> : ensino medio

estado_civil <class 'str'> : casado

salario_anual <class 'str'> : $60K - $80K

tipo_cartao <class 'str'> : blue

meses_de_relacionamento <class 'str'> : 39

qtd_produtos <class 'str'> : 5

iteracoes_12m <class 'str'> : 3

meses_inativo_12m <class 'str'> : 1

limite_credito <class 'str'> : 12.691,51

valor_transacoes_12m <class 'str'> : 1.144,90

qtd_transacoes_12m <class 'str'> : 42



In [216]:
example['tipo_cartao'][0]

'b'

<a id="section-3.2"></a>
# 3. 2. Data Wrangling

In [None]:
# criando dataframe pandas através dos dados brutos

id_df = pd.DataFrame(data)
id_df.head()

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,na,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


In [None]:
# realizando merge dos dados ajustados com o dataframe original

id_df = pd.merge(left=id_df, right=id_df, how='inner', left_index=True, right_index=True)
id_df.head()

Unnamed: 0,id_x,idade_x,sexo_x,dependentes_x,escolaridade_x,estado_civil_x,salario_anual_x,tipo_cartao_x,meses_de_relacionamento_x,qtd_produtos_x,...,estado_civil_y,salario_anual_y,tipo_cartao_y,meses_de_relacionamento_y,qtd_produtos_y,iteracoes_12m_y,meses_inativo_12m_y,limite_credito_y,valor_transacoes_12m_y,qtd_transacoes_12m_y
0,768805383,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,...,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,...,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,...,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,40,F,4,ensino medio,na,menos que $40K,blue,34,3,...,na,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,...,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


In [None]:
# Renomeando colunas integrando o x e y
id_df.rename(columns={
    'id_x': 'id',
    'default_x': 'default',
    'idade_x': 'idade',
    'sexo_x': 'sexo',
    'dependentes_x': 'dependentes',
    'escolaridade_x': 'escolaridade',
    'estado_civil_x': 'estado_civil',
    'salario_anual_x': 'salario_anual',
    'tipo_cartao_x': 'tipo_cartao',
    'meses_de_relacionamento_x': 'meses_de_relacionamento',
    'qtd_produtos_x': 'qtd_produtos',
    'iteracoes_12m_x': 'iteracoes_12m',
    'meses_inativo_12m_x': 'meses_inativo_12m',
    'limite_credito_x': 'limite_credito',
    'valor_transacoes_12m_x': 'valor_transacoes_12m',
    'qtd_transacoes_12m_x': 'qtd_transacoes_12m',
    'id_y': 'id',
    'default_y': 'default',
    'idade_y': 'idade',
    'sexo_y': 'sexo',
    'dependentes_y': 'dependentes',
    'escolaridade_y': 'escolaridade',
    'estado_civil_y': 'estado_civil',
    'salario_anual_y': 'salario_anual',
    'tipo_cartao_y': 'tipo_cartao',
    'meses_de_relacionamento_y': 'meses_de_relacionamento',
    'qtd_produtos_y': 'qtd_produtos',
    'iteracoes_12m_y': 'iteracoes_12m',
    'meses_inativo_12m_y': 'meses_inativo_12m',
    'limite_credito_y': 'limite_credito',
    'valor_transacoes_12m_y': 'valor_transacoes_12m',
    'qtd_transacoes_12m_y': 'qtd_transacoes_12m',
}, inplace=True)

# Removendo duplicações
id_df = id_df.drop_duplicates(subset=['id','idade','sexo', 'tipo_cartao','dependentes','escolaridade','estado_civil','salario_anual','tipo_cartao','meses_de_relacionamento','qtd_produtos','iteracoes_12m','meses_inativo_12m','limite_credito', 'valor_transacoes_12m', 'qtd_transacoes_12m'], keep='first')


In [None]:
# contagem de registros do dataframe original

len(id_df)

10127

<a id="section-3.3"></a>
# 3. 3. Estrutura

In [None]:
# checando contagem de linha e colunas do dataframe

id_df.shape

(10127, 31)

In [None]:
# checando colunas

id_df.columns

In [None]:
# checando índice

id_df.index

Int64Index([    0,     1,     2,     3,     4,     5,     6,     7,     8,
                9,
            ...
            10117, 10118, 10119, 10120, 10121, 10122, 10123, 10124, 10125,
            10126],
           dtype='int64', length=10127)

In [None]:
# informações adicionais com método info()

id_df.info()

<a id="section-3.4"></a>
# 3. 4. Schema

In [None]:
# análise schema no dataframe

In [None]:
# colunas e exemplos dos dados

id_df.head(n=10)

In [None]:
# colunas e seus respectivos tipos de dados

id_df.dtypes

id                      object
idade                   object
sexo                    object
dependentes             object
escolaridade            object
                         ...  
iteracoes_12m           object
meses_inativo_12m       object
limite_credito          object
valor_transacoes_12m    object
qtd_transacoes_12m      object
Length: 124, dtype: object

In [None]:
# método describe nas colunas categóricas

id_df.select_dtypes('object').describe().transpose()

Unnamed: 0,count,unique,top,freq
id,10127,10127,768805383,1
idade,10127,45,44,500
sexo,10127,2,F,5358
dependentes,10127,6,3,2732
escolaridade,10127,6,mestrado,3128
...,...,...,...,...
iteracoes_12m,10127,7,3,3380
meses_inativo_12m,10127,7,3,3846
limite_credito,10127,9272,"1.438,21",11
valor_transacoes_12m,10127,10035,"3.851,51",3


In [None]:
# Identifica as colunas numéricas
colunas_numericas = ['idade', 'meses_de_relacionamento', 'qtd_produtos', 'iteracoes_12m', 'meses_inativo_12m', 'limite_credito', 'valor_transacoes_12m', 'qtd_transacoes_12m']

# Converte as colunas numéricas com tratamento de vírgulas e tipos numéricos incompatíveis
for coluna in colunas_numericas:
    if pd.api.types.is_string_dtype(id_df[coluna]):  # Verifique se a coluna é string
        id_df[coluna] = pd.to_numeric(id_df[coluna].str.replace(',', '.'), errors='coerce')
    elif pd.api.types.is_numeric_dtype(id_df[coluna]):  # Verifique se a coluna é numérica
        id_df[coluna] = pd.to_numeric(id_df[coluna], errors='coerce', downcast='float')  # Force a conversão para float
    else:
        continue  # Ignore colunas não numéricas

# Verifica se as colunas foram convertidas corretamente
print(id_df.dtypes)

<a id="section-3.5"></a>
# 3. 5. Dados Faltantes

In [None]:
# checando existência de dados nulos / nan

id_df.isna().any()

id                      False
idade                   False
sexo                    False
dependentes             False
escolaridade            False
                        ...  
iteracoes_12m           False
meses_inativo_12m       False
limite_credito          False
valor_transacoes_12m    False
qtd_transacoes_12m      False
Length: 124, dtype: bool

<a id="section-4"></a>
# **4. Manipulação**

<a id="section-4.1"></a>
# 4. 1. Qualidade

In [None]:
# método info()
# checando contagem de valores não nulos e tipos de dados

id_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10127 entries, 0 to 10126
Columns: 124 entries, id to qtd_transacoes_12m
dtypes: object(124)
memory usage: 9.7+ MB


In [None]:
# checando porcentagem de valores NA na coluna id

100 * (id_df["meses_inativo_12m"].isna().sum() / len(id_df))

meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
meses_inativo_12m    0.0
dtype: float64

<a id="section-5"></a>
# **5. Visualização**

<a id="section-5.1"></a>
# 5. 1. Proporção de ganhos e gastos


In [223]:
id_df.index = range(len(id_df))

In [230]:
print(id_df.head())

          id idade sexo dependentes         escolaridade estado_civil  \
0  768805383    45    M           3         ensino medio       casado   
1  818770008    49    F           5             mestrado     solteiro   
2  713982108    51    M           3             mestrado       casado   
3  769911858    40    F           4         ensino medio           na   
4  709106358    40    M           3  sem educacao formal       casado   

    salario_anual tipo_cartao meses_de_relacionamento qtd_produtos  ...  \
0     $60K - $80K        blue                      39            5  ...   
1  menos que $40K        blue                      44            6  ...   
2    $80K - $120K        blue                      36            4  ...   
3  menos que $40K        blue                      34            3  ...   
4     $60K - $80K        blue                      21            5  ...   

  estado_civil   salario_anual tipo_cartao meses_de_relacionamento  \
0       casado     $60K - $80K        bl

In [None]:
if id_df.empty:
    raise ValueError("Data frame is empty. Please load data before plotting.")

In [231]:
data = pd.DataFrame(id_df[['escolaridade', 'salario_anual']].value_counts(normalize=True)).reset_index()
data.rename(columns={0: "id"}, inplace=True)

data.head()

ValueError: Grouper for 'escolaridade' not 1-dimensional