# AN√ÅLISE EXPLORAT√ìRIA DE DADOS (EDA)
### A An√°lise Explorat√≥ria de Dados (EDA - Exploratory Data Analysis) √© uma abordagem inicial na ci√™ncia de dados usada para investigar, visualizar e resumir as principais caracter√≠sticas, padr√µes, anomalias e estruturas de um conjunto de dados.

OBJETIVO
- Carregar dados do SQLite
- An√°lise univariada (cada vari√°vel individualmente)
- An√°lise bivariada (rela√ß√£o com o target)
- Identificar padr√µes e insights
- Detectar outliers e anomalias
- Preparar para modelagem

PERGUNTAS QUE VAMOS RESPONDER:
- Como est√° distribu√≠da a inadimpl√™ncia?
- Quais caracter√≠sticas diferenciam adimplentes de inadimplentes?
- H√° correla√ß√µes importantes entre vari√°veis?
- Os dados est√£o balanceados?
- H√° valores at√≠picos?

In [None]:
import sqlite3
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as stats
import warnings
warnings.filterwarnings('ignore')

# Config de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10
%matplotlib inline

pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

print("="*80)
print("üîç AN√ÅLISE EXPLORAT√ìRIA DE DADOS (EDA)")
print("="*80)

print("\nüìÇ CARREGANDO DADOS...")

# Conecta ao banco
DB_PATH = 'data/database.db'
print(f"\nüìÅ Conectando ao banco: {DB_PATH}")

conn = sqlite3.connect(DB_PATH)

df = pd.read_sql("SELECT * FROM clientes", conn)
conn.close()

print(f"‚úÖ Dados carregados com sucesso!")
print(f"\nüìä Shape: {df.shape[0]:,} linhas √ó {df.shape[1]} colunas")

üîç AN√ÅLISE EXPLORAT√ìRIA DE DADOS (EDA)

üìÇ CARREGANDO DADOS...

üìÅ Conectando ao banco: data/database.db
‚úÖ Dados carregados com sucesso!

üìä Shape: 100,000 linhas √ó 17 colunas


In [None]:
from IPython.display import display

print("\n" + "="*80)
print("üìã 1. VIS√ÉO GERAL DOS DADOS")
print("="*80)

print("\nüìä Primeiras 5 linhas:")
display(df.head())

print("\nüìä √öltimas 5 linhas:")
display(df.tail())

print("\nüìä Informa√ß√µes das colunas:")
df.info()

print("\nüìä Estat√≠sticas descritivas (vari√°veis num√©ricas):")
display(df.describe().T)

# Seleciona apenas colunas categ√≥ricas
cat_df = df.select_dtypes(include=['object', 'category', 'bool'])

if not cat_df.empty:
    print("\nüìä Estat√≠sticas descritivas (vari√°veis categ√≥ricas):")
    display(cat_df.describe().T)
else:
    print("\n‚ö†Ô∏è N√£o h√° vari√°veis categ√≥ricas no DataFrame.")



üìã 1. VIS√ÉO GERAL DOS DADOS

üìä Primeiras 5 linhas:


Unnamed: 0,id_cliente,idade,genero,estado_civil,escolaridade,estado,renda_anual,valor_patrimonio,possui_imovel_proprio,possui_carro,ocupacao,numero_dependentes,tempo_emprego_atual,score_serasa_externo,utilizacao_limite_cartao,historico_atraso_90_dias,inadimplente
0,1,47,M,Divorciado,M√©dio,RJ,9059.86,50709.3,1,0,CLT,2,316,698,11.5,0,0
1,2,37,F,Casado,M√©dio,PR,40713.82,140855.24,1,1,CLT,1,356,389,65.6,2,1
2,3,49,M,Casado,M√©dio,BA,72448.95,318428.4,1,1,CLT,3,358,428,0.0,0,0
3,4,62,F,Casado,M√©dio,SP,42668.42,98233.0,1,1,CLT,3,34,560,77.55,1,0
4,5,36,M,Casado,Superior,RS,46197.81,187751.14,0,1,Aut√¥nomo,1,290,475,41.52,0,0



üìä √öltimas 5 linhas:


Unnamed: 0,id_cliente,idade,genero,estado_civil,escolaridade,estado,renda_anual,valor_patrimonio,possui_imovel_proprio,possui_carro,ocupacao,numero_dependentes,tempo_emprego_atual,score_serasa_externo,utilizacao_limite_cartao,historico_atraso_90_dias,inadimplente
99995,99996,36,M,Vi√∫vo,Superior,CE,1952.05,48636.58,0,0,CLT,0,262,874,56.37,0,0
99996,99997,31,F,Casado,Superior,MG,8769.78,28972.85,0,1,Aut√¥nomo,0,107,770,30.33,2,0
99997,99998,46,F,Casado,Fundamental,GO,41869.29,149848.13,1,1,Desempregado,0,0,674,4.08,0,0
99998,99999,36,F,Casado,M√©dio,RJ,72596.31,298021.38,1,1,CLT,1,289,537,1.51,0,0
99999,100000,41,F,Casado,Superior,MG,63380.97,327709.99,1,0,CLT,2,109,528,19.14,0,0



üìä Informa√ß√µes das colunas:
<class 'pandas.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 17 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   id_cliente                100000 non-null  int64  
 1   idade                     100000 non-null  int64  
 2   genero                    100000 non-null  str    
 3   estado_civil              100000 non-null  str    
 4   escolaridade              100000 non-null  str    
 5   estado                    100000 non-null  str    
 6   renda_anual               100000 non-null  float64
 7   valor_patrimonio          100000 non-null  float64
 8   possui_imovel_proprio     100000 non-null  int64  
 9   possui_carro              100000 non-null  int64  
 10  ocupacao                  100000 non-null  str    
 11  numero_dependentes        100000 non-null  int64  
 12  tempo_emprego_atual       100000 non-null  int64  
 13  score_serasa_externo   

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_cliente,100000.0,50000.5,28867.657797,1.0,25000.75,50000.5,75000.25,100000.0
idade,100000.0,40.00988,13.992178,18.0,29.0,40.0,50.0,80.0
renda_anual,100000.0,45177.053202,43174.173904,689.83,19008.105,32694.03,56266.1125,873983.11
valor_patrimonio,100000.0,215021.197379,260343.440356,6232.24,88587.5225,150690.92,259559.045,22306417.25
possui_imovel_proprio,100000.0,0.48535,0.499788,0.0,0.0,0.0,1.0,1.0
possui_carro,100000.0,0.44209,0.496638,0.0,0.0,0.0,1.0,1.0
numero_dependentes,100000.0,1.44726,1.162253,0.0,0.0,1.0,2.0,4.0
tempo_emprego_atual,100000.0,171.02031,108.352768,0.0,76.0,171.0,265.0,359.0
score_serasa_externo,100000.0,599.10467,143.588663,300.0,498.0,599.0,699.0,900.0
utilizacao_limite_cartao,100000.0,40.490085,23.619094,0.0,23.06,40.01,56.87,100.0



üìä Estat√≠sticas descritivas (vari√°veis categ√≥ricas):


Unnamed: 0,count,unique,top,freq
genero,100000,2,F,52229
estado_civil,100000,4,Casado,45068
escolaridade,100000,4,M√©dio,35102
estado,100000,10,SP,25007
ocupacao,100000,4,CLT,60113
