## Gabriella Pinheiro

In [16]:
# --------------------------------------------------------------
# Trabalho Final - Métodos e Ferramentas de Data Science
# Análise das finanças pessoais dos moradores de São Paulo
# --------------------------------------------------------------

# Importação de bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# --------------------------------------------------------------
# ETAPA 1: Carregamento da base de dados
# --------------------------------------------------------------

# Leitura do arquivo Excel com os dados da pesquisa
dados = pd.read_excel("dados_trab_final.xlsx")  # Substitua pelo caminho correto se necessário
dados.head()  # Exibe as primeiras linhas do DataFrame para verificar os dados
dados.info()  # Exibe informações gerais sobre o DataFrame, como tipos de dados e valores nulos



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 15 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ID            600 non-null    int64  
 1   Idade         600 non-null    int64  
 2   Sexo          600 non-null    object 
 3   Renda         600 non-null    object 
 4   Escolaridade  600 non-null    object 
 5   Q1            600 non-null    int64  
 6   Q2            600 non-null    int64  
 7   Q3            600 non-null    int64  
 8   Q4            600 non-null    int64  
 9   Q5            600 non-null    int64  
 10  Q6            600 non-null    int64  
 11  Conh_fin      600 non-null    int64  
 12  Alfab_fin     600 non-null    float64
 13  Seg_fin       600 non-null    float64
 14  Stress_fin    600 non-null    float64
dtypes: float64(3), int64(9), object(3)
memory usage: 70.4+ KB


In [None]:
# --------------------------------------------------------------
# A. ESTATÍSTICAS DESCRITIVAS DA BASE DE DADOS
# --------------------------------------------------------------

# Neste passo, calculamos medidas de posição (média, mínimo, Q1, mediana, Q3 e máximo)
# e medidas de dispersão (amplitude e desvio padrão) para as variáveis quantitativas da base.

# --------------------------------------------------------------
# Variáveis quantitativas da base:
# São aquelas que têm natureza numérica contínua ou discreta com muitos valores distintos,
# permitindo operações como média, desvio padrão e correlação.
#
# Com base na descrição e análise da base, as variáveis quantitativas são:
# 1. Idade         – idade do respondente (número inteiro)
# 2. Conh_fin      – conhecimento financeiro (escala de 0 a 7)
# 3. Alfab_fin     – alfabetização financeira (escala de 0 a 10)
# 4. Seg_fin       – percepção de segurança financeira (escala de 0 a 10)
# 5. Stress_fin    – percepção de estresse financeiro (escala de 0 a 10)
#
# As variáveis Q1 a Q6, apesar de numéricas (0 ou 1), são categóricas binárias e
# não devem ser incluídas nas estatísticas quantitativas (são analisadas via frequências).
# --------------------------------------------------------------

# Lista das variáveis quantitativas
variaveis_quant = ['Idade', 'Conh_fin', 'Alfab_fin', 'Seg_fin', 'Stress_fin']

# Usamos o método describe() para obter estatísticas descritivas das variáveis numéricas
desc_stats = dados[variaveis_quant].describe(percentiles=[.25, .5, .75]).T

# Adicionamos a amplitude manualmente: máximo - mínimo
desc_stats["amplitude"] = desc_stats["max"] - desc_stats["min"]

# Renomeamos colunas para português
desc_stats = desc_stats.rename(columns={
    "mean": "média",
    "std": "desvio_padrão",
    "min": "mínimo",
    "25%": "Q1",
    "50%": "mediana",
    "75%": "Q3",
    "max": "máximo"
})

# Exibimos a tabela com as estatísticas formatadas
print("Estatísticas descritivas das variáveis quantitativas:\n")
print(desc_stats[['média', 'mínimo', 'Q1', 'mediana', 'Q3', 'máximo', 'amplitude', 'desvio_padrão']])


# --------------------------------------------------------------
# Frequências absolutas e relativas das variáveis qualitativas
# --------------------------------------------------------------

# As variáveis qualitativas da base são aquelas que representam categorias ou grupos,
# como sexo, renda e escolaridade. Elas são do tipo nominal ou ordinal e devem ser
# analisadas por meio de frequências (número de ocorrências).

# Variáveis qualitativas da base:
# - Sexo: masculino / feminino
# - Renda: baixa / média / alta
# - Escolaridade: ensino fundamental / médio / superior

# Definimos as variáveis qualitativas
variaveis_qual = ['Sexo', 'Renda', 'Escolaridade']

# Para cada variável qualitativa, exibimos:
# - Frequência absoluta: número de ocorrências de cada categoria
# - Frequência relativa: proporção de cada categoria em relação ao total (em %)
for var in variaveis_qual:
    print(f"\nFrequência da variável: {var}")
    print("Frequência absoluta:")
    print(df[var].value_counts())
    print("Frequência relativa:")
    print(df[var].value_counts(normalize=True).round(3))





Estatísticas descritivas das variáveis quantitativas:

                média  mínimo    Q1  mediana    Q3  máximo  amplitude  \
Idade       35.901667    25.0  31.0     36.0  41.0    49.0       24.0   
Conh_fin     4.161667     0.0   3.0      4.0   6.0     7.0        7.0   
Alfab_fin    5.853500     1.1   4.3      6.0   7.3     9.9        8.8   
Seg_fin      5.664000     2.0   4.0      5.6   7.2    10.0        8.0   
Stress_fin   5.199333     2.0   3.6      5.2   6.4    10.0        8.0   

            desvio_padrão  
Idade            5.942012  
Conh_fin         1.993026  
Alfab_fin        2.000756  
Seg_fin          2.169366  
Stress_fin       1.907021  

Frequência da variável: Sexo
Frequência absoluta:
Sexo
feminino     328
masculino    272
Name: count, dtype: int64
Frequência relativa:
Sexo
feminino     0.547
masculino    0.453
Name: proportion, dtype: float64

Frequência da variável: Renda
Frequência absoluta:
Renda
baixa    271
media    182
alta     147
Name: count, dtype: int64
Fr

In [None]:


# Seleção das variáveis numéricas da base de dados
variaveis_quant = ['Idade', 'Conh_fin', 'Alfab_fin', 'Seg_fin', 'Stress_fin']

# Cálculo das estatísticas básicas: média, desvio padrão, mínimo, Q1, mediana, Q3, máximo
desc_stats = df[variaveis_quant].describe(percentiles=[.25, .5, .75]).T
desc_stats['amplitude'] = desc_stats['max'] - desc_stats['min']

# Renomeando colunas para facilitar a leitura
desc_stats = desc_stats.rename(columns={
    'mean': 'média',
    'std': 'desvio_padrão',
    'min': 'mínimo',
    '25%': 'Q1',
    '50%': 'mediana',
    '75%': 'Q3',
    'max': 'máximo'
})

# Exibindo a tabela com as estatísticas
print("Estatísticas descritivas das variáveis quantitativas:\n")
print(desc_stats[['média', 'mínimo', 'Q1', 'mediana', 'Q3', 'máximo', 'amplitude', 'desvio_padrão']])


In [None]:

# --------------------------------------------------------------
# ETAPA 3: Frequências das variáveis qualitativas
# --------------------------------------------------------------

variaveis_qual = ['Sexo', 'Renda', 'Escolaridade']

# Laço para calcular e mostrar as frequências absolutas e relativas
for var in variaveis_qual:
    print(f"\nFrequência da variável: {var}")
    print("Frequência absoluta:")
    print(df[var].value_counts())
    print("Frequência relativa:")
    print(df[var].value_counts(normalize=True).round(3))


In [None]:

# --------------------------------------------------------------
# ETAPA 4: Matriz de correlação entre variáveis quantitativas
# --------------------------------------------------------------

# Cálculo da matriz de correlação de Pearson
matriz_correlacao = df[variaveis_quant].corr()

# Exibição da matriz
print("\nMatriz de correlação entre variáveis quantitativas:\n")
print(matriz_correlacao)


In [None]:

# --------------------------------------------------------------
# ETAPA 5: Gráficos exploratórios
# --------------------------------------------------------------

# Estilo dos gráficos
sns.set(style="whitegrid")

# Gráfico 1: Diagrama de barras da variável Renda
plt.figure()
sns.countplot(data=df, x='Renda')
plt.title("Distribuição da Renda")
plt.xlabel("Renda")
plt.ylabel("Frequência")
plt.show()

# Gráfico 2: Diagrama de barras da variável Escolaridade
plt.figure()
sns.countplot(data=df, x='Escolaridade')
plt.title("Distribuição da Escolaridade")
plt.xlabel("Escolaridade")
plt.ylabel("Frequência")
plt.show()

# Gráfico 3: Boxplot - Alfabetização Financeira por Renda
plt.figure()
sns.boxplot(data=df, x='Renda', y='Alfab_fin')
plt.title("Alfabetização Financeira por Renda")
plt.xlabel("Renda")
plt.ylabel("Alfabetização Financeira")
plt.show()

# Gráfico 4: Boxplot - Estresse Financeiro por Escolaridade
plt.figure()
sns.boxplot(data=df, x='Escolaridade', y='Stress_fin')
plt.title("Estresse Financeiro por Escolaridade")
plt.xlabel("Escolaridade")
plt.ylabel("Estresse Financeiro")
plt.show()

# Gráfico 5: Dispersão - Segurança Financeira vs Alfabetização Financeira
plt.figure()
sns.scatterplot(data=df, x='Alfab_fin', y='Seg_fin', hue='Renda')
plt.title("Segurança Financeira vs Alfabetização Financeira")
plt.xlabel("Alfabetização Financeira")
plt.ylabel("Segurança Financeira")
plt.legend(title="Renda")
plt.show()


In [None]:

# --------------------------------------------------------------
# ETAPA 6: Análise com uso da função groupby
# --------------------------------------------------------------

# Análise: Conhecimento financeiro médio por Renda
analise_renda = df.groupby("Renda")["Conh_fin"].mean().reset_index()

# Exibição dos resultados
print("\nConhecimento financeiro médio por Renda:\n")
print(analise_renda)

# Interpretação:
# - Participantes com renda ALTA têm maior conhecimento financeiro médio.
# - Isso pode estar relacionado a maior acesso à educação, planejamento e recursos.
