# Aula 01: Revelando Padrões com Dados - Análise Real com Python

### Objetivo da Aula

- Mostrar como dados reais podem revelar padrões e informações valiosas.
- Ensinar as principais métricas estatísticas (média, mediana, moda, variância) de forma prática.
- Introduzir a biblioteca Pandas de uma maneira intuitiva.
- Despertar a sua curiosidade para o poder da análise de dados!

### Materiais Necessários

- Computador/Notebook com Python instalado
- Jupyter Notebook ou Google Colab
- Biblioteca Pandas (`!pip install pandas`)
- O dataset que vamos usar (código abaixo)

### Célula 1: Importação de Bibliotecas e Carregamento dos Dados

In [32]:
import pandas as pd

# Dados simulados de despesas familiares
# Em um cenário real, poderíamos carregar de um arquivo CSV com pd.read_csv('arquivo.csv')
df = pd.read_csv('EconomiasCasa.csv')

# Vamos converter a coluna 'Data' para o formato de data, que é uma boa prática
df['Data'] = pd.to_datetime(df['Data'])

### Célula 2: Apresentação do Dataset (5 minutos)

Vamos dar uma primeira olhada nos dados para entender sua estrutura.

In [33]:
# Mostra as 5 primeiras linhas do nosso dataset
print("=== 5 Primeiras Linhas do Dataset ===")
display(df.head())

=== 5 Primeiras Linhas do Dataset ===


Unnamed: 0,Data,Descrição,Categoria,Valor (R$)
0,2025-01-01,Lanche de Ano Novo na padaria,Alimentação,"R$45,50"
1,2025-01-02,Compras de hortifruti na feira,Alimentação,"R$75,20"
2,2025-01-03,Corrida de Uber para o trabalho,Transporte,"R$18,90"
3,2025-01-04,Compras da semana - Supermercado,Alimentação,"R$580,70"
4,2025-01-05,Aluguel - Janeiro,Moradia,"R$2.200,00"


In [34]:
# O método .info() nos dá um resumo, incluindo tipos de dados e valores nulos
print("\n=== Informações Gerais e Tipos de Dados ===")
df.info()


=== Informações Gerais e Tipos de Dados ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123 entries, 0 to 122
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Data        123 non-null    datetime64[ns]
 1   Descrição   123 non-null    object        
 2   Categoria   123 non-null    object        
 3   Valor (R$)  123 non-null    object        
dtypes: datetime64[ns](1), object(3)
memory usage: 4.0+ KB


In [None]:
# Tranformar os dados de Valor de object string (texto) para números
df['Valor (R$)'] = df['Valor (R$)'].str.replace('R$', '', regex=False)
df['Valor (R$)'] = df['Valor (R$)'].str.replace('.', '', regex=False)  
df['Valor (R$)'] = df['Valor (R$)'].str.replace(',', '.', regex=False)  
df['Valor (R$)'] = pd.to_numeric(df['Valor (R$)'])

In [36]:
df.head()

Unnamed: 0,Data,Descrição,Categoria,Valor (R$)
0,2025-01-01,Lanche de Ano Novo na padaria,Alimentação,45.5
1,2025-01-02,Compras de hortifruti na feira,Alimentação,75.2
2,2025-01-03,Corrida de Uber para o trabalho,Transporte,18.9
3,2025-01-04,Compras da semana - Supermercado,Alimentação,580.7
4,2025-01-05,Aluguel - Janeiro,Moradia,2200.0


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123 entries, 0 to 122
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Data        123 non-null    datetime64[ns]
 1   Descrição   123 non-null    object        
 2   Categoria   123 non-null    object        
 3   Valor (R$)  123 non-null    float64       
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 4.0+ KB


### Célula 3: Análise Exploratória - Primeiros Insights (5 min)

O comando `.describe()` é uma ferramenta fantástica para obter um resumo estatístico rápido das colunas numéricas.

In [38]:
# Gera estatísticas descritivas para a coluna de Valor
print("=== Resumo Estatístico da Coluna 'Valor (R$)' ===")
display(df['Valor (R$)'].describe())

=== Resumo Estatístico da Coluna 'Valor (R$)' ===


count     123.000000
mean      278.921138
std       439.525734
min         5.500000
25%        45.250000
50%       125.600000
75%       249.900000
max      2200.000000
Name: Valor (R$), dtype: float64

### Célula 4: Análise Exploratória - Estatísticas (5 min)

Vamos nos aprofundar nas métricas centrais para entender melhor o comportamento de gastos desta família.

In [45]:
# Modificando as métricas para melhor interpretação
metricas = pd.DataFrame({
    'Métrica': ['Média', 'Mediana', 'Valor mais frequente', 'Desvio Padrão', 'Coef. de Variação (%)', 'Total'],
    'Valor (R$)': [
        f'R$ {df["Valor (R$)"].mean():.2f}',
        f'R$ {df["Valor (R$)"].median():.2f}',
        f'R$ {df["Valor (R$)"].mode().iloc[0]:.2f}',
        f'R$ {df["Valor (R$)"].std():.2f}',  # Substituindo variância por desvio padrão
        f'{(df["Valor (R$)"].std() / df["Valor (R$)"].mean() * 100):.2f}%',  # Coeficiente de variação
        f'R$ {df["Valor (R$)"].sum():.2f}'
    ]
})

# Exibindo a tabela de métricas com formatação
print("=== Métricas Gerais de Gastos ===")
display(metricas)

=== Métricas Gerais de Gastos ===


Unnamed: 0,Métrica,Valor (R$)
0,Média,R$ 278.92
1,Mediana,R$ 125.60
2,Valor mais frequente,R$ 249.90
3,Desvio Padrão,R$ 439.53
4,Coef. de Variação (%),157.58%
5,Total,R$ 34307.30


In [None]:
# Tabela 3: Maiores e Menores Gastos
print("\n=== Maiores e Menores Gastos ===")
maiores = df.nlargest(5, 'Valor (R$)')[['Data', 'Categoria', 'Descrição', 'Valor (R$)']]
menores = df.nsmallest(5, 'Valor (R$)')[['Data', 'Categoria', 'Descrição', 'Valor (R$)']]

# Format the currency values
maiores = maiores.copy()
maiores['Valor (R$)'] = maiores['Valor (R$)'].apply(lambda x: f"R$ {x:.2f}")

menores = menores.copy()
menores['Valor (R$)'] = menores['Valor (R$)'].apply(lambda x: f"R$ {x:.2f}")

print("\n=== As 5 Maiores Despesas ===")
display(maiores)

print("\n=== As 5 Menores Despesas ===")
display(menores)


=== Maiores e Menores Gastos ===

=== As 5 Maiores Despesas ===


Unnamed: 0,Data,Categoria,Descrição,Valor (R$)
4,2025-01-05,Moradia,Aluguel - Janeiro,R$ 2200.00
35,2025-02-05,Moradia,Aluguel - Fevereiro,R$ 2200.00
64,2025-03-05,Moradia,Aluguel - Março,R$ 2200.00
96,2025-04-05,Moradia,Aluguel - Abril,R$ 2200.00
10,2025-01-10,Saúde,Plano de Saúde Familiar,R$ 1100.00



=== As 5 Menores Despesas ===


Unnamed: 0,Data,Categoria,Descrição,Valor (R$)
50,2025-02-19,Transporte,Passagem de ônibus municipal,R$ 5.50
79,2025-03-19,Transporte,Passagem de ônibus,R$ 5.50
23,2025-01-23,Alimentação,Café e pão de queijo,R$ 18.00
2,2025-01-03,Transporte,Corrida de Uber para o trabalho,R$ 18.90
91,2025-03-31,Alimentação,Café na padaria,R$ 19.50


### Célula 5: Análise Exploratória - O que os Dados Podem Revelar (5 min)

Vamos agora agrupar os dados para responder a perguntas mais específicas.

In [42]:
# Qual categoria tem o maior gasto total?
# Agrupamos por 'Categoria', somamos os 'Valores' e ordenamos
gastos_por_categoria = df.groupby('Categoria')['Valor (R$)'].sum().sort_values(ascending=False)

print("=== Gasto Total por Categoria (R$) ===")
display(gastos_por_categoria)

=== Gasto Total por Categoria (R$) ===


Categoria
Moradia              8800.0
Saúde                5477.7
Alimentação          5345.8
Educação             3875.3
Transporte           3678.6
Lazer                2475.6
Contas               2398.0
Vestuário            1029.7
Casa                  520.2
Outros                495.8
Cuidados Pessoais     210.6
Name: Valor (R$), dtype: float64

In [43]:
# Análise detalhada por categoria
print("=== Análise Detalhada por Categoria de Gasto ===")

# Lista de métricas a serem calculadas
metricas_categoria = df.groupby('Categoria').agg({
    'Valor (R$)': ['sum', 'mean', 'median', 'count', 'min', 'max', 'std']
})

# Renomear as colunas para facilitar a leitura
metricas_categoria.columns = ['Total', 'Média', 'Mediana', 'Quantidade', 'Menor Valor', 'Maior Valor', 'Desvio Padrão']
metricas_categoria = metricas_categoria.round(2).sort_values(by='Total', ascending=False)

# Formate valores como moeda para melhor visualização
for coluna in ['Total', 'Média', 'Mediana', 'Menor Valor', 'Maior Valor', 'Desvio Padrão']:
    metricas_categoria[coluna] = metricas_categoria[coluna].apply(lambda x: f'R$ {x:.2f}')

# Exibir a tabela formatada
display(metricas_categoria)

=== Análise Detalhada por Categoria de Gasto ===


Unnamed: 0_level_0,Total,Média,Mediana,Quantidade,Menor Valor,Maior Valor,Desvio Padrão
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Moradia,R$ 8800.00,R$ 2200.00,R$ 2200.00,4,R$ 2200.00,R$ 2200.00,R$ 0.00
Saúde,R$ 5477.70,R$ 497.97,R$ 200.00,11,R$ 45.00,R$ 1100.00,R$ 481.67
Alimentação,R$ 5345.80,R$ 140.68,R$ 58.00,38,R$ 18.00,R$ 950.00,R$ 207.57
Educação,R$ 3875.30,R$ 645.88,R$ 850.00,6,R$ 25.00,R$ 850.00,R$ 343.63
Transporte,R$ 3678.60,R$ 216.39,R$ 180.00,17,R$ 5.50,R$ 700.00,R$ 250.11
Lazer,R$ 2475.60,R$ 145.62,R$ 129.90,17,R$ 30.00,R$ 350.00,R$ 96.78
Contas,R$ 2398.00,R$ 199.83,R$ 217.92,12,R$ 125.60,R$ 249.90,R$ 54.01
Vestuário,R$ 1029.70,R$ 257.42,R$ 214.90,4,R$ 149.90,R$ 450.00,R$ 132.56
Casa,R$ 520.20,R$ 130.05,R$ 102.60,4,R$ 65.00,R$ 250.00,R$ 82.13
Outros,R$ 495.80,R$ 82.63,R$ 85.00,6,R$ 25.80,R$ 150.00,R$ 49.79


In [44]:
# Análise da frequência de cada categoria (% do total)
total_gastos = df['Valor (R$)'].sum()
percentual_categoria = df.groupby('Categoria')['Valor (R$)'].sum() / total_gastos * 100

print("\n=== Percentual do Orçamento por Categoria ===")
percentual_df = pd.DataFrame({
    'Categoria': percentual_categoria.index,
    'Percentual (%)': percentual_categoria.values.round(2),
    'Valor Total (R$)': df.groupby('Categoria')['Valor (R$)'].sum().values.round(2)
}).sort_values(by='Percentual (%)', ascending=False)

# Formatação para exibição
percentual_df['Percentual (%)'] = percentual_df['Percentual (%)'].apply(lambda x: f'{x:.2f}%')
percentual_df['Valor Total (R$)'] = percentual_df['Valor Total (R$)'].apply(lambda x: f'R$ {x:.2f}')

display(percentual_df)


=== Percentual do Orçamento por Categoria ===


Unnamed: 0,Categoria,Percentual (%),Valor Total (R$)
6,Moradia,25.65%,R$ 8800.00
8,Saúde,15.97%,R$ 5477.70
0,Alimentação,15.58%,R$ 5345.80
4,Educação,11.30%,R$ 3875.30
9,Transporte,10.72%,R$ 3678.60
5,Lazer,7.22%,R$ 2475.60
2,Contas,6.99%,R$ 2398.00
10,Vestuário,3.00%,R$ 1029.70
1,Casa,1.52%,R$ 520.20
7,Outros,1.45%,R$ 495.80


### Descobertas e Discussão (5 minutos)

Após nossa análise, o que descobrimos sobre os hábitos financeiros desta família?

- **Despesas Fixas Dominam:** Aluguel, plano de saúde e gastos escolares são os "vilões" do orçamento, representando os maiores gastos individuais.

- **Relevância da Alimentação:** Apesar de não ter o maior gasto individual, a soma dos gastos com alimentação a torna uma das categorias mais importantes.

- **Cuidado com as Pequenas Compras:** Os pequenos gastos diários (café, passagem de ônibus) parecem inofensivos, mas sua frequência pode levar a um montante considerável.

- **O Perigo da Média:** Vimos que a média pode ser enganosa. A mediana e a variância nos deram uma visão muito mais precisa dos gastos por categoria.

### Desafio

Agora é sua vez de ser analisar dados!

**Datasets Sugeridos:**
1. Gorjetas em um Restaurante (Tips):
   ```python
   !pip install seaborn

   import seaborn as sns
   
   df_tips = sns.load_dataset('tips')
   print(df_tips.head())
   ```

2. Filmes do IMDb: Procure por "IMDb movies dataset" no Kaggle.

**Missão:** Escolha um dos datasets e encontre 3 insights interessantes usando as métricas e ferramentas que aprendemos hoje.