
# Aula 1 — Variáveis e Dados Tabulares com pandas
**Curso:** Introdução à Análise de Dados com Python (Ciências Sociais)  
**Data:** 11/08/2025

**Nesta aula você vai:**
- Carregar as bibliotecas necessárias (pandas, numpy, matplotlib).
- Entender o que são **casos (linhas)** e **variáveis (colunas)**; o que é **N**.
- Diferenciar **tipos de variáveis** (categóricas e numéricas).
- Ver a **estrutura tabular** dos dados.
- Criar e explorar seu **primeiro DataFrame** no pandas.



## Por que aprender isso?
Responder perguntas em Ciências Sociais quase sempre envolve **dados**. Pesquisas de opinião,
PNAD/IBGE, registros administrativos — tudo costuma chegar para nós em **tabelas**.
Saber **identificar variáveis**, reconhecer seus **tipos** e manipular **DataFrames** é o primeiro passo
para fazer boas análises e bons gráficos.


## Carregando bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (



## Casos, variáveis e **N**
- **Caso (linha):** a unidade que estamos observando (uma pessoa entrevistada, um município, um domicílio).
- **Variável (coluna):** um atributo medido em cada caso (idade, escolaridade, religião, renda).
- **N:** número de casos (linhas) no nosso conjunto de dados.

> Ex.: numa pesquisa com 1.200 entrevistas, **N = 1.200**.



## Tipos de variáveis (para começar)
- **Categóricas:** indicam grupos/categorias. Exemplos: sexo (feminino/masculino), religião (católica/evangélica/sem religião).
- **Numéricas (quantitativas):** permitem operações matemáticas. Exemplos: idade em anos, renda mensal, número de filhos.

> Nota: às vezes variáveis que **parecem** números (ex.: CPF, CEP) **não** são numéricas para análise; tratamos como **categóricas/strings**.


## Mini-Quizz

Classifique como **categórica** ou **numérica**:

1. Número de crianças em uma creche  
2. Sessão eleitoral (código da seção)  
3. Estado civil  
4. Distância até a escola (em km)  
5. CPF

<details>
<summary><b>Ver gabarito</b></summary>

1. Numérica (contagem inteira)  
2. Identificador (não fazemos operaçnoes matemáticas)  
3. Categórica  
4. Numérica (contínua)  
5. Identificador (não fazemos operaçnoes matemáticas) 

</details>


## Estrutura tabular (DataFrame)
- **Linha = caso**  
- **Coluna = variável**  
- **Célula = medida de uma variável em um caso**

Vamos criar um pequeno banco **fictício** de pesquisa de opinião (10 entrevistas) para praticar.


## Nosso primeiro DataFrame (fictício)

In [3]:
dados = {
    "id": range(1, 11),  # identificador do caso (1 a 10)
    "sexo": ["feminino", "masculino", "feminino", "feminino", "masculino",
             "feminino", "masculino", "masculino", "feminino", "masculino"],
    "idade": [19, 34, 27, 45, 51, 23, 38, 60, 29, 41],
    "escolaridade": ["fundamental", "médio", "superior", "médio", "fundamental",
                     "superior", "médio", "médio", "superior", "fundamental"],
    "religiao": ["católica", "evangélica", "sem religião", "católica", "evangélica",
                 "evangélica", "católica", "sem religião", "católica", "outras"],
    "renda_mensal": [1200, 2500, 3100, 1800, 2200, 2700, 3000, 1500, 4000, 2000]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,id,sexo,idade,escolaridade,religiao,renda_mensal
0,1,feminino,19,fundamental,católica,1200
1,2,masculino,34,médio,evangélica,2500
2,3,feminino,27,superior,sem religião,3100
3,4,feminino,45,médio,católica,1800
4,5,masculino,51,fundamental,evangélica,2200
5,6,feminino,23,superior,evangélica,2700
6,7,masculino,38,médio,católica,3000
7,8,masculino,60,médio,sem religião,1500
8,9,feminino,29,superior,católica,4000
9,10,masculino,41,fundamental,outras,2000


## Explorando o DataFrame

### Para ver as primeiras linhas

In [6]:
df.head()

Unnamed: 0,id,sexo,idade,escolaridade,religiao,renda_mensal
0,1,feminino,19,fundamental,católica,1200
1,2,masculino,34,médio,evangélica,2500
2,3,feminino,27,superior,sem religião,3100
3,4,feminino,45,médio,católica,1800
4,5,masculino,51,fundamental,evangélica,2200


### Para ter informações gerais sobre o nome das variaveis 

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            10 non-null     int64 
 1   sexo          10 non-null     object
 2   idade         10 non-null     int64 
 3   escolaridade  10 non-null     object
 4   religiao      10 non-null     object
 5   renda_mensal  10 non-null     int64 
dtypes: int64(3), object(3)
memory usage: 608.0+ bytes


### Para identifcar as categorias que compões uma variável categórica:

In [16]:
df["escolaridade"].cat.categories.tolist()

['fundamental', 'médio', 'superior']

### Para saber quando Casos (N) tem em cada categoria

In [18]:
# Contagem de cada categoria (ordem decrescente por padrão)
df["escolaridade"].value_counts()

escolaridade
médio          4
fundamental    3
superior       3
Name: count, dtype: int64

In [19]:
# Para manter a ordem das categorias definidas no .cat.categories
df["escolaridade"].value_counts(sort=False)

escolaridade
fundamental    3
médio          4
superior       3
Name: count, dtype: int64

### Para um resumo das variávies quantitativas

In [20]:
df[["idade", "renda_mensal"]].describe()

Unnamed: 0,idade,renda_mensal
count,10.0,10.0
mean,36.7,2400.0
std,12.901766,837.987006
min,19.0,1200.0
25%,27.5,1850.0
50%,36.0,2350.0
75%,44.0,2925.0
max,60.0,4000.0



## Tipos de dados no Pandas  (`dtypes`) e conversões úteis

- `object` geralmente significa **texto** (strings).
- Para variáveis categóricas, vale a pena usar `category`.
- Para garantir a ordem de categorias (fundamental < médio < superior), definimos `ordered=True`.


### 1. **Números Inteiros (int)**

In [8]:
numero_de_filhos = 2
ano_nascimento = 1995
votos_recebidos = 12450

print(type(numero_de_filhos))

<class 'int'>


### 2. **Números Decimais (float)**

In [9]:
salario = 3500.50
percentual_aprovacao = 67.3
temperatura = 23.5
print(type(salario))

<class 'float'>


### 3. **Texto (string)**

In [10]:
nome_candidato = "João da Silva"
partido = "PSDB"
profissao = "Professor"

# Strings usam aspas simples ' ' ou duplas " "
print(type(nome_candidato))

<class 'str'>


### 4. **Verdadeiro/Falso (boolean)**

In [11]:
eh_eleito = True
teve_segundo_turno = False
campanha_ativa = True

print(type(eh_eleito)) 

<class 'bool'>


### 5. **Categóricas**

In [13]:
# Exemplo de variável categórica: cargo político
cargos = ["Vereador", "Deputado", "Senador", "Prefeito", "Governador"]

# Criamos uma Series do pandas com tipo 'category'
cargo_eleito = pd.Series(["Deputado", "Prefeito", "Senador", "Deputado", "Governador"],
                         dtype="category")

print(type(cargo_eleito))

print(cargo_eleito)

<class 'pandas.core.series.Series'>
0      Deputado
1      Prefeito
2       Senador
3      Deputado
4    Governador
dtype: category
Categories (4, object): ['Deputado', 'Governador', 'Prefeito', 'Senador']


### 💡 Diferença entre object e categoric:

Quando usar cada um

- Use object: quando os valores são texto livre, nomes, descrições ou qualquer coisa sem número fixo de possibilidades.

- Use category: quando existe um número limitado de valores distintos e eles têm significado de categorias (sexo, estado civil, escolaridade, partido político, etc.).



### Tornar algumas variáveis categóricas

In [14]:
df["sexo"] = df["sexo"].astype("category")
df["religiao"] = df["religiao"].astype("category")
df["escolaridade"] = pd.Categorical(df["escolaridade"],
                                    categories=["fundamental", "médio", "superior"],
                                    ordered=True)

df.dtypes

id                 int64
sexo            category
idade              int64
escolaridade    category
religiao        category
renda_mensal       int64
dtype: object

## Resumos numéricos

In [7]:
# Estatísticas descritivas para variáveis numéricas
df[["idade", "renda_mensal"]].describe()

Unnamed: 0,idade,renda_mensal
count,10.0,10.0
mean,36.7,2400.0
std,12.901766,837.987006
min,19.0,1200.0
25%,27.5,1850.0
50%,36.0,2350.0
75%,44.0,2925.0
max,60.0,4000.0
