
# Aula 1 ‚Äî Vari√°veis e Dados Tabulares com pandas
**Curso:** Introdu√ß√£o √† An√°lise de Dados com Python (Ci√™ncias Sociais)  
**Data:** 11/08/2025

**Nesta aula voc√™ vai:**
- Carregar as bibliotecas necess√°rias (pandas, numpy, matplotlib).
- Entender o que s√£o **casos (linhas)** e **vari√°veis (colunas)**; o que √© **N**.
- Diferenciar **tipos de vari√°veis** (categ√≥ricas e num√©ricas).
- Ver a **estrutura tabular** dos dados.
- Criar e explorar seu **primeiro DataFrame** no pandas.



## Por que aprender isso?
Responder perguntas em Ci√™ncias Sociais quase sempre envolve **dados**. Pesquisas de opini√£o,
PNAD/IBGE, registros administrativos ‚Äî tudo costuma chegar para n√≥s em **tabelas**.
Saber **identificar vari√°veis**, reconhecer seus **tipos** e manipular **DataFrames** √© o primeiro passo
para fazer boas an√°lises e bons gr√°ficos.


## Carregando bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

  from pandas.core.computation.check import NUMEXPR_INSTALLED
  from pandas.core import (



## Casos, vari√°veis e **N**
- **Caso (linha):** a unidade que estamos observando (uma pessoa entrevistada, um munic√≠pio, um domic√≠lio).
- **Vari√°vel (coluna):** um atributo medido em cada caso (idade, escolaridade, religi√£o, renda).
- **N:** n√∫mero de casos (linhas) no nosso conjunto de dados.

> Ex.: numa pesquisa com 1.200 entrevistas, **N = 1.200**.



## Tipos de vari√°veis (para come√ßar)
- **Categ√≥ricas:** indicam grupos/categorias. Exemplos: sexo (feminino/masculino), religi√£o (cat√≥lica/evang√©lica/sem religi√£o).
- **Num√©ricas (quantitativas):** permitem opera√ß√µes matem√°ticas. Exemplos: idade em anos, renda mensal, n√∫mero de filhos.

> Nota: √†s vezes vari√°veis que **parecem** n√∫meros (ex.: CPF, CEP) **n√£o** s√£o num√©ricas para an√°lise; tratamos como **categ√≥ricas/strings**.


## Mini-Quizz

Classifique como **categ√≥rica** ou **num√©rica**:

1. N√∫mero de crian√ßas em uma creche  
2. Sess√£o eleitoral (c√≥digo da se√ß√£o)  
3. Estado civil  
4. Dist√¢ncia at√© a escola (em km)  
5. CPF

<details>
<summary><b>Ver gabarito</b></summary>

1. Num√©rica (contagem inteira)  
2. Identificador (n√£o fazemos opera√ßnoes matem√°ticas)  
3. Categ√≥rica  
4. Num√©rica (cont√≠nua)  
5. Identificador (n√£o fazemos opera√ßnoes matem√°ticas) 

</details>


## Estrutura tabular (DataFrame)
- **Linha = caso**  
- **Coluna = vari√°vel**  
- **C√©lula = medida de uma vari√°vel em um caso**

Vamos criar um pequeno banco **fict√≠cio** de pesquisa de opini√£o (10 entrevistas) para praticar.


## Nosso primeiro DataFrame (fict√≠cio)

In [3]:
dados = {
    "id": range(1, 11),  # identificador do caso (1 a 10)
    "sexo": ["feminino", "masculino", "feminino", "feminino", "masculino",
             "feminino", "masculino", "masculino", "feminino", "masculino"],
    "idade": [19, 34, 27, 45, 51, 23, 38, 60, 29, 41],
    "escolaridade": ["fundamental", "m√©dio", "superior", "m√©dio", "fundamental",
                     "superior", "m√©dio", "m√©dio", "superior", "fundamental"],
    "religiao": ["cat√≥lica", "evang√©lica", "sem religi√£o", "cat√≥lica", "evang√©lica",
                 "evang√©lica", "cat√≥lica", "sem religi√£o", "cat√≥lica", "outras"],
    "renda_mensal": [1200, 2500, 3100, 1800, 2200, 2700, 3000, 1500, 4000, 2000]
}

df = pd.DataFrame(dados)
df

Unnamed: 0,id,sexo,idade,escolaridade,religiao,renda_mensal
0,1,feminino,19,fundamental,cat√≥lica,1200
1,2,masculino,34,m√©dio,evang√©lica,2500
2,3,feminino,27,superior,sem religi√£o,3100
3,4,feminino,45,m√©dio,cat√≥lica,1800
4,5,masculino,51,fundamental,evang√©lica,2200
5,6,feminino,23,superior,evang√©lica,2700
6,7,masculino,38,m√©dio,cat√≥lica,3000
7,8,masculino,60,m√©dio,sem religi√£o,1500
8,9,feminino,29,superior,cat√≥lica,4000
9,10,masculino,41,fundamental,outras,2000


## Explorando o DataFrame

### Para ver as primeiras linhas

In [6]:
df.head()

Unnamed: 0,id,sexo,idade,escolaridade,religiao,renda_mensal
0,1,feminino,19,fundamental,cat√≥lica,1200
1,2,masculino,34,m√©dio,evang√©lica,2500
2,3,feminino,27,superior,sem religi√£o,3100
3,4,feminino,45,m√©dio,cat√≥lica,1800
4,5,masculino,51,fundamental,evang√©lica,2200


### Para ter informa√ß√µes gerais sobre o nome das variaveis 

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            10 non-null     int64 
 1   sexo          10 non-null     object
 2   idade         10 non-null     int64 
 3   escolaridade  10 non-null     object
 4   religiao      10 non-null     object
 5   renda_mensal  10 non-null     int64 
dtypes: int64(3), object(3)
memory usage: 608.0+ bytes


### Para identifcar as categorias que comp√µes uma vari√°vel categ√≥rica:

In [16]:
df["escolaridade"].cat.categories.tolist()

['fundamental', 'm√©dio', 'superior']

### Para saber quando Casos (N) tem em cada categoria

In [18]:
# Contagem de cada categoria (ordem decrescente por padr√£o)
df["escolaridade"].value_counts()

escolaridade
m√©dio          4
fundamental    3
superior       3
Name: count, dtype: int64

In [19]:
# Para manter a ordem das categorias definidas no .cat.categories
df["escolaridade"].value_counts(sort=False)

escolaridade
fundamental    3
m√©dio          4
superior       3
Name: count, dtype: int64

### Para um resumo das vari√°vies quantitativas

In [20]:
df[["idade", "renda_mensal"]].describe()

Unnamed: 0,idade,renda_mensal
count,10.0,10.0
mean,36.7,2400.0
std,12.901766,837.987006
min,19.0,1200.0
25%,27.5,1850.0
50%,36.0,2350.0
75%,44.0,2925.0
max,60.0,4000.0



## Tipos de dados no Pandas  (`dtypes`) e convers√µes √∫teis

- `object` geralmente significa **texto** (strings).
- Para vari√°veis categ√≥ricas, vale a pena usar `category`.
- Para garantir a ordem de categorias (fundamental < m√©dio < superior), definimos `ordered=True`.


### 1. **N√∫meros Inteiros (int)**

In [8]:
numero_de_filhos = 2
ano_nascimento = 1995
votos_recebidos = 12450

print(type(numero_de_filhos))

<class 'int'>


### 2. **N√∫meros Decimais (float)**

In [9]:
salario = 3500.50
percentual_aprovacao = 67.3
temperatura = 23.5
print(type(salario))

<class 'float'>


### 3. **Texto (string)**

In [10]:
nome_candidato = "Jo√£o da Silva"
partido = "PSDB"
profissao = "Professor"

# Strings usam aspas simples ' ' ou duplas " "
print(type(nome_candidato))

<class 'str'>


### 4. **Verdadeiro/Falso (boolean)**

In [11]:
eh_eleito = True
teve_segundo_turno = False
campanha_ativa = True

print(type(eh_eleito)) 

<class 'bool'>


### 5. **Categ√≥ricas**

In [13]:
# Exemplo de vari√°vel categ√≥rica: cargo pol√≠tico
cargos = ["Vereador", "Deputado", "Senador", "Prefeito", "Governador"]

# Criamos uma Series do pandas com tipo 'category'
cargo_eleito = pd.Series(["Deputado", "Prefeito", "Senador", "Deputado", "Governador"],
                         dtype="category")

print(type(cargo_eleito))

print(cargo_eleito)

<class 'pandas.core.series.Series'>
0      Deputado
1      Prefeito
2       Senador
3      Deputado
4    Governador
dtype: category
Categories (4, object): ['Deputado', 'Governador', 'Prefeito', 'Senador']


### üí° Diferen√ßa entre object e categoric:

Quando usar cada um

- Use object: quando os valores s√£o texto livre, nomes, descri√ß√µes ou qualquer coisa sem n√∫mero fixo de possibilidades.

- Use category: quando existe um n√∫mero limitado de valores distintos e eles t√™m significado de categorias (sexo, estado civil, escolaridade, partido pol√≠tico, etc.).



### Tornar algumas vari√°veis categ√≥ricas

In [14]:
df["sexo"] = df["sexo"].astype("category")
df["religiao"] = df["religiao"].astype("category")
df["escolaridade"] = pd.Categorical(df["escolaridade"],
                                    categories=["fundamental", "m√©dio", "superior"],
                                    ordered=True)

df.dtypes

id                 int64
sexo            category
idade              int64
escolaridade    category
religiao        category
renda_mensal       int64
dtype: object

## Resumos num√©ricos

In [7]:
# Estat√≠sticas descritivas para vari√°veis num√©ricas
df[["idade", "renda_mensal"]].describe()

Unnamed: 0,idade,renda_mensal
count,10.0,10.0
mean,36.7,2400.0
std,12.901766,837.987006
min,19.0,1200.0
25%,27.5,1850.0
50%,36.0,2350.0
75%,44.0,2925.0
max,60.0,4000.0
