# Manipulação de dados

**Objetivo:** usar um arquivo `.dta` real (ESEB 2022) e praticar:
- Ler o Stata mantendo **rótulos** (labels)
- `select` (selecionar colunas), `filter` (filtrar casos), `rename` (renomear)
- Transformar **idade** em faixas (categorias) com `pd.cut`/`pd.qcut`
- **Recodificar** categorias



### Ler o `.dta` 

In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.max_columns', 60)
pd.set_option('display.precision', 1)


In [6]:
df = pd.read_stata('eseb_22.dta')

One or more strings in the dta file could not be decoded using utf-8, and
so the fallback encoding of latin-1 is being used.  This can happen when a file
has been incorrectly encoded by Stata or some other software. You should verify
the string values returned are correct.
  df = pd.read_stata('eseb_22.dta')


In [7]:
df.head()

Unnamed: 0,SbjNum,Nquest,Data_ENTREVISTA,MUN,UF,REG,T_ZONA,T_RESID,D02,T_D01A_1,T_D01A_2,T_D01A_3,D01A_IDADE,D01A_FX_ID,D03,D06,D06a,D08,D07a,Q01,Q02a,Q02b,Q02c,Q02d,Q02e,Q02f,Q02g,Q03,Q04a,Q04b,...,Q30c,Q31_1,Q31_2,Q31_3,Q31_4,Q31_5,Q31_6,Q31_7,Q31_8,Q31_9,Q31_10,Q31_11,Q31_12,Q31_13,Q31_14,Q32,D04,D05,D09_RENDAF,D09a_FX_RENDAF,D09a_RENDAF,D11,D10,D10a,D12_COR,D12a,D20,ID_entrevistador,sexo_entrevistador,peso
0,177011603,1,11/19/2022,Rio De Janeiro,Rio De Janeiro,Sudeste,Urbano,Casa,Masculino,3,11,1961,61,55 a 64 anos,Ensino universitário completo,Autônomo / conta própria,Trabalha em tempo integral (32 horas ou mais p...,Proprietário / funcionário / empregado de empr...,"SETOR TERCIÁRIO: (transporte, comunicações, co...","Muito interessado,",Nenhum/ zero dias,Quatro dias,Nenhum/ zero dias,Nenhum/ zero dias,Sete dias,Sete dias,Pelo menos dez vezes por dia,Concorda em parte,Concorda muito,Concorda muito,...,Não se justificaria que os militares tomassem ...,Contra,A favor,A favor,Contra,A favor,A favor,A favor,Contra,A favor,Contra,Contra,A favor,A favor,Contra,Sim,Separado(a),Não,4000,"De R$ 3.636,01 a R$ 6.060,00 (+ de 3 até 5 SM)",,Raramente,Umbanda,,Parda,Preto,2,101,MASCULINO,0.41
1,177011604,2,11/19/2022,Rio De Janeiro,Rio De Janeiro,Sudeste,Urbano,Casa,Feminino,10,4,1964,58,55 a 64 anos,Ensino universitário completo,Dona de casa,,,,"Muito interessado,",Nenhum/ zero dias,Sete dias,Sete dias,Sete dias,Sete dias,Sete dias,Pelo menos dez vezes por dia,Concorda totalmente,Concorda muito,Concorda muito,...,Não se justificaria que os militares tomassem ...,Contra,A favor,A favor,Contra,A favor,A favor,A favor,Contra,A favor,Contra,Contra,A favor,A favor,Contra,Não,Solteiro(a),Não,Não sabe,Não sabe,"De R$ 1.212,01 a R$ 2.424,00 (+ de 1 até 2 SM)",Raramente,Católica,,Parda,Pardo,2,101,MASCULINO,0.5
2,177011605,3,11/19/2022,Rio De Janeiro,Rio De Janeiro,Sudeste,Urbano,Casa,Feminino,15,8,1972,50,45 a 54 Anos,Colegial completo (3ª série do ensino médio),Autônomo / conta própria,Trabalha em meio período (de 15 a 31 horas por...,Autônomo / trabalha por conta própria,"SETOR TERCIÁRIO: (transporte, comunicações, co...","Muito interessado,",Nenhum/ zero dias,Nenhum/ zero dias,Dois dias,Nenhum/ zero dias,Sete dias,Sete dias,Várias vezes por dia,Concorda totalmente,Concorda muito,Discorda muito,...,Seria justificado que os militares tomassem o ...,A favor,Contra,A favor,A favor,Contra,A favor,Contra,Contra,Contra,A favor,A favor,A favor,A favor,Contra,Não,Solteiro(a),Não,2500,"De R$ 2.424,01 a R$ 3.636,00 (+ de 2 até 3 SM)",,Raramente,Não Tem Religião,,Preta,Pardo,2,101,MASCULINO,0.93
3,177011606,4,11/19/2022,Rio De Janeiro,Rio De Janeiro,Sudeste,Urbano,Casa,Feminino,2,7,1958,64,55 a 64 anos,Ensino universitário incompleto ou especializa...,Aposentado por tempo de trabalho,,,,"Muito interessado,",Nenhum/ zero dias,Nenhum/ zero dias,Seis dias,Sete dias,Sete dias,Sete dias,Várias vezes por dia,Concorda totalmente,Concorda muito,Discorda muito,...,Seria justificado que os militares tomassem o ...,A favor,Contra,Contra,Depende (espontânea),Contra,A favor,Contra,Contra,A favor,A favor,Contra,A favor,A favor,A favor,Não,Casado(a),Não,7000,"De R$ 6.060,01 a R$ 12.120,00 (+ de 5 até 10 SM)",,Uma vez por semana,Católica,,Morena,Pardo,3,101,MASCULINO,1.45
4,177011607,5,11/19/2022,Rio De Janeiro,Rio De Janeiro,Sudeste,Urbano,Casa,Feminino,11,6,1982,40,35 a 44 Anos,Ginásio completo (8ª série ou 9º ano do ensino...,Dona de casa,,,,"Muito interessado,",Sete dias,Sete dias,Nenhum/ zero dias,Sete dias,Nenhum/ zero dias,Sete dias,Várias vezes por dia,Concorda totalmente,Concorda muito,Discorda muito,...,Seria justificado que os militares tomassem o ...,A favor,Contra,A favor,Contra,A favor,A favor,Contra,A favor,Não sabe,A favor,Contra,A favor,A favor,Não sabe,Sim,Casado(a),Não,600,"Até R$ 1.212,00 (até 1 salário mínimo)",,Mais de uma vez por semana,Evangélica,Assembléia De Deus,Preta,Preto,5,101,MASCULINO,0.62


In [8]:
print(df.columns.tolist())

['SbjNum', 'Nquest', 'Data_ENTREVISTA', 'MUN', 'UF', 'REG', 'T_ZONA', 'T_RESID', 'D02', 'T_D01A_1', 'T_D01A_2', 'T_D01A_3', 'D01A_IDADE', 'D01A_FX_ID', 'D03', 'D06', 'D06a', 'D08', 'D07a', 'Q01', 'Q02a', 'Q02b', 'Q02c', 'Q02d', 'Q02e', 'Q02f', 'Q02g', 'Q03', 'Q04a', 'Q04b', 'Q04c', 'Q04d', 'Q05a', 'Q05b', 'Q05c', 'Q06', 'Q07a', 'Q07b', 'Q07c', 'Q07d', 'Q07e', 'Q07f', 'Q07g', 'Q07h', 'Q07i', 'Q07j', 'Q07l', 'Q07m', 'Q07n', 'Q07o', 'Q08', 'Q08b', 'Q09', 'Q10P1a', 'Q10P1b', 'Q10P2a', 'Q10P2b', 'Q10G1', 'Q10G2', 'Q10CD', 'Q10AL', 'Q10AL_DF', 'Q10S', 'Q11a', 'Q11b', 'Q11c', 'Q12', 'Q13', 'Q14A', 'Q14A2', 'Q14B', 'Q14B_agregada', 'Q14B2', 'Q14B2_agregada', 'Q14G1', 'Q14G1_agregada', 'Q14G2', 'Q14G2_agregada', 'Q14S1', 'Q14S1_agregada', 'Q14S2', 'Q14S2_agregada', 'Q14CD', 'Q14CD_agregada', 'Q14AL', 'Q14AL_agregada', 'Q14AL_DF', 'Q15', 'Q16_1', 'Q16_2', 'Q16_3', 'Q16_4', 'Q16_5', 'Q16_6', 'Q16_7', 'Q16_8', 'Q16_9', 'Q16_10', 'Q16_11', 'Q16_12', 'Q16_13', 'Q17_1', 'Q17_2', 'Q17_3', 'Q17_4', 'Q1

### Selecionar algumas variveis para trabalhar

In [9]:
df1 = df[['D02', 'D03', 'D01A_IDADE', 'REG', 'Q10P2b']]

df1.head()

Unnamed: 0,D02,D03,D01A_IDADE,REG,Q10P2b
0,Masculino,Ensino universitário completo,61,Sudeste,Lula
1,Feminino,Ensino universitário completo,58,Sudeste,Lula
2,Feminino,Colegial completo (3ª série do ensino médio),50,Sudeste,Jair Bolsonaro
3,Feminino,Ensino universitário incompleto ou especializa...,64,Sudeste,Jair Bolsonaro
4,Feminino,Ginásio completo (8ª série ou 9º ano do ensino...,40,Sudeste,


### Renomear variaveis

In [10]:
df1= df1.rename(columns={
    'D02': 'sexo',
    'D03': 'ensino', 
    'D01A_IDADE': 'idade',
    'REG': 'regiao',
    'Q10P2b': 'voto2'
})

df1.head()

Unnamed: 0,sexo,ensino,idade,regiao,voto2
0,Masculino,Ensino universitário completo,61,Sudeste,Lula
1,Feminino,Ensino universitário completo,58,Sudeste,Lula
2,Feminino,Colegial completo (3ª série do ensino médio),50,Sudeste,Jair Bolsonaro
3,Feminino,Ensino universitário incompleto ou especializa...,64,Sudeste,Jair Bolsonaro
4,Feminino,Ginásio completo (8ª série ou 9º ano do ensino...,40,Sudeste,


### Categorizar idade

In [11]:
df1['faixa_idade4'] = pd.cut(df1['idade'], 
                            bins=[16,30,45,60,110], 
                            labels=['16-29', '30-44', '45-59', '60+'])

# Usando apenas 3 categorias
df1['faixa_idade3'] = pd.cut(df1['idade'], 
                                   bins=[18,35,55,100], 
                                   labels=['Jovem','Adulto','Senior'])

In [12]:
df1.head()

Unnamed: 0,sexo,ensino,idade,regiao,voto2,faixa_idade4,faixa_idade3
0,Masculino,Ensino universitário completo,61,Sudeste,Lula,60+,Senior
1,Feminino,Ensino universitário completo,58,Sudeste,Lula,45-59,Senior
2,Feminino,Colegial completo (3ª série do ensino médio),50,Sudeste,Jair Bolsonaro,45-59,Adulto
3,Feminino,Ensino universitário incompleto ou especializa...,64,Sudeste,Jair Bolsonaro,60+,Senior
4,Feminino,Ginásio completo (8ª série ou 9º ano do ensino...,40,Sudeste,,30-44,Adulto


### Observar as categorias de cada variavel

In [13]:
df1['faixa_idade4'].value_counts()         

faixa_idade4
30-44    641
16-29    560
45-59    497
60+      297
Name: count, dtype: int64

In [14]:
df1['sexo'].value_counts(normalize=True)    

sexo
Feminino     0.51
Masculino    0.49
Name: proportion, dtype: float64

In [15]:
df1['ensino'].value_counts()  

ensino
Colegial completo (3ª série do ensino médio)                                     711
Ensino universitário completo                                                    240
Colegial incompleto (até 2ª série do ensino médio)                               187
Ensino universitário incompleto ou especialização (técnico após ensino médio)    181
Ginásio completo (8ª série ou 9º ano do ensino fundamental)                      166
Primário completo (4ª.série ou 5º ano do ensino fundamental)                     163
Ginásio incompleto (até 7ª série ou 8º ano do ensino fundamental)                146
Primário incompleto (até 3ª série ou 4º ano do ensino fundamental)               128
Pós-graduação ou mais                                                             43
Analfabeto/ nunca frequentou escola                                               35
NÃO RESPONDEU                                                                      1
Name: count, dtype: int64

### Recodificar Variáveis categoricas 

In [16]:
recode_educacao = {
    'Analfabeto/ nunca frequentou escola': 'Fundamental',
    'Primário incompleto (até 3ª série ou 4º ano do ensino fundamental)': 'Fundamental',
    'Primário completo (4ª.série ou 5º ano do ensino fundamental)': 'Fundamental',
    'Ginásio incompleto (até 7ª série ou 8º ano do ensino fundamental)': 'Fundamental',
    'Ginásio completo (8ª série ou 9º ano do ensino fundamental)': 'Fundamental',
    'Colegial incompleto (até 2ª série do ensino médio)': 'Médio',
    'Colegial completo (3ª série do ensino médio)': 'Médio',
    'Ensino universitário incompleto ou especialização (técnico após ensino médio)': 'Superior',
    'Ensino universitário completo': 'Superior',
    'Pós-graduação ou mais': 'Superior'
}

# Aplicando o recode
df1['ensino_cat'] = df1['ensino'].map(recode_educacao)

# Verificando o resultado
df1['ensino_cat'].value_counts()

ensino_cat
Médio          898
Fundamental    638
Superior       464
Name: count, dtype: int64

In [17]:
df1.head()

Unnamed: 0,sexo,ensino,idade,regiao,voto2,faixa_idade4,faixa_idade3,ensino_cat
0,Masculino,Ensino universitário completo,61,Sudeste,Lula,60+,Senior,Superior
1,Feminino,Ensino universitário completo,58,Sudeste,Lula,45-59,Senior,Superior
2,Feminino,Colegial completo (3ª série do ensino médio),50,Sudeste,Jair Bolsonaro,45-59,Adulto,Médio
3,Feminino,Ensino universitário incompleto ou especializa...,64,Sudeste,Jair Bolsonaro,60+,Senior,Superior
4,Feminino,Ginásio completo (8ª série ou 9º ano do ensino...,40,Sudeste,,30-44,Adulto,Fundamental


### A função: Agrupar

### O que é groupby?

Quando você tem um banco de dados, muitas vezes quer agrupar observações por uma categoria e calcular resumos (média, soma, contagem etc.).
No pandas, usamos df.groupby(...) para isso.

In [19]:
df1.groupby("sexo")["idade"].mean()

  df1.groupby("sexo")["idade"].mean()


sexo
Masculino    42.08
Feminino     42.37
Name: idade, dtype: float64

In [22]:
df1.groupby("ensino_cat")["idade"].median()

ensino_cat
Fundamental    52.0
Médio          36.0
Superior       35.0
Name: idade, dtype: float64

In [24]:
df1.groupby("sexo")["idade"].agg(["mean", "min", "max"])

  df1.groupby("sexo")["idade"].agg(["mean", "min", "max"])


Unnamed: 0_level_0,mean,min,max
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Masculino,42.08,16,88
Feminino,42.37,16,90


### Resetando o índice

Por padrão, groupby devolve um índice especial.
Se quiser um DataFrame “plano” de novo, use .reset_index():

In [29]:
df1.groupby("ensino_cat")["idade"].mean().reset_index()

Unnamed: 0,ensino_cat,idade
0,Fundamental,51.1
1,Médio,37.9
2,Superior,38.5
