# Carregamento, limpeza e preparação dos dados


In [1]:
# Carregando os pacotes
import pandas as pd
import numpy as np
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [2]:
df_respostas = pd.read_csv("data/Estilo de vida dos motoristas PX (respostas) - Respostas ao formulário 1.csv")
dic = pd.read_csv("data/dic.csv")

In [3]:
df_px = df_respostas[['Estado (UF) de origem ',
        'Quantos dias da semana consome verduras ou legumes?',
        'Quantos dias da semana consome frutas?',
        'Quantos dias por semana você costuma praticar exercício físico ou esporte?',
        'Nos últimos 30 dias, consumiu cinco ou mais doses de álcool em uma ocasião? (considerar uma dose: 350ml de cerveja; 150ml de vinho; ou 45ml destilado)',
        'Considerando saúde como um estado de bem-estar físico e mental, e não somente a ausência de doenças, como está sua saúde?',
        'Escolaridade',
        'Informe sua renda média bruta nos últimos 3 meses considerando suas atividades como motorista de caminhão (em reais): ']]


df_px = df_px.rename(columns={
    'Estado (UF) de origem ': 'estado',
    'Quantos dias da semana consome verduras ou legumes?': 'P00901',
    'Quantos dias da semana consome frutas?': 'P018',
    'Quantos dias por semana você costuma praticar exercício físico ou esporte?': 'P035',
    'Nos últimos 30 dias, consumiu cinco ou mais doses de álcool em uma ocasião? (considerar uma dose: 350ml de cerveja; 150ml de vinho; ou 45ml destilado)': 'P03201',
    'Considerando saúde como um estado de bem-estar físico e mental, e não somente a ausência de doenças, como está sua saúde?': 'N00101',
    'Informe sua renda média bruta nos últimos 3 meses considerando suas atividades como motorista de caminhão (em reais): ':'renda'
})


import re

# Extrair apenas a sigla entre parênteses
df_px['estado'] = df_px['estado'].str.replace(r'\s*\(.*\)', '', regex=True).str.strip()
df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,Escolaridade,renda
0,Bahia,1 a 2 dias,1 a 2 dias,Nenhum dia,Não,Boa,Médio Completo,3.800
1,Goiás,4 a 5 dias,1 a 2 dias,1 a 2 dias,Não,Boa,Médio Completo,11.250
2,São Paulo,6 a 7 dias,6 a 7 dias,3 dias,Não,Muito boa,Superior Incompleto,10.000
3,Santa Catarina,4 a 5 dias,6 a 7 dias,4 a 5 dias,Não,Muito boa,Médio Completo,4500
4,Rio de Janeiro,1 a 2 dias,Nenhum dia,Nenhum dia,Não,Boa,Médio Incompleto,7000
5,Minas Gerais,1 a 2 dias,1 a 2 dias,3 dias,Não,Boa,Médio Completo,9
6,São Paulo,3 dias,1 a 2 dias,Nenhum dia,Não,Boa,Fundamental Incompleto,8000
7,Paraná,6 a 7 dias,4 a 5 dias,Nenhum dia,Sim,Boa,Fundamental Incompleto,8000
8,São Paulo,4 a 5 dias,3 dias,1 a 2 dias,Não,Muito boa,Médio Completo,7000
9,Minas Gerais,4 a 5 dias,4 a 5 dias,4 a 5 dias,Não,Boa,Fundamental Incompleto,5330


In [7]:
# ajustando educação


mapa_mys = {
    'Sem instrução (nunca frequentou a escola ou não concluiu nenhuma série)': 0,
    'Fundamental Completo': 9,
    'Fundamental Incompleto': 4.5,
    'Médio Incompleto': 10.5,
    'Médio Completo': 12,
    'Superior Incompleto': 14,
    'Superior Completo': 16
}

df_px['anos_estudo'] = df_px['Escolaridade'].map(mapa_mys)
df_px.drop(columns=['Escolaridade'], inplace=True)

df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,renda,anos_estudo
0,Bahia,1 a 2 dias,1 a 2 dias,Nenhum dia,Não,Boa,3.800,12.0
1,Goiás,4 a 5 dias,1 a 2 dias,1 a 2 dias,Não,Boa,11.250,12.0
2,São Paulo,6 a 7 dias,6 a 7 dias,3 dias,Não,Muito boa,10.000,14.0
3,Santa Catarina,4 a 5 dias,6 a 7 dias,4 a 5 dias,Não,Muito boa,4500,12.0
4,Rio de Janeiro,1 a 2 dias,Nenhum dia,Nenhum dia,Não,Boa,7000,10.5
5,Minas Gerais,1 a 2 dias,1 a 2 dias,3 dias,Não,Boa,9,12.0
6,São Paulo,3 dias,1 a 2 dias,Nenhum dia,Não,Boa,8000,4.5
7,Paraná,6 a 7 dias,4 a 5 dias,Nenhum dia,Sim,Boa,8000,4.5
8,São Paulo,4 a 5 dias,3 dias,1 a 2 dias,Não,Muito boa,7000,12.0
9,Minas Gerais,4 a 5 dias,4 a 5 dias,4 a 5 dias,Não,Boa,5330,4.5


In [8]:
def ajustar_renda(valor):
    if pd.isnull(valor):
        return None
    valor_str = str(valor).strip()

    # Remove separador de milhar (ponto) e troca vírgula por ponto decimal
    valor_str = valor_str.replace('.', '').replace(',', '.')

    try:
        valor_float = float(valor_str)
        # Se for menor que 100, assumimos que está em milhar → multiplicar por 1000
        if valor_float < 100:
            return valor_float * 1000
        return valor_float
    except ValueError:
        return None

df_px['renda'] = df_px['renda'].apply(ajustar_renda)

df_px['renda'] = pd.to_numeric(df_px['renda'], errors='coerce')

# Calcula os limites usando o método IQR (Interquartile Range)
q1 = df_px['renda'].quantile(0.25)
q3 = df_px['renda'].quantile(0.75)
iqr = q3 - q1

limite_inferior = q1 - 1.5 * iqr
limite_superior = q3 + 1.5 * iqr

# Filtra os dados sem outliers
df_px = df_px[
    (df_px['renda'] >= limite_inferior) &
    (df_px['renda'] <= limite_superior)].copy()
df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,renda,anos_estudo
1,Goiás,4 a 5 dias,1 a 2 dias,1 a 2 dias,Não,Boa,11250.0,12.0
2,São Paulo,6 a 7 dias,6 a 7 dias,3 dias,Não,Muito boa,10000.0,14.0
3,Santa Catarina,4 a 5 dias,6 a 7 dias,4 a 5 dias,Não,Muito boa,4500.0,12.0
4,Rio de Janeiro,1 a 2 dias,Nenhum dia,Nenhum dia,Não,Boa,7000.0,10.5
5,Minas Gerais,1 a 2 dias,1 a 2 dias,3 dias,Não,Boa,9000.0,12.0
6,São Paulo,3 dias,1 a 2 dias,Nenhum dia,Não,Boa,8000.0,4.5
7,Paraná,6 a 7 dias,4 a 5 dias,Nenhum dia,Sim,Boa,8000.0,4.5
8,São Paulo,4 a 5 dias,3 dias,1 a 2 dias,Não,Muito boa,7000.0,12.0
9,Minas Gerais,4 a 5 dias,4 a 5 dias,4 a 5 dias,Não,Boa,5330.0,4.5
11,Mato Grosso do Sul,3 dias,1 a 2 dias,Nenhum dia,Não,Regular,7000.0,12.0


In [9]:
import re

def converter_dias(valor):
    if pd.isnull(valor):
        return None
    valor = str(valor).strip().lower()

    if valor == 'nenhum dia':
        return 0
    elif ' a ' in valor:
        numeros = re.findall(r'\d+', valor)
        if len(numeros) == 2:
            return (int(numeros[0]) + int(numeros[1])) / 2
    else:
        numeros = re.findall(r'\d+', valor)
        if len(numeros) == 1:
            return int(numeros[0])
    return None  # caso não caia em nenhum dos padrões

# Aplicando às colunas
colunas_dias = ['P00901', 'P018', 'P035']
for col in colunas_dias:
    df_px[col] = df_px[col].apply(converter_dias)

df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,renda,anos_estudo
1,Goiás,4.5,1.5,1.5,Não,Boa,11250.0,12.0
2,São Paulo,6.5,6.5,3.0,Não,Muito boa,10000.0,14.0
3,Santa Catarina,4.5,6.5,4.5,Não,Muito boa,4500.0,12.0
4,Rio de Janeiro,1.5,0.0,0.0,Não,Boa,7000.0,10.5
5,Minas Gerais,1.5,1.5,3.0,Não,Boa,9000.0,12.0
6,São Paulo,3.0,1.5,0.0,Não,Boa,8000.0,4.5
7,Paraná,6.5,4.5,0.0,Sim,Boa,8000.0,4.5
8,São Paulo,4.5,3.0,1.5,Não,Muito boa,7000.0,12.0
9,Minas Gerais,4.5,4.5,4.5,Não,Boa,5330.0,4.5
11,Mato Grosso do Sul,3.0,1.5,0.0,Não,Regular,7000.0,12.0


In [10]:
# Mapeando os valores da coluna P3201 (consumo de bebida)
mapa_bebida = {
    'Sim': 1,
    'Não': 2 
}

# Mapeando os valores da coluna N00101 (autoavaliação de saúde)
mapa_saude = {
    'Muito boa':1,
    'Boa' : 2,
    'Regular' : 3,
    'Ruim' : 4,
    'Muito ruim' : 5
}

# Aplicando os mapeamentos
df_px['P03201'] = df_px['P03201'].map(mapa_bebida)
df_px['N00101'] = df_px['N00101'].map(mapa_saude)
df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,renda,anos_estudo
1,Goiás,4.5,1.5,1.5,2,2,11250.0,12.0
2,São Paulo,6.5,6.5,3.0,2,1,10000.0,14.0
3,Santa Catarina,4.5,6.5,4.5,2,1,4500.0,12.0
4,Rio de Janeiro,1.5,0.0,0.0,2,2,7000.0,10.5
5,Minas Gerais,1.5,1.5,3.0,2,2,9000.0,12.0
6,São Paulo,3.0,1.5,0.0,2,2,8000.0,4.5
7,Paraná,6.5,4.5,0.0,1,2,8000.0,4.5
8,São Paulo,4.5,3.0,1.5,2,1,7000.0,12.0
9,Minas Gerais,4.5,4.5,4.5,2,2,5330.0,4.5
11,Mato Grosso do Sul,3.0,1.5,0.0,2,3,7000.0,12.0


In [13]:
df_px = df_px.groupby('estado').mean().reset_index().round(2)
df_px

Unnamed: 0,estado,P00901,P018,P035,P03201,N00101,renda,anos_estudo
0,Bahia,4.5,6.5,1.5,1.0,3.0,8500.0,16.0
1,Distrito Federal,6.5,4.5,1.5,2.0,1.0,8900.0,16.0
2,Goiás,4.5,1.5,1.5,2.0,2.0,11250.0,12.0
3,Mato Grosso do Sul,3.0,1.5,0.0,2.0,3.0,7000.0,12.0
4,Minas Gerais,3.0,3.0,3.75,2.0,2.0,7165.0,8.25
5,Paraná,6.5,4.5,0.0,1.0,2.0,8000.0,4.5
6,Rio de Janeiro,1.5,0.0,0.0,2.0,2.0,7000.0,10.5
7,Santa Catarina,4.5,6.5,4.5,2.0,1.0,4500.0,12.0
8,São Paulo,4.67,3.67,1.5,2.0,1.33,8333.33,10.17


In [14]:
df_px.to_csv("data/dados_px_2025_processado.csv")