In [1]:
import pandas as pd
import re
import os

In [2]:
df = pd.read_csv("./Dados/TabelaPesquisa.csv")

In [3]:
# Dicionário de renomeação
novos_nomes = {
    'Unnamed: 0': 'pesquisa_id',
}

df.rename(columns=novos_nomes, inplace=True)
df.drop('Unnamed: 0.1', axis=1, inplace=True)
df.drop_duplicates('email', inplace=True)

In [4]:
print(df['renda'].unique())

['Até 1.500 reais' 'Mais de 5.000 reais' 'De 1.500 a 3.000 reais'
 'De 3.000 reais a 5.000 reais']


In [5]:
def formatar_valor(valor):
    # Corrigir erros comuns e aplicar formatação
    valor = re.sub(r"\b(Ma[ii]s)\b", "Mais", valor)  # Corrigir "Mais" escrito incorretamente
    valor = valor.replace("reais", "").strip()
    
    # Adicionar "R$" adequadamente
    valor = valor.replace("Até", "Até R$") \
                 .replace("Mais de", "Mais de R$") \
                 .replace("De", "De R$") \
                 .replace(" a ", " a R$")  # Corrigir espaços antes de "a"
    
    # Remover espaços adicionais ao redor de "R$" e entre valores
    valor = re.sub(r"\s+R\$\s*", " R$", valor)  # Remover espaços em excesso antes de "R$"
    valor = re.sub(r"\s{2,}", " ", valor)  # Remover espaços duplos ou mais entre as palavras
    
    return valor

# Aplicando a função de formatação novamente
df['renda'] = df['renda'].apply(formatar_valor)

In [6]:
# Dicionário com a ordem desejada para cada valor de "tempo_me_conhece"
ordem_renda = {
    'Até R$1.500': 1,
    'De R$1.500 a R$3.000': 2,
    'De R$3.000 a R$5.000': 3,
    'Mais de R$5.000': 4
}

# Adicionando a coluna "tempo_id" ao dataframe com base no mapeamento
df['renda_id'] = df['renda'].map(ordem_renda)

In [7]:
mapa_tempo = {
    "Menos de 1 mês": 1,
    "De 2 a 6 meses": 2,
    "De 6 meses a 1 ano": 3,
    "De 1 a 2 anos": 4,
    "Mais de 2 anos": 5
}

# Adiciona uma nova coluna 'tempo_id' com os IDs correspondentes
df['tempo_id'] = df['tempo_me_conhece'].map(mapa_tempo)

In [8]:
indice_idade = {
    'até 20 anos': 1,
    '21 a 25 anos': 2,
    '26 a 30 anos': 3,
    '31 a 35 anos': 4,
    '36 a 40 anos': 5,
    '41 a 45 anos': 6,
    '46 a 50 anos': 7,
    '51 a 55 anos': 8,
    '56 a 60 anos': 9,
    'acima de 60': 10
}

# Aplicando o mapeamento ao DataFrame
df['idade_id'] = df['idade'].map(indice_idade)

In [9]:
# Convertendo os tipos de dados
df['email'] = df['email'].astype('string')
df['idade'] = df['idade'].astype('string')
df['renda'] = df['renda'].astype('string')
df['tempo_me_conhece'] = df['tempo_me_conhece'].astype('string')

In [10]:
path_folder = './Dados_tratados'

if not os.path.exists(path_folder):
    os.makedirs(path_folder)

path_file = os.path.join(path_folder, 'TabelaPesquisa_clear.csv')

df.to_csv(path_file, index=False)
print(f"Arquivo salvo em: {path_file}")

Arquivo salvo em: ./Dados_tratados\TabelaPesquisa_clear.csv
