### Notebook com o objetivo de fazer o tratamento da nossa base formulada por um formulário da microsoft, que foi feito com o objetivo de fazer uma coleta de dados boa e consistente

## Importações

In [65]:
import pandas as pd
import numpy as np


## Carregamento da base

In [66]:
# Carregar o arquivo Excel
df = pd.read_excel('base_antiga.xlsx')

# Exibir as primeiras linhas do DataFrame original
print("Primeiras linhas do DataFrame original:")
print(df.head())

Primeiras linhas do DataFrame original:
   ID      Hora de início   Hora de conclusão      Email  Nome  \
0   1 2024-08-21 08:12:07 2024-08-21 08:17:47  anonymous   NaN   
1   2 2024-08-21 08:18:47 2024-08-21 08:20:11  anonymous   NaN   
2   3 2024-08-27 08:15:30 2024-08-27 08:17:09  anonymous   NaN   
3   4 2024-08-27 09:18:02 2024-08-27 09:22:36  anonymous   NaN   
4   5 2024-08-27 09:40:13 2024-08-27 09:40:40  anonymous   NaN   

   Hora da última modificação Qual é a sua faixa etária?  \
0                         NaN          Menor que 18 anos   
1                         NaN          Menor que 18 anos   
2                         NaN         Entre 30 e 59 anos   
3                         NaN         Entre 30 e 59 anos   
4                         NaN         Entre 18 e 30 anos   

  Você mora na cidade de São Paulo  \
0                              Sim   
1                              Sim   
2                              Sim   
3                              Sim   
4           

## Tratamento da base

### Padronização de colunas

In [67]:
# Padronizar colunas: remover espaços, converter para minúsculas e substituir espaços por "_"
df.columns = df.columns.str.strip().str.lower().str.replace(' ', '_')


### Remoção de colunas irrelevantes

In [68]:
df.drop(columns=['nome', 'email', 'hora_de_início','hora_de_conclusão', 'hora_da_última_modificação'], inplace=True, errors='ignore')



### Remoção de dupliatas

In [69]:
df.drop_duplicates(inplace=True)

### Tratamento de valores nulos

#### Tratamento de colunas específicas

In [70]:
null_replacements = {
    'você_tem_dificuldade_em_encontrar_eventos?': 'não participa de eventos',
    'você_se_considera_um_microempreendedor?': 'não anuncia eventos',
    'como_você_costuma_divulgar_seus_eventos_atualmente?_(selecione_todas_as_opções_que_se_aplicam)': 'não costuma divulgar',
    'com_que_frequência_você_organiza_eventos_em_espaços_públicos_como_praças_e_parques?': 'não organiza eventos',
    'qual_seria_a_sua_disposição_para_pagar_um_valor_simbólico_para_anunciar_seus_eventos_em_um_aplicativo_especializado_em_praças_e_parques': 'não organiza eventos',
    'se_você_utiliza_ou_utilizaria_um_aplicativo_para_promover_seus_eventos,_qual_das_seguintes_funcionalidades_seria_mais_útil_para_você?': 'não organiza eventos',
    'deixe_seu_e-mail_para_ser_notificado!': 'não gostaria de ser notificado',
    'você_tem_dificuldade_em_divulgar_eventos?': 'não costuma divulgar eventos',
    'você_encontra_dificuldade_em_divulgar_seus_eventos?': 'não costuma divulgar eventos',
    'em_que_zona_da_cidade_de_são_paulo_você_mora': 'não mora na cidade de São Paulo'
}

# Aplicar os valores de substituição para os nulos nas colunas especificadas
for column, replacement in null_replacements.items():
    if column in df.columns:
        df[column].fillna(replacement, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[column].fillna(replacement, inplace=True)


#### Colunas de texto: Preencher com "Não informado"


In [71]:
text_columns = df.select_dtypes(include=['object']).columns
for col in text_columns:
    df[col].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna('Não informado', inplace=True)


#### Padronizar valores de texto nas colunas de texto (remover espaços e converter para minúsculas)


In [72]:
for col in text_columns:
    df[col] = df[col].str.strip().str.lower()

#### Verificação de inconsistências em colunas específicas (exemplo: colunas de gênero)


In [73]:
if 'genero' in df.columns:
    df['genero'] = df['genero'].replace({'masculino': 'm', 'feminino': 'f', 'outro': 'o'})
    df['genero'] = df['genero'].apply(lambda x: 'não informado' if x not in ['m', 'f', 'o'] else x)

### Exibindo as primeiras linhas do DataFrame tratado


In [74]:
print("Primeiras linhas do DataFrame tratado:")
display(df)

Primeiras linhas do DataFrame tratado:


Unnamed: 0,id,qual_é_a_sua_faixa_etária?,você_mora_na_cidade_de_são_paulo,em_que_zona_da_cidade_de_são_paulo_você_mora?,você_costuma_organizar_ou_participar_de_eventos_em_praças_e_parques?,você_encontra_dificuldade_em_divulgar_seus_eventos?,você_tem_dificuldade_em_encontrar_eventos?,você_se_considera_um_microempreendedor?,como_você_costuma_divulgar_seus_eventos_atualmente?_(selecione_todas_as_opções_que_se_aplicam),com_que_frequência_você_organiza_eventos_em_espaços_públicos_como_praças_e_parques?,qual_seria_a_sua_disposição_para_pagar_um_valor_simbólico_para_anunciar_seus_eventos_em_um_aplicativo_especializado_em_praças_e_parques?,"se_você_utiliza_ou_utilizaria_um_aplicativo_para_promover_seus_eventos,_qual_das_seguintes_funcionalidades_seria_mais_útil_para_você?",que_tipo_de_evento_você_organiza_ou_participaria_em_praças_ou_parques_(selecione_todos_que_se_aplicam),quais_fatores_são_mais_importantes_para_você_na_escolha_de_um_aplicativo_de_divulgação_de_eventos?,você_gostaria_de_ser_notificado_quando_o_aplicativo_praceando_expandir_sua_atuação_para_novas_regiões_ou_oferecer_novas_funcionalidades?,deixe_seu_e-mail_para_ser_notificado!
0,1,menor que 18 anos,sim,oeste,participo de eventos,não costuma divulgar eventos,sim,não anuncia eventos,não costumo divulgar;,não organiza eventos,com certeza pagaria,feedbacks e comentários dos participantes,lazer;música;alimentação;meio ambiente;,facilidade de uso,não,não gostaria de ser notificado
1,2,menor que 18 anos,sim,norte,participo de eventos,não costuma divulgar eventos,sim,não anuncia eventos,não costumo divulgar;,não organiza eventos,pagaria dependendo do valor,análise de dados sobre seu público (faixa etár...,música;lazer;literatura;meio ambiente;gastrono...,facilidade de uso,não,não gostaria de ser notificado
2,3,entre 30 e 59 anos,sim,norte,nenhum,não costuma divulgar eventos,não participa de eventos,não anuncia eventos,não costuma divulgar,não organiza eventos,não informado,não organiza eventos,alimentação;lazer;esporte;,facilidade de uso,não,não gostaria de ser notificado
3,4,entre 30 e 59 anos,sim,oeste,nenhum,não costuma divulgar eventos,não participa de eventos,não anuncia eventos,não costuma divulgar,não organiza eventos,não informado,não organiza eventos,música;alimentação ;fotografia;lazer;,custo-benefício,sim,danibs2016icloud@gmail com
4,5,entre 18 e 30 anos,sim,norte,participo de eventos,não costuma divulgar eventos,sim,não anuncia eventos,não costuma divulgar,não organiza eventos,não informado,não organiza eventos,fotografia;música;alimentação ;,facilidade de uso,não,não gostaria de ser notificado
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
87,88,entre 30 e 59 anos,sim,norte,organizo eventos,sim,não participa de eventos,sim,"redes sociais (instagram, facebook, etc.);boca...",frequentemente (7 ou mais vezes por ano),pagaria dependendo do valor,calendário para organizar e visualizar seus ev...,lazer;alimentação ;fotografia;,facilidade de uso,sim,leaoleitefernanda@gmail.com
88,89,entre 18 e 30 anos,sim,sul,ambos,sim,não participa de eventos,sim,panfletos/flyers;,ocasionalmente (3-6 vezes por ano),com certeza pagaria,calendário para organizar e visualizar seus ev...,lazer;literatura;fotografia;,alcance do público,sim,leaoleitefernanda@gmail.com
89,90,entre 18 e 30 anos,sim,oeste,organizo eventos,sim,não participa de eventos,sim,sites ou blogs;,frequentemente (7 ou mais vezes por ano),com certeza pagaria,calendário para organizar e visualizar seus ev...,esporte;meio ambiente;lazer;,alcance do público,sim,leaoleitefernanda@gmail.com
90,91,entre 30 e 59 anos,sim,centro,ambos,sim,não participa de eventos,sim,"redes sociais (instagram, facebook, etc.);",ocasionalmente (3-6 vezes por ano),com certeza pagaria,calendário para organizar e visualizar seus ev...,alimentação ;literatura;,alcance do público,sim,leaoleitefernanda@gmail.com


## Salvando nossa base tratada

In [75]:
# Salvar o DataFrame tratado em um novo arquivo Excel
df.to_excel('base_tratada.xlsx', index=False)

print(f"Arquivo tratado completo salvo em {'base_tratada.xlsx'}")

Arquivo tratado completo salvo em base_tratada.xlsx
