In [1]:
import pandas as pd

# Configuração para melhor visualização do DataFrame
pd.set_option('display.max_columns', None)

# Caminhos dos arquivos
input_file = 'State_of_data_BR_2023_Kaggle - df_survey_2023.csv'
output_file = 'survey_cleaned.csv'

# Mapeamento correto das colunas com base no cabeçalho real do CSV
colunas_relevantes = [
    "('P1_l ', 'Nivel de Ensino')",               # Nível de ensino
    "('P1_m ', 'Área de Formação')",              # Área de formação
    "('P2_h ', 'Faixa salarial')",                # Faixa salarial
    "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')",  # Experiência em dados
    "('P2_g ', 'Nivel')",                         # Nível de senioridade
    "('P4_d_1 ', 'SQL')",                         # SQL
    "('P4_d_2 ', 'R ')",                          # R
    "('P4_d_3 ', 'Python')",                      # Python
    "('P4_d_4 ', 'C/C++/C#')",                    # C/C++/C#
    "('P4_d_5 ', '.NET')",                        # .NET
    "('P4_d_6 ', 'Java')",                        # Java
    "('P4_d_7 ', 'Julia')",                       # Julia
    "('P4_d_8 ', 'SAS/Stata')",                   # SAS/Stata
    "('P4_d_9 ', 'Visual Basic/VBA')",            # Visual Basic/VBA
    "('P4_d_10 ', 'Scala')",                      # Scala
    "('P4_d_11 ', 'Matlab')",                     # Matlab
    "('P4_d_12 ', 'Rust')",                       # Rust
    "('P4_d_13 ', 'PHP')",                        # PHP
    "('P4_d_14 ', 'JavaScript')",                 # JavaScript
    "('P4_d_15 ', 'Não utilizo nenhuma linguagem')", # Sem linguagem
    "('P1_b ', 'Genero')",                        # Gênero
    "('P1_c ', 'Cor/raca/etnia')",                # Cor/Raça/Etnia
    "('P2_b ', 'Setor')",                         # Setor da empresa
    "('P1_i_1 ', 'uf onde mora')",                # UF de residência
    "('P2_f ', 'Cargo Atual')",                   # Cargo atual
    "('P4_e ', 'Entre as linguagens listadas abaixo, qual é a que você mais utiliza no trabalho?')", # Linguagem principal
    "('P2_o_1 ', 'Remuneração/Salário')",         # Critério salário
    "('P2_o_2 ', 'Benefícios')",                  # Critério benefícios
    "('P2_o_3 ', 'Propósito do trabalho e da empresa')", # Critério propósito
    "('P2_o_4 ', 'Flexibilidade de trabalho remoto')", # Critério remoto
    "('P2_o_5 ', 'Ambiente e clima de trabalho')", # Critério ambiente
    "('P2_o_6 ', 'Oportunidade de aprendizado e trabalhar com referências na área')", # Critério aprendizado
    "('P2_o_7 ', 'Plano de carreira e oportunidades de crescimento profissional')", # Critério carreira
    "('P2_o_8 ', 'Maturidade da empresa em termos de tecnologia e dados')", # Critério maturidade
    "('P2_o_9 ', 'Qualidade dos gestores e líderes')", # Critério gestores
    "('P2_o_10 ', 'Reputação que a empresa tem no mercado')" # Critério reputação
]

# Leitura do arquivo com tratamento de encoding e caracteres especiais
df = pd.read_csv(input_file, engine='python', encoding='utf-8')

# Verificação de colunas ausentes
colunas_faltantes = [col for col in colunas_relevantes if col not in df.columns]
if colunas_faltantes:
    print(f'Atenção: Colunas faltantes no dataset: {colunas_faltantes}')

# Filtragem das colunas relevantes
df_filtrado = df[colunas_relevantes].copy()

# Limpeza de dados
# 1. Remoção de duplicatas exatas
df_filtrado = df_filtrado.drop_duplicates()

# 2. Tratamento de valores nulos (apenas em colunas críticas)
colunas_criticas = [
    "('P2_h ', 'Faixa salarial')",
    "('P2_i ', 'Quanto tempo de experiência na área de dados você tem?')",
    "('P2_g ', 'Nivel')"
]

# Remover linhas onde todas as colunas críticas estão nulas
df_limpo = df_filtrado.dropna(subset=colunas_criticas, how='all')

# 3. Resetar índice após limpeza
df_limpo.reset_index(drop=True, inplace=True)

# Salvando resultados
df_limpo.to_csv(output_file, index=False)

# Relatório final
print(f'\nStatus final do dataset:')
print(f'- Total de registros originais: {len(df)}')
print(f'- Registros após filtragem e limpeza: {len(df_limpo)}')
print(f'- Colunas mantidas: {len(colunas_relevantes)}')
print(f'- Principais alterações:')
print(f'  • Removidas {len(df) - len(df_filtrado)} duplicatas')
print(f'  • Removidas {len(df_filtrado) - len(df_limpo)} registros com dados críticos faltantes')
print(f'\nArquivo limpo salvo como: {output_file}')


Status final do dataset:
- Total de registros originais: 5293
- Registros após filtragem e limpeza: 4746
- Colunas mantidas: 36
- Principais alterações:
  • Removidas 181 duplicatas
  • Removidas 366 registros com dados críticos faltantes

Arquivo limpo salvo como: survey_cleaned.csv
