In [22]:
import pandas as pd

# Carregar o arquivo CSV
file_path = "user_tests.csv"
df = pd.read_csv(file_path)

# Lista das colunas que precisam ter os valores vazios substituídos por "0"
columns_to_replace = ["ingles_conceito", "ingles_nota", "excel_conceito", "excel_nota", "solu_conceito", "solu_nota"]

# Substituir valores vazios por "0" nas colunas selecionadas
df[columns_to_replace] = df[columns_to_replace].fillna(0)

# Salvar o DataFrame modificado de volta no arquivo CSV
df.to_csv(file_path, index=False)

print(df)

            id ingles_conceito  ingles_nota excel_conceito  excel_nota  \
0       965467               0        0.000              0         0.0   
1       457464              C1        9.244              0         0.0   
2       951351               0        0.000              0         0.0   
3       528907              A1        0.640         Básico         2.0   
4       538766              A1        0.824  Intermediário         9.0   
...        ...             ...          ...            ...         ...   
72568  1047266              C1        9.232              0         0.0   
72569  1087370              B2        7.668              0         0.0   
72570  1093779              B2        8.296              0         0.0   
72571  1092536              B2        7.084              0         0.0   
72572   731000               0        0.000              0         0.0   

       solu_conceito  solu_nota  
0      Pré-Eficiente        3.2  
1          Eficiente        6.8  
2        

Nessa tabela, alguns campos estão vazios. Com o código acima, substituímos os campos nulos pelo número 0. Isso será importante quanto formos trabalhar com esses dados posteriormente.

Agora, devemos observar quais são os dados categóricos nas colunas "ingles_conceito", "excel_conceito" e "solu_conceito". Isso é feito no código abaixo.

In [23]:
# Selecionar valores únicos das coluna "ingles_conceito", "excel_conceito" e "solu_conceito"
print(df["ingles_conceito"].unique())
print(df["excel_conceito"].unique())
print(df["solu_conceito"].unique())

['0' 'C1' 'A1' 'A2' 'B1' 'B2']
['0' 'Básico' 'Intermediário' 'Avançado']
['Pré-Eficiente' 'Eficiente' 'Iniciante' 'Proficiente' '0']


Agora, com os valores únicos encontrado em cada uma dessas colunas, vamos criar um mapeamento para transformar os dados que, inicialmente são categórios, em numéricos.

In [24]:
ingles_mapping = {'0': 0, 'A1': 1, 'A2': 2, 'B1': 3, 'B2': 4, 'C1': 5}
excel_mapping = {'0': 0, 'Básico': 1, 'Intermediário': 2, 'Avançado': 3}
solu_mapping = {'0': 0, 'Iniciante': 1, 'Pré-Eficiente': 2, 'Eficiente': 3, 'Proficiente': 4}

df["ingles_conceito"] = df["ingles_conceito"].map(ingles_mapping)
df["excel_conceito"] = df["excel_conceito"].map(excel_mapping)
df["solu_conceito"] = df["solu_conceito"].map(solu_mapping)

print(df)

            id  ingles_conceito  ingles_nota  excel_conceito  excel_nota  \
0       965467                0        0.000               0         0.0   
1       457464                5        9.244               0         0.0   
2       951351                0        0.000               0         0.0   
3       528907                1        0.640               1         2.0   
4       538766                1        0.824               2         9.0   
...        ...              ...          ...             ...         ...   
72568  1047266                5        9.232               0         0.0   
72569  1087370                4        7.668               0         0.0   
72570  1093779                4        8.296               0         0.0   
72571  1092536                4        7.084               0         0.0   
72572   731000                0        0.000               0         0.0   

       solu_conceito  solu_nota  
0                  2        3.2  
1                  

Por fim, exportamos o dataframe para um novo arquivo CSV.

In [25]:
df.to_csv("prep_df_user_tests.csv", index=False)