In [None]:
import pandas as pd

# Carregar o arquivo CSV em um DataFrame
df = pd.read_csv("user_superfit.csv")

# Selecionar valores únicos da coluna "key"
unique_values = df["key"].unique()

# Imprimir os valores únicos
print(unique_values)


['SF_DR' 'SF_DS' 'SF_DI' 'SF_SC' 'SF_SR' 'SF_IR' 'SF_SI' 'SF_DC' 'SF_IE'
 'SF_DE' 'SF_ER' 'SF_CI' 'SF_generic' 'SF_SE' 'SF_CE' 'SF_CR']


No código acima, selecionamos os valores únicos da coluna "key". Eles são variáveis categóricas e precisam ser transformadas em numéricas para que possamos trabalhar com elas.

Importante mensurar que o valor "SF_generic" não deveria estar aparecendo entre os dados, pois ele não possui valor significativo pra gente. Por isso, vamos remover as colunas que apresentem esse valor.

In [None]:
# Remover linhas com o valor "SF_generic" na coluna "key"
df = df.loc[df["key"] != "SF_generic"]

# Resetar os índices após a remoção
df.reset_index(drop=True, inplace=True)

Agora, com os valores únicos encontrado na coluna "key", criamos um mapeamento para transformar os dados que, inicialmente são categórios, em numéricos.

In [None]:
# Mapeamento de valores categóricos para valores numéricos
mapping = {
    'SF_DR': 1, 'SF_DS': 2, 'SF_DI': 3, 'SF_SC': 4, 'SF_SR': 5,
    'SF_IR': 6, 'SF_SI': 7, 'SF_DC': 8, 'SF_IE': 9, 'SF_DE': 10,
    'SF_ER': 11, 'SF_CI': 12, 'SF_SE': 13, 'SF_CE': 14, 'SF_CR': 15
}

# Aplicar o mapeamento à coluna "key"
df["key"] = df["key"].map(mapping)

# Imprimir o DataFrame com os valores numéricos
print(df)

            id  key  superfit_dis  superfit_sin  superfit_cur  superfit_int  \
0      1018194    1          60.0          50.0          48.0          50.0   
1      1018228    2          58.0          54.0          44.0          52.0   
2      1018214    1          68.0          54.0          56.0          52.0   
3      1018221    2          58.0          50.0          14.0          36.0   
4      1016674    2          62.0          56.0          48.0          52.0   
...        ...  ...           ...           ...           ...           ...   
73671  1015053   10          58.0          44.0          38.0          48.0   
73672  1018159   13          50.0          58.0          54.0          52.0   
73673  1018186    2          62.0          60.0          40.0          46.0   
73674  1018173    1          38.0          28.0          10.0          14.0   
73675  1016986    2          56.0          50.0          48.0          46.0   

       superfit_eng  superfit_res  
0              

Por fim, vamos somente exportar os dados para um novo arquivo CSV.

In [9]:
df.to_csv("prep_df_user_superfit.csv", index=False)