In [1]:
import pandas as pd
import numpy as np

df_candidatos = pd.DataFrame({
'nome': ['Paulo ', ' carla', 'JULIANA', 'Juliana', 'paulo'],
'formacao': ['tecnico', 'Superior', 'SUPERIOR', 'superior', 'Técnico'],
'experiencia_anos': [2, 5, 3, np.nan, 2],
'pretensao_salarial': [2500, 4000, 3500, 999999, 2500],
'linguagem': ['Python', 'python', 'Java', np.nan, 'PYTHON'],
'certificacoes': ['AWS', 'Azure', 'None', 'AWS', 'AWS']
})

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial linguagem  \
0   Paulo    tecnico               2.0                2500    Python   
1    carla  Superior               5.0                4000    python   
2  JULIANA  SUPERIOR               3.0                3500      Java   
3  Juliana  superior               NaN              999999       NaN   
4    paulo   Técnico               2.0                2500    PYTHON   

  certificacoes  
0           AWS  
1         Azure  
2          None  
3           AWS  
4           AWS  


In [2]:
# 1. Padronize os nomes (strip + lower) e remova duplicatas.

df_candidatos['nome'] = df_candidatos['nome'].str.strip().str.lower()
df_candidatos['formacao'] = df_candidatos['formacao'].str.strip().str.lower()
df_candidatos['linguagem'] = df_candidatos['linguagem'].str.strip().str.lower()
df_candidatos['certificacoes'] = df_candidatos['certificacoes'].str.strip().str.lower()

df_candidatos = df_candidatos.drop_duplicates()

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial linguagem  \
0    paulo   tecnico               2.0                2500    python   
1    carla  superior               5.0                4000    python   
2  juliana  superior               3.0                3500      java   
3  juliana  superior               NaN              999999       NaN   
4    paulo   técnico               2.0                2500    python   

  certificacoes  
0           aws  
1         azure  
2          none  
3           aws  
4           aws  


In [3]:
# 2. Padronize a coluna formacao (por exemplo: tudo em minúsculas, tirar acentos se quiser avançar)

import unicodedata

# Função para remover os acentos
def remover_acentos(texto):
    return ''.join(c for c in unicodedata.normalize('NFD', texto) if unicodedata.category(c) != 'Mn')

df_candidatos['formacao'] = df_candidatos['formacao'].apply(remover_acentos)

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial linguagem  \
0    paulo   tecnico               2.0                2500    python   
1    carla  superior               5.0                4000    python   
2  juliana  superior               3.0                3500      java   
3  juliana  superior               NaN              999999       NaN   
4    paulo   tecnico               2.0                2500    python   

  certificacoes  
0           aws  
1         azure  
2          none  
3           aws  
4           aws  


In [4]:
# 3. Preencha os valores ausentes em experiencia_anos com a média da coluna.
media_experiencia = df_candidatos['experiencia_anos'].mean()

df_candidatos['experiencia_anos'] = df_candidatos['experiencia_anos'].fillna(media_experiencia)

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial linguagem  \
0    paulo   tecnico               2.0                2500    python   
1    carla  superior               5.0                4000    python   
2  juliana  superior               3.0                3500      java   
3  juliana  superior               3.0              999999       NaN   
4    paulo   tecnico               2.0                2500    python   

  certificacoes  
0           aws  
1         azure  
2          none  
3           aws  
4           aws  


In [5]:
# 4. Substitua o valor 999999 por np.nan na coluna pretensao_salarial, e depois preencha com a mediana.
df_candidatos['pretensao_salarial'] = df_candidatos['pretensao_salarial'].replace(999999, np.nan)
df_candidatos['pretensao_salarial'] = df_candidatos['pretensao_salarial'].fillna(df_candidatos['pretensao_salarial'].median())

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial linguagem  \
0    paulo   tecnico               2.0              2500.0    python   
1    carla  superior               5.0              4000.0    python   
2  juliana  superior               3.0              3500.0      java   
3  juliana  superior               3.0              3000.0       NaN   
4    paulo   tecnico               2.0              2500.0    python   

  certificacoes  
0           aws  
1         azure  
2          none  
3           aws  
4           aws  


In [6]:
# 5. Padronize a coluna linguagem e preencha o valor ausente com "não informado".

from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder

df_candidatos['linguagem'] = df_candidatos['linguagem'].fillna('não informado')

encoder = LabelEncoder()
df_candidatos['linguagem'] = encoder.fit_transform(df_candidatos['linguagem'])


scaler_norm = MinMaxScaler()
df_candidatos['linguagem_normalizado'] = scaler_norm.fit_transform(df_candidatos[['linguagem']])

scaler_std = StandardScaler()
df_candidatos['linguagem_padronizado'] = scaler_std.fit_transform(df_candidatos[['linguagem']])

print("\nCom colunas normalizadas e padronizadas:")
print(df_candidatos[['linguagem', 'linguagem_normalizado', 'linguagem_padronizado']])


Com colunas normalizadas e padronizadas:
   linguagem  linguagem_normalizado  linguagem_padronizado
0          2                    1.0                   0.75
1          2                    1.0                   0.75
2          0                    0.0                  -1.75
3          1                    0.5                  -0.50
4          2                    1.0                   0.75


In [7]:
# 6. Aplique Label Encoding na coluna certificacoes.

df_candidatos['certificacoes'] = encoder.fit_transform(df_candidatos['certificacoes'])

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial  linguagem  \
0    paulo   tecnico               2.0              2500.0          2   
1    carla  superior               5.0              4000.0          2   
2  juliana  superior               3.0              3500.0          0   
3  juliana  superior               3.0              3000.0          1   
4    paulo   tecnico               2.0              2500.0          2   

   certificacoes  linguagem_normalizado  linguagem_padronizado  
0              0                    1.0                   0.75  
1              1                    1.0                   0.75  
2              2                    0.0                  -1.75  
3              0                    0.5                  -0.50  
4              0                    1.0                   0.75  


In [8]:
# 7. Crie uma nova coluna chamada formacao_codificada com a seguinte codificação ordinal:

from sklearn.preprocessing import OrdinalEncoder

formacao = ['tecnico', 'superior', 'pos']

encoder = OrdinalEncoder(categories=[formacao])

df_candidatos['formacao'] = encoder.fit_transform(df_candidatos[['formacao']])

df_candidatos['formacao'] = df_candidatos['formacao'].astype(int)

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial  linguagem  \
0    paulo         0               2.0              2500.0          2   
1    carla         1               5.0              4000.0          2   
2  juliana         1               3.0              3500.0          0   
3  juliana         1               3.0              3000.0          1   
4    paulo         0               2.0              2500.0          2   

   certificacoes  linguagem_normalizado  linguagem_padronizado  
0              0                    1.0                   0.75  
1              1                    1.0                   0.75  
2              2                    0.0                  -1.75  
3              0                    0.5                  -0.50  
4              0                    1.0                   0.75  


In [11]:
# 8. Exiba os dados finais, verifique o tipo das colunas, e mostre as estatísticas com describe().

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial  linguagem  \
0    paulo         0               2.0              2500.0          2   
1    carla         1               5.0              4000.0          2   
2  juliana         1               3.0              3500.0          0   
3  juliana         1               3.0              3000.0          1   
4    paulo         0               2.0              2500.0          2   

   certificacoes  linguagem_normalizado  linguagem_padronizado  
0              0                    1.0                   0.75  
1              1                    1.0                   0.75  
2              2                    0.0                  -1.75  
3              0                    0.5                  -0.50  
4              0                    1.0                   0.75  


In [12]:
print(df_candidatos.dtypes)

nome                      object
formacao                   int64
experiencia_anos         float64
pretensao_salarial       float64
linguagem                  int64
certificacoes              int64
linguagem_normalizado    float64
linguagem_padronizado    float64
dtype: object


In [13]:
print(df_candidatos.describe())

       formacao  experiencia_anos  pretensao_salarial  linguagem  \
count  5.000000          5.000000            5.000000   5.000000   
mean   0.600000          3.000000         3100.000000   1.400000   
std    0.547723          1.224745          651.920241   0.894427   
min    0.000000          2.000000         2500.000000   0.000000   
25%    0.000000          2.000000         2500.000000   1.000000   
50%    1.000000          3.000000         3000.000000   2.000000   
75%    1.000000          3.000000         3500.000000   2.000000   
max    1.000000          5.000000         4000.000000   2.000000   

       certificacoes  linguagem_normalizado  linguagem_padronizado  
count       5.000000               5.000000           5.000000e+00  
mean        0.600000               0.700000           1.332268e-16  
std         0.894427               0.447214           1.118034e+00  
min         0.000000               0.000000          -1.750000e+00  
25%         0.000000               0.50000

In [14]:
def classificar_nivel(experiencia):
  if experiencia <= 2:
    return 'junior'
  elif experiencia >= 3 and experiencia <= 5:
    return 'pleno'
  else:
    return 'senior'

df_candidatos['nivel'] = df_candidatos['experiencia_anos'].apply(classificar_nivel)

print(df_candidatos)

      nome  formacao  experiencia_anos  pretensao_salarial  linguagem  \
0    paulo         0               2.0              2500.0          2   
1    carla         1               5.0              4000.0          2   
2  juliana         1               3.0              3500.0          0   
3  juliana         1               3.0              3000.0          1   
4    paulo         0               2.0              2500.0          2   

   certificacoes  linguagem_normalizado  linguagem_padronizado   nivel  
0              0                    1.0                   0.75  junior  
1              1                    1.0                   0.75   pleno  
2              2                    0.0                  -1.75   pleno  
3              0                    0.5                  -0.50   pleno  
4              0                    1.0                   0.75  junior  
