## Redução de dimensionalidade utilizando o algoritmo PCA (Principal Componentes Analysis)

In [1]:
import pandas as pd

# Conversão de dados categóricos em numéricos:
from sklearn.preprocessing import LabelEncoder

# Normalização dos dados
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split

from sklearn.decomposition import PCA

# Classificador Random Forest
from sklearn.ensemble import RandomForestClassifier

# Pacote para cálculo da acurácia do modelo de classificação:
from sklearn.metrics import accuracy_score

**Preparação dos dados**

data em: https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023<br>
dados salarios em data science 2023

Descrição das colunas:

- work_year: O ano em que o salário foi pago.
- experience_level: O nível de experiência no emprego durante o ano.
- employment_type: O tipo de emprego para a função.
- job_title: O cargo trabalhado durante o ano.
- salary: O valor total bruto do salário pago.
- salary_currency: A moeda do salário pago como um código de moeda ISO 4217.
- salaryinusd: O salário em USD.
- employee_residence: País de residência principal do funcionário durante o ano de trabalho, como um código de país ISO 3166.
- remote_ratio: A quantidade geral de trabalho feito remotamente.
- company_location: O país do escritório principal do empregador ou filial contratante.
- company_size: O número médio de pessoas que trabalhavam para a empresa durante o ano.



In [5]:
# Criando um dataframe a partir do dados do arquivo
df = pd.read_csv('ds_salaries.csv')
df.head()

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB


In [7]:
# Seleção de atributos (Dados de entrada)
# Com o método .iloc selecionamos (por índice) todas as linhas
X = df.iloc[:, 0:10].values

In [8]:
X

array([[2023, 'SE', 'FT', ..., 'ES', 100, 'ES'],
       [2023, 'MI', 'CT', ..., 'US', 100, 'US'],
       [2023, 'MI', 'CT', ..., 'US', 100, 'US'],
       ...,
       [2020, 'EN', 'FT', ..., 'US', 100, 'US'],
       [2020, 'EN', 'CT', ..., 'US', 100, 'US'],
       [2021, 'SE', 'FT', ..., 'IN', 50, 'IN']], dtype=object)

In [9]:
# Seleção do target (Dados de saída)
# Com o método .iloc selecionamos (por índice) todas as linhas, apenas a coluna 14 (income)
y = df.iloc[:, 10].values

In [10]:
# Em Machine Learning, o "Label Encoding" é o processo de conversão
# de variáveis categóricas em variáveis numéricas (inteiros).

# Criaremos variáveis com o nome das colunas e aplicaremos a transformação para cada uma deles com o LabelEncoder():
le_experience_level = LabelEncoder()
le_employment_type = LabelEncoder()
le_job_title = LabelEncoder()
le_salary_currency = LabelEncoder()
le_employee_residence = LabelEncoder ()
le_company_location = LabelEncoder ()
le_company_size = LabelEncoder ()

In [11]:
# Usando o método .fit_transform aplicamos os novos valores transformados às colunas:
X[:,1] = le_experience_level.fit_transform(X[:,1])
X[:,2] = le_employment_type.fit_transform(X[:,2])
X[:,3] = le_job_title.fit_transform(X[:,3])
X[:,5] = le_salary_currency.fit_transform(X[:,5])
X[:,7] = le_employee_residence.fit_transform(X[:,7])
X[:,9] = le_company_location.fit_transform(X[:,9])


In [12]:
X

array([[2023, 3, 2, ..., 26, 100, 25],
       [2023, 2, 0, ..., 75, 100, 70],
       [2023, 2, 0, ..., 75, 100, 70],
       ...,
       [2020, 0, 2, ..., 75, 100, 70],
       [2020, 0, 0, ..., 75, 100, 70],
       [2021, 3, 2, ..., 39, 50, 38]], dtype=object)

In [13]:
# Padronização
# É o redimensionamento dos recursos para criar um “padrão” garantindo
# que os novos dados tenham média zero e desvio padrão igual a 1
scaler = StandardScaler()

# Salvando os novos dados já padronizados:
X = scaler.fit_transform(X)

In [14]:
X

array([[  0.90599446,   0.58573566,   0.02592668, ...,  -2.08756459,
          1.10591825,  -2.12181783],
       [  0.90599446,  -0.51784558, -14.95171653, ...,   0.46018613,
          1.10591825,   0.45062463],
       [  0.90599446,  -0.51784558, -14.95171653, ...,   0.46018613,
          1.10591825,   0.45062463],
       ...,
       [ -3.43330297,  -2.72500806,   0.02592668, ...,   0.46018613,
          1.10591825,   0.45062463],
       [ -3.43330297,  -2.72500806, -14.95171653, ...,   0.46018613,
          1.10591825,   0.45062463],
       [ -1.9868705 ,   0.58573566,   0.02592668, ...,  -1.41163073,
          0.07674278,  -1.37866779]])

In [15]:
# Com o método train_test_split separamos os dados em treino e teste:
# X_treino e y_treino: dados para treinamento dos modelos (80% dos dados iniciais)
# X_teste e y_teste: dados para teste e avaliação dos modelos (20% dos dados iniciais)

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.20)

In [16]:
X_treino.shape, X_teste.shape

((3004, 10), (751, 10))

**Aplicação algoritmo PCA**

In [17]:
# Criamos a variável pca e aplicamos o algoritmo PCA para a redução do número original de colunas para
# um número definido "p"
# O hiperparâmetro "n_components" recebe o valor definido de novas colunas (p)
p = 6
pca = PCA(n_components=p)

In [18]:
# Definimos novas variáveis de treino e testes (agora com um menor números de colunas)
X_treino_pca = pca.fit_transform(X_treino)
X_teste_pca = pca.transform(X_teste)

In [19]:
X_treino_pca.shape, X_teste_pca.shape

((3004, 6), (751, 6))

In [20]:
# O método "explained_variance_ratio" permite calcular a
# porcentagem de variância dos dados que consegue ser explicada por cada um dos componentes selecionados

# Relembrando! :-)
# A variância, assim como o desvio padrão, é uma das medidas de dispersão de dados
# que mostra o comportamento dos dados de uma amostra em relação a uma medida central (por exemplo, a média)

pca.explained_variance_ratio_

array([0.32866028, 0.12141152, 0.11582568, 0.10459598, 0.09154859,
       0.07520181])

In [21]:
# Somando os percentuais conseguimos ver o quanto nosso
# modelo PCA conseguiu explicar dos dados de entrada
total_variancia = pca.explained_variance_ratio_.sum()
print(f'O modelo PCA com {p} variáveis explica{100*(total_variancia): .2f} % dos dados de entrada')

O modelo PCA com 6 variáveis explica 83.72 % dos dados de entrada


**Aplicando os novos dados gerados em um modelo de classificação**

In [22]:
# Instanciando o objeto do classificador
modelo_rf = RandomForestClassifier(n_estimators=40, random_state=0)

In [23]:
# Usando o método .fit para treinar o modelo

# Com base nos dados de treino iniciais:
modelo_rf.fit(X_treino, y_treino)

# Com base nos dados de treino gerados após a aplicação do algoritmo PCA:
# modelo_rf.fit(X_treino_pca, y_treino)

In [24]:
# Usando o método .predict para estimar os resultados

# Realizando as previsões com base nos dados de teste iniciais
previsoes = modelo_rf.predict(X_teste)

# Realizando as previsões com base nos dados de teste após a aplicação do algoritmo PCA
#previsoes = modelo_rf.predict(X_teste_pca)

In [93]:
previsoes

array(['M', 'M', 'M', 'M', 'M', 'S', 'M', 'M', 'M', 'M', 'M', 'L', 'M',
       'M', 'M', 'S', 'M', 'M', 'M', 'M', 'S', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'L', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M',
       'L', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M',
       'M', 'L', 'L', 'M', 'M', 'M', 'M', 'L', 'M', 'L', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'L', 'M', 'S', 'S', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'L', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'S', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'L',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M

In [25]:
y_teste

array(['M', 'L', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'L', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M', 'L',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L',
       'M', 'S', 'M', 'M', 'S', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'S', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'L', 'M', 'L', 'M', 'L', 'M', 'M', 'M', 'M',
       'M', 'M', 'M', 'S', 'M', 'M', 'M', 'M', 'L', 'L', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'S', 'M', 'M', 'S',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M',
       'L', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M',
       'M', 'M', 'M', 'M', 'M', 'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M',
       'M', 'M', 'L', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M', 'M

In [26]:
# Calculando a acurácia do modelo de classificação:
acuracia = accuracy_score(y_teste, previsoes)
print(f'A acurácia do modelo Random Forest é de:{(100*acuracia): .2f} %')

# Sugestão de leitura:
# Métricas de avaliação de modelos de aprendizado de máquina:
# https://mariofilho.com/as-metricas-mais-populares-para-avaliar-modelos-de-machine-learning/

A acurácia do modelo Random Forest é de: 89.35 %


In [27]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Modelo com dados originais (sem PCA)
modelo_original = RandomForestClassifier(n_estimators=40, random_state=0)
modelo_original.fit(X_treino, y_treino)
previsoes_original = modelo_original.predict(X_teste)
acuracia_original = accuracy_score(y_teste, previsoes_original)
print(f"Acurácia sem PCA: {acuracia_original * 100:.2f}%")

# Modelo com dados transformados pelo PCA
modelo_pca = RandomForestClassifier(n_estimators=40, random_state=0)
modelo_pca.fit(X_treino_pca, y_treino)
previsoes_pca = modelo_pca.predict(X_teste_pca)
acuracia_pca = accuracy_score(y_teste, previsoes_pca)
print(f"Acurácia com PCA: {acuracia_pca * 100:.2f}%")

Acurácia sem PCA: 89.35%
Acurácia com PCA: 89.08%
