In [117]:
import pandas as pd
import numpy as np

## 1. Wstępna analiza

In [118]:
# Zaimportuj dane

ds_salaries = pd.read_csv('ds_salaries.csv')
ds_salaries

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


In [119]:
# Pośród 3755 rekordów nie ma żadnych wartości null
print(f"Krztałt zbioru danych: {ds_salaries.shape}\n")

ds_salaries.info()

print(f'\n Zbiór danych nie ma żadnyh wartości null')

Krztałt zbioru danych: (3755, 11)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB

 Zbiór danych nie ma żadnyh wartości null


In [120]:
print('Kolumna remote_ratio jest nietypowa ponieważ ma typ zmiennych int, ale wartości są zdecydowanie kategoryczne. Zamieniam je na bardziej czytelne')

ds_salaries['remote_ratio'].unique()
ds_salaries['remote_ratio'] = ds_salaries['remote_ratio'].replace({100: 'Remote', 0:'On-site', 50:'Hybrid'})
ds_salaries['remote_ratio'].describe()

Kolumna remote_ratio jest nietypowa ponieważ ma typ zmiennych int, ale wartości są zdecydowanie kategoryczne. Zamieniam je na bardziej czytelne


count        3755
unique          3
top       On-site
freq         1923
Name: remote_ratio, dtype: object

In [121]:
object_columns = ds_salaries.select_dtypes(include=['object']).columns

print(f'W zbiorze danych jest {len(object_columns)} kolumn o typie innej niż liczbowy')

W zbiorze danych jest 8 kolumn o typie innej niż liczbowy


In [122]:
for col in object_columns:
    print(f'Kolumna {col} ma {len(ds_salaries[col].unique())} różnych wartości')

Kolumna experience_level ma 4 różnych wartości
Kolumna employment_type ma 4 różnych wartości
Kolumna job_title ma 93 różnych wartości
Kolumna salary_currency ma 20 różnych wartości
Kolumna employee_residence ma 78 różnych wartości
Kolumna remote_ratio ma 3 różnych wartości
Kolumna company_location ma 72 różnych wartości
Kolumna company_size ma 3 różnych wartości


## 2. Dostosowanie kolumn nieliczbowych

In [123]:
from sklearn.preprocessing import LabelEncoder

In [124]:
data = ds_salaries.copy()

data_obj = data[object_columns]

labelEncoder = LabelEncoder()

for col in object_columns:
    data[col] = labelEncoder.fit_transform(data[col])

print("Zdecydowałem się na użycie LabelEncodera, ponieważ przy zbiór danych ma kilka kolumn nienumerycznych, które mają sporo różnych wartości.")
print("Niestety nie mają one teraz wartości 0-1, dlatego będzie konieczne przesklawoanie tych wartości")

Zdecydowałem się na użycie LabelEncodera, ponieważ przy zbiór danych ma kilka kolumn nienumerycznych, które mają sporo różnych wartości.
Niestety nie mają one teraz wartości 0-1, dlatego będzie konieczne przesklawoanie tych wartości


## 3. Podział danych i ich skalowanie

In [125]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline, make_pipeline

In [126]:
y = data['salary_in_usd']
X = data.drop('salary_in_usd', axis=1)  #To tworzy kopię data i dopiero wtedy usuwa kolumnę, więc oryginalna data jest nietknięta

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [127]:
preprocessing_pipeline = make_pipeline(
    MinMaxScaler(),
)

print("Ten potok pozwala na przeskalowanie wartości do zakresu <0; 1> przy pomocy metody MinMaxScaler")

Ten potok pozwala na przeskalowanie wartości do zakresu <0; 1> przy pomocy metody MinMaxScaler


## 4. DecisionTreeClassifier

In [128]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, mean_squared_error, r2_score, mean_absolute_error
import numpy as np

In [129]:
dtc_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classification', DecisionTreeClassifier())
])

In [130]:
dtc_params = {
    'classification__criterion':['gini','entropy'],
    'classification__max_depth':np.arange(1, 21).tolist()[0::2],
    'classification__min_samples_split':np.arange(2,11).tolist()[0::2],
    'classification__max_leaf_nodes':np.arange(3,501).tolist()[0::2]
}

In [131]:
r1 = RandomizedSearchCV(dtc_pipeline, dtc_params, cv=5, n_iter=100, random_state=42)

In [132]:
r1.fit(X_train, y_train)



In [133]:
r1.best_params_

{'classification__min_samples_split': 4,
 'classification__max_leaf_nodes': 425,
 'classification__max_depth': 17,
 'classification__criterion': 'gini'}

In [134]:
r1.score(X_test, y_test)

0.6870838881491345

In [135]:
y_pred = r1.predict(X_test)

print(f'Accuracy score: {accuracy_score(y_true=y_test, y_pred=y_pred)}')
print(f'Precyzja: {precision_score(y_true=y_test, y_pred=y_pred, average="weighted")}')
print(f'Czułość: {recall_score(y_true=y_test, y_pred=y_pred, average="weighted")}')

Accuracy score: 0.6870838881491345
Precyzja: 0.6498523003849236
Czułość: 0.6870838881491345


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## 5. RandomForestRegressor

In [136]:
from sklearn.ensemble import RandomForestRegressor

In [137]:
rfr_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classification', RandomForestRegressor())
])

In [138]:
rfr_params = {
    'classification__n_estimators':np.arange(80, 111).tolist()[0::2],
    'classification__criterion':['squared_error','absolute_error', 'friedman_mse', 'poisson'],
    'classification__max_depth':np.arange(10, 21).tolist()[0::2],
    'classification__min_samples_split':np.arange(2,11).tolist()[0::2]
}

In [139]:
r2 = RandomizedSearchCV(rfr_pipeline, rfr_params, cv=5, n_iter=10, random_state=42)

In [140]:
r2.fit(X_train, y_train)

In [141]:
r2.best_params_

{'classification__n_estimators': 104,
 'classification__min_samples_split': 8,
 'classification__max_depth': 18,
 'classification__criterion': 'absolute_error'}

In [142]:
r2.score(X_test, y_test)

0.9238832372599669

In [143]:
y_pred = r2.predict(X_test)

print(f'R2 score: {r2_score(y_true=y_test, y_pred=y_pred)}')
print(f'MSE: {mean_squared_error(y_true=y_test, y_pred=y_pred)}')
print(f'MAE: {mean_absolute_error(y_true=y_test, y_pred=y_pred)}')

R2 score: 0.9238832372599669
MSE: 335354074.70354605
MAE: 2881.8532853631054


## 6. LinearRegression

In [144]:
#Niestety LinearRegression z biblioteki sklearn nie posiada hiperparametrów, więc nie mógłbym ich "podkręcać".
#Zdecydowałem się, więc na użycie SGDRegressor, który również jest w module linear_model

from sklearn.linear_model import LinearRegression
from sklearn.linear_model import SGDRegressor

In [145]:
lr_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classification', SGDRegressor())
])

In [146]:
lr_params = {
    'classification__loss':['squared_error', 'huber', 'squared_epsilon_insensitive'],
    'classification__penalty':['l2', 'l1'],
    'classification__max_iter':np.arange(900, 1501).tolist()[::25],
    'classification__learning_rate':['constant', 'optimal', 'invscaling', 'adaptive'],
    'classification__eta0':np.arange(0.001, 0.05, 0.005),
    'classification__n_iter_no_change':np.arange(1, 21).tolist()[::2]
}

In [147]:
r3 = RandomizedSearchCV(lr_pipeline, lr_params, cv=5, n_iter=100, random_state=42)

In [148]:
r3.fit(X_train, y_train)



In [149]:
r3.best_params_

{'classification__penalty': 'l2',
 'classification__n_iter_no_change': 9,
 'classification__max_iter': 975,
 'classification__loss': 'squared_epsilon_insensitive',
 'classification__learning_rate': 'adaptive',
 'classification__eta0': 0.011}

In [150]:
r3.score(X_test, y_test)

0.25990634030389614

In [151]:
y_pred = r3.predict(X_test)

print(f'R2 score: {r2_score(y_true=y_test, y_pred=y_pred)}')
print(f'MSE: {mean_squared_error(y_true=y_test, y_pred=y_pred)}')
print(f'MAE: {mean_absolute_error(y_true=y_test, y_pred=y_pred)}')

R2 score: 0.25990634030389614
MSE: 3260693380.8919396
MAE: 42577.02661319616
