In [73]:
import pandas as pd
import numpy as np

## 1. Wstępna analiza

In [74]:
# Zaimportuj dane

ds_salaries = pd.read_csv('ds_salaries.csv')
ds_salaries

Unnamed: 0,work_year,experience_level,employment_type,job_title,salary,salary_currency,salary_in_usd,employee_residence,remote_ratio,company_location,company_size
0,2023,SE,FT,Principal Data Scientist,80000,EUR,85847,ES,100,ES,L
1,2023,MI,CT,ML Engineer,30000,USD,30000,US,100,US,S
2,2023,MI,CT,ML Engineer,25500,USD,25500,US,100,US,S
3,2023,SE,FT,Data Scientist,175000,USD,175000,CA,100,CA,M
4,2023,SE,FT,Data Scientist,120000,USD,120000,CA,100,CA,M
...,...,...,...,...,...,...,...,...,...,...,...
3750,2020,SE,FT,Data Scientist,412000,USD,412000,US,100,US,L
3751,2021,MI,FT,Principal Data Scientist,151000,USD,151000,US,100,US,L
3752,2020,EN,FT,Data Scientist,105000,USD,105000,US,100,US,S
3753,2020,EN,CT,Business Data Analyst,100000,USD,100000,US,100,US,L


In [75]:
# Pośród 3755 rekordów nie ma żadnych wartości null
print(f"Krztałt zbioru danych: {ds_salaries.shape}\n")

ds_salaries.info()

print(f'\n Zbiór danych nie ma żadnyh wartości null')

Krztałt zbioru danych: (3755, 11)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3755 entries, 0 to 3754
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   work_year           3755 non-null   int64 
 1   experience_level    3755 non-null   object
 2   employment_type     3755 non-null   object
 3   job_title           3755 non-null   object
 4   salary              3755 non-null   int64 
 5   salary_currency     3755 non-null   object
 6   salary_in_usd       3755 non-null   int64 
 7   employee_residence  3755 non-null   object
 8   remote_ratio        3755 non-null   int64 
 9   company_location    3755 non-null   object
 10  company_size        3755 non-null   object
dtypes: int64(4), object(7)
memory usage: 322.8+ KB

 Zbiór danych nie ma żadnyh wartości null


In [76]:
print('Kolumna remote_ratio jest nietypowa ponieważ ma typ zmiennych int, ale wartości są zdecydowanie kategoryczne. Zamieniam je na bardziej czytelne')

ds_salaries['remote_ratio'].unique()
ds_salaries['remote_ratio'] = ds_salaries['remote_ratio'].replace({100: 'Remote', 0:'On-site', 50:'Hybrid'})
ds_salaries['remote_ratio'].describe()

Kolumna remote_ratio jest nietypowa ponieważ ma typ zmiennych int, ale wartości są zdecydowanie kategoryczne. Zamieniam je na bardziej czytelne


count        3755
unique          3
top       On-site
freq         1923
Name: remote_ratio, dtype: object

In [77]:
object_columns = ds_salaries.select_dtypes(include=['object']).columns

print(f'W zbiorze danych jest {len(object_columns)} kolumn o typie innej niż liczbowy')

W zbiorze danych jest 8 kolumn o typie innej niż liczbowy


In [78]:
for col in object_columns:
    print(f'Kolumna {col} ma {len(ds_salaries[col].unique())} różnych wartości')

Kolumna experience_level ma 4 różnych wartości
Kolumna employment_type ma 4 różnych wartości
Kolumna job_title ma 93 różnych wartości
Kolumna salary_currency ma 20 różnych wartości
Kolumna employee_residence ma 78 różnych wartości
Kolumna remote_ratio ma 3 różnych wartości
Kolumna company_location ma 72 różnych wartości
Kolumna company_size ma 3 różnych wartości


## 2. Dostosowanie kolumn nieliczbowych

In [79]:
from sklearn.preprocessing import LabelEncoder

In [80]:
data = ds_salaries.copy()

data_obj = data[object_columns]

labelEncoder = LabelEncoder()

for col in object_columns:
    data[col] = labelEncoder.fit_transform(data[col])

print("Zdecydowałem się na użycie LabelEncodera, ponieważ przy zbiór danych ma kilka kolumn nienumerycznych, które mają sporo różnych wartości.")
print("Niestety nie mają one teraz wartości 0-1, dlatego będzie konieczne przesklawoanie tych wartości")

Zdecydowałem się na użycie LabelEncodera, ponieważ przy zbiór danych ma kilka kolumn nienumerycznych, które mają sporo różnych wartości.
Niestety nie mają one teraz wartości 0-1, dlatego będzie konieczne przesklawoanie tych wartości


## 3. Podział danych i ich skalowanie

In [81]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline, make_pipeline

In [82]:
y = data['salary_in_usd']
X = data.drop('salary_in_usd', axis=1)  #To tworzy kopię data i dopiero wtedy usuwa kolumnę, więc oryginalna data jest nietknięta

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [83]:
preprocessing_pipeline = make_pipeline(
    MinMaxScaler(),
)

print("Ten potok pozwala na przeskalowanie wartości do zakresu <0; 1> przy pomocy metody MinMaxScaler")

Ten potok pozwala na przeskalowanie wartości do zakresu <0; 1> przy pomocy metody MinMaxScaler


## 4. DecisionTreeClassifier

In [84]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error
import numpy as np

In [85]:
dtc_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classification', DecisionTreeClassifier())
])

In [86]:
dtc_params = {
    'classification__criterion':['gini','entropy'],
    'classification__max_depth':np.arange(1, 21).tolist()[0::2],
    'classification__min_samples_split':np.arange(2,11).tolist()[0::2],
    'classification__max_leaf_nodes':np.arange(3,501).tolist()[0::2]
}

In [87]:
r1 = RandomizedSearchCV(dtc_pipeline, dtc_params, cv=5, n_iter=100, random_state=42)

In [88]:
r1.fit(X_train, y_train)



In [89]:
r1.best_params_

{'classification__min_samples_split': 2,
 'classification__max_leaf_nodes': 409,
 'classification__max_depth': 17,
 'classification__criterion': 'entropy'}

In [90]:
r1.score(X_test, y_test)

0.7017310252996005

In [102]:
y_pred = r1.predict(X_test)

print(f'Accuracy score: {accuracy_score(y_true=y_test, y_pred=y_pred)}')
print(f'Precyzja: {precision_score(y_true=y_test, y_pred=y_pred, average="weighted")}')
print(f'Czułość: {recall_score(y_true=y_test, y_pred=y_pred, average="weighted")}')

[ 89306 175000 124000 150000 113900 260000 169000 120000 179820 250000
  88256  63000 130000 215000 159832  90000  85500 100000 160000  73742
 216000 154000  92350 135000  52533 249500 130000 170000 155000  66000
 150000  88256  73546 123000 185900  78990 185900 135000 145000 175000
  95000 140000 100000 130000  63831 227000 150000 145000 204500 160000
  54094 205000  31520  63000 100000 231250 130000  49253  52500  50432
  50000 216000 169000 125000 117000  43809 180000 130000 200000  80000
 240000 310000 100000  81666 182750 183500 190000 195400 147100  57723
 141525 150000  63000 135000  61566 141525 105500 160000 145000  60000
  48000  92350 102100 180000 125404  12171  81500 160000 141525 170000
  49253 185900  75000 150075 152380 210000 160000 210000 170000 129300
 100000 100000 240000 110600 237000  61566  92700 143000 265000  33000
 110820  17022 120000 242000 146000 117000  30523  42026 106020 110000
  38631  90734  31520  70000 128000 110000 110820 110000  80036  78000
 14500

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## 5. RandomForestRegressor

In [92]:
from sklearn.ensemble import RandomForestRegressor

In [93]:
rfr_pipeline = Pipeline([
    ('preprocessing', preprocessing_pipeline),
    ('classification', RandomForestRegressor())
])

In [94]:
rfr_params = {
    'classification__n_estimators':np.arange(80, 111).tolist()[0::2],
    'classification__criterion':['squared_error','absolute_error', 'friedman_mse', 'poisson'],
    'classification__max_depth':np.arange(10, 21).tolist()[0::2],
    'classification__min_samples_split':np.arange(2,11).tolist()[0::2]
    # 'classification__max_leaf_nodes':np.arange(301, 451).tolist()[0::2]
}

In [95]:
r2 = RandomizedSearchCV(rfr_pipeline, rfr_params, cv=5, n_iter=10, random_state=42)

In [96]:
r2.fit(X_train, y_train)

In [103]:
r2.best_params_

{'classification__n_estimators': 92,
 'classification__min_samples_split': 2,
 'classification__max_depth': 14,
 'classification__criterion': 'friedman_mse'}

In [97]:
r2.score(X_test, y_test)

0.9625529519448386

In [104]:
y_pred = r2.predict(X_test)

print(f'Niestety accuracy score, precision score i recall score nie były w stanie obsłużyć takich zmiennych (z jakiegoś powodu)')

# print(f'Accuracy score: {accuracy_score(y_true=y_test, y_pred=y_pred)}')
# print(f'Precyzja: {precision_score(y_true=y_test, y_pred=y_pred, average="weighted")}')
# print(f'Czułość: {recall_score(y_true=y_test, y_pred=y_pred, average="weighted")}')

Niestety accuracy score, precision score i recall score nie były w stanie obsłużyć takich zmiennych (z jakiegoś powodu)


## 6. LinearRegression