1. Model Fikcyjnego Klasyfikatora

In [40]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from sklearn.model_selection import train_test_split
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from ucimlrepo import fetch_ucirepo

# fetch dataset
adult = fetch_ucirepo(id=2)

# data (as pandas dataframes)
X = adult.data.features
y = adult.data.targets

# Podzial danych na zbiory treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Usunięcie wierszy z brakującymi danymi
X_train = X_train.dropna()
y_train = y_train.loc[X_train.index]


pd.set_option('display.max_columns', None)
print("Dane treningowe dla X:")
print(X_train.head())  # Zmienić 10 na dowolną liczbę kolumn, które chcesz zobaczyć
pd.reset_option('display.max_columns')

# Utworzenie klasyfikatora DummyClassifier z domyslna strategia 'stratified'
dummy_clif = DummyClassifier(strategy='stratified', random_state=42)

# Trenowanie klasyfikatora na zbiorze treningowym
dummy_clif.fit(X_train, y_train)

# Prognozowanie na zbiorze testowym
y_pred = dummy_clif.predict(X_test)

# Obliczanie dokladnosci klasyfikatora
accuracy = accuracy_score(y_test, y_pred)
print("Dokladnosc DummyClassifier: {:.2f}".format(accuracy))

# Raport klasyfikacji
print("Raport klasyfikacji:")
print(classification_report(y_test, y_pred))

# Macierz pomylek
print(confusion_matrix(y_test, y_pred))

Dane treningowe dla X:
       age    workclass  fnlwgt     education  education-num  \
14623   32      Private  281030       HS-grad              9   
27411   43      Private   75993  Some-college             10   
1288    37      Private   37238     Bachelors             13   
7078    42  Federal-gov   25240     Assoc-voc             11   
30880   37      Private  199753  Some-college             10   

           marital-status         occupation   relationship  \
14623  Married-civ-spouse  Machine-op-inspct        Husband   
27411  Married-civ-spouse              Sales        Husband   
1288        Never-married    Exec-managerial  Not-in-family   
7078             Divorced     Prof-specialty      Unmarried   
30880  Married-civ-spouse       Craft-repair        Husband   

                     race     sex  capital-gain  capital-loss  hours-per-week  \
14623               White    Male             0             0              40   
27411               White    Male          7688    

2. Model Regresji Liniowej

In [57]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score
from ucimlrepo import fetch_ucirepo

# fetch dataset
adult = fetch_ucirepo(id=2)

# data (as pandas dataframes)
X = adult.data.features
y = adult.data.targets

# Skopiuj dane do unikatowych identyfikatorów
X_train_encoded = X.copy()
y_encoded = y.copy()

# Przypisz unikalne identyfikatory dla kolumn tekstowych
for column in X_train_encoded.select_dtypes(include=['object']).columns:
    X_train_encoded[column] = X_train_encoded[column].astype('category').cat.codes

for column in y_encoded.select_dtypes(include=['object']).columns:
    y_encoded[column] = y_encoded[column].astype('category').cat.codes
    
# Podzial danych na zbiory treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X_train_encoded, y_encoded, test_size=0.3, random_state=42)

# Usunięcie wierszy z brakującymi danymi
X_train = X_train.dropna()
y_train = y_train.loc[X_train.index]

# Utworzenie klasyfikatora LinearRegression'
model = LinearRegression()

# Trenowanie klasyfikatora na zbiorze treningowym
model.fit(X_train, y_train)

# Prognozowanie na zbiorze testowym
y_pred = model.predict(X_test)

# Obliczanie metryk regresji
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
explained_variance = explained_variance_score(y_test, y_pred)

# Wyniki dla błędu średnio kwadratowego, r-kwadrat, wynik wariancji 
print("Mean Squared Error: {:.2f}".format(mse))
print("R-squared (R2): {:.2f}".format(r2))
print("Explained Variance: {:.2f}".format(explained_variance))

Mean Squared Error: 0.76
R-squared (R2): 0.20
Explained Variance: 0.20


3. Model Regresji Logistycznej

In [62]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from ucimlrepo import fetch_ucirepo

# fetch dataset
adult = fetch_ucirepo(id=2)

# data (as pandas dataframes)
X = adult.data.features
y = adult.data.targets

# Skopiuj dane do unikatowych identyfikatorów
X_train_encoded = X.copy()
y_encoded = y.copy()

# Przypisz unikalne identyfikatory dla kolumn tekstowych
for column in X_train_encoded.select_dtypes(include=['object']).columns:
    X_train_encoded[column] = X_train_encoded[column].astype('category').cat.codes

for column in y_encoded.select_dtypes(include=['object']).columns:
    y_encoded[column] = y_encoded[column].astype('category').cat.codes
    
# Podzial danych na zbiory treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X_train_encoded, y_encoded, test_size=0.3, random_state=42)

# Usunięcie wierszy z brakującymi danymi
X_train = X_train.dropna()
y_train = y_train.loc[X_train.index]

# Utworzenie klasyfikatora LogisticRegression
model = LogisticRegression()

# Trenowanie klasyfikatora na zbiorze treningowym
model.fit(X_train, y_train)

# Prognozowanie na zbiorze testowym
y_pred = model.predict(X_test)

# Obliczanie metryk klasyfikacji
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Wyniki dla dokładności, macierzy pomyłek i raportu klasyfikacji
print("Dokładność Regresji Logistycznej: {:.2f}".format(accuracy))
print("\nMacierz pomyłek:\n", conf_matrix)
print("\nRaport klasyfikacji:\n", class_report)


  y = column_or_1d(y, warn=True)


Dokładność Regresji Logistycznej: 0.53

Macierz pomyłek:
 [[7107    0  273    0]
 [3597    0  132    0]
 [1754    0  628    0]
 [ 843    0  319    0]]

Raport klasyfikacji:
               precision    recall  f1-score   support

           0       0.53      0.96      0.69      7380
           1       0.00      0.00      0.00      3729
           2       0.46      0.26      0.34      2382
           3       0.00      0.00      0.00      1162

    accuracy                           0.53     14653
   macro avg       0.25      0.31      0.26     14653
weighted avg       0.34      0.53      0.40     14653



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


4. Model Drzewa Decyzyjnego

In [63]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from ucimlrepo import fetch_ucirepo

# fetch dataset
adult = fetch_ucirepo(id=2)

# data (as pandas dataframes)
X = adult.data.features
y = adult.data.targets

# Skopiuj dane do unikatowych identyfikatorów
X_train_encoded = X.copy()
y_encoded = y.copy()

# Przypisz unikalne identyfikatory dla kolumn tekstowych
for column in X_train_encoded.select_dtypes(include=['object']).columns:
    X_train_encoded[column] = X_train_encoded[column].astype('category').cat.codes

for column in y_encoded.select_dtypes(include=['object']).columns:
    y_encoded[column] = y_encoded[column].astype('category').cat.codes
    
# Podzial danych na zbiory treningowe i testowe
X_train, X_test, y_train, y_test = train_test_split(X_train_encoded, y_encoded, test_size=0.3, random_state=42)

# Usunięcie wierszy z brakującymi danymi
X_train = X_train.dropna()
y_train = y_train.loc[X_train.index]

# Utworzenie klasyfikatora DecisionTreeClassifier
model = DecisionTreeClassifier()

# Trenowanie klasyfikatora na zbiorze treningowym
model.fit(X_train, y_train)

# Prognozowanie na zbiorze testowym
y_pred = model.predict(X_test)

# Obliczanie metryk klasyfikacji
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

# Wyniki dla dokładności, macierzy pomyłek i raportu klasyfikacji
print("Dokładność Drzewa Decyzyjnego: {:.2f}".format(accuracy))
print("\nMacierz pomyłek:\n", conf_matrix)
print("\nRaport klasyfikacji:\n", class_report)

Dokładność Drzewa Decyzyjnego: 0.47

Macierz pomyłek:
 [[4453 2077  560  290]
 [1985 1272  293  179]
 [ 639  314  951  478]
 [ 289  169  463  241]]

Raport klasyfikacji:
               precision    recall  f1-score   support

           0       0.60      0.60      0.60      7380
           1       0.33      0.34      0.34      3729
           2       0.42      0.40      0.41      2382
           3       0.20      0.21      0.21      1162

    accuracy                           0.47     14653
   macro avg       0.39      0.39      0.39     14653
weighted avg       0.47      0.47      0.47     14653

