In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('example_data.csv')
data

Unnamed: 0,SAT Math,SAT Verbal,GPA,Credits earned,Family income,Days drinking (last 30 days),Income
0,4,4,252,132,135100,2,45000
1,3,3,344,135,4450,3,4200
2,3,3,231,120,75000,7,25000
3,4,5,215,125,63250,8,38000
4,2,2,111,31,55000,4,37500
...,...,...,...,...,...,...,...
723,4,4,277,121,46650,1,39000
724,4,4,378,128,60200,3,42000
725,3,2,198,89,120000,15,45000
726,4,4,221,139,158000,2,38000


In [2]:
data['Income'].median()

25000.0

In [3]:
data['Income level'] = data['Income'].apply(lambda x: 0 if x <= 25000 else 1)
data

Unnamed: 0,SAT Math,SAT Verbal,GPA,Credits earned,Family income,Days drinking (last 30 days),Income,Income level
0,4,4,252,132,135100,2,45000,1
1,3,3,344,135,4450,3,4200,0
2,3,3,231,120,75000,7,25000,0
3,4,5,215,125,63250,8,38000,1
4,2,2,111,31,55000,4,37500,1
...,...,...,...,...,...,...,...,...
723,4,4,277,121,46650,1,39000,1
724,4,4,378,128,60200,3,42000,1
725,3,2,198,89,120000,15,45000,1
726,4,4,221,139,158000,2,38000,1


In [4]:
# Podział danych na zmienne niezależne i zmienną zależną
X = data.drop(['Income level', 'Income'], axis=1)
y = data['Income level']

# Skalowanie danych
scaler = StandardScaler()
X = scaler.fit_transform(X)

array([[ 0.06209709,  0.06531771, -0.25556644,  0.94226459,  1.08372051,
        -0.67780352],
       [-0.84203659, -0.86706059,  0.73608051,  0.99588242, -1.12812774,
        -0.52662676],
       [-0.84203659, -0.86706059, -0.48192064,  0.72779328,  0.06625338,
         0.07808031],
       ...,
       [-0.84203659, -1.7994389 , -0.83762008,  0.17374239,  0.82808401,
         1.28749443],
       [ 0.06209709,  0.06531771, -0.58970835,  1.06737285,  1.47140765,
        -0.67780352],
       [ 0.06209709,  1.93007432,  0.8115319 ,  0.60268501,  0.93812621,
        -0.52662676]])

In [10]:
# Podział danych na zbiór treningowy i zbiór testowy
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicjalizacja i dopasowanie modelu regresji logistycznej
model = LogisticRegression()
model.fit(X_train, y_train)

#Analiza współczynników
coefficients = model.coef_[0]
intercept = model.intercept_[0]
print("Współczynniki regresji:")
print(coefficients)
print("Przecięcie (intercept):")
print(intercept)

Współczynniki regresji:
[ 0.14004876 -0.11427224  0.0276283   0.31081947  0.59120391 -0.04075015]
Przecięcie (intercept):
-0.045464725895054674


In [6]:
# Przewidywanie na danych testowych
y_pred = model.predict(X_test)

# Wyświetlenie macierzy pomyłek
conf_matrix = confusion_matrix(y_test, y_pred)
print("Macierz pomyłek:")
print(conf_matrix)

Macierz pomyłek:
[[51 20]
 [36 39]]


In [7]:
# Ocenia dokładność modelu
accuracy = accuracy_score(y_test, y_pred)
print(f'Dokładność modelu: {accuracy}')

Dokładność modelu: 0.6164383561643836


In [8]:
# Wyświetlenie raportu klasyfikacji
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.59      0.72      0.65        71
           1       0.66      0.52      0.58        75

    accuracy                           0.62       146
   macro avg       0.62      0.62      0.61       146
weighted avg       0.62      0.62      0.61       146



In [9]:
# Precyzja mierzy odsetek prawdziwie pozytywnych przypadków wśród wszystkich przypadków przewidzianych jako pozytywne przez model. Wyższa precyzja oznacza, że model ma mniej fałszywych pozytywów.
# 
# Czułość mierzy odsetek prawdziwie pozytywnych przypadków wśród wszystkich rzeczywistych pozytywnych przypadków. Wyższa czułość oznacza, że model lepiej identyfikuje pozytywne przypadki.
# 
# F1-score jest średnią harmoniczną precyzji i czułości. Jest to miara, która uwzględnia zarówno precyzję, jak i czułość. Wyższy F1-score oznacza lepszą równowagę między precyzją a czułością.
# 
# Support to liczba próbek w każdej z klas, które zostały wykorzystane do oceny modelu.

# Wartości precyzji są zbliżone, co oznacza, że model ma umiarkowanie dobrą zdolność do identyfikowania obiektów obu klas. Model jest w stanie zachować stosunkowo niską liczbę fałszywych pozytywów dla obu klas.
# 
# Wartość czułości dla klasy 0 jest wyższa niż dla klasy 1, co oznacza, że model jest lepszy w identyfikowaniu obiektów klasy 0 niż klasy 1. Model jest w stanie zachować stosunkowo niską liczbę fałszywych negatywów dla klasy 0, ale ma pewne trudności w identyfikowaniu obiektów klasy 1.
# 
# Wartości F1-score dla obu klas są zbliżone, co oznacza, że model osiąga umiarkowanie dobrą równowagę między precyzją a czułością dla obu klas. 