# Аналіз набору даних за допомогою Pandas, NumPy, візуалізації даних за допомогою Matplotlib у блокноті Jupyter для датасету Students Exam Scores

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
df = pd.read_csv("Expanded_data_with_more_features.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,Gender,EthnicGroup,ParentEduc,LunchType,TestPrep,ParentMaritalStatus,PracticeSport,IsFirstChild,NrSiblings,TransportMeans,WklyStudyHours,MathScore,ReadingScore,WritingScore
0,0,female,,bachelor's degree,standard,none,married,regularly,yes,3.0,school_bus,< 5,71,71,74
1,1,female,group C,some college,standard,,married,sometimes,yes,0.0,,5 - 10,69,90,88
2,2,female,group B,master's degree,standard,none,single,sometimes,yes,4.0,school_bus,< 5,87,93,91
3,3,male,group A,associate's degree,free/reduced,none,married,never,no,1.0,,5 - 10,45,56,42
4,4,male,group C,some college,standard,none,married,sometimes,yes,0.0,school_bus,5 - 10,76,78,75


### 1) Скільки студентів і студенток у наборі даних?

In [3]:
males = df[df["Gender"] == "male"]
females = df[df["Gender"] == "female"]

print("Male students:", len(males))
print("Female students:", len(females))

Male students: 15217
Female students: 15424


### 2) Який відсоток студентів чоловічої статі в наборі даних?

In [4]:
percentage_male = (len(males) / len(df)) * 100
print("Male percentage:", percentage_male)

Male percentage: 49.6622172905584


### 3) Який відсоток студенток у наборі даних?

In [5]:
percentage_female = (len(females) / len(df)) * 100
print("Female percentage:", percentage_female)

Female percentage: 50.337782709441605


### 4) Яка етнічна група має найвищий середній бал з математики?

In [6]:
print("Highest mean math score group:", df.groupby('EthnicGroup')['MathScore'].mean().idxmax())

Highest mean math score group: group E


### 5) Яка етнічна група має найвищий середній бал читання?

In [7]:
print("Highest mean reading score group:", df.groupby('EthnicGroup')['ReadingScore'].mean().idxmax())

Highest mean reading score group: group E


### 6) Яка етнічна група має найвищий середній бал з письма?

In [8]:
print("Highest mean writing score group:", df.groupby('EthnicGroup')['WritingScore'].mean().idxmax())

Highest mean writing score group: group E


### 7) Який середній бал з математики для студентів, які закінчили курс підготовки до тесту?

In [9]:
print("Mean completed math score:", df[df['TestPrep'] == 'completed']['MathScore'].mean())

Mean completed math score: 69.5466599698644


### 8) Який середній бал з читання для студентів, які пройшли курс підготовки до тесту?

In [10]:
print("Mean completed reading score:", df[df['TestPrep'] == 'completed']['ReadingScore'].mean())

Mean completed reading score: 73.73299849321948


### 9) Який середній бал для студентів, які закінчили курс підготовки до тесту?

In [11]:
print("Mean completed score:", df[df['TestPrep'] == 'completed'][['MathScore', 'ReadingScore', 'WritingScore']].values.mean())

Mean completed score: 72.66097438473129


### 10) Скільки студентів мають одружених батьків?

In [12]:
print("Students with married parents:", len(df[df['ParentMaritalStatus'] == 'married']))

Students with married parents: 16844


### 11) Скільки студентів мають батьків-одинаків?

In [13]:
print("Students with single parents:", len(df[df['ParentMaritalStatus'] == 'single']))

Students with single parents: 7097


### 12) Чи студенти, які регулярно займаються спортом, мають вищі середні результати з математики, ніж ті, хто ніколи не займається спортом?

In [14]:
avg_math_sports = df.groupby('PracticeSport')['MathScore'].mean()
print("Regularly > Never?:", avg_math_sports['regularly'] > avg_math_sports['never'])

Regularly > Never?: True


### 13) Чи студенти, які регулярно займаються спортом, мають вищі середні результати читання, ніж ті, хто ніколи не займається спортом?

In [15]:
avg_math_sports = df.groupby('PracticeSport')['ReadingScore'].mean()
print("Regularly > Never?:", avg_math_sports['regularly'] > avg_math_sports['never'])

Regularly > Never?: True


### 14) Скільки учнів користується шкільним автобусом, щоб дістатися до школи?

In [16]:
print("School bus students:", len(df[df['TransportMeans'] == 'school_bus']))

School bus students: 16145


### 15) Скільки учнів користується приватним транспортом, щоб дістатися до школи?

In [17]:
print("Private transport students:", len(df[df['TransportMeans'] == 'private']))

Private transport students: 11362


### Задача класифікації

Передбачте, чи завершив студент курс підготовки до іспиту, на основі його демографічних та академічних даних.
- Вхідні дані:
    - Gender,
    - EthnicGroup,
    - ParentEduc,
    - LunchType,
    - ParentMaritalStatus,
    - PracticeSport,
    - IsFirstChild,
    - NrSiblings,
    - TransportMeans,
    - WklyStudyHours,
    - MathScore,
    - ReadingScore,
    - WritingScore
- Результат: 
    - TestPrep

In [18]:
df = df.dropna()
data = df[["Gender", "EthnicGroup", "ParentEduc", "LunchType", "ParentMaritalStatus", "PracticeSport", "IsFirstChild", 
              "NrSiblings", "TransportMeans", "WklyStudyHours", "MathScore", "ReadingScore", "WritingScore"]]
target = df["TestPrep"]

In [19]:
target_int = {'none': 0, 'completed': 1}
target_str = ["none", "completed"]
target = target.map(target_int)

In [20]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

pipe_cat = Pipeline([('OHE', OneHotEncoder(drop='first', handle_unknown='ignore'))])
pipe_num = Pipeline([('scale', StandardScaler())])

categorical_vars = data.select_dtypes('object').columns.tolist()
numerical_vars = data.select_dtypes('number').columns.tolist()

full_pipeline = Pipeline([
        ('preprocess', ColumnTransformer(transformers=[
        ('numbers', pipe_num, numerical_vars),
        ('categories', pipe_cat, categorical_vars) 
    ]))
])

full_pipeline


In [21]:
data_prepared = full_pipeline.fit_transform(data)

In [22]:
random_state = 69

In [23]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data_prepared, target, test_size=.2, random_state=random_state)

### Класифікатор стохастичного градієнтного спуску

In [24]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(max_iter=1000, tol=1e-5, random_state=random_state)
sgd_clf.fit(X_train, y_train)

In [25]:
from sklearn.model_selection import cross_val_predict

y_train_pred = cross_val_predict(sgd_clf, X_train, y_train, cv=3)

In [26]:
from sklearn.metrics import f1_score

f1_score(y_train, y_train_pred)

0.5594480974452948

In [27]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_train, y_train_pred)

0.6763185556118447

In [28]:
t_test_pred = sgd_clf.predict(X_test)

In [29]:
from sklearn.metrics import confusion_matrix, classification_report

print(classification_report(y_test, t_test_pred))

              precision    recall  f1-score   support

           0       0.80      0.85      0.82      2504
           1       0.67      0.59      0.63      1345

    accuracy                           0.76      3849
   macro avg       0.73      0.72      0.73      3849
weighted avg       0.75      0.76      0.75      3849



In [30]:
sgd_clf.score(X_test, y_test)

0.7578591842036893

### Класифікатор випадкового лісу

In [31]:
from sklearn.ensemble import RandomForestClassifier

rnd_f_cls = RandomForestClassifier(random_state=random_state)
rnd_f_cls.fit(X_train, y_train)

In [32]:
y_train_pred = cross_val_predict(rnd_f_cls, X_train, y_train, cv=3)

In [33]:
from sklearn.metrics import f1_score

f1_score(y_train, y_train_pred)

0.4569206464941062

In [34]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_train, y_train_pred)

0.625518374482942

In [35]:
t_test_pred = rnd_f_cls.predict(X_test)

In [36]:
from sklearn.metrics import confusion_matrix, classification_report

print(classification_report(y_test, t_test_pred))

              precision    recall  f1-score   support

           0       0.73      0.91      0.81      2504
           1       0.69      0.38      0.49      1345

    accuracy                           0.72      3849
   macro avg       0.71      0.65      0.65      3849
weighted avg       0.72      0.72      0.70      3849



In [37]:
rnd_f_cls.score(X_test, y_test)

0.7246037931930371

### Класифікатор К-сусідів

In [38]:
from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier(weights='distance', n_neighbors=4)
knn_clf.fit(X_train, y_train)

In [39]:
y_train_pred = cross_val_predict(knn_clf, X_train, y_train, cv=3)

In [40]:
from sklearn.metrics import f1_score

f1_score(y_train, y_train_pred)

0.3873807776962582

In [41]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_train, y_train_pred)

0.5558589278560533

In [42]:
t_test_pred = knn_clf.predict(X_test)

In [43]:
from sklearn.metrics import confusion_matrix, classification_report

print(classification_report(y_test, t_test_pred))

              precision    recall  f1-score   support

           0       0.69      0.77      0.73      2504
           1       0.45      0.35      0.40      1345

    accuracy                           0.63      3849
   macro avg       0.57      0.56      0.56      3849
weighted avg       0.61      0.63      0.61      3849



In [44]:
knn_clf.score(X_test, y_test)

0.6258768511301637