## Imports

In [76]:
import pandas as pd
import os

## Setup

In [77]:
PROJECT_ROOT_DIR = '.'
DATA_ROOT_PATH = os.path.join(PROJECT_ROOT_DIR, "datasets", "students-exam-scores")

def load_data(data_path=DATA_ROOT_PATH):
    csv_path = os.path.join(data_path, "Expanded_data_with_more_features.csv")
    return pd.read_csv(csv_path)

## Tasks

In [78]:
df = load_data()

In [79]:
df[:5]

Unnamed: 0.1,Unnamed: 0,Gender,EthnicGroup,ParentEduc,LunchType,TestPrep,ParentMaritalStatus,PracticeSport,IsFirstChild,NrSiblings,TransportMeans,WklyStudyHours,MathScore,ReadingScore,WritingScore
0,0,female,,bachelor's degree,standard,none,married,regularly,yes,3.0,school_bus,< 5,71,71,74
1,1,female,group C,some college,standard,,married,sometimes,yes,0.0,,5 - 10,69,90,88
2,2,female,group B,master's degree,standard,none,single,sometimes,yes,4.0,school_bus,< 5,87,93,91
3,3,male,group A,associate's degree,free/reduced,none,married,never,no,1.0,,5 - 10,45,56,42
4,4,male,group C,some college,standard,none,married,sometimes,yes,0.0,school_bus,5 - 10,76,78,75


In [80]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30641 entries, 0 to 30640
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Unnamed: 0           30641 non-null  int64  
 1   Gender               30641 non-null  object 
 2   EthnicGroup          28801 non-null  object 
 3   ParentEduc           28796 non-null  object 
 4   LunchType            30641 non-null  object 
 5   TestPrep             28811 non-null  object 
 6   ParentMaritalStatus  29451 non-null  object 
 7   PracticeSport        30010 non-null  object 
 8   IsFirstChild         29737 non-null  object 
 9   NrSiblings           29069 non-null  float64
 10  TransportMeans       27507 non-null  object 
 11  WklyStudyHours       29686 non-null  object 
 12  MathScore            30641 non-null  int64  
 13  ReadingScore         30641 non-null  int64  
 14  WritingScore         30641 non-null  int64  
dtypes: float64(1), int64(4), object(10)


## Проаналізуйте розподіл за статтю серед учнів.

### 1. Скільки студентів і студенток у наборі даних?

In [81]:
f_data = df.loc[df['Gender'] == 'female']
f_count = len(f_data)

m_data = df.loc[df['Gender'] == 'male']
m_count = len(m_data)

pd.DataFrame([[f_count], [m_count]],
             columns = ['Count'], index = ['F', 'M'])

Unnamed: 0,Count
F,15424
M,15217


 ### 2. Який відсоток студентів чоловічої статі в наборі даних?

In [82]:
total_count = len(df)
print("%.2f" % (m_count / total_count * 100))

49.66


### 3. Який відсоток студенток у наборі даних?

In [83]:
print("%.2f" % (f_count / total_count * 100))

50.34


## Дослідіть зв’язок між етнічною групою та результатами тестів.

### 4. Яка етнічна група має найвищий середній бал з математики?

In [84]:
sel = df.groupby(['EthnicGroup'])['MathScore'].mean().reset_index()
sel.loc[sel['MathScore'].idxmax()]

EthnicGroup      group E
MathScore      75.298936
Name: 4, dtype: object

### 5. Яка етнічна група має найвищий середній бал читання?

In [85]:
sel = df.groupby(['EthnicGroup'])['ReadingScore'].mean().reset_index()
sel.loc[sel['ReadingScore'].idxmax()]

EthnicGroup       group E
ReadingScore    74.251423
Name: 4, dtype: object

### 6. Яка етнічна група має найвищий середній бал з письма?

In [86]:
sel = df.groupby(['EthnicGroup'])['WritingScore'].mean().reset_index()
sel.loc[sel['WritingScore'].idxmax()]

EthnicGroup      group E
WritingScore    72.67706
Name: 4, dtype: object

## Дослідіть вплив курсу підготовки до тесту на результати тесту.

### 7. Який середній бал з математики для студентів, які закінчили курс підготовки до тесту?

In [87]:
df['TestPrep'].unique()

array(['none', nan, 'completed'], dtype=object)

In [88]:
completed_mean = df[df['TestPrep'] == 'completed']['MathScore'].mean()
completed_mean

69.5466599698644

### 8. Який середній бал з читання для студентів, які пройшли курс підготовки до тесту?

In [89]:
completed_mean = df[df['TestPrep'] == 'completed']['ReadingScore'].mean()
completed_mean

73.73299849321948

### 9. Який середній бал для студентів, які закінчили курс підготовки до тесту?

In [90]:
prepared_students = df[df['TestPrep'] == 'completed']

math_avg = prepared_students['MathScore'].mean()
reading_avg = prepared_students['ReadingScore'].mean()
writing_avg = prepared_students['WritingScore'].mean()
total_avg = (math_avg + reading_avg + writing_avg) / 3

print("%.2f" % total_avg)

72.66


## Проаналізуйте розподіл батьків(ів) за сімейним станом серед учнів.

### 10. Скільки студентів мають одружених батьків?

In [91]:
len(df[df['ParentMaritalStatus'] == 'married'])

16844

### 11. Скільки студентів мають батьків-одинаків?

In [92]:
len(df[df['ParentMaritalStatus'] == 'single'])

7097

## Дослідіть зв’язок між заняттями спортом і результатами тестів.

### 12. Чи студенти, які регулярно займаються спортом, мають вищі середні результати з математики, ніж ті, хто ніколи не займається спортом?

In [94]:
sports_regularly = df[df['PracticeSport'] == 'regularly']
no_sports = df[df['PracticeSport'] == 'never']

math_avg_sports = sports_regularly['MathScore'].mean()
math_avg_no_sports = no_sports['MathScore'].mean()

print(f"Чи студенти, які регулярно займаються спортом, мають вищі середні результати з математики, ніж ті, хто ніколи не займається спортом: {math_avg_sports > math_avg_no_sports}")

Чи студенти, які регулярно займаються спортом, мають вищі середні результати з математики, ніж ті, хто ніколи не займається спортом: True


### 13. Чи студенти, які регулярно займаються спортом, мають вищі середні результати читання, ніж ті, хто ніколи не займається спортом?

In [95]:
reading_avg_sports = sports_regularly['ReadingScore'].mean()
reading_avg_no_sports = no_sports['ReadingScore'].mean()

print(f"Чи студенти, які регулярно займаються спортом, мають вищі середні результати читання, ніж ті, хто ніколи не займається спортом: {reading_avg_sports > reading_avg_no_sports}")

Чи студенти, які регулярно займаються спортом, мають вищі середні результати читання, ніж ті, хто ніколи не займається спортом: True


## Проаналізуйте розподіл транспортних засобів до школи серед учнів.

### 14. Скільки учнів користується шкільним автобусом, щоб дістатися до школи?

In [96]:
school_bus_users_count = df[df['TransportMeans'] == 'school_bus'].shape[0]
school_bus_users_count

16145

### 15. Скільки учнів користується приватним транспортом, щоб дістатися до школи?

In [97]:
private_transport_users_count = df[df['TransportMeans'] == 'private'].shape[0]
private_transport_users_count

11362

# Задача класифікації 5 балів

### Передбачте, чи завершив студент курс підготовки до іспиту, на основі його демографічних та академічних даних.

In [98]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.ensemble import RandomForestClassifier

le = LabelEncoder()
df = df.apply(le.fit_transform)

features = df[['Gender', 'EthnicGroup', 'ParentEduc', 'LunchType', 'ParentMaritalStatus', 'PracticeSport', 'IsFirstChild', 'NrSiblings', 'TransportMeans', 'WklyStudyHours', 'MathScore', 'ReadingScore', 'WritingScore']]
target = df['TestPrep']

X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

In [99]:
model = RandomForestClassifier(n_estimators=100, random_state=42)

# Train the model
model.fit(X_train, y_train)

In [100]:
print(model.score(X_test, y_test))

0.6878773046173927
