In [25]:
# start
from pathlib import Path
import pandas as pd
import numpy as np
import math

# settings view dataframes
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)

DATA_PATH = Path('data') / 'students_performance.csv'
if not DATA_PATH.is_file():
    raise FileNotFoundError(f"Не найден файл: {DATA_PATH.resolve()}")

# load dataset
student_data = pd.read_csv(DATA_PATH)

In [5]:
student_data.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75


In [13]:
# количество студентов (количество строк в таблице)
student_data.shape[0]

1000

In [None]:
# Каков балл по письму у студента под индексом 155?

student_data.loc[155, 'writing score']
# вывести всю строку с индексом 155. 
# to_frame().T - перевел строку из вертикального в горизонтальное отображение
# по другому - транспонирование строки
student_data.loc[155].to_frame().T

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
155,female,group C,some college,standard,completed,70,89,88


In [14]:
# Сколько суммарно пропущенных значений в таблице?
student_data.isnull().sum().sum()

np.int64(0)

In [21]:
# Сколько столбцов в таблице имеет тип данных object?

#student_data.dtypes == 'object' # выводит колонки с типом object (True/False)
(student_data.dtypes == 'object').sum() # подсчитывает количество True

np.int64(5)

In [28]:
# Какой объём памяти (в килобайтах) занимает таблица?

int(round(student_data.memory_usage().sum() / 1024))

63

In [29]:
# Какой средний балл по математике у студентов?
student_data['math score'].mean()

np.float64(66.089)

In [31]:
# Какая расовая группа является самой крупной в учебном заведении?
# В качестве ответа введите идентификатор группы (A, B, C, D, E).
student_data['race/ethnicity'].value_counts().idxmax()

'group C'

In [None]:
# Каков средний балл по чтению у студентов, которые посещали 
# курсы подготовки к экзаменам?
student_data[student_data['test preparation course'] == 'completed']['reading score'].mean()

# Пошагово:
# оставляет строки, где курс отмечен как 'completed'.
# 'reading score'] — берёт столбец с баллами по чтению.
# .mean() — вычисляет среднее значение (NaN игнорируются).

np.float64(73.89385474860335)

In [None]:
# Сколько студентов получили 0 баллов по математике?
student_data[student_data['math score'] == 0].shape[0]

1

In [None]:
# Проверьте гипотезу: у студентов с оплачиваемым питанием 
# средний балл по математике выше, чем у студентов с льготным питанием.
# В качестве ответа напишите наибольший средний балл по математике 
# среди этих групп студентов.

means = student_data.groupby('lunch')['math score'].mean() 
best = means[['standard', 'free/reduced']].max()
print(means, best)

lunch
free/reduced    58.921127
standard        70.034109
Name: math score, dtype: float64 70.03410852713178


In [53]:
# количество студентов, чьи родители имеют степень бакалавра
bachelor_count = student_data[student_data['parental level of education'] == "bachelor's degree"].count()

# количество студентов у которых есть родители
max_parent_count = student_data['parental level of education'].count()

# процент студентов, чьи родители имеют степень бакалавра
percent_bachelor = (bachelor_count / max_parent_count * 100).round(2)

print(percent_bachelor)

gender                         11.8
race/ethnicity                 11.8
parental level of education    11.8
lunch                          11.8
test preparation course        11.8
math score                     11.8
reading score                  11.8
writing score                  11.8
dtype: float64


In [62]:
# Каков медианный балл по письму у студентов из каждой расовой группы?
student_data.groupby('race/ethnicity')['writing score'].median()


race/ethnicity
group A    62.0
group B    67.0
group C    68.0
group D    72.0
group E    72.0
Name: writing score, dtype: float64

In [65]:
# Насколько медианный балл по письму у студентов в расовой 
# группе А отличается от среднего балла по письму у студентов 
# в расовой группе C?

# Определяем по медианный балл по группе А
group_a = student_data[student_data['race/ethnicity'] == 'group A']['writing score'].median()
# Определяем по медианный балл по группе C
group_c = student_data[student_data['race/ethnicity'] == 'group C']['writing score'].median()

print(group_c, group_a)
print(group_c - group_a)

68.0 62.0
6.0
