# Домашнее задание 2 (5 баллов).

Все задания ниже имеют равный вес (5/16).

In [3]:
import numpy as np
import pandas as pd
import zipfile

#### Описание данных

В папке Data находится информация о студентах. Всего 10 групп студентов. Файлы делятся на две категории:
    * Students_info_i - информация о студентах из группы i
    * Students_marks_i - оценки студентов из группы i за экзамены

### Одно из важных достоинств pandas $-$ это удобные методы реляционного взаимодействия с данными, аналогичные, например, возможностям SQL для слияния и конкатенации таблиц: merge, join, concat. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных.

Подробно об этих методах посмотрите тут: https://www.kaggle.com/residentmario/renaming-and-combining#Combining

#### Задание 1. Соберите всю информацию о студентах в одну таблицу df. В получившейся таблице должна быть информация и оценки всех студентов из всех групп. Напечатайте несколько строк таблицы для демонстрации результата.¶

In [4]:
pd.set_option('display.expand_frame_repr', False)

data_frame = pd.DataFrame(None)

student_info_types = {
    'index': np.int32,
    'gender': str,
    'race/ethnicity': str,
    'parental level of education': str,
    'lunch': str,
    'test preparation course': str,
    'group': str
}

student_marks_types = {
    'index': np.int32,
    'math score': np.int32,
    'reading score': np.int32,
    'writing score': np.int32
}

with zipfile.ZipFile('Data.zip') as zip:
    student_info_file_pattern = 'Data/Students_info_{}.csv'
    student_marks_file_pattern = 'Data/Students_marks_{}.csv'

    for i in range(0, 10):
        with zip.open(student_info_file_pattern.format(i)) as file:
            student_info = pd.read_csv(
                file,
                sep=',',
                index_col=0,
                dtype=student_info_types
            )

        with zip.open(student_marks_file_pattern.format(i)) as file:
            student_marks = pd.read_csv(
                file,
                sep = ',',
                index_col=0,
                dtype=student_marks_types
            )

        if not student_info.empty and not student_marks.empty:
            if data_frame.empty:
                data_frame = student_info.join(student_marks)
            else:
                data_frame = pd.concat(
                    objs=[data_frame, student_info.join(student_marks)],
                    axis=0
                )

data_frame.head(15)

Unnamed: 0_level_0,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
5,female,group B,associate's degree,standard,none,group1,71,83,78
6,female,group B,some college,standard,completed,group1,88,95,92
7,male,group B,some college,free/reduced,none,group1,40,43,39
8,male,group D,high school,free/reduced,completed,group1,64,64,67
9,female,group B,high school,free/reduced,none,group1,38,60,50


#### Задание 2. Удалите столбец index у полученной таблицы. Напечатайте первые 10 строк таблицы.

In [5]:
data_frame.reset_index(inplace=True)
data_frame.drop(columns='index', inplace=True)
data_frame.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
5,female,group B,associate's degree,standard,none,group1,71,83,78
6,female,group B,some college,standard,completed,group1,88,95,92
7,male,group B,some college,free/reduced,none,group1,40,43,39
8,male,group D,high school,free/reduced,completed,group1,64,64,67
9,female,group B,high school,free/reduced,none,group1,38,60,50


#### Задание 3. Выведите на экран размеры полученной таблицы

In [6]:
data_frame.shape

(1000, 9)

#### Задание 4. Выведите на экран статистические характеристики числовых столбцов таблицы (минимум, максимум, среднее значение, стандартное отклонение)

In [7]:
data_frame.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


#### Задание 5. Проверьте, есть ли в таблице пропущенные значения

In [8]:
data_frame.isna().sum()

gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
group                          0
math score                     0
reading score                  0
writing score                  0
dtype: int64

#### Задание 6. Выведите на экран средние баллы студентов по каждому предмету (math, reading, writing)

In [9]:
data_frame.iloc[:, 6:9].mean(axis=0)

math score       66.089
reading score    69.169
writing score    68.054
dtype: float64

**Задание 7. Как зависят оценки от того, проходил ли студент курс для подготовки к сдаче экзамена (test preparation course)? Выведите на экран для каждого предмета в отдельности средний балл студентов, проходивших курс для подготовки к экзамену и не проходивших курс.**

In [10]:
data_frame.groupby('test preparation course').mean(numeric_only=True)

Unnamed: 0_level_0,math score,reading score,writing score
test preparation course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
completed,69.695531,73.893855,74.418994
none,64.077882,66.534268,64.504673


**Задание 8. Выведите на экран все различные значения из столбца lunch.**

In [12]:
print(data_frame['lunch'].unique())

['standard' 'free/reduced']


**Задание 9. Переименуйте колонку "parental level of education" в "education", а "test preparation course" в "test preparation" с помощью метода pandas rename**
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html

In [326]:
data_frame.rename(
    columns={
        'parental level of education': 'education',
        'test preparation course': 'test preparation'
    }
)

Unnamed: 0,gender,race/ethnicity,education,lunch,test preparation,group,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
...,...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,group10,88,99,95
996,male,group C,high school,free/reduced,none,group10,62,55,55
997,female,group C,high school,free/reduced,completed,group10,59,71,65
998,female,group D,some college,standard,completed,group10,68,78,77


**Зафиксируем минимальный балл для сдачи экзамена**

In [14]:
passmark = 50

**Задание 10. Ответьте на вопросы:**
    * Какая доля студентов сдала экзамен по математике (passmark >= 50)?
    * Какая доля студентов, проходивших курс подготовки к экзамену, сдала экзамен по математике?
    * Какая доля женщин, не проходивших курс подготовки к экзамену, не сдала экзамен по математике? 

In [15]:
print(f'Studens who passed Math exam: {len(data_frame.loc[data_frame["math score"] >= passmark].index) / len(data_frame.index)}')
print(f'Studens who took course and passed Math exam: '
      f'{len(data_frame.loc[(data_frame["math score"] >= passmark) & (data_frame["test preparation course"] == "completed")].index) / len(data_frame.index)}'
      )
print(f'Studens who didnt take course and didnt pass Math exam: '
      f'{len(data_frame.loc[(data_frame["math score"] < passmark) & (data_frame["test preparation course"] == "none")].index) / len(data_frame.index)}'
      )

Studens who passed Math exam: 0.865
Studens who took course and passed Math exam: 0.33
Studens who didnt take course and didnt pass Math exam: 0.107


**Задание 11. С помощью groupby выполните задания ниже. Также выведите время выполнения каждого из заданий.**
    * Для каждой этнической группы выведите средний балл за экзамен по чтению
    * Для каждого уровня образования выведите минимальный балл за экзамен по письму

In [16]:
import time

In [17]:
start_time = time.time()
print(data_frame.groupby('race/ethnicity')['reading score'].mean())
finish_time = time.time()
print(f'Execution time: {finish_time - start_time} seconds')

print()
print(data_frame.groupby('parental level of education')['reading score'].min())
second_finish_time = time.time()
print(f'Execution time: {second_finish_time - finish_time} seconds')

race/ethnicity
group A    64.674157
group B    67.352632
group C    69.103448
group D    70.030534
group E    73.028571
Name: reading score, dtype: float64
Execution time: 0.001994609832763672 seconds

parental level of education
associate's degree    31
bachelor's degree     41
high school           24
master's degree       42
some college          23
some high school      17
Name: reading score, dtype: int32
Execution time: 0.000997304916381836 seconds


**Задание 12. Выполните задание 11 с помощью циклов. Сравните время выполнения.**

In [18]:
start_time = time.time()
dict = {}

for _, row in data_frame.iterrows():
    ethnicity = row['race/ethnicity']
    score = row['reading score']

    if ethnicity in dict.keys():
        group_count = dict[ethnicity][1] + 1
        group_score = dict[ethnicity][0] + score
        dict[ethnicity] = (group_score, group_count)
    else:
        dict[ethnicity] = (score, 1)

for key in dict.keys():
    print(f'{key}: {dict[key][0] / dict[key][1]}')

finish_time = time.time()
print(f'Execution time: {finish_time - start_time} seconds')

group B: 67.35263157894737
group C: 69.10344827586206
group A: 64.67415730337079
group D: 70.03053435114504
group E: 73.02857142857142
Execution time: 0.03989577293395996 seconds


**Задание 13. Выведите на экран средние баллы студентов по каждому предмету в зависимости от пола и уровня образования. То есть должно получиться количество групп, равных 2 * (число уровней образования), и для каждой такой группы выыведите средний балл по каждому из предметов.**

Это можно сделать с помощью сводных таблиц (pivot_table):

https://www.kaggle.com/kamilpolak/tutorial-how-to-use-pivot-table-in-pandas

In [19]:
pd.pivot_table(
    data = data_frame,
    index = ['gender', 'parental level of education'],
    values = ['math score', 'reading score', 'writing score']
)

Unnamed: 0_level_0,Unnamed: 1_level_0,math score,reading score,writing score
gender,parental level of education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,associate's degree,65.25,74.12069,74.0
female,bachelor's degree,68.349206,77.285714,78.380952
female,high school,59.351064,68.202128,66.691489
female,master's degree,66.5,76.805556,77.638889
female,some college,65.40678,73.550847,74.050847
female,some high school,59.296703,69.10989,68.285714
male,associate's degree,70.764151,67.433962,65.40566
male,bachelor's degree,70.581818,68.090909,67.654545
male,high school,64.705882,61.480392,58.539216
male,master's degree,74.826087,73.130435,72.608696


#### Задание 14. Сколько студентов успешно сдали экзамен по математике?

Создайте новый столбец в таблице df под названием Math_PassStatus и запишите в него F, если студент не сдал экзамен по математике (балл за экзамен < passmark), и P иначе.

Посчитайте количество студентов, сдавших и не сдавших экзамен по математике.

Сделайте аналогичные шаги для экзаменов по чтению и письму.

In [24]:
def calc_passmark(mark):
    if mark < passmark:
        return 'F'
    else:
        return 'P'

data_frame['Math_PassStatus'] = data_frame['math score'].apply(calc_passmark)
data_frame['Reading_PassStatus'] = data_frame['reading score'].apply(calc_passmark)
data_frame['Writing_PassStatus'] = data_frame['writing score'].apply(calc_passmark)

print(f'Number of students who passed and didnt pass Math exam: {(data_frame["Math_PassStatus"] == "P").sum()} and {(data_frame["Math_PassStatus"] == "F").sum()} respectively')
print(f'Number of students who passed and didnt pass reading exam: {(data_frame["Reading_PassStatus"] == "P").sum()} and {(data_frame["Reading_PassStatus"] == "F").sum()} respectively')
print(f'Number of students who passed and didnt pass writing exam: {(data_frame["Writing_PassStatus"] == "P").sum()} and {(data_frame["Writing_PassStatus"] == "F").sum()} respectively')

Number of students who passed and didnt pass Math exam: 865 and 135 respectively
Number of students who passed and didnt pass reading exam: 910 and 90 respectively
Number of students who passed and didnt pass writing exam: 886 and 114 respectively


#### Задание 15. Сколько студентов успешно сдали все экзамены?

Создайте столбец OverAll_PassStatus и запишите в него для каждого студента 'F', если студент не сдал хотя бы один из трех экзаменов, а иначе 'P'.

Посчитайте количество студентов, которые сдали все экзамены.

In [25]:
def calc_overall_mark(first_mark, second_mark, third_mark):
    if first_mark == 'P' and second_mark == 'P' and third_mark == 'P':
        return 'P'
    else:
        return 'F'

data_frame['OverAll_PassStatus'] = data_frame.apply(
    lambda df: calc_overall_mark(df['Math_PassStatus'], df['Reading_PassStatus'], df['Writing_PassStatus']),
    axis=1
)
f'Number of students who passed all exams: {(data_frame["OverAll_PassStatus"] == "P").sum()}'

'Number of students who passed all exams: 812'

#### Задание 16. Переведем баллы в оценки

### Система перевода баллов в оценки
####    больше 90 = A
####      80-90 = B
####      70-80 = C
####      60-70 = D
####      50-60 = E
####    меньше 50 = F (Fail)

Создайте вспомогательную функцию, которая будет по среднему баллу за три экзамена выставлять оценку студенту по данным выше критериям.

Создайте столбец Grade и запишите в него оценку каждого студента.

Выведите количество студентов, получивших каждую из оценок.

**В случае, если средний балл попадает на границу между оценками (т.е. равен ровно 60, 70 или 80 баллов), вы можете интерпретировать условие на своё усмотрение (т.е. можете поставить за 60 баллов оценку D, а можете - E).**

In [26]:
def get_grade(average_mark):
    F = 50
    E = 60
    D = 70
    C = 80
    B = 90

    if average_mark < 50:
        return 'F'
    elif average_mark < 60:
        return 'E'
    elif average_mark < 70:
        return 'D'
    elif average_mark < 80:
        return 'C'
    elif average_mark < 90:
        return 'B'
    else:
        return 'A'

mean_grades = data_frame.iloc[:, 6:9].mean(axis=1)

data_frame['Grade'] = mean_grades.apply(get_grade)

print(data_frame.groupby('Grade').size())

data_frame.head(15)

Grade
A     52
B    146
C    261
D    256
E    182
F    103
dtype: int64


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score,Math_PassStatus,Reading_PassStatus,Writing_PassStatus,OverAll_PassStatus,Grade
0,female,group B,bachelor's degree,standard,none,group1,72,72,74,P,P,P,P,C
1,female,group C,some college,standard,completed,group1,69,90,88,P,P,P,P,B
2,female,group B,master's degree,standard,none,group1,90,95,93,P,P,P,P,A
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44,F,P,F,F,F
4,male,group C,some college,standard,none,group1,76,78,75,P,P,P,P,C
5,female,group B,associate's degree,standard,none,group1,71,83,78,P,P,P,P,C
6,female,group B,some college,standard,completed,group1,88,95,92,P,P,P,P,A
7,male,group B,some college,free/reduced,none,group1,40,43,39,F,F,F,F,F
8,male,group D,high school,free/reduced,completed,group1,64,64,67,P,P,P,P,D
9,female,group B,high school,free/reduced,none,group1,38,60,50,F,P,P,F,F
