# Домашнее задание 2 (5 баллов).

Все задания ниже имеют равный вес (5/16).

In [1]:
import pandas as pd
import numpy as np
import zipfile
import time

#### Описание данных

В папке Data находится информация о студентах. Всего 10 групп студентов. Файлы делятся на две категории:
    * Students_info_i - информация о студентах из группы i
    * Students_marks_i - оценки студентов из группы i за экзамены

### Одно из важных достоинств pandas $-$ это удобные методы реляционного взаимодействия с данными, аналогичные, например, возможностям SQL для слияния и конкатенации таблиц: merge, join, concat. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных.

Подробно об этих методах посмотрите тут: https://www.kaggle.com/residentmario/renaming-and-combining#Combining

#### Задание 1. Соберите всю информацию о студентах в одну таблицу df. В получившейся таблице должна быть информация и оценки всех студентов из всех групп. Напечатайте несколько строк таблицы для демонстрации результата.¶

In [2]:
with zipfile.ZipFile("Data.zip") as z:
    z.extractall()  

df_parts = []
for i in range(10):    
    info = pd.read_csv(f'Data/Students_info_{i}.csv')
    grades = pd.read_csv(f'Data/Students_marks_{i}.csv')
    curr_df = pd.concat([info, grades], axis=1, sort=False)
    df_parts.append(curr_df)

df = pd.concat(df_parts, axis=0, sort=False)
df.head()

Unnamed: 0,index,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,index.1,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,group1,0,72,72,74
1,1,female,group C,some college,standard,completed,group1,1,69,90,88
2,2,female,group B,master's degree,standard,none,group1,2,90,95,93
3,3,male,group A,associate's degree,free/reduced,none,group1,3,47,57,44
4,4,male,group C,some college,standard,none,group1,4,76,78,75


#### Задание 2. Удалите столбец index у полученной таблицы. Напечатайте первые 10 строк таблицы.

In [3]:
df.drop(columns='index', inplace=True)
df.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
5,female,group B,associate's degree,standard,none,group1,71,83,78
6,female,group B,some college,standard,completed,group1,88,95,92
7,male,group B,some college,free/reduced,none,group1,40,43,39
8,male,group D,high school,free/reduced,completed,group1,64,64,67
9,female,group B,high school,free/reduced,none,group1,38,60,50


#### Задание 3. Выведите на экран размеры полученной таблицы

In [4]:
df.shape

(1000, 9)

#### Задание 4. Выведите на экран статистические характеристики числовых столбцов таблицы (минимум, максимум, среднее значение, стандартное отклонение)

In [5]:
df.describe().loc[['min','max','mean','std']]

Unnamed: 0,math score,reading score,writing score
min,0.0,17.0,10.0
max,100.0,100.0,100.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657


#### Задание 5. Проверьте, есть ли в таблице пропущенные значения

In [6]:
df.isnull().values.any()

False

#### Задание 6. Выведите на экран средние баллы студентов по каждому предмету (math, reading, writing)

In [7]:
df[['math score','reading score','writing score']].mean()

math score       66.089
reading score    69.169
writing score    68.054
dtype: float64

**Задание 7. Как зависят оценки от того, проходил ли студент курс для подготовки к сдаче экзамена (test preparation course)? Выведите на экран для каждого предмета в отдельности средний балл студентов, проходивших курс для подготовки к экзамену и не проходивших курс.**

In [8]:
df.groupby('test preparation course')['math score', 'reading score', 'writing score'].mean()

Unnamed: 0_level_0,math score,reading score,writing score
test preparation course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
completed,69.695531,73.893855,74.418994
none,64.077882,66.534268,64.504673


**Задание 8. Выведите на экран все различные значения из столбца lunch.**

In [9]:
df['lunch'].unique()

array(['standard', 'free/reduced'], dtype=object)

**Задание 9. Переименуйте колонку "parental level of education" в "education", а "test preparation course" в "test preparation" с помощью метода pandas rename**
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html

In [10]:
df.rename(columns={'parental level of education':'education',
                   'test preparation course':'test preparation'},
                    inplace=True)

**Зафиксируем минимальный балл для сдачи экзамена**

In [11]:
passmark = 50

**Задание 10. Ответьте на вопросы:**
    * Какая доля студентов сдала экзамен по математике (passmark >= 50)?
    * Какая доля студентов, проходивших курс подготовки к экзамену, сдала экзамен по математике?
    * Какая доля женщин, не проходивших курс подготовки к экзамену, не сдала экзамен по математике? 

In [12]:
print((df['math score'] >= passmark).mean())

prep_df = df[df['test preparation'] == 'completed']
print((prep_df['math score'] >= passmark).mean())

fem_unprep = df[(df['gender'] == 'female') & (df['test preparation'] == 'none')]
print((fem_unprep['math score'] < passmark).mean())

0.865
0.9217877094972067
0.20958083832335328


**Задание 11. С помощью groupby выполните задания ниже. Также выведите время выполнения каждого из заданий.**
    * Для каждой этнической группы выведите средний балл за экзамен по чтению
    * Для каждого уровня образования выведите минимальный балл за экзамен по письму

In [13]:
start_1 = time.time()
print(df.groupby(['race/ethnicity'])['reading score'].mean())
end_1= time.time()
print(end_1 - start_1)
print()

start_2 = time.time()
print(df.groupby(['education'])['writing score'].min())
end_2 = time.time()
print(end_2 - start_2)

race/ethnicity
group A    64.674157
group B    67.352632
group C    69.103448
group D    70.030534
group E    73.028571
Name: reading score, dtype: float64
0.008132219314575195

education
associate's degree    35
bachelor's degree     38
high school           15
master's degree       46
some college          19
some high school      10
Name: writing score, dtype: int64
0.020212173461914062


**Задание 12. Выполните задание 11 с помощью циклов. Сравните время выполнения.**

In [32]:
start_1 = time.time()
eth_groups = df['race/ethnicity'].unique()

for eth_group in eth_groups:
    mean_read_grade = df[df['race/ethnicity'] == eth_group]['reading score'].mean()
    print(f'{eth_group} {mean_read_grade}')
    
end_1= time.time()
print(end_1 - start_1, '\n')


start_2 = time.time()
ed_levels = df['education'].unique()

for ed_level in ed_levels:
    mean_wr_grade = df[df['education'] == ed_level]['writing score'].min()
    print(f'{ed_level} {mean_wr_grade}')
    
end_2 = time.time()
print(end_2 - start_2)

print('\nЦиклы хуже!')

group B 67.35263157894737
group C 69.10344827586206
group A 64.67415730337079
group D 70.03053435114504
group E 73.02857142857142
0.01775670051574707 

bachelor's degree 38
some college 19
master's degree 46
associate's degree 35
high school 15
some high school 10
0.020441770553588867

Циклы хуже!


**Задание 13. Выведите на экран средние баллы студентов по каждому предмету в зависимости от пола и уровня образования. То есть должно получиться количество групп, равных 2 * (число уровней образования), и для каждой такой группы выыведите средний балл по каждому из предметов.**

Это можно сделать с помощью сводных таблиц (pivot_table):

https://www.kaggle.com/kamilpolak/tutorial-how-to-use-pivot-table-in-pandas

In [15]:
pd.pivot_table(df, index=['gender','education'], aggfunc={'math score':np.mean,'reading score':np.mean, 'writing score': np.mean})

Unnamed: 0_level_0,Unnamed: 1_level_0,math score,reading score,writing score
gender,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,associate's degree,65.25,74.12069,74.0
female,bachelor's degree,68.349206,77.285714,78.380952
female,high school,59.351064,68.202128,66.691489
female,master's degree,66.5,76.805556,77.638889
female,some college,65.40678,73.550847,74.050847
female,some high school,59.296703,69.10989,68.285714
male,associate's degree,70.764151,67.433962,65.40566
male,bachelor's degree,70.581818,68.090909,67.654545
male,high school,64.705882,61.480392,58.539216
male,master's degree,74.826087,73.130435,72.608696


#### Задание 14. Сколько студентов успешно сдали экзамен по математике?

Создайте новый столбец в таблице df под названием Math_PassStatus и запишите в него F, если студент не сдал экзамен по математике (балл за экзамен < passmark), и P иначе.

Посчитайте количество студентов, сдавших и не сдавших экзамен по математике.

Сделайте аналогичные шаги для экзаменов по чтению и письму.

In [33]:
for subj in ['math', 'reading', 'writing']:
    df[subj.capitalize() + '_PassStatus'] = (df[subj + ' score'] >= passmark).map({True:'P', False: 'F'})
    print(df[subj.capitalize() + '_PassStatus'].value_counts(), '\n')

P    865
F    135
Name: Math_PassStatus, dtype: int64 

P    910
F     90
Name: Reading_PassStatus, dtype: int64 

P    886
F    114
Name: Writing_PassStatus, dtype: int64 



#### Задание 15. Сколько студентов успешно сдали все экзамены?

Создайте столбец OverAll_PassStatus и запишите в него для каждого студента 'F', если студент не сдал хотя бы один из трех экзаменов, а иначе 'P'.

Посчитайте количество студентов, которые сдали все экзамены.

In [26]:
df['OverAll_PassStatus'] = np.where((df['Math_PassStatus']=='F') | (df['Reading_PassStatus']=='F') | (df['Writing_PassStatus']=='F'), 'F', 'P')
(df['OverAll_PassStatus'] == 'P').sum()

812

#### Задание 16. Переведем баллы в оценки

### Система перевода баллов в оценки
####    больше 90 = A
####      80-90 = B
####      70-80 = C
####      60-70 = D
####      50-60 = E
####    меньше 50 = F (Fail)

Создайте вспомогательную функцию, которая будет по среднему баллу за три экзамена выставлять оценку студенту по данным выше критериям.

Создайте столбец Grade и запишите в него оценку каждого студента.

Выведите количество студентов, получивших каждую из оценок.

**В случае, если средний балл попадает на границу между оценками (т.е. равен ровно 60, 70 или 80 баллов), вы можете интерпретировать условие на своё усмотрение (т.е. можете поставить за 60 баллов оценку D, а можете - E).**

In [28]:
def GetGrade(average_mark):  
    if average_mark > 90:
        return 'A'  
    elif average_mark >= 80:
        return 'B'
    elif average_mark >= 70:
        return 'C'
    elif average_mark >= 60:
        return 'D'
    elif average_mark >= 50:
        return 'E'
    else:
        return 'F'

df['Grade']=df.filter(like='score').mean(axis=1).apply(GetGrade)
df['Grade'].value_counts().sort_index()

A     50
B    148
C    261
D    256
E    182
F    103
Name: Grade, dtype: int64