#### Описание данных

В папке Data находится информация о студентах. Всего 10 групп студентов. Файлы делятся на две категории:
    * Students_info_i - информация о студентах из группы i
    * Students_marks_i - оценки студентов из группы i за экзамены

Одно из важных достоинств pandas $-$ это удобные методы реляционного взаимодействия с данными, аналогичные, например, возможностям SQL для слияния и конкатенации таблиц: merge, join, concat. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных.

Подробно об этих методах посмотрите тут: https://www.kaggle.com/residentmario/renaming-and-combining#Combining

#### Задание 1. 

Соберите всю информацию о студентах в одну таблицу df. В получившейся таблице должна быть информация и оценки всех студентов из всех групп. Напечатайте несколько строк таблицы для демонстрации результата.¶

In [139]:
import pandas as pd

df = pd.DataFrame()

for i in range(0,10):
    df_stu = pd.read_csv(f'Data/Students_info_{i}.csv')
    df_marks = pd.read_csv(f'Data/Students_marks_{i}.csv')
    df1 = pd.concat([df_stu, df_marks[['math score','reading score', 'writing score']]], axis = 1)
    df = pd.concat([df, df1])
    
# df.head()
# df.tail()
df.sample(10)

Unnamed: 0,index,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
66,666,female,group C,some college,free/reduced,completed,group7,63,73,71
26,526,male,group C,some high school,free/reduced,completed,group6,56,61,60
20,420,female,group C,associate's degree,free/reduced,completed,group5,82,93,93
55,955,male,group E,associate's degree,standard,none,group10,72,57,62
88,388,female,group D,high school,standard,none,group4,62,64,64
68,668,male,group C,some college,standard,none,group7,73,74,61
72,72,female,group A,associate's degree,free/reduced,none,group1,41,51,48
28,228,male,group A,some high school,free/reduced,none,group3,68,72,64
46,846,male,group C,master's degree,standard,completed,group9,91,85,85
97,397,female,group C,associate's degree,standard,none,group4,85,89,95


#### Задание 2. 

Удалите столбец index у полученной таблицы. Напечатайте первые 10 строк таблицы. Выведите на экран размеры полученной таблицы.

In [140]:
df.drop('index', inplace=True, axis=1)

df.sample(10)
df.shape

(1000, 9)

#### Задание 3. 

Выведите на экран статистические характеристики числовых столбцов таблицы (минимум, максимум, среднее значение, стандартное отклонение)

In [141]:
import numpy as np

print('     minimum scores:')
print(np.min(df[['math score', 'reading score', 'writing score']]))

print('\n     mean scores:')
print(np.mean(df[['math score', 'reading score', 'writing score']]))

print('\n     maximum scores:')
print(np.max(df[['math score', 'reading score', 'writing score']]))

print('\n     std of scores:')
print(np.std(df[['math score', 'reading score', 'writing score']]))

df.describe()

     minimum scores:
math score        0
reading score    17
writing score    10
dtype: int64

     mean scores:
math score       66.089
reading score    69.169
writing score    68.054
dtype: float64

     maximum scores:
math score       100
reading score    100
writing score    100
dtype: int64

     std of scores:
math score       15.155497
reading score    14.592890
writing score    15.188057
dtype: float64


Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


#### Задание 4. 

Проверьте, есть ли в таблице пропущенные значения

In [142]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000 entries, 0 to 99
Data columns (total 9 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1000 non-null   object
 1   race/ethnicity               1000 non-null   object
 2   parental level of education  1000 non-null   object
 3   lunch                        1000 non-null   object
 4   test preparation course      1000 non-null   object
 5   group                        1000 non-null   object
 6   math score                   1000 non-null   int64 
 7   reading score                1000 non-null   int64 
 8   writing score                1000 non-null   int64 
dtypes: int64(3), object(6)
memory usage: 78.1+ KB


#### Задание 5. 

Выведите на экран средние баллы студентов по каждому предмету (math, reading, writing)

In [143]:
print('\n     mean scores:')
print(np.mean(df[['math score', 'reading score', 'writing score']]))


     mean scores:
math score       66.089
reading score    69.169
writing score    68.054
dtype: float64


#### Задание 6. 

Как зависят оценки от того, проходил ли студент курс для подготовки к сдаче экзамена (test preparation course)? Выведите на экран для каждого предмета в отдельности средний балл студентов, проходивших курс для подготовки к экзамену и не проходивших курс.

In [144]:
# df.columns = df.columns.str.replace(' ', '_')
df.rename(columns = {'test preparation course':'test_preparation_course'}, inplace = True)
df_with_course = df[df.test_preparation_course == 'completed']
df_without_course = df[df.test_preparation_course == 'none']


print('\n     mean scores of students who completed the preparation course:')
print(np.mean(df_with_course[['math score', 'reading score', 'writing score']]))

print('\n     mean scores of students who didn\'t complete the preparation course:')
print(np.mean(df_without_course[['math score', 'reading score', 'writing score']]))


     mean scores of students who completed the preparation course:
math score       69.695531
reading score    73.893855
writing score    74.418994
dtype: float64

     mean scores of students who didn't complete the preparation course:
math score       64.077882
reading score    66.534268
writing score    64.504673
dtype: float64


#### Задание 7. 

Выведите на экран все различные значения из столбца lunch.

In [145]:
set(df.lunch)

{'free/reduced', 'standard'}

#### Задание 8. 

Переименуйте колонку "parental level of education" в "education", а "test preparation course" в "test preparation" с помощью метода pandas rename
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html

In [146]:
df.rename(columns = {'parental level of education':'education'}, inplace = True)
df.rename(columns = {'test_preparation_course':'test preparation'}, inplace = True)

**Зафиксируем минимальный балл для сдачи экзамена**

In [98]:
passmark = 50

#### Задание 9. 

Ответьте на вопросы:

    * Какая доля студентов сдала экзамен по математике (passmark > 50)?
    * Какая доля студентов, проходивших курс подготовки к экзамену, сдала экзамен по математике?
    * Какая доля женщин, не проходивших курс подготовки к экзамену, не сдала экзамен по математике? 

In [147]:

print(f'Доля студентов, сдавших экз по математике:', end = ' ')
print(len(df[df['math score'] > passmark])/len(df))

print(f'Доля студентов, проходивших курс подготовки к экзамену и сдавших экз по математике:', end = ' ')
print(len(df[df['math score'] > passmark & (df['test preparation'] == 'completed')])/len(df))

print(f'Доля женщин, не проходивших курс подготовки к экзамену и не сдавших экз по математике:', end = ' ')
print(len(df[df['math score'] < passmark & (df['test preparation'] == 'none') & (df['gender'] == 'female')]))

Доля студентов, сдавших экз по математике: 0.85
Доля студентов, проходивших курс подготовки к экзамену и сдавших экз по математике: 0.999
Доля женщин, не проходивших курс подготовки к экзамену и не сдавших экз по математике: 0


#### Задание 10. 

С помощью groupby выполните задания ниже. Также выведите время выполнения каждого из заданий.

    * Для каждой этнической группы выведите средний балл за экзамен по чтению
    * Для каждого уровня образования выведите минимальный балл за экзамен по письму

In [150]:
print(df.groupby(['race/ethnicity'])[['reading score']].mean())
print(df.groupby(['education'])[['writing score']].min())

                reading score
race/ethnicity               
group A             64.674157
group B             67.352632
group C             69.103448
group D             70.030534
group E             73.028571
                    writing score
education                        
associate's degree             35
bachelor's degree              38
high school                    15
master's degree                46
some college                   19
some high school               10


#### Задание 11.

Выполните задание 11 с помощью циклов. Сравните время выполнения.

In [151]:
# лирическое отступление - борьба с индексами (я - их, или они - меня?)
# for i in set(df['race/ethnicity']):
#         print(i)

# i = 'group A'
# df1 = pd.DataFrame({'groups': ['group A', 'group B','group A', 'group B','group A', 'group B'],
#                   'reading': [1,2,3,4,5,6]})
# df1[df1.groups == f'{i}']
# len(df1[df1.groups == 'group A'])
# df1[df1['groups'] == 'group A'].reading.mean()
# df1[df1['groups'] == 'group A']['reading'].mean()
# print(df1[df1['groups'] == 'group A'])



import time

t = time.time()
print(df.groupby(['race/ethnicity'])[['reading score']].mean())
t1 = time.time() - t
print(f'elapsed time: {t1}')
print('')

t = time.time()
print('race\ethnicity'.ljust(17) + 'mean reading score')
for i in sorted(set(df['race/ethnicity'])):
        print(i.ljust(17), end = '')
        print(df[df['race/ethnicity'] == f'{i}']['reading score'].mean())  
t2 = time.time() - t
print(f'elapsed time: {t2}')

# groupby работает быстрее


                reading score
race/ethnicity               
group A             64.674157
group B             67.352632
group C             69.103448
group D             70.030534
group E             73.028571
elapsed time: 0.0029947757720947266

race\ethnicity   mean reading score
group A          64.67415730337079
group B          67.35263157894737
group C          69.10344827586206
group D          70.03053435114504
group E          73.02857142857142
elapsed time: 0.004372358322143555


#### Задание 12. 

Выведите на экран средние баллы студентов по каждому предмету в зависимости от пола и уровня образования. То есть должно получиться количество групп, равных 2 * (число уровней образования), и для каждой такой группы выыведите средний балл по каждому из предметов.

Это можно сделать с помощью сводных таблиц (pivot_table). Дополнительно о них почитать можно тут:

https://www.kaggle.com/kamilpolak/tutorial-how-to-use-pivot-table-in-pandas

In [153]:
df.head()

pd.pivot_table(df, index = ['gender', 'education'], 
               values = ['math score', 'reading score', 'writing score'],
              aggfunc = np.mean)

Unnamed: 0_level_0,Unnamed: 1_level_0,math score,reading score,writing score
gender,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,associate's degree,65.25,74.12069,74.0
female,bachelor's degree,68.349206,77.285714,78.380952
female,high school,59.351064,68.202128,66.691489
female,master's degree,66.5,76.805556,77.638889
female,some college,65.40678,73.550847,74.050847
female,some high school,59.296703,69.10989,68.285714
male,associate's degree,70.764151,67.433962,65.40566
male,bachelor's degree,70.581818,68.090909,67.654545
male,high school,64.705882,61.480392,58.539216
male,master's degree,74.826087,73.130435,72.608696


#### Задание 13. 

Сколько студентов успешно сдали экзамен по математике?

Создайте новый столбец в таблице df под названием Math_PassStatus и запишите в него F, если студент не сдал экзамен по математике (балл за экзамен < passmark), и P иначе.

Посчитайте количество студентов, сдавших и не сдавших экзамен по математике.

Сделайте аналогичные шаги для экзаменов по чтению и письму.

In [154]:
# a_lambda_function = lambda x: x*2 if x < 3 else x
passmark = 50
# df.assign(Math_PassStatus=lambda x: x['math score']+2)
df['Math_PassStatus'] = df['math score'].apply(lambda x: 'F' if x < passmark else 'P')
df.head()
print(df.groupby(['Math_PassStatus'])[['math score']].count()) 
# тут если применить count ко всему датафрейму, подсчитает в каждом столбце, подэтому подсчитала в math score

df['Reading_PassStatus'] = df['reading score'].apply(lambda x: 'F' if x < passmark else 'P')
df['Writing_PassStatus'] = df['writing score'].apply(lambda x: 'F' if x < passmark else 'P')

print(df.groupby(['Reading_PassStatus'])[['reading score']].count()) 
print(df.groupby(['Writing_PassStatus'])[['writing score']].count()) 

df.head()

                 math score
Math_PassStatus            
F                       135
P                       865
                    reading score
Reading_PassStatus               
F                              90
P                             910
                    writing score
Writing_PassStatus               
F                             114
P                             886


Unnamed: 0,gender,race/ethnicity,education,lunch,test preparation,group,math score,reading score,writing score,Math_PassStatus,Reading_PassStatus,Writing_PassStatus
0,female,group B,bachelor's degree,standard,none,group1,72,72,74,P,P,P
1,female,group C,some college,standard,completed,group1,69,90,88,P,P,P
2,female,group B,master's degree,standard,none,group1,90,95,93,P,P,P
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44,F,P,F
4,male,group C,some college,standard,none,group1,76,78,75,P,P,P


#### Задание 14. 

Сколько студентов успешно сдали все экзамены?

Создайте столбец OverAll_PassStatus и запишите в него для каждого студента 'F', если студент не сдал хотя бы один из трех экзаменов, а иначе 'P'.

Посчитайте количество студентов, которые сдали все экзамены.

In [156]:
# способ 1
# df.replace({"F":0,
#             "P":1}, inplace = True)
# df.assign(OverAll_PassStatus = lambda x: x.Math_PassStatus*x.Reading_PassStatus*x.Writing_PassStatus)

# cпособ 2  -- тоже работает
# df = df.assign(Product=lambda x: (x['Field_1'] * x['Field_2'] * x['Field_3']))
# df = df.assign(OverAll_PassStatus = lambda x: 
#           'F' if (x[['Math_PassStatus', 'Reading_PassStatus', 'Writing_PassStatus']] == 'F').any() else 'P', axis = 1)

df["OverAll_PassStatus"] = df[["Math_PassStatus", "Reading_PassStatus", 'Writing_PassStatus']].apply(lambda x:
                                                                                                    'F' if (x[['Math_PassStatus', 'Reading_PassStatus', 'Writing_PassStatus']] == 'F').any() else 'P', axis = 1)

df.sample(20)

Unnamed: 0,gender,race/ethnicity,education,lunch,test preparation,group,math score,reading score,writing score,Math_PassStatus,Reading_PassStatus,Writing_PassStatus,OverAll_PassStatus
12,female,group D,some college,standard,none,group8,98,100,99,P,P,P,P
2,female,group C,associate's degree,standard,completed,group4,67,84,81,P,P,P,P
35,male,group A,high school,standard,none,group7,71,74,64,P,P,P,P
37,female,group D,some high school,free/reduced,none,group1,50,64,59,P,P,P,P
9,female,group D,associate's degree,free/reduced,completed,group8,42,61,58,F,P,P,F
90,male,group E,high school,free/reduced,completed,group10,86,81,75,P,P,P,P
49,male,group E,associate's degree,standard,none,group4,87,74,76,P,P,P,P
90,female,group A,associate's degree,free/reduced,none,group5,65,85,76,P,P,P,P
10,male,group C,some college,standard,completed,group8,93,84,90,P,P,P,P
93,male,group C,associate's degree,free/reduced,completed,group1,43,45,50,F,F,P,F


#### Задание 15. 

Переведем баллы в оценки

*Система перевода баллов в оценки*

        [90;100] = A
        [80;90) = B
        [70;80) = C
        [60;70) = D
        [50;60) = E
        [0;50) = F (Fail)

Создайте вспомогательную функцию, которая будет по среднему баллу за три экзамена выставлять оценку студенту по данным выше критериям.

Создайте столбец Grade и запишите в него оценку каждого студента.

Выведите количество студентов, получивших каждую из оценок.

In [190]:
import bisect

def GetGrade(average_mark):
    b = bisect.bisect_right([50,60,70,80,90,100], average_mark)
    dict = {0: 'F', 1: 'E', 2: 'D', 3: 'C', 4: 'B', 5: 'A', 6: 'A'}
    return dict[b]

df['Grade'] = df[["math score", "reading score", 'writing score']].apply(lambda x: GetGrade(x[['math score', 'reading score', 'writing score']].mean()), axis = 1)

df.sample(20)

Unnamed: 0,gender,race/ethnicity,education,lunch,test preparation,group,math score,reading score,writing score,Math_PassStatus,Reading_PassStatus,Writing_PassStatus,OverAll_PassStatus,Grade
97,female,group E,associate's degree,free/reduced,none,group8,70,84,81,P,P,P,P,C
52,female,group D,some college,standard,completed,group7,85,86,98,P,P,P,P,B
35,male,group E,associate's degree,standard,completed,group1,81,81,79,P,P,P,P,B
59,female,group C,master's degree,free/reduced,completed,group3,65,81,81,P,P,P,P,C
86,male,group D,some college,free/reduced,none,group5,61,47,56,P,F,P,F,E
18,male,group D,some college,standard,none,group5,68,59,62,P,P,P,P,D
46,male,group D,high school,standard,none,group8,69,75,71,P,P,P,P,C
91,female,group D,some college,free/reduced,none,group8,60,66,70,P,P,P,P,D
74,male,group B,some college,standard,none,group8,66,65,60,P,P,P,P,D
20,female,group C,some college,free/reduced,none,group8,62,72,70,P,P,P,P,D
