# Тренировочные задания по Pandas

In [1]:
import pandas as pd

#### Описание данных

В папке Data находится информация о студентах. Всего 10 групп студентов. Файлы делятся на две категории:
    * Students_info_i - информация о студентах из группы i
    * Students_marks_i - оценки студентов из группы i за экзамены

### Одно из важных достоинств pandas $-$ это удобные методы реляционного взаимодействия с данными, аналогичные, например, возможностям SQL для слияния и конкатенации таблиц: merge, join, concat. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных.

#### Соберём всю информацию о студентах в одну таблицу df. В получившейся таблице будет информация и оценки всех студентов из всех групп. Напечатаем несколько строк таблицы для демонстрации результата.

In [21]:
df = pd.DataFrame()
for i in range(10):
    # join подходит для слияния таблиц с различными колонками
    # set_index говорит, что в новой таблице столбцом индексов будет существующая колонка index
    # on - параметр, по которому ориентируется процедура слияния
    tmp_df = pd.read_csv('Data/Students_info_'+str(i)+'.csv').join(
        pd.read_csv('Data/Students_marks_'+str(i)+'.csv').set_index("index"),
        on = 'index'
    )
    df = pd.concat([df, tmp_df])
df.head()

Unnamed: 0,index,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,1,female,group C,some college,standard,completed,group1,69,90,88
2,2,female,group B,master's degree,standard,none,group1,90,95,93
3,3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,4,male,group C,some college,standard,none,group1,76,78,75


#### Удалим столбец index у полученной таблицы. Напечатаем первые 10 строк таблицы.

In [25]:
# axis=1 - индикатор столбца
df = df.drop("index", axis=1)
df.head(10)

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,group,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
5,female,group B,associate's degree,standard,none,group1,71,83,78
6,female,group B,some college,standard,completed,group1,88,95,92
7,male,group B,some college,free/reduced,none,group1,40,43,39
8,male,group D,high school,free/reduced,completed,group1,64,64,67
9,female,group B,high school,free/reduced,none,group1,38,60,50


#### Выведем на экран размеры полученной таблицы

In [31]:
df.shape

(1000, 9)

#### Выведем на экран статистические характеристики числовых столбцов таблицы (минимум, максимум, среднее значение, стандартное отклонение)

In [34]:
df.describe().loc[['min', 'max', 'mean', 'std']]

Unnamed: 0,math score,reading score,writing score
min,0.0,17.0,10.0
max,100.0,100.0,100.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657


#### Проверим, есть ли в таблице пропущенные значения

In [40]:
# values возвращает все строки таблицы (кроме названия столбцов)
# any проверяет, есть ли в наборе хотя бы один элемент True
df.isnull().values.any()
type(df.isnull().values)

numpy.ndarray

#### Выведем на экран средние баллы студентов по каждому предмету (math, reading, writing)

In [44]:
print (df['math score'].mean(), 
df['reading score'].mean(), 
df['writing score'].mean())

66.089 69.169 68.054


#### Определим, как зависят оценки от того, проходил ли студент курс для подготовки к сдаче экзамена (test preparation course). Выведем на экран для каждого предмета в отдельности средний балл студентов, проходивших курс для подготовки к экзамену и не проходивших курс.

In [49]:
# ср знач считается только там, где можно
# в данном случае это только числовые данные
# print(df[df['test preparation course'] == 'completed'].mean())
res = pd.DataFrame()
res["with course"] = df[df['test preparation course'] == 'completed'].mean()
res["without course"] = df[df['test preparation course'] != 'completed'].mean()
res
# можно было еще решить через loc, например
# df["math score"].loc[df["test preparation course"] == "completed"].mean()

Unnamed: 0,with course,without course
math score,69.695531,64.077882
reading score,73.893855,66.534268
writing score,74.418994,64.504673


**Выведем на экран все различные значения из столбца lunch.**

In [50]:
df['lunch'].unique()
# df['lunch'].unique().tolist()

array(['standard', 'free/reduced'], dtype=object)

**Переименуем колонку "parental level of education" в "education", а "test preparation course" в "test preparation" с помощью метода pandas rename**

In [52]:
df = df.rename(columns={"parental level of education": "education", "test preparation course" : "test preparation" })
#df.head(10)

Unnamed: 0,gender,race/ethnicity,education,lunch,test preparation,group,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,group1,72,72,74
1,female,group C,some college,standard,completed,group1,69,90,88
2,female,group B,master's degree,standard,none,group1,90,95,93
3,male,group A,associate's degree,free/reduced,none,group1,47,57,44
4,male,group C,some college,standard,none,group1,76,78,75
5,female,group B,associate's degree,standard,none,group1,71,83,78
6,female,group B,some college,standard,completed,group1,88,95,92
7,male,group B,some college,free/reduced,none,group1,40,43,39
8,male,group D,high school,free/reduced,completed,group1,64,64,67
9,female,group B,high school,free/reduced,none,group1,38,60,50


**Зафиксируем минимальный балл для сдачи экзамена**

In [53]:
passmark = 50

**Выясним:**

    * Какая доля студентов сдала экзамен по математике (passmark >= 50).
    * Какая доля студентов, проходивших курс подготовки к экзамену, сдала экзамен по математике.
    * Какая доля женщин, не проходивших курс подготовки к экзамену, не сдала экзамен по математике.

In [63]:
print((df['math score'] >= passmark).sum() / df.shape[0],
((df['math score'] >= passmark) & (df['test preparation'] == 'completed')).sum() / (df['test preparation'] == 'completed').sum(),
((df['gender'] == 'female') & (df['math score'] < passmark) & (df['test preparation'] == 'none')).sum() / ((df['gender'] == 'female') & (df['test preparation'] == 'none')).sum())

0.865 0.9217877094972067 0.20958083832335328


**С помощью groupby:**

    * Для каждой этнической группы выведем средний балл за экзамен по чтению
    * Для каждого уровня образования выведем минимальный балл за экзамен по письму

In [70]:
import time
start_time = time.time()
# groupby позволяет совершать операции над группами объектов
print(df.groupby(['race/ethnicity'])['reading score'].mean())
print("--- %s seconds ---" % (time.time() - start_time))
start_time = time.time()
print(df.groupby(['education'])['writing score'].mean())
print("--- %s seconds ---" % (time.time() - start_time))

race/ethnicity
group A    64.674157
group B    67.352632
group C    69.103448
group D    70.030534
group E    73.028571
Name: reading score, dtype: float64
--- 0.0037260055541992188 seconds ---
education
associate's degree    69.896396
bachelor's degree     73.381356
high school           62.448980
master's degree       75.677966
some college          68.840708
some high school      64.888268
Name: writing score, dtype: float64
--- 0.0065648555755615234 seconds ---


**Сделаем то же самое с помощью циклов. Сравним время выполнения.**

In [79]:
start = time.time()
reading_mean = {}
for index, row in df.iterrows():
    if row['race/ethnicity'] not in reading_mean:
        reading_mean[row['race/ethnicity']] = [row['reading score']]
    else:
        reading_mean[row['race/ethnicity']].append(row['reading score'])
for key in reading_mean:
    print(f"{key} mean is {sum(reading_mean[key])/len(reading_mean[key])}")
print("--- %s seconds ---" % (time.time() - start))

start = time.time()
writing_min = {}
for index, row in df.iterrows():
    if row['education'] not in writing_min:
        writing_min[row['education']] = [row['writing score']]
    else:
        writing_min[row['education']].append(row['writing score'])
for key in writing_min:
    print(f"{key} min is {min(writing_min[key])}")
print("--- %s seconds ---" % (time.time() - start))

group B mean is 67.35263157894737
group C mean is 69.10344827586206
group A mean is 64.67415730337079
group D mean is 70.03053435114504
group E mean is 73.02857142857142
--- 0.1146543025970459 seconds ---
bachelor's degree min is 38
some college min is 19
master's degree min is 46
associate's degree min is 35
high school min is 15
some high school min is 10
--- 0.08128690719604492 seconds ---


**Выведем на экран средние баллы студентов по каждому предмету в зависимости от пола и уровня образования. То есть должно получиться количество групп, равных 2 * (число уровней образования), и для каждой такой группы выыведем средний балл по каждому из предметов.**

In [87]:
grouped = pd.pivot_table(data=df,index=['gender', 'education'])
grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,math score,reading score,writing score
gender,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,associate's degree,65.25,74.12069,74.0
female,bachelor's degree,68.349206,77.285714,78.380952
female,high school,59.351064,68.202128,66.691489
female,master's degree,66.5,76.805556,77.638889
female,some college,65.40678,73.550847,74.050847
female,some high school,59.296703,69.10989,68.285714
male,associate's degree,70.764151,67.433962,65.40566
male,bachelor's degree,70.581818,68.090909,67.654545
male,high school,64.705882,61.480392,58.539216
male,master's degree,74.826087,73.130435,72.608696


#### Сколько студентов успешно сдали экзамен по математике?

Создадим новый столбец в таблице df под названием Math_PassStatus и запишем в него F, если студент не сдал экзамен по математике (балл за экзамен < passmark), и P иначе.

Посчитаем количество студентов, сдавших и не сдавших экзамен по математике.

Сделаем аналогичные шаги для экзаменов по чтению и письму.

In [95]:
df["Math_PassStatus"] = df["math score"].apply(lambda x: "F" if x < passmark else "P")
print("Passed math:", df["Math_PassStatus"].value_counts().loc["P"])
print("Failed math:", df["Math_PassStatus"].value_counts().loc["F"])

df["Reading_PassStatus"] = df["reading score"].apply(lambda x: "F" if x < passmark else "P")
print("Passed reading:", df["Reading_PassStatus"].value_counts().loc["P"])
print("Failed reading:", df["Reading_PassStatus"].value_counts().loc["F"])

df["Writing_PassStatus"] = df["writing score"].apply(lambda x: "F" if x < passmark else "P")
print("Passed writing:", df["Writing_PassStatus"].value_counts().loc["P"])
print("Failed writing:", df["Writing_PassStatus"].value_counts().loc["F"])

Passed math: 865
Failed math: 135
Passed reading: 910
Failed reading: 90
Passed writing: 886
Failed writing: 114


#### Сколько студентов успешно сдали все экзамены?

Создадим столбец OverAll_PassStatus и запишем в него для каждого студента 'F', если студент не сдал хотя бы один из трех экзаменов, а иначе 'P'.

Посчитаем количество студентов, которые сдали все экзамены.

In [97]:
df["OverAll_PassStatus"] = df.apply(lambda x : "F" if x["Math_PassStatus"] == "F" or 
                        x["Reading_PassStatus"] == "F" or 
                        x["Writing_PassStatus"] == "F" 
                        else "P", axis = 1)
print("Passed Overall:", df["OverAll_PassStatus"].value_counts().loc["P"])

Passed Overall: 812


####  Переведем баллы в оценки

### Система перевода баллов в оценки
####    больше 90 = A
####      80-90 = B
####      70-80 = C
####      60-70 = D
####      50-60 = E
####    меньше 50 = F (Fail)

Создадим вспомогательную функцию, которая будет по среднему баллу за три экзамена выставлять оценку студенту по данным выше критериям.

Создадим столбец Grade и запишите в него оценку каждого студента.

Выведем количество студентов, получивших каждую из оценок.

In [109]:
def GetGrade(average_mark):
    if average_mark > 90:
        return 'A'
    elif 80 < average_mark <= 90:
        return 'B'
    elif 70 < average_mark <= 80:
        return 'C'
    elif 60 < average_mark <= 70:
        return 'D'
    elif 50 <= average_mark <= 60:
        return 'E'
    return 'F'

df['Grade'] = df.mean(axis=1).apply(GetGrade)
# df["Grade"] = df.apply(lambda x : GetGrade((x["math score"] + x["reading score"] + x["writing score"])/3) , axis = 1)
df['Grade'].value_counts()

D    260
C    253
E    190
B    144
F    103
A     50
Name: Grade, dtype: int64