# Задание 3

***Данные:***

Датасет из CSV-файла с данными о студентах

- ### *Создать DataFrame с помощью библиотеки pd*

Импортируем библиотеку **pandas**, а также **numpy**

In [30]:
import pandas as pd
import numpy

Для построения графиков будет использовать библиотеки **matplotlib** и **seaborn**, импортируем их

In [31]:
import matplotlib.pyplot as plt
import seaborn as sns

Значения для dataframe будут браться из CSV-датасета, содержащего различную информацию студентах (Students_Performance.csv). В нём 1000 строк данных.

In [32]:
df = pd.read_csv("./data/Students_Performance.csv")

- ### *Вывести название колонок*

Названия колонок содержатся в свойстве columns, который мы конвертируем из экземпляра Index в стандартный список (методом to_list) для удобочитаемости. Проверим это

In [None]:
df.columns.to_list()

- ### *Индексировать значение по столбцу*

При индексации выбирается столбец с необходимым именем, и необходимые строки. Если передать список имён: df[['столбец1', 'столбец2']], получим DataFrame с этими столбцами

In [None]:
print(df["gender"][0:5])
print(df["parental level of education"][10:20:2])
print(df[["math score", "writing score"]][-200:-100:20])

- ### *Применить метод loc*

Метод loc в библиотеке pandas - это один из основных способов выбора данных из DataFrame по меткам строк и столбцов. С помощью loc можно:
- Выбирать отдельные строки или несколько строк
- Выбирать отдельные столбцы или несколько столбцов
- Выбирать срезы строк и столбцов
- Изменять значения конкретных ячеек

In [None]:
df.loc[0:3]

In [None]:
df.loc[3, "gender":"lunch"]

In [None]:
df.loc[100:200:20, "race/ethnicity":"reading score":2]

- ### *Добавить новый столбец*

Добавим новый столбец - средний балл, который сразу агрегирует три предмета. Для этого используем функцию mean и обратимся через квадратные скобки к новому столбцу

In [38]:
subjects = ["math score", "reading score", "writing score"]
df["average score"] = df[subjects].mean(axis=1)

Убедимся что новый столбец был добабвлен и у него правильные значения

In [None]:
df.head()

- ### *Сравнить столбцы на выбор и получить булевое значение*

Также квадратные скобки можно использовать для проверки значений на логическое условие, при этом возвращается новый DataFrame. Например, так можно сравнивать столбцы

In [None]:
df["math score"] < df["average score"]

In [None]:
df["reading score"] >= df["writing score"]

- ### *Объединить по вертикали и горизонтали*

Создадим новый небольшой датафрейм c теми же колонками

In [42]:
new_data = [
    ["male", "group A", "some college", "free/reduced", "completed", 55, 88, 72],
    ["female", "group B", "bachelor's degree", "free/reduced", "completed", 84, 51, 47],
    ["female", "group D", "some high school", "free/reduced", "completed", 85, 73, 57],
    ["male", "group E", "master's degree", "free/reduced", "completed", 75, 74, 47],
    ["male", "group D", "bachelor's degree", "standard", "completed", 92, 43, 94],
    ["female", "group D", "associate's degree", "free/reduced", "none", 88, 52, 86],
]

columns = [
    "gender",
    "race/ethnicity",
    "parental level of education",
    "lunch",
    "test preparation course",
    "math score",
    "reading score",
    "writing score",
]

df_secondary = pd.DataFrame(new_data, columns=columns)

Объединим два датафрейма по вертикали

In [43]:
df = pd.concat([df, df_secondary])

Убедимся, что новые данные были добавлены в конец датафрейма. Выведем для этого "хвост" полученного датафрейма

In [None]:
df.tail(10)

Создадим новый небольшой датафрейм с другими новыми колонками - возраст и уровень посещения

In [45]:
def get_rand_age():
    return numpy.random.randint(18, 26)


def get_rand_attendance():
    return numpy.random.randint(50, 101)


df_another = pd.DataFrame(
    {
        "age": [get_rand_age() for _ in range(df.shape[0])],
        "attendance_rate": [get_rand_attendance() for _ in range(df.shape[0])],
    }
)

Починим индексы в исходном датафрейме

In [46]:
df.reset_index(inplace=True)

Объединим два датафрейма по горизонтали

In [47]:
df = pd.concat([df, df_another], axis=1)

Убедимся, что новые данные были добавлены в датафрейм

In [None]:
df.head()

In [None]:
df.tail()

- ### *Применить метод describe*

Метод describe - это удобный и быстрый инструмент для первичного анализа данных, позволяющий без детального кода получить ключевые статистические характеристики по каждому столбцу.

In [None]:
df.describe()

- ### *Посчитать кумулятивную сумму*

Посчитаем кумулятивную сумму по всему столбцу

In [None]:
cumsum_average = df["average score"].cumsum().tail(10)
cumsum_average

In [None]:
cumsum_reading = df["reading score"].cumsum().tail(10)
cumsum_reading

Посчитаем кумулятивную сумму внутри групп рас/этнических принадлежностей, группируя их по этому признаку с помощью метода groupby

In [53]:
cumsum_math_grouped = df.groupby("race/ethnicity")["math score"].cumsum()

In [None]:
cumsum_math_grouped.head()

In [None]:
cumsum_math_grouped.tail()

- ### *Построить график*

Построим график: корреляционная матрица (heatmap) для math / reading / writing

In [None]:
plt.figure(figsize=(6, 5))
corr = df[["math score", "reading score", "writing score"]].corr()

sns.heatmap(corr, annot=True, cmap="coolwarm", square=True)
plt.title("Correlation Matrix of Scores")
plt.show()

Построим график: Boxplot среднего балла по предметам в зависимости от уровня образования родителей

In [None]:
plt.figure(figsize=(10, 6))
df.boxplot(column="average score", by="parental level of education", rot=45)
plt.title("Average Score by Parental Level of Education")
plt.suptitle("")
plt.xlabel("Parental level of education")
plt.ylabel("Average score")
plt.show()

Построим график: Barplot сравнения средних оценок у студентов, прошедших test preparation course vs не прошедших

In [None]:
subjects_group = ["math score", "reading score", "writing score"]
grouped = df.groupby("test preparation course")[subjects_group].mean()

plt.figure(figsize=(8, 5))
grouped.plot(kind="bar")
plt.title("Average Scores by Test Preparation Course")
plt.ylabel("Average score")
plt.xticks(rotation=0)
plt.legend(title="Subject")
plt.show()