# Программирование на Python
## Семинар 7. Python для анализа данных
**Data source:** https://www.kaggle.com/datasets/spscientist/students-performance-in-exams.

**Columns:**
- `gender` (binary variable);
- `race/ethnicity` (categorical variable);
- `parental level of education` (categorical variable, student's parents' level of education);
- `lunch` (categorical variable, quality of student's lunch);
- `test preparation course` (categorical variable, whether student managed to complete preparation course for the test);
- `math score` (numeric variable, score for Math test);
- `reading score` (numeric variable, score for Reading part);
- `writing score` (numeric variable, score for Writing part).

#### Задание 1
Загрузите файл StudentsPerformance.csv используя модуль `csv` и возможности модуля `collections`. Не забудьте о том, что для удобства числовые типы данных будет удобнее привести сразу. На выходе должен получиться словарь с ключами-названиями колонок и значениями-колонками.

In [1]:
import csv
from collections import defaultdict

path = '../Занятие 1/StudentsPerformance.csv'
data = defaultdict(list)

int_cols = ['math score', 'reading score', 'writing score']

with open(path, mode='r', newline='') as file:
    csvfile = csv.DictReader(file, delimiter=',')

    for line in csvfile:
        for key, value in line.items():
            if key in int_cols:
                data[key].append(int(value))
            else:
                data[key].append(value)

#### Задание 2
Напишите функцию `show`, которая будет выводить название и первые `n` значений каждой колонки в виде таблицы.

In [None]:
# наш код здесь

#### Задание 3
Подготовка и анализ данных почти всегда подразумевают изпользование таких pipeline'ов, как "group->aggregate" и "group->apply". Имеется в виду, что значения переменной X делятся на группы по значениям переменной Y, и над этими группами производятся различные операции. Реализуйте следующие функции:

- `group`: принимает на вход векторы X и Y и возвращает словарь, в котором ключами являются уникальные значения переменной Y, а значениями - списки соответствующих значений переменной X;
- `aggregate`: принимает на вход словарь, возвращаемый функцией `group`, а также функцию `fun`, которая должна быть применена к каждому его значению. Возвращаться должен словарь, состоящий из тех же ключей и значений-результатов применения функции `fun`.

In [2]:
data['math score'][:10]

[72, 69, 90, 47, 76, 71, 88, 40, 64, 38]

In [3]:
data['test preparation course'][:10]

['none',
 'completed',
 'none',
 'none',
 'none',
 'none',
 'completed',
 'none',
 'completed',
 'none']

In [8]:
from statistics import mean

def group(vector, grouping):
    grouped = defaultdict(list)
    
    for v, g in zip(vector, grouping):
        grouped[g].append(v)

    return grouped

def aggregate(grouped, fun):
    aggregated = {key: fun(value) for key, value in grouped.items()}

    return aggregated

In [9]:
math_grouped_by_cource = group(data['math score'], data['test preparation course'])
aggregate(math_grouped_by_cource, mean)

{'none': 64.0778816199377, 'completed': 69.69553072625699}

#### Задание 4
Выдвините гипотезы о взаимодействии числовой и категориальной переменных и протестируйте их используя подготовленные вами функции.

In [10]:
from collections import Counter

In [None]:
# I1: как связаны race и успеваемость

# переменные:
# race/ethnicity - категория
# _ score - числовая переменная

# 

In [11]:
# race/ethnicity
Counter(data['race/ethnicity'])

Counter({'group C': 319,
         'group D': 262,
         'group B': 190,
         'group E': 140,
         'group A': 89})

In [12]:
# _ score
for col in int_cols:
    col_mean = mean(data[col])
    col_min = min(data[col])
    col_max = max(data[col])

    print(f'For column {col} metric min is {col_min}, mean is {col_mean} max is {col_max}.')

For column math score metric min is 0, mean is 66.089 max is 100.
For column reading score metric min is 17, mean is 69.169 max is 100.
For column writing score metric min is 10, mean is 68.054 max is 100.


In [19]:
for col in int_cols:
    col_grouped_by_race = group(data[col], data['race/ethnicity'])
    print(f'Comparison for variable col {col}:', end=' ')
    agg = {key: round(value) for key, value in aggregate(col_grouped_by_race, mean).items()}
    agg_sorted = dict(sorted(agg.items(), key=lambda item: item[1]))
    print(agg_sorted)

Comparison for variable col math score: {'group A': 62, 'group B': 63, 'group C': 64, 'group D': 67, 'group E': 74}
Comparison for variable col reading score: {'group A': 65, 'group B': 67, 'group C': 69, 'group D': 70, 'group E': 73}
Comparison for variable col writing score: {'group A': 63, 'group B': 66, 'group C': 68, 'group D': 70, 'group E': 71}


In [17]:
sorted(agg)

['group A', 'group B', 'group C', 'group D', 'group E']