### 1. Импорт библиотек и подготовка датафрейма:

In [1]:
import pandas as pd
import numpy as np
from faker import Faker
from gender_guesser.detector import Detector

In [2]:
# Инициализируем Faker для английского языка
fake = Faker('en_US')

# Инициализируем детектор пола
detector = Detector()

# Список предметов
subjects = ['mathematics', 'physics',
            'informatics', 'chemistry',
            'geography', 'economics']

# Количество студентов
num_students = 10000

# Создаем датафрейм
students_data = {
    'name': [fake.name().replace(' ', '_')
             for _ in range(num_students)],
    'group': [chr(num + 96)
              for num
              in np.random.randint(1, 7, num_students)]
}

# Добавляем оценки по предметам
for subject in subjects:
    students_data[subject] = np.random.randint(2, 11, num_students)

# Создаем датафрейм
df = pd.DataFrame(students_data)

# Добавляем столбец "пол"
df['gender'] = df['name'].apply(lambda x: detector.get_gender(x.split('_')[0]))

# Перемещаем столбец "пол" после столбца "имя"
gender_column = df.pop('gender')
df.insert(1, 'gender', gender_column)

# Заменяем 'mostly_male' и 'mostly_female' на 'male' и 'female'
df['gender'] = df['gender'].replace({'mostly_male':'male', 'andy':'male', 'mostly_female':'female'})

# Заменяем gender == unknown на male для имен, начинающихся с 'Dr.' и 'Mr.', и на female для имен, начинающихся с 'Mrs.'
df.loc[df['name'].str.startswith('Dr.') |
       df['name'].str.startswith('Mr.'), 'gender'] = 'male'

df.loc[df['name'].str.startswith('Mrs.') |
       df['name'].str.startswith('Latoya') |
       df['name'].str.startswith('Ms.') |
       df['name'].str.startswith('Miss'), 'gender'] = 'female'

# Вычисляем среднее значение по предметам для каждого студента
df['GPA'] = np.round(df[subjects].mean(axis=1), 1)

# Выводим датафрейм
df

Unnamed: 0,name,gender,group,mathematics,physics,informatics,chemistry,geography,economics,GPA
0,Tracy_Clarke,female,d,9,4,5,6,9,2,5.8
1,Lori_Long,female,d,3,2,5,6,6,9,5.2
2,Lynn_Landry,female,b,4,10,7,3,6,3,5.5
3,Andrea_Davis,female,f,3,9,9,10,2,7,6.7
4,Linda_Reid,female,a,3,9,2,2,10,2,4.7
...,...,...,...,...,...,...,...,...,...,...
9995,Joshua_Collier,male,a,10,9,10,4,10,9,8.7
9996,Christopher_Brown,male,b,5,9,2,5,5,9,5.8
9997,Stephanie_Lamb,female,c,2,2,2,10,10,2,4.7
9998,Pamela_Diaz,female,d,5,9,9,10,10,6,8.2


### 2. Задания к датафрейму:

1) Посчитайте количество студентов в каждой группе
2) Определите количество мужчин и женщин в каждой группе
3) Найдите средний балл GPA по всем студентам
4) Определите средний балл GPA среди мужчин и женщин
5) Определите средний балл GPA для каждой группы
6) Определите средний балл GPA для каждой группы cреди мужчин и женщин
7) Разделите студентов на категории по их GPA
8) Разделите студентов на категории по их GPA и полу
9) Найти средние значения по предметам
10) Найти средние значения по предметам и полу

#### 1. Посчитайте количество студентов в каждой группе

In [3]:
students_per_group = df['group'].value_counts().reset_index()
students_per_group

Unnamed: 0,group,count
0,c,1719
1,b,1703
2,a,1675
3,f,1667
4,e,1640
5,d,1596


#### 2. Определите количество мужчин и женщин в каждой группе

In [4]:
gender_per_group = (df.groupby(['group', 'gender'])
                    .size()
                    .reset_index()
                    .rename(columns={0: 'count'}))
gender_per_group

Unnamed: 0,group,gender,count
0,a,female,828
1,a,male,847
2,b,female,856
3,b,male,847
4,c,female,825
5,c,male,894
6,d,female,759
7,d,male,837
8,e,female,778
9,e,male,862


#### 3. Найдите средний балл GPA по всем студентам

In [5]:
average_gpa_all_students = np.round(df['GPA'].mean(), 2)
average_gpa_all_students

6.0

#### 4. Определите средний балл GPA среди мужчин и женщин

In [6]:
average_gpa_gender = np.round(df.groupby('gender')['GPA']
                              .mean()
                              .reset_index(), 2)
average_gpa_gender

Unnamed: 0,gender,GPA
0,female,6.01
1,male,5.99


#### 5. Определите средний балл GPA для каждой группы

In [7]:
average_gpa_per_group = np.round(df.groupby('group')['GPA']
                                 .mean()
                                 .reset_index(), 2)
average_gpa_per_group

Unnamed: 0,group,GPA
0,a,5.98
1,b,6.0
2,c,6.0
3,d,5.99
4,e,5.99
5,f,6.02


#### 6. Определите средний балл GPA для каждой группы cреди мужчин и женщин

In [8]:
average_gpa_per_group_gender = np.round(df
                                        .groupby(['group',
                                                  'gender'])
                                        ['GPA']
                                        .mean()
                                        .reset_index(), 2)
average_gpa_per_group_gender

Unnamed: 0,group,gender,GPA
0,a,female,5.99
1,a,male,5.98
2,b,female,6.03
3,b,male,5.98
4,c,female,6.04
5,c,male,5.96
6,d,female,6.0
7,d,male,5.98
8,e,female,5.98
9,e,male,6.01


#### 7. Разделите студентов на категории по их GPA

In [9]:
def categorize_gpa(gpa):
    if gpa >= 9:
        return 'excellent'
    elif gpa >= 7:
        return 'high'
    elif gpa >= 5:
        return 'average'
    else:
        return 'low'


df['GPA_category'] = df['GPA'].apply(categorize_gpa)
students_per_gpa_category = df['GPA_category'].value_counts().reset_index()
students_per_gpa_category

Unnamed: 0,GPA_category,count
0,average,6463
1,high,1937
2,low,1581
3,excellent,19


#### 8. Разделите студентов на категории по их GPA и полу

In [10]:
students_per_gpa_category_gender = (df.groupby(['GPA_category', 'gender'])
                                    .size()
                                    .reset_index()
                                    .rename(columns={0: 'count'}))
students_per_gpa_category_gender

Unnamed: 0,GPA_category,gender,count
0,average,female,3144
1,average,male,3319
2,excellent,female,10
3,excellent,male,9
4,high,female,937
5,high,male,1000
6,low,female,765
7,low,male,816


#### 9. Найти средние значения по предметам

In [11]:
average_scores_per_subject = np.round(df[subjects]
                                      .mean()
                                      .reset_index()
                                      .rename(columns={0: 'mean'}), 2)
average_scores_per_subject

Unnamed: 0,index,mean
0,mathematics,6.02
1,physics,5.99
2,informatics,6.01
3,chemistry,6.0
4,geography,5.99
5,economics,5.98


#### 10. Найти средние значения по предметам и полу

In [12]:
average_scores_per_subject_gender = np.round(df.groupby('gender')[subjects]
                                             .mean().
                                             reset_index(), 2)
average_scores_per_subject_gender

Unnamed: 0,gender,mathematics,physics,informatics,chemistry,geography,economics
0,female,6.0,6.02,6.01,6.07,6.01,5.94
1,male,6.03,5.97,6.01,5.94,5.98,6.01
