# Введение в Pandas

In [None]:
import pandas as pd

### Описание данных

В папке Dat (https://github.com/hse-ds/iad-intro-ds/blob/master/2023/homeworks/Data.zip) находится информация о студентах. Всего 10 групп студентов. Файлы делятся на две категории:
    * Students_info_i - информация о студентах из группы i
    * Students_marks_i - оценки студентов из группы i за экзамены

In [None]:
import zipfile
import requests
import os

# URL для скачивания zip-файла
url = 'https://github.com/hse-ds/iad-intro-ds/raw/master/2023/homeworks/Data.zip'

response = requests.get(url)
zip_file_path = 'Data.zip'

with open(zip_file_path, 'wb') as f:
    f.write(response.content)

# Распаковка zip-файла
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall('Data')

# Проверка содержимого распакованной папки
os.listdir('Data/Data')


['Students_marks_9.csv',
 'Students_info_8.csv',
 'Students_info_1.csv',
 'Students_info_5.csv',
 'Students_marks_4.csv',
 'Students_marks_5.csv',
 'Students_info_4.csv',
 'Students_marks_3.csv',
 'Students_info_6.csv',
 'Students_marks_1.csv',
 'Students_info_7.csv',
 'Students_marks_2.csv',
 'Students_info_9.csv',
 'Students_marks_8.csv',
 'Students_marks_6.csv',
 'Students_marks_7.csv',
 'Students_marks_0.csv',
 'Students_info_0.csv',
 'Students_info_3.csv',
 'Students_info_2.csv']

Одно из важных достоинств pandas $-$ это удобные методы реляционного взаимодействия с данными, аналогичные, например, возможностям SQL для слияния и конкатенации таблиц: merge, join, concat. Наличие готовых методов позволяет не реализовывать самостоятельно поэлементную обработку данных и оперировать сразу целыми таблицами данных.

Подробно об этих методах посмотрите тут: https://www.kaggle.com/residentmario/renaming-and-combining#Combining

In [None]:
info_df = pd.read_csv("/content/Data/Data/Students_info_0.csv")
print(info_df.head(5))

   index  gender race/ethnicity parental level of education         lunch  \
0      0  female        group B           bachelor's degree      standard   
1      1  female        group C                some college      standard   
2      2  female        group B             master's degree      standard   
3      3    male        group A          associate's degree  free/reduced   
4      4    male        group C                some college      standard   

  test preparation course   group  
0                    none  group1  
1               completed  group1  
2                    none  group1  
3                    none  group1  
4                    none  group1  


In [None]:
marks_df = pd.read_csv("/content/Data/Data/Students_marks_0.csv")
print(marks_df.head(5))

   index  math score  reading score  writing score
0      0          72             72             74
1      1          69             90             88
2      2          90             95             93
3      3          47             57             44
4      4          76             78             75


### Задание 1. Соберите всю информацию о студентах в одну таблицу df. В получившейся таблице должна быть информация и оценки всех студентов из всех групп. Напечатайте несколько строк таблицы для демонстрации результата.

In [None]:
for i in range(0,10):
  info_df = pd.concat([info_df, pd.read_csv(f'/content/Data/Data/Students_info_{i}.csv')], axis=0)
  marks_df = pd.concat([marks_df, pd.read_csv(f'/content/Data/Data/Students_marks_{i}.csv')], axis=0)

df = info_df.merge(marks_df, on='index')

In [None]:
print(df.head(5))

   index  gender race/ethnicity parental level of education     lunch  \
0      0  female        group B           bachelor's degree  standard   
1      0  female        group B           bachelor's degree  standard   
2      1  female        group C                some college  standard   
3      1  female        group C                some college  standard   
4      2  female        group B             master's degree  standard   

  test preparation course   group  math score  reading score  writing score  
0                    none  group1          72             72             74  
1                    none  group1          72             72             74  
2               completed  group1          69             90             88  
3               completed  group1          69             90             88  
4                    none  group1          90             95             93  


### Задание 2. Удалите столбец index у полученной таблицы. Напечатайте первые 10 строк таблицы.

In [None]:
df.drop('index', axis=1, inplace=True)
print(df.head(10))

   gender race/ethnicity parental level of education         lunch  \
0  female        group B           bachelor's degree      standard   
1  female        group B           bachelor's degree      standard   
2  female        group C                some college      standard   
3  female        group C                some college      standard   
4  female        group B             master's degree      standard   
5  female        group B             master's degree      standard   
6    male        group A          associate's degree  free/reduced   
7    male        group A          associate's degree  free/reduced   
8    male        group C                some college      standard   
9    male        group C                some college      standard   

  test preparation course   group  math score  reading score  writing score  
0                    none  group1          72             72             74  
1                    none  group1          72             72             

### Задание 3. Выведите на экран размеры полученной таблицы

In [None]:
df.shape

(1300, 9)

### Задание 4. Выведите на экран статистические характеристики числовых столбцов таблицы (минимум, максимум, среднее значение, стандартное отклонение)

In [None]:
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1300.0,1300.0,1300.0
mean,64.829231,68.105385,66.947692
std,15.51046,15.003991,15.654282
min,0.0,17.0,10.0
25%,55.0,58.0,56.0
50%,65.0,69.0,68.0
75%,75.0,79.0,78.0
max,100.0,100.0,100.0


### Задание 5. Проверьте, есть ли в таблице пропущенные значения

In [None]:
print(df.isna().sum())

gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
group                          0
math score                     0
reading score                  0
writing score                  0
dtype: int64


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1300 entries, 0 to 1299
Data columns (total 9 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   gender                       1300 non-null   object
 1   race/ethnicity               1300 non-null   object
 2   parental level of education  1300 non-null   object
 3   lunch                        1300 non-null   object
 4   test preparation course      1300 non-null   object
 5   group                        1300 non-null   object
 6   math score                   1300 non-null   int64 
 7   reading score                1300 non-null   int64 
 8   writing score                1300 non-null   int64 
dtypes: int64(3), object(6)
memory usage: 91.5+ KB
None


### Задание 6. Выведите на экран средние баллы студентов по каждому предмету (math, reading, writing)

In [None]:
df[['math score', 'reading score', 'writing score']].mean()

Unnamed: 0,0
math score,64.829231
reading score,68.105385
writing score,66.947692


### Задание 7. Как зависят оценки от того, проходил ли студент курс для подготовки к сдаче экзамена (test preparation course)? Выведите на экран для каждого предмета в отдельности средний балл студентов, проходивших курс для подготовки к экзамену и не проходивших курс.

In [None]:
df[['test preparation course', 'math score', 'reading score', 'writing score']].groupby(by='test preparation course').mean()

Unnamed: 0_level_0,math score,reading score,writing score
test preparation course,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
completed,69.280182,73.38041,73.972665
none,62.559814,65.415796,63.365854


### Задание 8. Выведите на экран все различные значения из столбца lunch.

In [None]:
df['lunch'].unique()

array(['standard', 'free/reduced'], dtype=object)

### Задание 9. Переименуйте колонку "parental level of education" в "education", а "test preparation course" в "test preparation" с помощью метода pandas rename
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html

In [None]:
df.rename(columns={"parental level of education" :  "education",
                   "test preparation course" : "test preparation"}, inplace=True)

**Зафиксируем минимальный балл для сдачи экзамена**

In [None]:
passmark = 50

### Задание 10. Ответьте на вопросы:
    * Какая доля студентов сдала экзамен по математике (passmark >= 50)?
    * Какая доля студентов, проходивших курс подготовки к экзамену, сдала экзамен по математике?
    * Какая доля женщин, не проходивших курс подготовки к экзамену, не сдала экзамен по математике?

In [None]:
print('Доля сдавших математику', df[df['math score'] >= passmark].shape[0] / df.shape[0])

print('Доля проходивших курс и сдавших математику',
      df[(df['math score'] >= passmark) & (df['test preparation'] == 'completed')].shape[0]
      / df[df['test preparation'] == 'completed'].shape[0])

print('Доля женщин, не проходивших курс и не сдавших',
      df[(df['math score'] < passmark) & (df['test preparation'] != 'completed') & (df['gender'] == 'female')].shape[0]
      / df[(df['test preparation'] != 'completed') & (df['gender'] == 'female')].shape[0])

Доля сдавших математику 0.8453846153846154
Доля проходивших курс и сдавших математику 0.9225512528473804
Доля женщин, не проходивших курс и не сдавших 0.2017738359201774


### Задание 11. С помощью groupby выполните задания ниже. Также выведите время выполнения каждого из заданий.
    * Для каждой этнической группы выведите средний балл за экзамен по чтению
    * Для каждого уровня образования выведите минимальный балл за экзамен по письму

In [None]:
%%time
df[['race/ethnicity', 'reading score']].groupby(by='race/ethnicity').mean()

CPU times: user 3.76 ms, sys: 817 µs, total: 4.58 ms
Wall time: 7.41 ms


Unnamed: 0_level_0,reading score
race/ethnicity,Unnamed: 1_level_1
group A,63.581967
group B,66.359375
group C,68.339853
group D,68.813056
group E,71.880682


In [None]:
%time
df[['education', 'reading score']].groupby(by='education').min()

CPU times: user 4 µs, sys: 1 µs, total: 5 µs
Wall time: 7.87 µs


Unnamed: 0_level_0,reading score
education,Unnamed: 1_level_1
associate's degree,31
bachelor's degree,41
high school,24
master's degree,42
some college,23
some high school,17


### Задание 12. Выполните задание 11 с помощью циклов. Сравните время выполнения.

In [None]:
%%time
mean_scores_loop = {}
for race in df['race/ethnicity'].unique():
    mean_scores_loop[race] = df[df['race/ethnicity'] == race]['reading score'].mean()

print(mean_scores_loop)

{'group B': 66.359375, 'group C': 68.3398533007335, 'group A': 63.58196721311475, 'group D': 68.81305637982196, 'group E': 71.88068181818181}
CPU times: user 6.8 ms, sys: 0 ns, total: 6.8 ms
Wall time: 17.2 ms


In [None]:
%%time
min_scores_loop = {}
for educ in df['education'].unique():
  min_scores_loop[educ] = df[df['education'] == educ]['reading score'].mean()

print(min_scores_loop)

{"bachelor's degree": 72.8273381294964, 'some college': 68.8782894736842, "master's degree": 73.3625, "associate's degree": 68.99679487179488, 'high school': 64.68067226890756, 'some high school': 64.69162995594714}
CPU times: user 8.08 ms, sys: 0 ns, total: 8.08 ms
Wall time: 10.1 ms


### Задание 13. Выведите на экран средние баллы студентов по каждому предмету в зависимости от пола и уровня образования. То есть должно получиться количество групп, равных 2 * (число уровней образования), и для каждой такой группы выыведите средний балл по каждому из предметов.

Это можно сделать с помощью сводных таблиц (pivot_table):

https://www.kaggle.com/kamilpolak/tutorial-how-to-use-pivot-table-in-pandas

In [None]:
pd.pivot_table(data=df, values=['math score', 'reading score', 'writing score'], index=['gender', 'education'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,math score,reading score,writing score
gender,education,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,associate's degree,63.708075,72.745342,72.341615
female,bachelor's degree,68.173333,76.12,77.24
female,high school,58.349057,67.641509,65.990566
female,master's degree,65.764706,75.27451,75.921569
female,some college,65.955414,74.235669,74.630573
female,some high school,57.677966,67.610169,66.59322
male,associate's degree,67.397351,65.0,62.741722
male,bachelor's degree,71.578125,68.96875,69.0625
male,high school,64.704545,62.30303,59.416667
male,master's degree,71.655172,70.0,69.793103


### Задание 14. Сколько студентов успешно сдали экзамен по математике?

Создайте новый столбец в таблице df под названием Math_PassStatus и запишите в него F, если студент не сдал экзамен по математике (балл за экзамен < passmark), и P иначе.

Посчитайте количество студентов, сдавших и не сдавших экзамен по математике.

Сделайте аналогичные шаги для экзаменов по чтению и письму.

In [None]:
df['Math_PassStatus'] = df['math score'].apply(lambda x: 'F' if x < passmark else 'P')
df['Writing_PassStatus'] = df['writing score'].apply(lambda x: 'F' if x < passmark else 'P')
df['Reading_PassStatus'] = df['reading score'].apply(lambda x: 'F' if x < passmark else 'P')
print(df.head(5))

   gender race/ethnicity          education     lunch test preparation  \
0  female        group B  bachelor's degree  standard             none   
1  female        group B  bachelor's degree  standard             none   
2  female        group C       some college  standard        completed   
3  female        group C       some college  standard        completed   
4  female        group B    master's degree  standard             none   

    group  math score  reading score  writing score Math_PassStatus  \
0  group1          72             72             74               P   
1  group1          72             72             74               P   
2  group1          69             90             88               P   
3  group1          69             90             88               P   
4  group1          90             95             93               P   

  Writing_PassStatus Reading_PassStatus  
0                  P                  P  
1                  P                  P  
2 

In [None]:
print('Сдали/не сдали математику:', df[df['Math_PassStatus'] == 'P'].shape[0], '/',  df[df['Math_PassStatus'] == 'F'].shape[0])
print('Сдали/не сдали письмо:', df[df['Writing_PassStatus'] == 'P'].shape[0], '/',  df[df['Writing_PassStatus'] == 'F'].shape[0])
print('Сдали/не сдали чтение:', df[df['Reading_PassStatus'] == 'P'].shape[0], '/',  df[df['Reading_PassStatus'] == 'F'].shape[0])

Сдали/не сдали математику: 1099 / 201
Сдали/не сдали письмо: 1126 / 174
Сдали/не сдали чтение: 1156 / 144


### Задание 15. Сколько студентов успешно сдали все экзамены?

Создайте столбец OverAll_PassStatus и запишите в него для каждого студента 'F', если студент не сдал хотя бы один из трех экзаменов, а иначе 'P'.

Посчитайте количество студентов, которые сдали все экзамены.

In [None]:
df['OverAll_PassStatus'] = df.apply(lambda row:
                                    'F' if (row['Math_PassStatus'] == 'F'
                                     or row['Writing_PassStatus'] == 'F'
                                     or row['Reading_PassStatus'] == 'F')
                                    else 'P', axis=1)
print('Кол-во студентов, сдавших всё:')
print(df[df['OverAll_PassStatus'] == 'P'].shape[0])

Кол-во студентов, сдавших всё:
1034


### Задание 16. Переведем баллы в оценки

### Система перевода баллов в оценки
####    больше 90 = A
####      80-90 = B
####      70-80 = C
####      60-70 = D
####      50-60 = E
####    меньше 50 = F (Fail)

Создайте вспомогательную функцию, которая будет по среднему баллу за три экзамена выставлять оценку студенту по данным выше критериям.

Создайте столбец Grade и запишите в него оценку каждого студента.

Выведите количество студентов, получивших каждую из оценок.

**В случае, если средний балл попадает на границу между оценками (т.е. равен ровно 60, 70 или 80 баллов), вы можете интерпретировать условие на своё усмотрение (т.е. можете поставить за 60 баллов оценку D, а можете - E).**

In [None]:
def GetGrade(average_mark):
    if average_mark >= 90:
      return 'A'
    elif average_mark >= 80:
      return 'B'
    elif average_mark >= 70:
      return 'C'
    elif average_mark >= 60:
      return 'D'
    elif average_mark >= 50:
      return 'E'
    else:
      return 'F'

df['Grade'] = df[['math score', 'writing score', 'reading score']].mean(axis=1).apply(GetGrade)

print(df.head(5))

   gender race/ethnicity          education     lunch test preparation  \
0  female        group B  bachelor's degree  standard             none   
1  female        group B  bachelor's degree  standard             none   
2  female        group C       some college  standard        completed   
3  female        group C       some college  standard        completed   
4  female        group B    master's degree  standard             none   

    group  math score  reading score  writing score Math_PassStatus  \
0  group1          72             72             74               P   
1  group1          72             72             74               P   
2  group1          69             90             88               P   
3  group1          69             90             88               P   
4  group1          90             95             93               P   

  Writing_PassStatus Reading_PassStatus OverAll_PassStatus Grade  
0                  P                  P                  P   

### Задание 17

Числа Фибоначчи — это последовательность чисел, где каждое последующее число является суммой двух предыдущих. Последовательность начинается с двух начальных чисел, обычно 0 и 1 (или 1 и 1). Задача: Создать DataFrame размером 100x1000 и заполнить его числами Фибоначчи

In [8]:
import pandas as pd
import numpy as np


def generate_fibonacci_sequence(length):
    fib_sequence = [0, 1]
    while len(fib_sequence) < length:
        fib_sequence.append(fib_sequence[-1] + fib_sequence[-2])
    return fib_sequence[:length]


rows, cols = 100, 1000

total_elements = rows * cols
fibonacci_numbers = generate_fibonacci_sequence(total_elements)

df = pd.DataFrame(np.array(fibonacci_numbers).reshape(rows, cols))

print(df.shape)

(100, 1000)
