# Введение в регрессионный анализ: интенсив по Python

*Алла Тамбовцева*

## Семинар 3. Операции с датафреймами Pandas: часть 1

### Задача 1

Загрузите данные из [файла](https://github.com/allatambov/PyReg25/blob/main/hp25.csv) `hp25.csv`, предварительно скачав его на компьютер и поместив в рабочую папку Jupyter Notebook (или Google Colab) через *Upload*, и сохраните их в датафрейм `hp`.

Запросите описательные статистики по всем а) числовым столбцам; б) текстовым столбцам.

In [1]:
import pandas as pd

In [2]:
# в скобках полное название файла с расширением .csv
hp = pd.read_csv("hp25.csv")

In [3]:
# а
hp.describe()

Unnamed: 0,Wand.len,Birth.year,End.year,Age
count,25.0,115.0,140.0,115.0
mean,11.27,1961.121739,2005.164286,51.973913
std,2.094039,57.717574,97.693075,24.769981
min,8.0,1401.0,1000.0,15.0
25%,9.5,1960.0,1998.0,43.5
50%,10.75,1975.0,2025.0,47.0
75%,12.75,1979.0,2025.0,61.0
max,16.0,2005.0,2025.0,145.0


In [4]:
# б
hp.describe(include = "object")

Unnamed: 0,Name,Gender,House,Wand,Skills
count,140,139,101,132,113
unique,140,2,6,29,94
top,Harry James Potter,Male,Gryffindor,Unknown,Chaser
freq,1,90,38,104,7


**Дополнение – загрузка файла из другой папки:**

Путь к папке, где лежит файл, можно найти, кликнув правой клавишей на файл и выбрав *Свойства*, в строке *Расположение* (Windows) или *Где* (Mac OS). Далее копируем путь к папке и

На Windows:

* через `\` добавляем к пути название файла, перед кавычками ставим `r`, чтобы Python воспринимал слэши вида `\`, используемые на Windows, не как специальные символы:

        hp = pd.read_csv(r"D:\Downloads\hp25.csv")

На Mac OS:

* через `/` добавляем к пути название файла, слэши вида `/` менять не нужно:

        hp = pd.read_csv("/User/allat/Desktop/hp25.csv")

### Задача 2

Выведите описательные статистики отдельно для столбца `Wand.len` и столбца `House`. 

*Подсказка:* для выбора столбца впишите его название в квадратные скобки после названия датафрейма.

In [5]:
hp["Wand.len"].describe()

count    25.000000
mean     11.270000
std       2.094039
min       8.000000
25%       9.500000
50%      10.750000
75%      12.750000
max      16.000000
Name: Wand.len, dtype: float64

In [6]:
hp["House"].describe()

count            101
unique             6
top       Gryffindor
freq              38
Name: House, dtype: object

### Задача 3

a. Для столбца `Wand.len` вычислите среднее, стандартное отклонение, медиану, нижний и верхний квартиль. 

b. Для столбца `House` выведите таблицу частот (сколько раз встречается каждое название факультета/школы).

*Подсказка:* методы `.mean()`, `.std()`, `.median()`, `.quantile()`, а также метод `.value_counts()`.

In [7]:
# a

print(hp["Wand.len"].mean())
print(hp["Wand.len"].std())
print(hp["Wand.len"].median())

print(hp["Wand.len"].quantile(0.25))
print(hp["Wand.len"].quantile(0.75))

11.27
2.0940391591371923
10.75
9.5
12.75


**Дополнительно.** В метод `.quantile()` можно вписать несколько уровней квантилей сразу, но тогда их нужно оформить в список – добавить квадратные скобки:

In [8]:
hp["Wand.len"].quantile([0.25, 0.75])

0.25     9.50
0.75    12.75
Name: Wand.len, dtype: float64

In [9]:
# децили с 1-го по 5-ый
hp["Wand.len"].quantile([0.1, 0.2, 0.3, 0.4, 0.5])

0.1     9.10
0.2     9.50
0.3    10.05
0.4    10.25
0.5    10.75
Name: Wand.len, dtype: float64

In [10]:
# b: число героев с разных факультетов/из разных школ

hp["House"].value_counts()

Gryffindor                      38
Slytherin                       28
Ravenclaw                       18
Hufflepuff                      13
Beauxbatons Academy of Magic     3
Durmstrang Institute             1
Name: House, dtype: int64

**Дополнительно.** Можем от абсолютных частот перейти к относительным – долям значений. Для этого «включаем» нормировку через аргумент `normalize = True`:

In [11]:
hp["House"].value_counts(normalize = True)

Gryffindor                      0.376238
Slytherin                       0.277228
Ravenclaw                       0.178218
Hufflepuff                      0.128713
Beauxbatons Academy of Magic    0.029703
Durmstrang Institute            0.009901
Name: House, dtype: float64

И еще можем добавить в выдачу пропущенные значения (`na` от *not applicable* или `NaN` от *not a number*), чтобы было видно, есть ли пропуски и сколько их. Для этого «выключаем» удаление пропусков из выдачи метода через аргумент `dropna = False`:

In [12]:
hp["House"].value_counts(normalize = True, dropna = False)

NaN                             0.278571
Gryffindor                      0.271429
Slytherin                       0.200000
Ravenclaw                       0.128571
Hufflepuff                      0.092857
Beauxbatons Academy of Magic    0.021429
Durmstrang Institute            0.007143
Name: House, dtype: float64

Можем домножить столбец выше на 100 (как массив) и получить результаты в процентах:

In [13]:
hp["House"].value_counts(normalize = True, dropna = False) * 100

NaN                             27.857143
Gryffindor                      27.142857
Slytherin                       20.000000
Ravenclaw                       12.857143
Hufflepuff                       9.285714
Beauxbatons Academy of Magic     2.142857
Durmstrang Institute             0.714286
Name: House, dtype: float64

### Задача 4

Добавьте столбец `Alive` из 0 и 1, где 1 соответствует героям оставшимся в живых, 0 – иначе. 

*Подсказка:* вспомните, как мы получали массивы из 0 и 1 ранее.

In [14]:
hp["Alive"] = (hp["End.year"] == 2025).astype(int)
hp

Unnamed: 0,Name,Gender,House,Wand,Wand.len,Skills,Birth.year,End.year,Age,Alive
0,Harry James Potter,Male,Gryffindor,"11"" Holly phoenix feather",11.00,Parseltongue| Defence Against the Dark Arts | ...,1980.0,2025,45.0,1
1,Ronald Bilius Weasley,Male,Gryffindor,"12"" Ash unicorn tail hair",12.00,Wizard chess | Quidditch goalkeeping,1980.0,2025,45.0,1
2,Hermione Jean Granger,Female,Gryffindor,"10¾"" vine wood dragon heartstring",10.75,Almost everything,1979.0,2025,46.0,1
3,Albus Percival Wulfric Brian Dumbledore,Male,Gryffindor,"15"" Elder Thestral tail hair core",15.00,Considered by many to be one of the most power...,1881.0,1997,116.0,0
4,Rubeus Hagrid,Male,Gryffindor,"16"" Oak unknown core",16.00,Resistant to stunning spells| above average st...,1928.0,2025,97.0,1
...,...,...,...,...,...,...,...,...,...,...
135,Wilhelmina Grubbly-Plank,Female,,Unknown,,,,2025,,1
136,Fenrir Greyback,Male,,Unknown,,Physical combat,1945.0,2025,80.0,1
137,Gellert Grindelwald,Male,,"15"", Elder, Thestral tail hair core",15.00,Duelling,1883.0,1998,115.0,0
138,Dobby,Male,,,,"A type of magic specific to house-elves, perfo...",,1998,,0


### Задача 5

Сохраните в датафрейм `hp_alive` строки, соответствующие выжившим героям, а в датафрейм `hp_dead` – строки, соответствующие погибшим героям. Вычислите число строк в каждом датафрейме.

In [None]:
### YOUR CODE HERE ###

### Задача 6

Для героев, отобранных в датафрейм `df_alive`, определите границы *типичных значений* возраста.

In [None]:
### YOUR CODE HERE ###

### Задача 7

Выберите из `df_alive` строки, которые соответствуют героям с нетипично высоким или нетипично низким значением возраста.

In [None]:
### YOUR CODE HERE ###