# Введение в регрессионный анализ: интенсив по Python

*Алла Тамбовцева*

## Загрузка и описание данных в `pandas`

Для загрузки файлов и работы с данными в табличном виде нам понадобится библиотека `pandas`. Как и `numpy`, при установке Anaconda она устанавливается автоматически (и в Google Colab тоже есть по умолчанию). 

Импортируем библиотеку `pandas` с сокращенным названием `pd`:

In [1]:
import pandas as pd

> Если вдруг вы столкнулись с ошибкой вида `no module called pandas`, установить библиотеку можно с помощью конструкции `pip install ...`. Для этого нужно запустить строку `!pip install pandas`, убедившись, что есть подключение к интернету, так как необходимые файлы будут скачиваться с официального сервера.

Библиотека `pandas` умеет загружать данные из файлов разных форматов. Среди них файлы Excel (расширения `.xls` и `.xlsx`), Stata (расширение `.dta`), SPSS (расширение `.sav`), текстовые файлы в формате TXT, CSV, JSON и другие. Мы поработаем с форматом CSV, одним из самых распространенных машиночитаемых форматов, название которого расшифровывается как *Comma Separated Values*, то есть «значения, разделенные запятыми». Такое название объясняется просто: внутри такого файла данные в табличном виде записаны так, что значения, относящиеся к разным столбцам, отграничены друг от друга запятыми.

Перейдем к нашему файлу `hp25.csv` с данными по героям волшебной вселенной Дж.Роулинг. Показатели в файле:

* `Name`: имя героя;
* `Gender`: пол героя;
* `House`: факультет/школа;
* `Wand`: описание волшебной палочки;
* `Wand.len`: длина волшебной палочки в дюймах;
* `Skills`: навыки, отличительные способности героя;
* `Birth.year`: год рождения;
* `End.year`: текущий год, если герой не умирал; год смерти, если иначе;
* `Age`: возраст героя на 2025 год, если герой не умирал, или на год смерти, если иначе.

Если файл сохранен на компьютере, у нас два пути:

1. Поместить его в рабочую папку (рядом с ipynb-файлом, в котором пишем код для загрузки данных) через кнопку `Upload` на главной странице *Home* в *Jupyter*.

2. Найти файл на компьютере, кликнуть правой клавишей, зайти в свойства и скопировать полный путь к файлу из его расположения.

Об этих двух способах мы попродробнее поговорим на семинарах, а пока пойдем по более простому пути – воспользуемся ссылкой на файл на Github. Для этого откроем [файл](https://github.com/allatambov/PyReg25/blob/main/hp25.csv) в репозитории Github, на панели инструментов на рамке вокруг файла найдем кнопку `Raw` (рядом с кнопкой `↓` для скачивания), кликнем на нее и скопируем ссылку из адресной строки браузера:

In [2]:
name = "https://raw.githubusercontent.com/allatambov/PyReg25/refs/heads/main/hp25.csv"

Теперь эту ссылку из переменной `name` можно подать на вход функции `read_csv()` из `pandas`. Сохраним загруженные данные в переменную `df`:

In [4]:
df = pd.read_csv(name)

Посмотрим на датафрейм:

In [5]:
df

Unnamed: 0,Name,Gender,House,Wand,Wand.len,Skills,Birth.year,End.year,Age
0,Harry James Potter,Male,Gryffindor,"11"" Holly phoenix feather",11.00,Parseltongue| Defence Against the Dark Arts | ...,1980.0,2025,45.0
1,Ronald Bilius Weasley,Male,Gryffindor,"12"" Ash unicorn tail hair",12.00,Wizard chess | Quidditch goalkeeping,1980.0,2025,45.0
2,Hermione Jean Granger,Female,Gryffindor,"10¾"" vine wood dragon heartstring",10.75,Almost everything,1979.0,2025,46.0
3,Albus Percival Wulfric Brian Dumbledore,Male,Gryffindor,"15"" Elder Thestral tail hair core",15.00,Considered by many to be one of the most power...,1881.0,1997,116.0
4,Rubeus Hagrid,Male,Gryffindor,"16"" Oak unknown core",16.00,Resistant to stunning spells| above average st...,1928.0,2025,97.0
...,...,...,...,...,...,...,...,...,...
135,Wilhelmina Grubbly-Plank,Female,,Unknown,,,,2025,
136,Fenrir Greyback,Male,,Unknown,,Physical combat,1945.0,2025,80.0
137,Gellert Grindelwald,Male,,"15"", Elder, Thestral tail hair core",15.00,Duelling,1883.0,1998,115.0
138,Dobby,Male,,,,"A type of magic specific to house-elves, perfo...",,1998,


Для экономии места на экране строки в середине таблицы записаны в виде `...` (то же было бы, если бы в таблице было много столбцов), однако, разумеется, данные считались полностью. 

Запросим «техническую» информацию по датафрейму `df` – воспользуемся методом `.info()`:

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 140 entries, 0 to 139
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Name        140 non-null    object 
 1   Gender      139 non-null    object 
 2   House       101 non-null    object 
 3   Wand        132 non-null    object 
 4   Wand.len    25 non-null     float64
 5   Skills      113 non-null    object 
 6   Birth.year  115 non-null    float64
 7   End.year    140 non-null    int64  
 8   Age         115 non-null    float64
dtypes: float64(3), int64(1), object(5)
memory usage: 10.0+ KB


Какую информацию выдал метод `.info()`? Во-первых, он сообщил нам, что `df` является объектом `DataFrame`. Во-вторых, он вывел число строк (`RangeIndex: 140 entries`) и показал их индексы (`0 to 139`). В-третьих, он вывел число столбцов (`total 9 columns`). Наконец, он выдал информацию по каждому столбцу. Остановимся на этом поподробнее.

В выдаче выше представлено, сколько непустых элементов содержится в каждом столбце. Непустые элементы `non-null` – это все, кроме пропущенных значений, которые кодируются особым образом (`NaN` – от *Not A Number*). В нашей таблице все столбцы заполнены полностью. Далее указан тип каждого столбца, целочисленный `int64`, вещественный тип `float64` и строковый `object` (аналог `string` в базовом Python). Числа в конце означают объем памяти, который требуется для хранения, они зависят от битности системы.

**NB.** Может возникнуть вопрос, почему столбец с годом рождения `Birth.year` имеет тип `float64`, ведь год всегда задается целым числом, а не дробным. Это произошло из-за наличия пропусков – ячеек с `NaN`. Как в массивах одно дробное число, затесавшееся среди целых, делает их дробными с нулевой дробной частью, так и здесь один пропуск приводит все значения к типу `float`.

Сводную статистическую информацию можно получить с помощью метода `.describe()`:

In [7]:
df.describe()

Unnamed: 0,Wand.len,Birth.year,End.year,Age
count,25.0,115.0,140.0,115.0
mean,11.27,1961.121739,2005.164286,51.973913
std,2.094039,57.717574,97.693075,24.769981
min,8.0,1401.0,1000.0,15.0
25%,9.5,1960.0,1998.0,43.5
50%,10.75,1975.0,2025.0,47.0
75%,12.75,1979.0,2025.0,61.0
max,16.0,2005.0,2025.0,145.0


По умолчанию этот метод выбирает только числовые столбцы и выводит для них описательные статистики:

* `count` – число заполненных значений;
* `mean` – среднее арифметическое;
* `std` – стандартное отклонение;
* `min` – минимальное значение;
* `max` – максимальное значение;
* `25%` – нижний квартиль (значение, которое 25% значений не превышают);
* `50%` – медиана (значение, которое 50% значений не превышают);
* `75%` – верхний квартиль (значение, которое 75% значений не превышают).

Если мы хотим описать только текстовые столбцы, нужно указать соответствующий тип внутри аргумента `include`:

In [8]:
df.describe(include = "object")

Unnamed: 0,Name,Gender,House,Wand,Skills
count,140,139,101,132,113
unique,140,2,6,29,94
top,Harry James Potter,Male,Gryffindor,Unknown,Chaser
freq,1,90,38,104,7


В таблице выше добавились новые строки `unique`, `top` и `freq`:

* `unique` – число уникальных значений в столбце (в `Gender` их 2, `Male` и `Female`);

* `top` – мода, значение, которое встречается чаще всех (в `Gender` больше значений `Male`, больше героев мужского пола);

* `freq` – частота для значения в `top` (в `Gender` 90, в выборке 90 героев мужского пола).