# Pandas

`pandas` – это библиотека для анализа, очистки и преобразования данных табличных данных в Python. Она предоставляет мощные для работы с табличными (DataFrame) и одномерными (Series) данными. Последнее используется, как правило, для временны́х рядов, а первое, в подавляющем числе случаев, для всего остального.

Установка: `pip install pandas`. Если при виде этого хочется спросить: "И что с этим делать?", то ответ будет в прошлой части.

Импорт:

In [2]:
import pandas as pd
import numpy as np

## Series

Создадим простую последовательность.

In [8]:
data = [10, 20, 30, 40, 50] # обычный список
series = pd.Series(data)
print(series) 

0    10
1    20
2    30
3    40
4    50
dtype: int64


Обратим внимание, что индексы были проставлены автоматически. 

О поддержке numpy многими библиотеками мы в прошлый раз говорили не зря.

In [None]:
data = np.array(data) # массив numpy также поддерживается
series = pd.Series(data)
print(series)

Можем также сделать кастомную индексацию. Мы к ней ещё вернёмся позже.

In [13]:
series = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
print(series)

a    10
b    20
c    30
dtype: int64


## DataFrame

Датафрейм $\text{---}$ по сути табличные данные, как в реляционной БД или Excel (или его аналоге). 

Создадим его из словаря. Здесь ключи $\text{---}$ название столбцов, список в значениях $\text{---}$ строки каждого конкретного столбца.

In [33]:
data = {
    'Имя': ['Анна', 'Борис', 'Виктор'],
    'Возраст': [25, 30, 22],
    'Город': ['Москва', 'СПб', 'Казань']
}
df = pd.DataFrame(data)
print(df)

      Имя  Возраст   Город
0    Анна       25  Москва
1   Борис       30     СПб
2  Виктор       22  Казань


### Атрибуты `DataFrame`

In [29]:
df.shape # размер

(3, 3)

In [30]:
df.columns # Названия колонок

Index(['Имя', 'Возраст', 'Город'], dtype='object')

In [31]:
print(df.index) # Индексы строк

RangeIndex(start=0, stop=3, step=1)


* `start=0` $\text{---}$ индекс начинается с $0$,
* `stop=3` $\text{---}$ до трёх (не включая),
* `step=1` $\text{---}$ с шагом $1$. 

## Загрузка и сохранение данных

Pandas поддерживает несколько источников данных: csv, Excel таблицы (и их заменители, аналогичные натуральному), базы данных и json. Наиболее распространённый (во всяком случае в некоммерческих ситуациях) $\text{---}$ это csv. 

CSV (Comma-Separated Values, "значения, разделённые запятыми") $\text{---}$ это простой текстовый формат для хранения табличных данных. Каждая строка $\text{---}$ это одна запись (строка таблицы), а значения (столбцы/ячейки) внутри неё (строки) разделяются запятыми, а также точками с запятой, табуляцией или другими разделителями.

Для прочтения файла необходимо знать какой именно разделитель используется. Можно просто открыть файл и посмотреть, можно сделать иначе.

Если вы используете линукс, то можете просто использовать `head`:

In [None]:
!head housing.csv

Для Windows легче просто открыть и посмотреть файл. Но если есть нужда, то можно использовать следующий скрипт:

In [21]:
number_lines = 5
with open('housing.csv', 'r') as f:
    for _ in range(number_lines): 
        print(f.readline().strip())

Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
79545.45857,5.682861322,7.009188143,4.09,23086.8005,1059033.558,"208 Michael Ferry Apt. 674
Laurabury, NE 37010-5101"
79248.64245,6.002899808,6.730821019,3.09,40173.07217,1505890.915,"188 Johnson Views Suite 079
Lake Kathleen, CA 48958"


Здесь в конструкции `with` мы открываем для чтения (`'r'`) и **закрываем** файл после использования. 

Как мы убедились, данный csv файл использует запятую в качестве разделителя, а также здесь нет столбца с индексами (в таком случае необходимо было бы либо указать, что данный столбец нужно использовать в качестве индекса; иногда когда данные заранее разбиты на несколько частей (например, обучение и тест) имеет смысл игнорировать столбец с индексами и переприсвоить им свои, т.к. в файлах могут быть индексы с пропусками).

### Загрузка данных

Сделать датафрейм из csv файла легко.

In [22]:
df = pd.read_csv('housing.csv')
df

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
0,79545.45857,5.682861,7.009188,4.09,23086.80050,1.059034e+06,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
1,79248.64245,6.002900,6.730821,3.09,40173.07217,1.505891e+06,"188 Johnson Views Suite 079\nLake Kathleen, CA..."
2,61287.06718,5.865890,8.512727,5.13,36882.15940,1.058988e+06,"9127 Elizabeth Stravenue\nDanieltown, WI 06482..."
3,63345.24005,7.188236,5.586729,3.26,34310.24283,1.260617e+06,USS Barnett\nFPO AP 44820
4,59982.19723,5.040555,7.839388,4.23,26354.10947,6.309435e+05,USNS Raymond\nFPO AE 09386
...,...,...,...,...,...,...,...
4995,60567.94414,7.830362,6.137356,3.46,22837.36103,1.060194e+06,USNS Williams\nFPO AP 30153-7653
4996,78491.27543,6.999135,6.576763,4.02,25616.11549,1.482618e+06,"PSC 9258, Box 8489\nAPO AA 42991-3352"
4997,63390.68689,7.250591,4.805081,2.13,33266.14549,1.030730e+06,"4215 Tracy Garden Suite 076\nJoshualand, VA 01..."
4998,68001.33124,5.534388,7.130144,5.44,42625.62016,1.198657e+06,USS Wallace\nFPO AE 73316


### Сохранение данных

Если нам нужно сохранить датафрейм в файл, то сделать это также просто.

In [None]:
df.to_csv('output.csv', index=False)

## Основные операции с `DataFrame`

### Обзор данных

#### `head` и `tail`

В функцию можно передать желаемое количество строк для вывода, по умолчанию выводит 5 строк. Обычно используется head для получения представления о данных, что там есть вообще.

In [13]:
df.head()

Unnamed: 0,Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
0,1,526301100,20,RL,141.0,31770,Pave,,IR1,Lvl,...,0,,,,0,5,2010,WD,Normal,215000
1,2,526350040,20,RH,80.0,11622,Pave,,Reg,Lvl,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
2,3,526351010,20,RL,81.0,14267,Pave,,IR1,Lvl,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
3,4,526353030,20,RL,93.0,11160,Pave,,Reg,Lvl,...,0,,,,0,4,2010,WD,Normal,244000
4,5,527105010,60,RL,74.0,13830,Pave,,IR1,Lvl,...,0,,MnPrv,,0,3,2010,WD,Normal,189900


In [9]:
df.tail()

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
4995,60567.94414,7.830362,6.137356,3.46,22837.36103,1060193.786,USNS Williams\nFPO AP 30153-7653
4996,78491.27543,6.999135,6.576763,4.02,25616.11549,1482617.729,"PSC 9258, Box 8489\nAPO AA 42991-3352"
4997,63390.68689,7.250591,4.805081,2.13,33266.14549,1030729.583,"4215 Tracy Garden Suite 076\nJoshualand, VA 01..."
4998,68001.33124,5.534388,7.130144,5.44,42625.62016,1198656.872,USS Wallace\nFPO AE 73316
4999,65510.5818,5.992305,6.792336,4.07,46501.2838,1298950.48,"37778 George Ridges Apt. 509\nEast Holly, NV 2..."


#### `info`

Краткая информация: количество строк, типы данных, количество непустых значений:

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Avg. Area Income              5000 non-null   float64
 1   Avg. Area House Age           5000 non-null   float64
 2   Avg. Area Number of Rooms     5000 non-null   float64
 3   Avg. Area Number of Bedrooms  5000 non-null   float64
 4   Area Population               5000 non-null   float64
 5   Price                         5000 non-null   float64
 6   Address                       5000 non-null   object 
dtypes: float64(6), object(1)
memory usage: 273.6+ KB


#### `describe`

Это очень полезная функция, поскольку даёт много информации в компактном объёме. Отсюда можно узнать:
* Есть ли пропущенные значения (если `count` меньше, чем количество строк, убедимся на следующем датасете)
* Признаки с аномально высокими или низкими значениями (`min`/`max`)
* Признаки с перекошенным распределением (`mean` (среднее) далеко от $50\%$ (медиана))
* Стандартное отклонение `std`, а также его сравнение между колонками (где больше стандартное отклонение, где меньше)
* Признаки с низкой дисперсией (`std` $\approx 0$) могут быть бесполезны для машинного обучения

In [20]:
df.describe()

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,68583.108984,5.977222,6.987792,3.98133,36163.516039,1232073.0
std,10657.991214,0.991456,1.005833,1.234137,9925.650114,353117.6
min,17796.63119,2.644304,3.236194,2.0,172.610686,15938.66
25%,61480.56239,5.322283,6.29925,3.14,29403.9287,997577.1
50%,68804.286405,5.970429,7.002902,4.05,36199.40669,1232669.0
75%,75783.338665,6.650808,7.665871,4.49,42861.29077,1471210.0
max,107701.7484,9.519088,10.759588,6.5,69621.71338,2469066.0


### Обработка данных

Для этой секции нам нужен другой датасет. К сожалению, я не нашёл датасета с меньшим количеством столбцов, а создавать датасет самому казалось слишком искусственным и неинтересным. Главное не пугайтесь, что все столбцы не помещаются на экране.

In [3]:
file_name = 'AmesHousing.csv' 
number_lines = 5
with open(file_name, 'r') as f:
    for _ in range(number_lines): 
        print(f.readline().strip())

Order,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,Utilities,Lot Config,Land Slope,Neighborhood,Condition 1,Condition 2,Bldg Type,House Style,Overall Qual,Overall Cond,Year Built,Year Remod/Add,Roof Style,Roof Matl,Exterior 1st,Exterior 2nd,Mas Vnr Type,Mas Vnr Area,Exter Qual,Exter Cond,Foundation,Bsmt Qual,Bsmt Cond,Bsmt Exposure,BsmtFin Type 1,BsmtFin SF 1,BsmtFin Type 2,BsmtFin SF 2,Bsmt Unf SF,Total Bsmt SF,Heating,Heating QC,Central Air,Electrical,1st Flr SF,2nd Flr SF,Low Qual Fin SF,Gr Liv Area,Bsmt Full Bath,Bsmt Half Bath,Full Bath,Half Bath,Bedroom AbvGr,Kitchen AbvGr,Kitchen Qual,TotRms AbvGrd,Functional,Fireplaces,Fireplace Qu,Garage Type,Garage Yr Blt,Garage Finish,Garage Cars,Garage Area,Garage Qual,Garage Cond,Paved Drive,Wood Deck SF,Open Porch SF,Enclosed Porch,3Ssn Porch,Screen Porch,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
1,0526301100,020,RL,141,31770,Pave,NA,IR1,Lvl,AllP

Здесь у нас есть индекс (столбец `Order`), поэтому будем использовать его.

In [4]:
df = pd.read_csv(file_name, index_col=0)
df.head()

Unnamed: 0_level_0,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,Utilities,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,526301100,20,RL,141.0,31770,Pave,,IR1,Lvl,AllPub,...,0,,,,0,5,2010,WD,Normal,215000
2,526350040,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,6,2010,WD,Normal,105000
3,526351010,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,,,Gar2,12500,6,2010,WD,Normal,172000
4,526353030,20,RL,93.0,11160,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,244000
5,527105010,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,,MnPrv,,0,3,2010,WD,Normal,189900


#### Пропущенные значения

Первый способ. Сравнение размеров и информации из `describe`.

Информация не помещается полностью, поэтому в VS Code можно открыть либо как прокручиваемый элемент, либо в отдельной вкладке.

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2930 entries, 1 to 2930
Data columns (total 81 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   PID              2930 non-null   int64  
 1   MS SubClass      2930 non-null   int64  
 2   MS Zoning        2930 non-null   object 
 3   Lot Frontage     2440 non-null   float64
 4   Lot Area         2930 non-null   int64  
 5   Street           2930 non-null   object 
 6   Alley            198 non-null    object 
 7   Lot Shape        2930 non-null   object 
 8   Land Contour     2930 non-null   object 
 9   Utilities        2930 non-null   object 
 10  Lot Config       2930 non-null   object 
 11  Land Slope       2930 non-null   object 
 12  Neighborhood     2930 non-null   object 
 13  Condition 1      2930 non-null   object 
 14  Condition 2      2930 non-null   object 
 15  Bldg Type        2930 non-null   object 
 16  House Style      2930 non-null   object 
 17  Overall Qual     29

In [27]:
df.describe()

Unnamed: 0,PID,MS SubClass,Lot Frontage,Lot Area,Overall Qual,Overall Cond,Year Built,Year Remod/Add,Mas Vnr Area,BsmtFin SF 1,...,Wood Deck SF,Open Porch SF,Enclosed Porch,3Ssn Porch,Screen Porch,Pool Area,Misc Val,Mo Sold,Yr Sold,SalePrice
count,2930.0,2930.0,2440.0,2930.0,2930.0,2930.0,2930.0,2930.0,2907.0,2929.0,...,2930.0,2930.0,2930.0,2930.0,2930.0,2930.0,2930.0,2930.0,2930.0,2930.0
mean,714464500.0,57.387372,69.22459,10147.921843,6.094881,5.56314,1971.356314,1984.266553,101.896801,442.629566,...,93.751877,47.533447,23.011604,2.592491,16.002048,2.243345,50.635154,6.216041,2007.790444,180796.060068
std,188730800.0,42.638025,23.365335,7880.017759,1.411026,1.111537,30.245361,20.860286,179.112611,455.590839,...,126.361562,67.4834,64.139059,25.141331,56.08737,35.597181,566.344288,2.714492,1.316613,79886.692357
min,526301100.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,12789.0
25%,528477000.0,20.0,58.0,7440.25,5.0,5.0,1954.0,1965.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0,2007.0,129500.0
50%,535453600.0,50.0,68.0,9436.5,6.0,5.0,1973.0,1993.0,0.0,370.0,...,0.0,27.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,160000.0
75%,907181100.0,70.0,80.0,11555.25,7.0,6.0,2001.0,2004.0,164.0,734.0,...,168.0,70.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,213500.0
max,1007100000.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,1424.0,742.0,1012.0,508.0,576.0,800.0,17000.0,12.0,2010.0,755000.0


Сравнив количество строк из `info` и количество непустых значений в каждом из столбцов можно понять, в каких столбцах есть пропуски.

Второй способ. `isna` и `isnull` $\text{---}$ это функции синонимы, они ничем не отличаются (вторая просто по аналогии с SQL), обе переводят значения в булевы, если значение отсутствует (NA), то `isna` возвращает `True`, в противном случае $\text{---}$ `False`.

In [29]:
df.isna()

Unnamed: 0_level_0,PID,MS SubClass,MS Zoning,Lot Frontage,Lot Area,Street,Alley,Lot Shape,Land Contour,Utilities,...,Pool Area,Pool QC,Fence,Misc Feature,Misc Val,Mo Sold,Yr Sold,Sale Type,Sale Condition,SalePrice
Order,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,False,False,False,False,False,False,True,False,False,False,...,False,True,True,True,False,False,False,False,False,False
2,False,False,False,False,False,False,True,False,False,False,...,False,True,False,True,False,False,False,False,False,False
3,False,False,False,False,False,False,True,False,False,False,...,False,True,True,False,False,False,False,False,False,False
4,False,False,False,False,False,False,True,False,False,False,...,False,True,True,True,False,False,False,False,False,False
5,False,False,False,False,False,False,True,False,False,False,...,False,True,False,True,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2926,False,False,False,False,False,False,True,False,False,False,...,False,True,False,True,False,False,False,False,False,False
2927,False,False,False,True,False,False,True,False,False,False,...,False,True,False,True,False,False,False,False,False,False
2928,False,False,False,False,False,False,True,False,False,False,...,False,True,False,False,False,False,False,False,False,False
2929,False,False,False,False,False,False,True,False,False,False,...,False,True,True,True,False,False,False,False,False,False


Как видим, в столбцах `Alley`, `Pool QC` и других есть пропущенные данные.

In [15]:
pd.set_option('display.max_rows', None) # отключаем ограничение у самого pd
                                        # но при этом остаётся ограничение 
                                        # в Jupyter
df.isna().sum()


PID                   0
MS SubClass           0
MS Zoning             0
Lot Frontage        490
Lot Area              0
Street                0
Alley              2732
Lot Shape             0
Land Contour          0
Utilities             0
Lot Config            0
Land Slope            0
Neighborhood          0
Condition 1           0
Condition 2           0
Bldg Type             0
House Style           0
Overall Qual          0
Overall Cond          0
Year Built            0
Year Remod/Add        0
Roof Style            0
Roof Matl             0
Exterior 1st          0
Exterior 2nd          0
Mas Vnr Type       1775
Mas Vnr Area         23
Exter Qual            0
Exter Cond            0
Foundation            0
Bsmt Qual            80
Bsmt Cond            80
Bsmt Exposure        83
BsmtFin Type 1       80
BsmtFin SF 1          1
BsmtFin Type 2       81
BsmtFin SF 2          1
Bsmt Unf SF           1
Total Bsmt SF         1
Heating               0
Heating QC            0
Central Air     

***

***

Если у нас кастомные индексы, то они не продолжатся автоматически. Убедитесь, что новая добавляемая последовательность не нарушает логику индексации старой (или убедитесь, что вас это не волнует в достаточной мере).

In [None]:
series = pd.Series([10, 20, 30], index=['a', 'b', 'c'])
series = pd.concat([series, pd.Series([40])])
series
