# Пакет `pandas`
программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки `NumPy`, являющейся инструментом более низкого уровня. 

---

**Источники:**

[pandas](https://ru.wikipedia.org/wiki/Pandas)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# для Linux
!which pip

# для Windows
# !pip -V

/home/ira/anaconda3/envs/LevelUp_DataScience/bin/pip


In [2]:
!conda install pandas -y

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.



In [3]:
import pandas as pd

pd.__version__

'1.2.1'

## `DataFrame` и `Series`

### `Series`

`Series` представляет из себя объект, похожий на одномерный массив (`list`, например), но отличительной его чертой является **наличие ассоциированных меток**, т.н. **индексов**, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь (`dict`) в Python.

В строковом представлении объекта `Series`, индекс находится слева, а сам элемент справа.

Если индекс явно не задан, то `pandas` автоматически создаёт `RangeIndex` от `0` до `N-1`, где `N` - общее количество элементов.

In [4]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

У `Series` есть тип хранимых элементов (`dtype`), в данном случае это `int64`, т.к. переданы целочисленные значения.

У объекта `Series` есть атрибуты через которые можно получить список элементов и индексы, это `values` и `index` соответственно.

In [5]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

Доступ к элементам объекта `Series` возможны по их индексу (аналогично словарю и доступом по ключу).

In [7]:
my_series[4]

9

Индексы можно задавать явно:

In [8]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], 
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [9]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [10]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтровать `Series` различными способами, а также применять математические операции и многое другое:

In [11]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [12]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

Так как `Series` напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [13]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [14]:
'd' in my_series3

True

У объекта `Series` и его индекса есть атрибут `name`, задающий имя объекту и индексу соответственно.

In [15]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта `Series`.

Список с индексами по длине должен совпадать с количеством элементов в `Series`.

In [16]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

### `DataFrame`

Объект `DataFrame` лучше всего представлять себе в виде обычной таблицы, так как `DataFrame` является табличной структурой данных.

В любой таблице всегда присутствуют строки и столбцы.

Столбцами в объекте `DataFrame` выступают объекты `Series`, строки которых являются их непосредственными элементами.

In [17]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
})

df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Столбец в `DataFrame` - это `Series`:

In [18]:
type(df['country'])

pandas.core.series.Series

In [19]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

Объект `DataFrame` имеет 2 индекса: по строкам и по столбцам.

Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то `pandas` задаёт целочисленный индекс `RangeIndex` от `0` до `N-1`, где `N` это количество строк в таблице.

In [20]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [21]:
df.index

RangeIndex(start=0, stop=4, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта `DataFrame` или "на лету":

In [22]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
},  index=['kz', 'ru', 'by', 'ua'])

df

Unnamed: 0,country,population,square
kz,Kazakhstan,17.04,2724902
ru,Russia,143.5,17125191
by,Belarus,9.5,207600
ua,Ukraine,45.5,603628


In [23]:
df.index = ['KZ', 'RU', 'BY', 'UA']

# индексу можно задать имя
df.index.name = 'Country Code'

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Объекты `Series` из `DataFrame` будут иметь те же индексы, что и объект `DataFrame`:

In [24]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

Доступ к строкам по индексу возможен несколькими способами:
- `.loc` - используется для доступа по строковой метке
- `.iloc` - используется для доступа по числовому значению (начиная от 0)

In [25]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [26]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

Можно делать выборку по индексу и интересующим колонкам.

`.loc` в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается слайсинг и колонки.

In [27]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

In [28]:
df.loc['KZ':'BY', :]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


Фильтровать `DataFrame` с помощью т.н. булевых массивов:

In [29]:
df[df.population > 10]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [30]:
df[df.population > 10][['country', 'square']]

Unnamed: 0_level_0,country,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


К столбцам можно обращаться, используя атрибут или нотацию словарей Python.

In [31]:
df.population

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

In [32]:
df['population']

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

Можно сбросить индексы:

In [33]:
df.reset_index()

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


`pandas` при операциях над `DataFrame`, по умолчанию возвращает новый объект `ataFrame`.

Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [34]:
df['density'] = df['population'] / df['square'] * 1000000

df

Unnamed: 0_level_0,country,population,square,density
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
KZ,Kazakhstan,17.04,2724902,6.253436
RU,Russia,143.5,17125191,8.379469
BY,Belarus,9.5,207600,45.761079
UA,Ukraine,45.5,603628,75.37755


Удаление столбца по имени:

In [35]:
# df = df.drop(['density'], axis='columns')
# ИЛИ
df.drop(['density'], axis='columns', inplace=True)
# ИЛИ
# del df['density']

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Переименовывать столбцы нужно через метод `rename`:

In [36]:
df = df.rename(columns={'Country Code': 'country_code'})

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


### Чтение и запись данных

`pandas` поддерживает все самые популярные форматы хранения данных. 

Чтение данных осуществляется методом `pandas.read_<type>`, а запись `DataFrame.to_<type>`.

*У этих методов есть дополнительные параметры, которые можно посмотреть в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [37]:
pandas_io_tools_html = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html'
df_info_list = pd.read_html(pandas_io_tools_html)

df_info_list

[   Format Type       Data Description          Reader        Writer
 0         text                    CSV        read_csv        to_csv
 1         text  Fixed-Width Text File        read_fwf           NaN
 2         text                   JSON       read_json       to_json
 3         text                   HTML       read_html       to_html
 4         text        Local clipboard  read_clipboard  to_clipboard
 5       binary               MS Excel      read_excel      to_excel
 6       binary           OpenDocument      read_excel           NaN
 7       binary            HDF5 Format        read_hdf        to_hdf
 8       binary         Feather Format    read_feather    to_feather
 9       binary         Parquet Format    read_parquet    to_parquet
 10      binary             ORC Format        read_orc           NaN
 11      binary                Msgpack    read_msgpack    to_msgpack
 12      binary                  Stata      read_stata      to_stata
 13      binary                   

In [38]:
df_info_list[0]

Unnamed: 0,Format Type,Data Description,Reader,Writer
0,text,CSV,read_csv,to_csv
1,text,Fixed-Width Text File,read_fwf,
2,text,JSON,read_json,to_json
3,text,HTML,read_html,to_html
4,text,Local clipboard,read_clipboard,to_clipboard
5,binary,MS Excel,read_excel,to_excel
6,binary,OpenDocument,read_excel,
7,binary,HDF5 Format,read_hdf,to_hdf
8,binary,Feather Format,read_feather,to_feather
9,binary,Parquet Format,read_parquet,to_parquet


Чаще всего приходится работать с `csv`-файлами. Например, чтобы сохранить наш `DataFrame` со странами, достаточно написать:

In [39]:
df.to_csv('countries_tmp.csv')

Считать данные из `csv`-файла и превратить в `DataFrame` можно функцией `read_csv`.

In [40]:
df_tmp = pd.read_csv('countries_tmp.csv')

df_tmp


Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628
