# Пакет `pandas`: основная информация
Программная библиотека на языке Python для обработки и анализа данных.

Работа `pandas` с данными строится поверх библиотеки `NumPy`, являющейся инструментом более низкого уровня. 

## Подготовка окружения

In [1]:
import pandas as pd

pd.__version__

'1.5.3'

## `DataFrame` и `Series`

### `Series`

Объект `Series` - это объект, похожий на одномерный массив (`list`, например), но отличительной его чертой является **наличие ассоциированных меток**, т.н. **индексов**, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь (`dict`) в Python.

В строковом представлении объекта `Series`, индекс находится слева, а сам элемент справа.

Если индекс явно не задан, то `pandas` автоматически создаёт `RangeIndex` от `0` до `N-1`, где `N` - общее количество элементов.

In [2]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

У `Series` есть тип хранимых элементов (`dtype`), в данном случае это `int64`, т.к. переданы целочисленные значения.

У объекта `Series` есть атрибуты через которые можно получить список элементов и индексы, это `values` и `index` соответственно.

In [3]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [4]:
my_series.index.tolist()

[0, 1, 2, 3, 4, 5]

In [5]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

In [6]:
my_series.values.tolist()

[5, 6, 7, 8, 9, 10]

Доступ к элементам объекта `Series` возможны по их индексу (аналогично словарю и доступом по ключу).

In [7]:
my_series[4]

9

Индексы можно задавать явно:

In [8]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], 
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [9]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [10]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтровать `Series` различными способами, а также применять математические операции и многое другое:

In [11]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [12]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

In [13]:
type(my_series2[my_series2 > 0] * 2)

pandas.core.series.Series

In [14]:
list(my_series2[my_series2 > 0] * 2)

[14, 16, 18]

In [15]:
dict(my_series2[my_series2 > 0] * 2)

{'c': 14, 'd': 16, 'e': 18}

Так как `Series` напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [16]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [17]:
'd' in my_series3

True

У объекта `Series` и его индекса есть атрибут `name`, задающий имя объекту и индексу соответственно.

In [18]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта `Series`.

Список с индексами по длине должен совпадать с количеством элементов в `Series`.

In [19]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

In [20]:
# "маппинг" (замена) значений в серии
my_series4 = my_series3.map({5: 55, 8: 88})
my_series4

A    55.0
B     NaN
C     NaN
D    88.0
Name: numbers, dtype: float64

In [21]:
# "маппинг" (замена) значений в серии
my_series5 = my_series3.map(lambda x: x**x)
my_series5

A        3125
B       46656
C      823543
D    16777216
Name: numbers, dtype: int64

In [22]:
# "маппинг" (замена) значений в серии
my_series5 = my_series3.map("NUMBER: {}".format)
my_series5

A    NUMBER: 5
B    NUMBER: 6
C    NUMBER: 7
D    NUMBER: 8
Name: numbers, dtype: object

In [23]:
# "маппинг" (замена) значений в серии
my_series6 = my_series5.map(str.lower)
my_series6

A    number: 5
B    number: 6
C    number: 7
D    number: 8
Name: numbers, dtype: object

### `DataFrame`

Объект `DataFrame` лучше всего представлять себе в виде обычной таблицы, так как `DataFrame` является табличной структурой данных.

В любой таблице всегда присутствуют строки и столбцы.

Столбцами в объекте `DataFrame` выступают объекты `Series`, строки которых являются их непосредственными элементами.

In [24]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
})

df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Столбец в `DataFrame` - это `Series`:

In [25]:
type(df['country'])

pandas.core.series.Series

In [26]:
# отобразить первые 2 строки
df.head(2)

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191


In [27]:
# отобразить последние 3 строки
df.tail(3)

Unnamed: 0,country,population,square
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [28]:
# подсчет количества строк
len(df)

4

In [29]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

Объект `DataFrame` имеет 2 индекса: по строкам и по столбцам.

Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то `pandas` задаёт целочисленный индекс `RangeIndex` от `0` до `N-1`, где `N` это количество строк в таблице.

In [30]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [31]:
df.columns.tolist()

['country', 'population', 'square']

In [32]:
df.index

RangeIndex(start=0, stop=4, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта `DataFrame` или "на лету":

In [33]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
},  index=['kz', 'ru', 'by', 'ua'])

# отобразить первые 5 и последние 5 строк
df

Unnamed: 0,country,population,square
kz,Kazakhstan,17.04,2724902
ru,Russia,143.5,17125191
by,Belarus,9.5,207600
ua,Ukraine,45.5,603628


In [34]:
df.index = ['KZ', 'RU', 'BY', 'UA']

# индексу можно задать имя
df.index.name = 'Country Code'

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Объекты `Series` из `DataFrame` будут иметь те же индексы, что и объект `DataFrame`:

In [35]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

In [36]:
# список уникальных значений в столбце 
df['country'].unique()

array(['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], dtype=object)

In [37]:
# список уникальных значений в столбце
# (можно привести к list)
df['country'].unique().tolist()

['Kazakhstan', 'Russia', 'Belarus', 'Ukraine']

In [38]:
# количество уникальных значений в столбце 
len(df['country'].unique())

4

In [39]:
# проще
# количество уникальных значений в столбце 
df['country'].nunique()

4

In [40]:
# минимальное значение в столбце
df.country.min()

'Belarus'

In [41]:
# максимальное значение в столбце
df.country.max()

'Ukraine'

Доступ к строкам по индексу возможен несколькими способами:
- `.loc` - используется для доступа по строковой метке
- `.iloc` - используется для доступа по числовому значению (начиная от 0)

In [42]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [43]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

Можно делать выборку по индексу и интересующим колонкам.

Метод `.loc` в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается слайсинг и колонки.

In [44]:
df.loc['KZ', 'population']

17.04

In [45]:
df.loc['KZ', 'population'] *= 10

df.loc['KZ', 'population']

170.39999999999998

In [46]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ    170.4
RU    143.5
Name: population, dtype: float64

In [47]:
df.loc['KZ':'BY', :]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,170.4,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


Фильтровать `DataFrame` с помощью т.н. булевых массивов:

In [48]:
df.population > 10

Country Code
KZ     True
RU     True
BY    False
UA     True
Name: population, dtype: bool

In [49]:
df[df.population > 10]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,170.4,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [50]:
df.population > 10

Country Code
KZ     True
RU     True
BY    False
UA     True
Name: population, dtype: bool

In [51]:
df.square > 700000

Country Code
KZ     True
RU     True
BY    False
UA    False
Name: square, dtype: bool

In [52]:
(df.population > 10) & (df.square > 700000)

Country Code
KZ     True
RU     True
BY    False
UA    False
dtype: bool

In [53]:
# несколько условий
df[(df.population > 10) & (df.square > 700000)]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,170.4,2724902
RU,Russia,143.5,17125191


In [54]:
# несколько условий
df[(df.population > 10) & (df.square < 700000)]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
UA,Ukraine,45.5,603628


In [55]:
# несколько условий
df[(df.population > 10) & ((df.square < 700000) | (df.country == "Russia"))]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [56]:
df[df.population > 10][['country', 'square']]

Unnamed: 0_level_0,country,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


К столбцам можно обращаться, используя атрибут или нотацию словарей Python.

In [57]:
df.population

Country Code
KZ    170.4
RU    143.5
BY      9.5
UA     45.5
Name: population, dtype: float64

In [58]:
df['population']

Country Code
KZ    170.4
RU    143.5
BY      9.5
UA     45.5
Name: population, dtype: float64

Можно сбросить индексы:

In [59]:
df = df.reset_index()

df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,170.4,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


Пакет `pandas` при операциях над `DataFrame`, по умолчанию возвращает новый объект `DataFrame`.

Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [60]:
df['density'] = df['population'] / df['square'] * 1000000

df

Unnamed: 0,Country Code,country,population,square,density
0,KZ,Kazakhstan,170.4,2724902,62.534359
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


Удаление столбца по имени:

In [61]:
# df = df.drop(['density'], axis='columns')
# ИЛИ
df.drop(['density'], axis='columns', inplace=True)
# ИЛИ
# del df['density']

df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,170.4,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


Переименовывать столбцы нужно через метод `rename`:

In [62]:
df = df.rename(columns={'Country Code': 'Country_Code'})

df

Unnamed: 0,Country_Code,country,population,square
0,KZ,Kazakhstan,170.4,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


**Или**

In [63]:
df.rename(columns={'Country_Code': 'country_code'}, inplace=True)

df

Unnamed: 0,country_code,country,population,square
0,KZ,Kazakhstan,170.4,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


In [64]:
# получить сведения о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country_code  4 non-null      object 
 1   country       4 non-null      object 
 2   population    4 non-null      float64
 3   square        4 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 256.0+ bytes


In [65]:
# получить сведения о типах данных столбцов
df.dtypes

country_code     object
country          object
population      float64
square            int64
dtype: object

### Чтение и запись данных

Пакет `pandas` поддерживает все самые популярные форматы хранения данных.

Чтение данных осуществляется методом `pandas.read_<type>`, а запись `DataFrame.to_<type>`.

*У этих методов есть дополнительные параметры, которые можно посмотреть в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [66]:
pandas_io_tools_html = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html'
df_info_list = pd.read_html(pandas_io_tools_html)

ImportError: lxml not found, please install it

In [None]:
for index, df_from_page in enumerate(df_info_list):
    print(f"index = {index}")
    display(df_from_page)

In [None]:
df_info_list[0]

Чаще всего приходится работать с `csv`-файлами. Например, чтобы сохранить наш `DataFrame` со странами, достаточно написать:

In [None]:
df.to_csv('tmp/countries_tmp.csv')

Считать данные из `csv`-файла и превратить в `DataFrame` можно функцией `read_csv`.

In [None]:
df_tmp = pd.read_csv('tmp/countries_tmp.csv')

df_tmp

In [None]:
df_tmp_index_0 = pd.read_csv('tmp/countries_tmp.csv', 
                             index_col=0)

df_tmp_index_0

In [None]:
df_tmp_index_country = pd.read_csv('tmp/countries_tmp.csv', 
                                   index_col='country')

df_tmp_index_country

In [None]:
df_tmp_index_country.to_csv('tmp/df_tmp_index_country.csv', 
                            index=False)

df_tmp_index_country_from_file = pd.read_csv('tmp/df_tmp_index_country.csv')

df_tmp_index_country_from_file

---

[pandas](https://ru.wikipedia.org/wiki/Pandas)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

[Шпаргалка по pandas](https://habr.com/ru/company/ruvds/blog/494720/)