# Пакет `pandas`: основная информация
программная библиотека на языке Python для обработки и анализа данных.

Работа `pandas` с данными строится поверх библиотеки `NumPy`, являющейся инструментом более низкого уровня. 

---

**Источники:**

[pandas](https://ru.wikipedia.org/wiki/Pandas)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

[Шпаргалка по pandas](https://habr.com/ru/company/ruvds/blog/494720/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas -y

In [3]:
import pandas as pd

pd.__version__

'1.2.1'

## `DataFrame` и `Series`

### `Series`

`Series` представляет из себя объект, похожий на одномерный массив (`list`, например), но отличительной его чертой является **наличие ассоциированных меток**, т.н. **индексов**, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь (`dict`) в Python.

В строковом представлении объекта `Series`, индекс находится слева, а сам элемент справа.

Если индекс явно не задан, то `pandas` автоматически создаёт `RangeIndex` от `0` до `N-1`, где `N` - общее количество элементов.

In [4]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

У `Series` есть тип хранимых элементов (`dtype`), в данном случае это `int64`, т.к. переданы целочисленные значения.

У объекта `Series` есть атрибуты через которые можно получить список элементов и индексы, это `values` и `index` соответственно.

In [5]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [6]:
my_series.index.tolist()

[0, 1, 2, 3, 4, 5]

In [7]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

In [8]:
my_series.values.tolist()

[5, 6, 7, 8, 9, 10]

Доступ к элементам объекта `Series` возможны по их индексу (аналогично словарю и доступом по ключу).

In [9]:
my_series[4]

9

Индексы можно задавать явно:

In [10]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], 
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

Делать выборку по нескольким индексам и осуществлять групповое присваивание:

In [11]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [12]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

Фильтровать `Series` различными способами, а также применять математические операции и многое другое:

In [13]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [14]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

In [15]:
type(my_series2[my_series2 > 0] * 2)

pandas.core.series.Series

In [16]:
list(my_series2[my_series2 > 0] * 2)

[14, 16, 18]

In [17]:
dict(my_series2[my_series2 > 0] * 2)

{'c': 14, 'd': 16, 'e': 18}

Так как `Series` напоминает нам словарь, где ключом является индекс, а значением сам элемент, то можно сделать так:

In [18]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [19]:
'd' in my_series3

True

У объекта `Series` и его индекса есть атрибут `name`, задающий имя объекту и индексу соответственно.

In [20]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

Индекс можно поменять "на лету", присвоив список атрибуту `index` объекта `Series`.

Список с индексами по длине должен совпадать с количеством элементов в `Series`.

In [21]:
my_series3.index = ['A', 'B', 'C', 'D']
my_series3

A    5
B    6
C    7
D    8
Name: numbers, dtype: int64

### `DataFrame`

Объект `DataFrame` лучше всего представлять себе в виде обычной таблицы, так как `DataFrame` является табличной структурой данных.

В любой таблице всегда присутствуют строки и столбцы.

Столбцами в объекте `DataFrame` выступают объекты `Series`, строки которых являются их непосредственными элементами.

In [22]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
})

df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Столбец в `DataFrame` - это `Series`:

In [23]:
type(df['country'])

pandas.core.series.Series

In [24]:
# отобразить первые 2 строки
df.head(2)

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191


In [25]:
# отобразить последнии 3 строки
df.tail(3)

Unnamed: 0,country,population,square
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


In [26]:
# подсчет количества строк
len(df)

4

In [27]:
df['country']

0    Kazakhstan
1        Russia
2       Belarus
3       Ukraine
Name: country, dtype: object

Объект `DataFrame` имеет 2 индекса: по строкам и по столбцам.

Если индекс по строкам явно не задан (например, колонка по которой нужно их строить), то `pandas` задаёт целочисленный индекс `RangeIndex` от `0` до `N-1`, где `N` это количество строк в таблице.

In [28]:
df.columns

Index(['country', 'population', 'square'], dtype='object')

In [29]:
df.columns.tolist()

['country', 'population', 'square']

In [30]:
df.index

RangeIndex(start=0, stop=4, step=1)

Индекс по строкам можно задать разными способами, например, при формировании самого объекта `DataFrame` или "на лету":

In [31]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], 
    'population': [17.04, 143.5, 9.5, 45.5], 
    'square': [2724902, 17125191, 207600, 603628]
},  index=['kz', 'ru', 'by', 'ua'])

# отобразить первые 5 и последние 5 строк
df

Unnamed: 0,country,population,square
kz,Kazakhstan,17.04,2724902
ru,Russia,143.5,17125191
by,Belarus,9.5,207600
ua,Ukraine,45.5,603628


In [32]:
df.index = ['KZ', 'RU', 'BY', 'UA']

# индексу можно задать имя
df.index.name = 'Country Code'

df

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600
UA,Ukraine,45.5,603628


Объекты `Series` из `DataFrame` будут иметь те же индексы, что и объект `DataFrame`:

In [33]:
df['country']

Country Code
KZ    Kazakhstan
RU        Russia
BY       Belarus
UA       Ukraine
Name: country, dtype: object

In [34]:
# список уникальных значений в столбце 
df['country'].unique()

array(['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'], dtype=object)

In [35]:
# списко уникальных значений в столбце 
# (можно привести к list)
df['country'].unique().tolist()

['Kazakhstan', 'Russia', 'Belarus', 'Ukraine']

In [36]:
# количество уникальных значений в столбце 
len(df['country'].unique())

4

In [37]:
# проще
# количество уникальных значений в столбце 
df['country'].nunique()

4

In [38]:
# минимальное значение в столбце
df.country.min()

'Belarus'

In [39]:
# максимальное значение в столбце
df.country.max()

'Ukraine'

Доступ к строкам по индексу возможен несколькими способами:
- `.loc` - используется для доступа по строковой метке
- `.iloc` - используется для доступа по числовому значению (начиная от 0)

In [40]:
df.loc['KZ']

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

In [41]:
df.iloc[0]

country       Kazakhstan
population         17.04
square           2724902
Name: KZ, dtype: object

Можно делать выборку по индексу и интересующим колонкам.

`.loc` в квадратных скобках принимает 2 аргумента: интересующий индекс, в том числе поддерживается слайсинг и колонки.

In [42]:
# TODO: изменить конкретный элемент

# TODO различия обращения через [] и .

In [43]:
df.loc[['KZ', 'RU'], 'population']

Country Code
KZ     17.04
RU    143.50
Name: population, dtype: float64

In [44]:
df.loc['KZ':'BY', :]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
BY,Belarus,9.5,207600


Фильтровать `DataFrame` с помощью т.н. булевых массивов:

In [67]:
df.population > 10

0     True
1     True
2    False
3     True
Name: population, dtype: bool

In [45]:
df[df.population > 10]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [68]:
df.population > 10

0     True
1     True
2    False
3     True
Name: population, dtype: bool

In [69]:
df.square > 700000

0     True
1     True
2    False
3    False
Name: square, dtype: bool

In [70]:
(df.population > 10) & (df.square > 700000)

0     True
1     True
2    False
3    False
dtype: bool

In [46]:
# несколько условий
df[(df.population > 10) & (df.square > 700000)]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
KZ,Kazakhstan,17.04,2724902
RU,Russia,143.5,17125191


In [47]:
# несколько условий
df[(df.population > 10) & (df.square < 700000)]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
UA,Ukraine,45.5,603628


In [48]:
# несколько условий
df[(df.population > 10) & ((df.square < 700000) | (df.country == "Russia"))]

Unnamed: 0_level_0,country,population,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
RU,Russia,143.5,17125191
UA,Ukraine,45.5,603628


In [49]:
df[df.population > 10][['country', 'square']]

Unnamed: 0_level_0,country,square
Country Code,Unnamed: 1_level_1,Unnamed: 2_level_1
KZ,Kazakhstan,2724902
RU,Russia,17125191
UA,Ukraine,603628


К столбцам можно обращаться, используя атрибут или нотацию словарей Python.

In [50]:
df.population

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

In [51]:
df['population']

Country Code
KZ     17.04
RU    143.50
BY      9.50
UA     45.50
Name: population, dtype: float64

Можно сбросить индексы:

In [52]:
df = df.reset_index()

df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


`pandas` при операциях над `DataFrame`, по умолчанию возвращает новый объект `DataFrame`.

Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны, получив тем самым плотность:

In [53]:
df['density'] = df['population'] / df['square'] * 1000000

df

Unnamed: 0,Country Code,country,population,square,density
0,KZ,Kazakhstan,17.04,2724902,6.253436
1,RU,Russia,143.5,17125191,8.379469
2,BY,Belarus,9.5,207600,45.761079
3,UA,Ukraine,45.5,603628,75.37755


Удаление столбца по имени:

In [54]:
# df = df.drop(['density'], axis='columns')
# ИЛИ
df.drop(['density'], axis='columns', inplace=True)
# ИЛИ
# del df['density']

df

Unnamed: 0,Country Code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


Переименовывать столбцы нужно через метод `rename`:

In [55]:
df = df.rename(columns={'Country Code': 'Сountry_Сode'})

df

Unnamed: 0,Сountry_Сode,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


**Или**

In [56]:
df.rename(columns={'Сountry_Сode': 'country_code'}, inplace=True)

df

Unnamed: 0,country_code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


In [57]:
# получить сведения о датафрейме
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country_code  4 non-null      object 
 1   country       4 non-null      object 
 2   population    4 non-null      float64
 3   square        4 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 256.0+ bytes


In [58]:
# получить сведения о типах данных столбцов
df.dtypes

country_code     object
country          object
population      float64
square            int64
dtype: object

### Чтение и запись данных

`pandas` поддерживает все самые популярные форматы хранения данных. 

Чтение данных осуществляется методом `pandas.read_<type>`, а запись `DataFrame.to_<type>`.

*У этих методов есть дополнительные параметры, которые можно посмотреть в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html).

In [59]:
pandas_io_tools_html = 'https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html'
df_info_list = pd.read_html(pandas_io_tools_html)

In [60]:
for index, df_from_page in enumerate(df_info_list):
    print(f"index = {index}")
    display(df_from_page)

index = 0


Unnamed: 0,Format Type,Data Description,Reader,Writer
0,text,CSV,read_csv,to_csv
1,text,Fixed-Width Text File,read_fwf,
2,text,JSON,read_json,to_json
3,text,HTML,read_html,to_html
4,text,Local clipboard,read_clipboard,to_clipboard
5,binary,MS Excel,read_excel,to_excel
6,binary,OpenDocument,read_excel,
7,binary,HDF5 Format,read_hdf,to_hdf
8,binary,Feather Format,read_feather,to_feather
9,binary,Parquet Format,read_parquet,to_parquet


index = 1


Unnamed: 0,0,1
0,split,"dict like {index -> [index], columns -> [colum..."
1,records,"list like [{column -> value}, … , {column -> v..."
2,index,dict like {index -> {column -> value}}
3,columns,dict like {column -> {index -> value}}
4,values,just the values array


index = 2


Unnamed: 0,0,1
0,split,"dict like {index -> [index], columns -> [colum..."
1,records,"list like [{column -> value}, … , {column -> v..."
2,index,dict like {index -> {column -> value}}
3,columns,dict like {column -> {index -> value}}
4,values,just the values array
5,table,adhering to the JSON Table Schema


index = 3


Unnamed: 0,pandas type,Table Schema type
0,int64,integer
1,float64,number
2,bool,boolean
3,datetime64[ns],datetime
4,timedelta64[ns],duration
5,categorical,any
6,object,str


index = 4


Unnamed: 0.1,Unnamed: 0,0,1
0,0,-0.184744,0.496971
1,1,-0.85624,1.857977


index = 5


Unnamed: 0.1,Unnamed: 0,0
0,0,-0.184744
1,1,-0.85624


index = 6


Unnamed: 0.1,Unnamed: 0,0,1
0,0,-0.184744,0.496971
1,1,-0.85624,1.857977


index = 7


Unnamed: 0.1,Unnamed: 0,0,1
0,0,-0.184744,0.496971
1,1,-0.85624,1.857977


index = 8


Unnamed: 0.1,Unnamed: 0,name,url
0,0,Python,https://www.python.org/
1,1,pandas,https://pandas.pydata.org


index = 9


Unnamed: 0.1,Unnamed: 0,a,b
0,0,&,-0.474063
1,1,<,-0.230305
2,2,>,-0.400654


index = 10


Unnamed: 0.1,Unnamed: 0,a,b
0,0,&,-0.474063
1,1,<,-0.230305
2,2,>,-0.400654


index = 11


Unnamed: 0,Type,Represents missing values
0,"floating : float64, float32, float16",np.nan
1,"integer : int64, int32, int8, uint64,uint32, u...",
2,boolean,
3,datetime64[ns],NaT
4,timedelta64[ns],NaT
5,categorical : see the section below,
6,object : strings,np.nan


index = 12


Unnamed: 0,0,1
0,"read_sql_table(table_name, con[, schema, …])",Read SQL database table into a DataFrame.
1,"read_sql_query(sql, con[, index_col, …])",Read SQL query into a DataFrame.
2,"read_sql(sql, con[, index_col, …])",Read SQL query or database table into a DataFr...
3,"DataFrame.to_sql(name, con[, schema, …])",Write records stored in a DataFrame to a SQL d...


index = 13


Unnamed: 0,id,Date,Col_1,Col_2,Col_3
0,26,2012-10-18,X,25.7,True
1,42,2012-10-19,Y,-12.4,False
2,63,2012-10-20,Z,5.73,True


index = 14


Unnamed: 0,Database,SQL Datetime Types,Timezone Support
0,SQLite,TEXT,No
1,MySQL,TIMESTAMP or DATETIME,No
2,PostgreSQL,TIMESTAMP or TIMESTAMP WITH TIME ZONE,Yes


In [61]:
df_info_list[0]

Unnamed: 0,Format Type,Data Description,Reader,Writer
0,text,CSV,read_csv,to_csv
1,text,Fixed-Width Text File,read_fwf,
2,text,JSON,read_json,to_json
3,text,HTML,read_html,to_html
4,text,Local clipboard,read_clipboard,to_clipboard
5,binary,MS Excel,read_excel,to_excel
6,binary,OpenDocument,read_excel,
7,binary,HDF5 Format,read_hdf,to_hdf
8,binary,Feather Format,read_feather,to_feather
9,binary,Parquet Format,read_parquet,to_parquet


Чаще всего приходится работать с `csv`-файлами. Например, чтобы сохранить наш `DataFrame` со странами, достаточно написать:

In [62]:
df.to_csv('countries_tmp.csv')

Считать данные из `csv`-файла и превратить в `DataFrame` можно функцией `read_csv`.

In [63]:
df_tmp = pd.read_csv('countries_tmp.csv')

df_tmp

Unnamed: 0.1,Unnamed: 0,country_code,country,population,square
0,0,KZ,Kazakhstan,17.04,2724902
1,1,RU,Russia,143.5,17125191
2,2,BY,Belarus,9.5,207600
3,3,UA,Ukraine,45.5,603628


In [64]:
df_tmp_index_0 = pd.read_csv('countries_tmp.csv', index_col=0)

df_tmp_index_0

Unnamed: 0,country_code,country,population,square
0,KZ,Kazakhstan,17.04,2724902
1,RU,Russia,143.5,17125191
2,BY,Belarus,9.5,207600
3,UA,Ukraine,45.5,603628


In [65]:
df_tmp_index_country = pd.read_csv('countries_tmp.csv', index_col='country')

df_tmp_index_country

Unnamed: 0_level_0,Unnamed: 0,country_code,population,square
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Kazakhstan,0,KZ,17.04,2724902
Russia,1,RU,143.5,17125191
Belarus,2,BY,9.5,207600
Ukraine,3,UA,45.5,603628


In [66]:
df_tmp_index_country.to_csv('df_tmp_index_country.csv', index=False)

df_tmp_index_country_from_file = pd.read_csv('df_tmp_index_country.csv')

df_tmp_index_country_from_file

Unnamed: 0.1,Unnamed: 0,country_code,population,square
0,0,KZ,17.04,2724902
1,1,RU,143.5,17125191
2,2,BY,9.5,207600
3,3,UA,45.5,603628
