# Pandas

In [3]:
import numpy as np
import pandas as pd

In [4]:
!pip3 install pandas



## Объекты Pandas

- Series(последовательность)

In [5]:
# Series - 1-мерный массив индексированных данных
data = pd.Series([10,20,30,40])
data

0    10
1    20
2    30
3    40
dtype: int64

- атрибуты

In [6]:
# значения
data.values

array([10, 20, 30, 40])

In [7]:
data.values[0]

10

In [8]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
for i in data.index:
    print(i)

0
1
2
3


In [10]:
# форма
data.values.shape

(4,)

In [11]:
data.shape

(4,)

In [12]:
# тип данных
data.dtype

dtype('int64')

- чтение и запись данных

In [13]:
data[0]

10

In [14]:
data[1] = 100
data

0     10
1    100
2     30
3     40
dtype: int64

In [15]:
del data[1]
data

0    10
2    30
3    40
dtype: int64

In [16]:
# явные индексы
data_2 = pd.Series([10,20,30,40], index=[3,2,50,0])
data_2

3     10
2     20
50    30
0     40
dtype: int64

In [17]:
data_2[50]

30

In [18]:
d = {'A':100, 'B':200, 'C':300}
data_3 = pd.Series(d)
data_3

A    100
B    200
C    300
dtype: int64

In [19]:
data_3['B']

200

In [20]:
# неявные индексы
# приминение атрибута-индексатора iloc
data_3.iloc[0]

100

In [21]:
# 14 урок

pop_dict = {
    "Якутск": 318768,
    "Нерюнгри": 57009,
    "Вилюйск": 11095, 
}
pop_dict

{'Якутск': 318768, 'Нерюнгри': 57009, 'Вилюйск': 11095}

In [22]:
pop_data = pd.Series(pop_dict)
pop_data

Якутск      318768
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [23]:
pop_data["Якутск"]

318768

In [24]:
pop_data["Якутск"] = 319000
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [25]:
# срез до Нерюнгри
pop_data["Нерюнгри":]

Нерюнгри    57009
Вилюйск     11095
dtype: int64

In [26]:
# конечный индекс диапазона ВКЛЮЧАЕТСЯ в срез
pop_data[:"Нерюнгри"]

Якутск      319000
Нерюнгри     57009
dtype: int64

In [27]:
# новые строки можно добавлять с использованием словарного синтаксиса
pop_data["Тикси"] = 4745
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
Тикси         4745
dtype: int64

In [28]:
pop_data["Мирный"] = 35.416
pop_data

Якутск      319000.000
Нерюнгри     57009.000
Вилюйск      11095.000
Тикси         4745.000
Мирный          35.416
dtype: float64

- DataFrame

In [29]:
# Многомерный массив (таблица)
data_dict = {
    "col_1": {"row_1": 100, "row_2": 200},
    "col_2": {"row_2": 300, "row_3": 400}
}
data_dict

{'col_1': {'row_1': 100, 'row_2': 200}, 'col_2': {'row_2': 300, 'row_3': 400}}

In [30]:
pd.DataFrame(data_dict)

Unnamed: 0,col_1,col_2
row_1,100.0,
row_2,200.0,300.0
row_3,,400.0


In [31]:
# NaN = Not a Number (пустота)

In [32]:
# новые данные по городам
area_data = pd.Series({
    "Якутск": 122,
    "Вилюйск": 15,
    "Нерюнгри": 98.9,
    "Тикси": 14595.39
})
area_data

Якутск        122.00
Вилюйск        15.00
Нерюнгри       98.90
Тикси       14595.39
dtype: float64

In [33]:
coor_data = pd.Series({
    "Якутск": "62°01′38″ с. ш. 129°43′55″ в. д.",
    "Вилюйск": "63°44′48″ с.ш. 121°38′00″ в.д.",
    "Нерюнгри": "56°39′58″ с.ш. 124°38′17″ в.д.",
    "Тикси": "71°38′12 с. ш. 128°52′04 в. д",
    "Мирный": "62°32′ с. ш. 113°57′ в. д."
})
coor_data

Якутск      62°01′38″ с. ш. 129°43′55″ в. д.
Вилюйск       63°44′48″ с.ш. 121°38′00″ в.д.
Нерюнгри      56°39′58″ с.ш. 124°38′17″ в.д.
Тикси          71°38′12 с. ш. 128°52′04 в. д
Мирный            62°32′ с. ш. 113°57′ в. д.
dtype: object

In [34]:
cities_data = pd.DataFrame({
    "население": pop_data,
    "площадь": area_data,
    "координаты": coor_data
})
cities_data

Unnamed: 0,население,площадь,координаты
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.
Мирный,35.416,,62°32′ с. ш. 113°57′ в. д.
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.


In [35]:
# DataFrame можно рассматривать как специализированный словарь,
# содержащий Series-объекты
cities_data["население"]

Вилюйск      11095.000
Мирный          35.416
Нерюнгри     57009.000
Тикси         4745.000
Якутск      319000.000
Name: население, dtype: float64

In [36]:
cities_data["население"]["Тикси"]

4745.0

In [37]:
# извлечение строки по явному индексу
# применяется атрибут-индексатор
# [индексация строк, индексация столбцов]
cities_data.loc["Тикси", :]

население                            4745.0
площадь                            14595.39
координаты    71°38′12 с. ш. 128°52′04 в. д
Name: Тикси, dtype: object

In [38]:
# комбинация прихотливой индексации и среза
cities_data.loc[["Вилюйск", "Якутск"], :]

Unnamed: 0,население,площадь,координаты
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.


In [39]:
cities_data.loc[["Вилюйск", "Якутск"], "площадь"]

Вилюйск     15.0
Якутск     122.0
Name: площадь, dtype: float64

In [40]:
# неявеые индексы
# нужен атрибут-индексатор iloc
cities_data.iloc[[0, 2], 0]

Вилюйск     11095.0
Нерюнгри    57009.0
Name: население, dtype: float64

In [41]:
# маскирование
mask = cities_data["площадь"] > 20
mask

Вилюйск     False
Мирный      False
Нерюнгри     True
Тикси        True
Якутск       True
Name: площадь, dtype: bool

In [42]:
cities_data.loc[mask, :]

Unnamed: 0,население,площадь,координаты
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.


In [43]:
# добавление нового столбца
cities_data["плотность"] = cities_data["население"] / cities_data["площадь"]
cities_data

Unnamed: 0,население,площадь,координаты,плотность
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.,739.666667
Мирный,35.416,,62°32′ с. ш. 113°57′ в. д.,
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.,576.430738
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д,0.325103
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.,2614.754098


In [44]:
cities_data.loc["Нерюнгри":, ["население", "плотность"]]

Unnamed: 0,население,плотность
Нерюнгри,57009.0,576.430738
Тикси,4745.0,0.325103
Якутск,319000.0,2614.754098


In [45]:
cities_data.loc[cities_data["плотность"] < 1000, ["площадь", "население"]]

Unnamed: 0,площадь,население
Вилюйск,15.0,11095.0
Нерюнгри,98.9,57009.0
Тикси,14595.39,4745.0


- Удаление строк или столбцов с пустыми значениями

In [46]:
cities_data

Unnamed: 0,население,площадь,координаты,плотность
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.,739.666667
Мирный,35.416,,62°32′ с. ш. 113°57′ в. д.,
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.,576.430738
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д,0.325103
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.,2614.754098


In [47]:
# по умолчанию удаляем строки
cities_data.dropna()

Unnamed: 0,население,площадь,координаты,плотность
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.,739.666667
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.,576.430738
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д,0.325103
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.,2614.754098


In [48]:
# удаление столбцов
cities_data.dropna(axis="columns")

Unnamed: 0,население,координаты
Вилюйск,11095.0,63°44′48″ с.ш. 121°38′00″ в.д.
Мирный,35.416,62°32′ с. ш. 113°57′ в. д.
Нерюнгри,57009.0,56°39′58″ с.ш. 124°38′17″ в.д.
Тикси,4745.0,71°38′12 с. ш. 128°52′04 в. д
Якутск,319000.0,62°01′38″ с. ш. 129°43′55″ в. д.
