# Pandas

In [861]:
import numpy as np
import pandas as pd

In [862]:
# !pip3 install pandas

## Объекты Pandas

- Series(последовательность)

In [863]:
# Series - 1-мерный массив индексированных данных
data = pd.Series([10,20,30,40])
data

0    10
1    20
2    30
3    40
dtype: int64

- атрибуты

In [864]:
# значения
data.values

array([10, 20, 30, 40])

In [865]:
data.values[0]

10

In [866]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [867]:
for i in data.index:
    print(i)

0
1
2
3


In [868]:
# форма
data.values.shape

(4,)

In [869]:
data.shape

(4,)

In [870]:
# тип данных
data.dtype

dtype('int64')

- чтение и запись данных

In [871]:
data[0]

10

In [872]:
data[1] = 100
data

0     10
1    100
2     30
3     40
dtype: int64

In [873]:
del data[1]
data

0    10
2    30
3    40
dtype: int64

In [874]:
# явные индексы
data_2 = pd.Series([10,20,30,40], index=[3,2,50,0])
data_2

3     10
2     20
50    30
0     40
dtype: int64

In [875]:
data_2[50]

30

In [876]:
d = {'A':100, 'B':200, 'C':300}
data_3 = pd.Series(d)
data_3

A    100
B    200
C    300
dtype: int64

In [877]:
data_3['B']

200

In [878]:
# неявные индексы
# приминение атрибута-индексатора iloc
data_3.iloc[0]

100

In [879]:
# 14 урок

pop_dict = {
    "Якутск": 318768,
    "Нерюнгри": 57009,
    "Вилюйск": 11095, 
}
pop_dict

{'Якутск': 318768, 'Нерюнгри': 57009, 'Вилюйск': 11095}

In [880]:
pop_data = pd.Series(pop_dict)
pop_data

Якутск      318768
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [881]:
pop_data["Якутск"]

318768

In [882]:
pop_data["Якутск"] = 319000
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [883]:
# срез до Нерюнгри
pop_data["Нерюнгри":]

Нерюнгри    57009
Вилюйск     11095
dtype: int64

In [884]:
# конечный индекс диапазона ВКЛЮЧАЕТСЯ в срез
pop_data[:"Нерюнгри"]

Якутск      319000
Нерюнгри     57009
dtype: int64

In [885]:
# новые строки можно добавлять с использованием словарного синтаксиса
pop_data["Тикси"] = 4745
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
Тикси         4745
dtype: int64

- DataFrame

In [886]:
# Многомерный массив (таблица)
data_dict = {
    "col_1": {"row_1": 100, "row_2": 200},
    "col_2": {"row_2": 300, "row_3": 400}
}
data_dict

{'col_1': {'row_1': 100, 'row_2': 200}, 'col_2': {'row_2': 300, 'row_3': 400}}

In [887]:
pd.DataFrame(data_dict)

Unnamed: 0,col_1,col_2
row_1,100.0,
row_2,200.0,300.0
row_3,,400.0


In [888]:
# NaN = Not a Number (пустота)

In [889]:
# новые данные по городам
area_data = pd.Series({
    "Якутск": 122,
    "Вилюйск": 15,
    "Нерюнгри": 98.9
})
area_data

Якутск      122.0
Вилюйск      15.0
Нерюнгри     98.9
dtype: float64

In [890]:
cities_data = pd.DataFrame({
    "население": pop_data,
    "площадь": area_data
})
cities_data

Unnamed: 0,население,площадь
Вилюйск,11095,15.0
Нерюнгри,57009,98.9
Тикси,4745,
Якутск,319000,122.0


In [891]:
# DataFrame можно рассматривать как специализированный словарь,
# содержащий Series-объекты
cities_data["население"]

Вилюйск      11095
Нерюнгри     57009
Тикси         4745
Якутск      319000
Name: население, dtype: int64

In [892]:
cities_data["население"]["Тикси"]

4745

In [893]:
# извлечение строки по явному индексу
# применяется атрибут-индексатор
# [индексация строк, индексация столбцов]
cities_data.loc["Тикси", :]

население    4745.0
площадь         NaN
Name: Тикси, dtype: float64

In [894]:
# комбинация прихотливой индексации и среза
cities_data.loc[["Вилюйск", "Якутск"], :]

Unnamed: 0,население,площадь
Вилюйск,11095,15.0
Якутск,319000,122.0


In [895]:
cities_data.loc[["Вилюйск", "Якутск"], "площадь"]

Вилюйск     15.0
Якутск     122.0
Name: площадь, dtype: float64

In [896]:
# неявеые индексы
# нужен атрибут-индексатор iloc
cities_data.iloc[[0, 2], 0]

Вилюйск    11095
Тикси       4745
Name: население, dtype: int64

In [897]:
# маскирование
mask = cities_data["площадь"] > 20
mask

Вилюйск     False
Нерюнгри     True
Тикси       False
Якутск       True
Name: площадь, dtype: bool

In [898]:
cities_data.loc[mask, :]

Unnamed: 0,население,площадь
Нерюнгри,57009,98.9
Якутск,319000,122.0


In [899]:
# добавление нового столбца
cities_data["плотность"] = cities_data["население"] / cities_data["площадь"]
cities_data

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Тикси,4745,,
Якутск,319000,122.0,2614.754098


In [900]:
cities_data.loc["Нерюнгри":, ["население", "плотность"]]

Unnamed: 0,население,плотность
Нерюнгри,57009,576.430738
Тикси,4745,
Якутск,319000,2614.754098


In [901]:
cities_data.loc[cities_data["плотность"] < 1000, ["площадь", "население"]]

Unnamed: 0,площадь,население
Вилюйск,15.0,11095
Нерюнгри,98.9,57009


- Удаление строк или столбцов с пустыми значениями

In [902]:
cities_data

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Тикси,4745,,
Якутск,319000,122.0,2614.754098


In [903]:
# по умолчанию удаляем строки
cities_data.dropna()

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Якутск,319000,122.0,2614.754098


In [904]:
# удаление столбцов
cities_data.dropna(axis="columns")

Unnamed: 0,население
Вилюйск,11095
Нерюнгри,57009
Тикси,4745
Якутск,319000


In [905]:
pop_data["Мирный"] = 35.416
pop_data

Якутск      319000.000
Нерюнгри     57009.000
Вилюйск      11095.000
Тикси         4745.000
Мирный          35.416
dtype: float64

In [906]:
area_data["Мирный"] = 15
area_data["Тикси"] = 14595.39
area_data

Якутск        122.00
Вилюйск        15.00
Нерюнгри       98.90
Мирный         15.00
Тикси       14595.39
dtype: float64

In [907]:
coor_data = pd.Series ({
    "Якутск": "62°01′38″ с. ш. 129°43′55″ в. д.",
    "Вилюйск": "63°44′48″ с.ш. 121°38′00″ в.д.",
    "Нерюнгри": "56°39′58″ с.ш. 124°38′17″ в.д.",
    "Тикси": "71°38′12 с. ш. 128°52′04 в. д",
    "Мирный": "62°32′ с. ш. 113°57′ в. д."
})
coor_data

Якутск      62°01′38″ с. ш. 129°43′55″ в. д.
Вилюйск       63°44′48″ с.ш. 121°38′00″ в.д.
Нерюнгри      56°39′58″ с.ш. 124°38′17″ в.д.
Тикси          71°38′12 с. ш. 128°52′04 в. д
Мирный            62°32′ с. ш. 113°57′ в. д.
dtype: object

In [908]:
cities_data = pd.DataFrame({
    "население": pop_data,
    "площадь": area_data,
    "координаты": coor_data
})
cities_data

Unnamed: 0,население,площадь,координаты
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.
Мирный,35.416,15.0,62°32′ с. ш. 113°57′ в. д.
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.


In [909]:
cities_data["плотность"] = cities_data["население"] / cities_data["площадь"]
cities_data

Unnamed: 0,население,площадь,координаты,плотность
Вилюйск,11095.0,15.0,63°44′48″ с.ш. 121°38′00″ в.д.,739.666667
Мирный,35.416,15.0,62°32′ с. ш. 113°57′ в. д.,2.361067
Нерюнгри,57009.0,98.9,56°39′58″ с.ш. 124°38′17″ в.д.,576.430738
Тикси,4745.0,14595.39,71°38′12 с. ш. 128°52′04 в. д,0.325103
Якутск,319000.0,122.0,62°01′38″ с. ш. 129°43′55″ в. д.,2614.754098
