# Pandas

In [1]:
import numpy as np
import pandas as pd

## Объекты Pandas
- Series

In [2]:
# Series - 1-мерный массив индексированных данных
data = pd.Series([10,20,30,40])
data

0    10
1    20
2    30
3    40
dtype: int64

- атрибуты

In [5]:
# значения
data.values

array([10, 20, 30, 40], dtype=int64)

In [6]:
data.values[0]

10

In [7]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [8]:
for i in data.index:
    print(i)

0
1
2
3


In [9]:
# форма
data.values.shape

(4,)

In [10]:
data.shape

(4,)

In [11]:
# тип данных
data.dtype

dtype('int64')

- чтение и запись данных

In [12]:
data[0]

10

In [13]:
data[1] = 100
data

0     10
1    100
2     30
3     40
dtype: int64

In [14]:
del data[1]
data

0    10
2    30
3    40
dtype: int64

In [16]:
# явные индексы
data_2 = pd.Series([10,20,30,40], index=[3,2,50,0])
data_2

3     10
2     20
50    30
0     40
dtype: int64

In [17]:
data_2[50]

30

In [21]:
d = {'A':100, 'B':200, 'C':300}
data_3 = pd.Series(d)
data_3

A    100
B    200
C    300
dtype: int64

In [22]:
data_3['B']

200

In [23]:
# неявные индексы
# применения атрибут-индексатора iloc
data_3.iloc[0]

100

In [3]:
# 14 урок

pop_dict = {
    "Якутск": 318768,
    "Нерюнгри" : 57009,
    "Вилюйск" : 11095
}
pop_dict

{'Якутск': 318768, 'Нерюнгри': 57009, 'Вилюйск': 11095}

In [4]:
pop_data = pd.Series(pop_dict)
pop_data

Якутск      318768
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [5]:
pop_data["Якутск"]

318768

In [6]:
pop_data["Якутск"] = 319000
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
dtype: int64

In [7]:
pop_data["Нерюнгри":]

Нерюнгри    57009
Вилюйск     11095
dtype: int64

In [8]:
# конечный индекс диапазона ВКЛЮЧАЕТСЯ в срез.
pop_data[:"Нерюнгри"]

Якутск      319000
Нерюнгри     57009
dtype: int64

In [10]:
# новые строки можно добавлять с использованием словарного синтаксиса
pop_data["Тикси"] = 4000
pop_data

Якутск      319000
Нерюнгри     57009
Вилюйск      11095
Тикси         4000
dtype: int64

- DataFrame

In [11]:
# Многомерный массив (таблица)
data_dict = {
    "col_1": {"row_1": 100, "row_2": 200},
    "col_2": {"row_2": 300, "row_3": 400}
}
data_dict

{'col_1': {'row_1': 100, 'row_2': 200}, 'col_2': {'row_2': 300, 'row_3': 400}}

In [12]:
pd.DataFrame(data_dict)

Unnamed: 0,col_1,col_2
row_1,100.0,
row_2,200.0,300.0
row_3,,400.0


In [13]:
# NaN = Not a number (пустота)

In [14]:
# новые данные по городам
area_data = pd.Series({
    "Якутск": 122,
    "Вилюйск": 15,
    "Нерюнгри": 98.9
})
area_data

Якутск      122.0
Вилюйск      15.0
Нерюнгри     98.9
dtype: float64

In [15]:
cities_data = pd.DataFrame({
    "население": pop_data,
    "площадь": area_data
})
cities_data

Unnamed: 0,население,площадь
Вилюйск,11095,15.0
Нерюнгри,57009,98.9
Тикси,4000,
Якутск,319000,122.0


In [16]:
# DataFrame можно рассматривать как специализированный словарь,
# содержащий Series-объект
cities_data["население"]

Вилюйск      11095
Нерюнгри     57009
Тикси         4000
Якутск      319000
Name: население, dtype: int64

In [18]:
# извлечение строки по явному индексу
# применяется атрибут-индексатор
# [индексация строк, индексация столбцов]
cities_data.loc["Тикси", :]

население    4000.0
площадь         NaN
Name: Тикси, dtype: float64

In [19]:
# комбинация прихотливой индексации и среза
cities_data.loc[["Вилюйск", "Якутск"], :]

Unnamed: 0,население,площадь
Вилюйск,11095,15.0
Якутск,319000,122.0


In [20]:
cities_data.loc[["Вилюйск", "Якутск"], "площадь"]

Вилюйск     15.0
Якутск     122.0
Name: площадь, dtype: float64

In [21]:
# неявные индексы
# нужен атрибут-индексатор iloc
cities_data.iloc[[0, 2], 0]

Вилюйск    11095
Тикси       4000
Name: население, dtype: int64

In [22]:
# маскирование
mask = cities_data["площадь"] > 20
mask

Вилюйск     False
Нерюнгри     True
Тикси       False
Якутск       True
Name: площадь, dtype: bool

In [27]:
cities_data.loc[mask, :]

NameError: name 'mask' is not defined

In [26]:
# добавление нового столбца
cities_data["плотность"] = cities_data["население"] / cities_data["площадь"]
cities_data

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Тикси,4000,,
Якутск,319000,122.0,2614.754098


In [28]:
cities_data.loc["Нерюнгри":, ["население", "плотность"]]

Unnamed: 0,население,плотность
Нерюнгри,57009,576.430738
Тикси,4000,
Якутск,319000,2614.754098


In [29]:
cities_data.loc[cities_data["плотность"] < 1000, ["площадь", "население"]]

Unnamed: 0,площадь,население
Вилюйск,15.0,11095
Нерюнгри,98.9,57009


- Удаление строк или столбцов с пустыми значениями

In [31]:
cities_data

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Тикси,4000,,
Якутск,319000,122.0,2614.754098


In [32]:
# по умолчанию удаляет строки
cities_data.dropna()

Unnamed: 0,население,площадь,плотность
Вилюйск,11095,15.0,739.666667
Нерюнгри,57009,98.9,576.430738
Якутск,319000,122.0,2614.754098


In [33]:
# удаление столбцов
cities_data.dropna(axis="columns")

Unnamed: 0,население
Вилюйск,11095
Нерюнгри,57009
Тикси,4000
Якутск,319000
