# Pandas

In [2]:
import numpy as np
import pandas as pd

## Обьекты Pandas

- Series

In [2]:
# Series - 1-мерный массив индексированных данных
data_1d = pd.Series([10, 20, 30, 40])
data_1d

0    10
1    20
2    30
3    40
dtype: int64

- атрибуты

In [3]:
# значения
data_1d.values

array([10, 20, 30, 40], dtype=int64)

In [4]:
# индексы
data_1d.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
for i in data_1d.index:
    print(i)

0
1
2
3


In [6]:
np.array(data_1d.index)

array([0, 1, 2, 3], dtype=int64)

In [7]:
# форма
data_1d.shape

(4,)

In [8]:
# тип данных
data_1d.dtype

dtype('int64')

- чтение и запись данных

In [9]:
data_1d[0]

10

In [10]:
data_1d[1] = 100
data_1d

0     10
1    100
2     30
3     40
dtype: int64

In [11]:
del data_1d[1]
data_1d

0    10
2    30
3    40
dtype: int64

In [15]:
# явные индексы
data_2 = pd.Series([10,20,30,40], index=[3,2,5,0])
data_2

3    10
2    20
5    30
0    40
dtype: int64

In [16]:
data_2[3]

10

In [18]:
# неявные индексы (numpy-индексы)
data_2.iloc[0]

10

In [7]:
# создание Series из словаря
d = {'a':100, 'b':200, 'c':300}
s = pd.Series(d)
s['b']

200

In [8]:
pop_dict = {
    "Yakutsk": 318768,
    "Neryungri": 57009,
    "Viluysk": 11095
}
pop_dict

{'Yakutsk': 318768, 'Neryungri': 57009, 'Viluysk': 11095}

In [9]:
pop_data = pd.Series(pop_dict)
pop_data

Yakutsk      318768
Neryungri     57009
Viluysk       11095
dtype: int64

In [10]:
pop_data["Yakutsk"]

318768

In [11]:
pop_data["Yakutsk"] = 319000

In [12]:
pop_data

Yakutsk      319000
Neryungri     57009
Viluysk       11095
dtype: int64

In [13]:
pop_data["Neryungri": ]

Neryungri    57009
Viluysk      11095
dtype: int64

In [14]:
# конечный индекс диапозона среза ВКЛЮЧАЕТСЯ в срез
pop_data[:"Neryungri"]

Yakutsk      319000
Neryungri     57009
dtype: int64

In [15]:
# добавление новой строки с использованием словарного синтаксиса
pop_data["Tiksi"] = 4000

In [16]:
pop_data

Yakutsk      319000
Neryungri     57009
Viluysk       11095
Tiksi          4000
dtype: int64

* DataFrame

In [17]:
# DataFrame - многомерный массив (таблица)
# создание на базе словаря
data_dict = {
    "col_1":{'a':100, 'b':200},
    "col_2":{'b':2000, 'c':30000}
}
data_dict

{'col_1': {'a': 100, 'b': 200}, 'col_2': {'b': 2000, 'c': 30000}}

In [18]:
pd.DataFrame(data_dict)

Unnamed: 0,col_1,col_2
a,100.0,
b,200.0,2000.0
c,,30000.0


In [19]:
# NaN - not a number (аналог None)

In [20]:
pop_data

Yakutsk      319000
Neryungri     57009
Viluysk       11095
Tiksi          4000
dtype: int64

In [21]:
# новые данные 
area_data = pd.Series({
    "Yakutsk": 122,
    "Viluysk": 15,
    "Tiksi": 98.9
})
area_data

Yakutsk    122.0
Viluysk     15.0
Tiksi       98.9
dtype: float64

In [22]:
cities_data = pd.DataFrame({
    "население": pop_data, 
    "площадь": area_data
})
cities_data

Unnamed: 0,население,площадь
Neryungri,57009,
Tiksi,4000,98.9
Viluysk,11095,15.0
Yakutsk,319000,122.0


In [23]:
# индексы строк
cities_data.index

Index(['Neryungri', 'Tiksi', 'Viluysk', 'Yakutsk'], dtype='object')

In [24]:
# индексы столбцов
cities_data.columns

Index(['население', 'площадь'], dtype='object')

In [25]:
# DataFrame можно рассматривать как специализированный словарь,
# содержащий Series-объекта.
cities_data['население']

Neryungri     57009
Tiksi          4000
Viluysk       11095
Yakutsk      319000
Name: население, dtype: int64

In [27]:
cities_data["площадь"]

Neryungri      NaN
Tiksi         98.9
Viluysk       15.0
Yakutsk      122.0
Name: площадь, dtype: float64

In [34]:
# обращение к одному значению
cities_data['население']['Tiksi']

4000

In [28]:
# чтение строки
# [индексация строк, индексация столбцов]
# loc - атрибут-индексатор для работы с явными индексами
cities_data.loc['Tiksi', :]

население    4000.0
площадь        98.9
Name: Tiksi, dtype: float64

In [36]:
# можно использовать прихотливую индексацию
cities_data.loc[['Tiksi', 'Yakutsk'], :]

Unnamed: 0,население,площадь
Tiksi,4000,98.9
Yakutsk,319000,122.0


In [37]:
cities_data.loc[['Tiksi', 'Yakutsk'], 'площадь']

Tiksi       98.9
Yakutsk    122.0
Name: площадь, dtype: float64

In [39]:
cities_data.iloc[[0, 2], 0]

Neryungri    57009
Viluysk      11095
Name: население, dtype: int64

In [41]:
# маскирование
cities_data['площадь'] > 20

Neryungri    False
Tiksi         True
Viluysk      False
Yakutsk       True
Name: площадь, dtype: bool

In [43]:
# маскирование для строк
mask = cities_data['площадь'] > 20
cities_data.loc[mask, :]

Unnamed: 0,население,площадь
Tiksi,4000,98.9
Yakutsk,319000,122.0


In [44]:
# добавление нового столбца
cities_data['плотность'] = cities_data['население'] / cities_data['площадь']

In [45]:
cities_data

Unnamed: 0,население,площадь,плотность
Neryungri,57009,,
Tiksi,4000,98.9,40.444894
Viluysk,11095,15.0,739.666667
Yakutsk,319000,122.0,2614.754098


In [46]:
cities_data.loc['Tiksi':, 'площадь':]

Unnamed: 0,площадь,плотность
Tiksi,98.9,40.444894
Viluysk,15.0,739.666667
Yakutsk,122.0,2614.754098


In [49]:
cities_data.loc['Tiksi':, ['площадь', 'население']]

Unnamed: 0,площадь,население
Tiksi,98.9,4000
Viluysk,15.0,11095
Yakutsk,122.0,319000


In [50]:
cities_data.loc[cities_data['плотность'] < 1000, ['площадь', 'население']]

Unnamed: 0,площадь,население
Tiksi,98.9,4000
Viluysk,15.0,11095


* обработка отсутсвующих данных

In [52]:
np.sum(cities_data['население'])

391104

In [53]:
np.mean(cities_data['площадь'])

78.63333333333334

In [54]:
# удаление строки с отсутсвующим значением 
np.mean(cities_data.dropna()['площадь'])

78.63333333333334

In [55]:
cities_data.dropna()

Unnamed: 0,население,площадь,плотность
Tiksi,4000,98.9,40.444894
Viluysk,11095,15.0,739.666667
Yakutsk,319000,122.0,2614.754098


In [56]:
# удаление столбцов с отсутсвующими значениями
# (axis=1)=(axis='columns')
cities_data.dropna(axis="columns")

Unnamed: 0,население
Neryungri,57009
Tiksi,4000
Viluysk,11095
Yakutsk,319000


In [58]:
# (axis=0)=(axis='rows')
cities_data.dropna(axis='rows')

Unnamed: 0,население,площадь,плотность
Tiksi,4000,98.9,40.444894
Viluysk,11095,15.0,739.666667
Yakutsk,319000,122.0,2614.754098
