# Pandas

In [2]:
import numpy as np
import pandas as pd

## Объекты Pandas
- Series

In [3]:
# Series - 1-мерный массив индексированных данных
data_1d = pd.Series([10, 20, 30, 40])
data_1d

0    10
1    20
2    30
3    40
dtype: int64

In [4]:
print(data_1d)

0    10
1    20
2    30
3    40
dtype: int64


- атрибуты

In [5]:
# значения
data_1d.values

array([10, 20, 30, 40], dtype=int64)

In [6]:
# индексы
data_1d.index

RangeIndex(start=0, stop=4, step=1)

In [9]:
for i in data_1d.index:
    print(i)

0
1
2
3


In [11]:
# форма
data_1d.shape

(4,)

In [12]:
# тип данных
data_1d.dtype

dtype('int64')

- чтение и запись данных

In [13]:
data_1d[0]

10

In [15]:
data_1d[1] = 100
data_1d

0     10
1    100
2     30
3     40
dtype: int64

In [16]:
del data_1d[1]
data_1d

0    10
2    30
3    40
dtype: int64

In [17]:
# явные индексы
data_2 = pd.Series([10, 20, 30, 40], index = [3,2,5,0])
data_2

3    10
2    20
5    30
0    40
dtype: int64

In [18]:
data_2[3]

10

In [21]:
# неявные индексы (numpy-индексы)
data_2.iloc[0]

10

In [8]:
# создание Series из словаря
d = {'a':100, 'b':200, 'c':300}
s = pd.Series(d)
s['b']

200

In [9]:
pop_dict = {
    'Yakutsk': 318768,
    'Neryungri': 57009,
    'Viliyusk': 11095
}
pop_dict

{'Yakutsk': 318768, 'Neryungri': 57009, 'Viliyusk': 11095}

In [10]:
pop_data = pd.Series(pop_dict)
pop_data

Yakutsk      318768
Neryungri     57009
Viliyusk      11095
dtype: int64

In [12]:
pop_data['Yakutsk']

318768

In [39]:
pop_data['Yakutsk'] = 319000.0
pop_data

Yakutsk      319000
Neryungri     57009
Viliyusk      11095
Tiksi          4000
dtype: int64

In [14]:
pop_data['Neryungri':] # срез начиная с Нерюнгри и до конца словаря

Neryungri    57009
Viliyusk     11095
dtype: int64

In [15]:
# конечный индекс диапазона среза включается в срез
pop_data[:'Neryungri']

Yakutsk      319000
Neryungri     57009
dtype: int64

In [16]:
# добавление новой строки с использованием словарного синтаксиса
pop_data['Tiksi'] = 4000
pop_data

Yakutsk      319000
Neryungri     57009
Viliyusk      11095
Tiksi          4000
dtype: int64

- DataFrame

In [17]:
# DataFrame - многомерный массив (таблица) 
# создание на базе словаря
data_dict = {
    'col_1': {'a':100, 'b':200},
    'col_2': {'b':2000, 'c':30000}
}
data_dict

{'col_1': {'a': 100, 'b': 200}, 'col_2': {'b': 2000, 'c': 30000}}

In [18]:
pd.DataFrame(data_dict)

Unnamed: 0,col_1,col_2
a,100.0,
b,200.0,2000.0
c,,30000.0


In [22]:
# NaN - not a number (аналог None)

In [21]:
pop_data

Yakutsk      319000
Neryungri     57009
Viliyusk      11095
Tiksi          4000
dtype: int64

In [23]:
# новые данные
area_data = pd.Series({
    'Yakutsk': 122,
    'Viliyusk': 15,
    'Neryungri':98.9
})
area_data

Yakutsk      122.0
Viliyusk      15.0
Neryungri     98.9
dtype: float64

In [24]:
cities_data = pd.DataFrame({'Население': pop_data, 'Площадь': area_data})
cities_data

Unnamed: 0,Население,Площадь
Neryungri,57009,98.9
Tiksi,4000,
Viliyusk,11095,15.0
Yakutsk,319000,122.0


In [25]:
# индексы строк
cities_data.index

Index(['Neryungri', 'Tiksi', 'Viliyusk', 'Yakutsk'], dtype='object')

In [27]:
# индексы столбцов
cities_data.columns

Index(['Население', 'Площадь'], dtype='object')

In [31]:
# DataFrame можно рассматривать как специализированный словарь,
# содержащий Series-объекта.
cities_data['Население']

Neryungri     57009
Tiksi          4000
Viliyusk      11095
Yakutsk      319000
Name: Население, dtype: int64

In [35]:
# обращение к одному значению 
cities_data['Население']['Tiksi']

4000

In [30]:
# чтение строки 
# [индексация строк, индексация столбцов]
# loc - атрибут-индексатор для работы с явными индексами
cities_data.loc['Tiksi',:]

Население    4000.0
Площадь         NaN
Name: Tiksi, dtype: float64

In [40]:
cities_data.loc[['Tiksi', 'Yakutsk'],:]

Unnamed: 0,Население,Площадь
Tiksi,4000,
Yakutsk,319000,122.0


In [47]:
# iloc - неявные индексы (python)
cities_data.iloc[[1, 3],:]

Unnamed: 0,Население,Площадь
Tiksi,4000,
Yakutsk,319000,122.0


In [48]:
# маскирование 
cities_data['Площадь'] > 20

Neryungri     True
Tiksi        False
Viliyusk     False
Yakutsk       True
Name: Площадь, dtype: bool

In [53]:
# для строк
mask = cities_data['Площадь'] > 20
cities_data.loc[mask, :]

Unnamed: 0,Население,Площадь
Neryungri,57009,98.9
Yakutsk,319000,122.0


In [57]:
# добавление нового столбца
cities_data['Плотность'] = cities_data['Население'] / cities_data['Площадь']
cities_data

Unnamed: 0,Население,Площадь,плотность,Плотность
Neryungri,57009,98.9,576.430738,576.430738
Tiksi,4000,,,
Viliyusk,11095,15.0,739.666667,739.666667
Yakutsk,319000,122.0,2614.754098,2614.754098


In [58]:
del cities_data['плотность']
cities_data

Unnamed: 0,Население,Площадь,Плотность
Neryungri,57009,98.9,576.430738
Tiksi,4000,,
Viliyusk,11095,15.0,739.666667
Yakutsk,319000,122.0,2614.754098


In [59]:
cities_data.loc['Tiksi':,'Площадь':]

Unnamed: 0,Площадь,Плотность
Tiksi,,
Viliyusk,15.0,739.666667
Yakutsk,122.0,2614.754098


In [61]:
cities_data.loc['Tiksi':,['Площадь','Население']]

Unnamed: 0,Площадь,Население
Tiksi,,4000
Viliyusk,15.0,11095
Yakutsk,122.0,319000


In [62]:
cities_data.loc[cities_data['Плотность']< 1000, ['Площадь','Население']]

Unnamed: 0,Площадь,Население
Neryungri,98.9,57009
Viliyusk,15.0,11095


- Обработка отсутствующих данных

In [63]:
np.sum(cities_data["Население"])

391104

In [64]:
np.mean(cities_data["Площадь"])

78.63333333333334

In [65]:
# удаление строки с отсутствующим значением
np.mean(cities_data.dropna()["Площадь"])

78.63333333333334

In [66]:
cities_data.dropna()

Unnamed: 0,Население,Площадь,Плотность
Neryungri,57009,98.9,576.430738
Viliyusk,11095,15.0,739.666667
Yakutsk,319000,122.0,2614.754098


In [68]:
# удаление столбцов с отсутствующими значениеми
# cities_data.dropna(axis=1) 
cities_data.dropna(axis='columns') # rows - строки, columns - столбцы

Unnamed: 0,Население
Neryungri,57009
Tiksi,4000
Viliyusk,11095
Yakutsk,319000
