 # PANDAS

In [2]:
import numpy as np
import pandas as pd

## Объекты модуля Pandas

- Series

In [3]:
# Series - одномерный массив индексированных данных
# Можно создать из списка или массива

data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [4]:
# атрибуты 

# значения
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [5]:
data.values[0]

0.25

In [6]:
list(data.index)

[0, 1, 2, 3]

In [7]:
# форма 
data.shape

(4,)

In [8]:
# тип данных
data.dtype

dtype('float64')

In [9]:
# чтение данных
data[0]

0.25

In [10]:
# запись данных
data[0] = 3.14
data

0    3.14
1    0.50
2    0.75
3    1.00
dtype: float64

In [11]:
# срезы
data[1:]

1    0.50
2    0.75
3    1.00
dtype: float64

In [12]:
# Явные индексы
data_2 = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a','b','c','d'])
data_2

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [13]:
# использование явных индексов
data_2['a']

0.25

In [14]:
# использование неявных индексов
data_2[0]

0.25

In [15]:
# Создание объекта Series на базе словаря
population_dict = {
    'Yakutsk': 318768,
    'Neryungri': 57009,
    'Viliuysk': 11095
}

popul = pd.Series(population_dict)
popul

Yakutsk      318768
Neryungri     57009
Viliuysk      11095
dtype: int64

In [16]:
popul['Neryungri'] = 59010
popul

Yakutsk      318768
Neryungri     59010
Viliuysk      11095
dtype: int64

In [18]:
popul['Neryungri':]

Neryungri    59010
Viliuysk     11095
dtype: int64

- DataFrame

In [19]:
# существующие данные в виде Series
popul

Yakutsk      318768
Neryungri     59010
Viliuysk      11095
dtype: int64

In [20]:
# новые данные
area_dict = {
    'Yakutsk': 122,
    'Neryungri': 98.9,
    'Viliuysk': 15
}

area = pd.Series(area_dict)
area

Yakutsk      122.0
Neryungri     98.9
Viliuysk      15.0
dtype: float64

In [21]:
cities_data = pd.DataFrame({'население': popul, 'площадь': area})
cities_data

Unnamed: 0,население,площадь
Yakutsk,318768,122.0
Neryungri,59010,98.9
Viliuysk,11095,15.0


In [22]:
# индексы
cities_data.index

Index(['Yakutsk', 'Neryungri', 'Viliuysk'], dtype='object')

In [23]:
# столбцы 
cities_data.columns

Index(['население', 'площадь'], dtype='object')

In [24]:
# DataFrame можно рассматривать как специализированный словарь
cities_data['население']

Yakutsk      318768
Neryungri     59010
Viliuysk      11095
Name: население, dtype: int64

In [25]:
#cities_data['население']['Yakutsk']
cities_data['население'][0]

318768

- срезы

In [27]:
data_2

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [28]:
# срез посредством неявного индекса
data_2[1:3]

b    0.50
c    0.75
dtype: float64

In [30]:
# срез посредством явного индекса
# конечный явный индекс ВКЛЮЧАЕТСЯ в срез 
data_2['b':'d']

b    0.50
c    0.75
d    1.00
dtype: float64

In [33]:
# проблема с целочисленными явными индексами
data_3 = pd.Series([100, 200, 300], index=[1,2,3])
data_3

1    100
2    200
3    300
dtype: int64

In [35]:
data_3[1]

100

In [36]:
# чтобы избежать путаницы с индексами или работать с обеими типами индексов предусмотрены атрибут-индексаторы

# индексация и срезы с использованием ЯВНЫХ индексов
data_3.loc[1]

100

- маскирование

In [31]:
data_2[data_2 > 0.5]

c    0.75
d    1.00
dtype: float64

- "прихотливая" индексация

In [32]:
data_2[['a','d']]

a    0.25
d    1.00
dtype: float64

In [37]:
cities_data

Unnamed: 0,население,площадь
Yakutsk,318768,122.0
Neryungri,59010,98.9
Viliuysk,11095,15.0


In [38]:
# добавление нового столбца 
cities_data["плотность"] = cities_data["население"] / cities_data["площадь"]
cities_data

Unnamed: 0,население,площадь,плотность
Yakutsk,318768,122.0,2612.852459
Neryungri,59010,98.9,596.663296
Viliuysk,11095,15.0,739.666667


In [39]:
# извлечение строки
cities_data.loc['Viliuysk',:'площадь']

население    11095.0
площадь         15.0
Name: Viliuysk, dtype: float64

In [40]:
cities_data.loc['Neryungri':, :'площадь']

Unnamed: 0,население,площадь
Neryungri,59010,98.9
Viliuysk,11095,15.0


In [41]:
# маскирование и "прихотливая" индексация
cities_data.loc[cities_data['плотность'] < 1000, ['население', 'плотность']]

Unnamed: 0,население,плотность
Neryungri,59010,596.663296
Viliuysk,11095,739.666667
