# Pandas

In [5]:
# 
import numpy as np
import pandas as pd        

In [4]:
# !pip install pandas

 # Объекты модуля Pandas

* Series

In [6]:
# Series - одномерный массив (вектор-строка) индексированных данных
# Можно создать из списка или из массива NumPy
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [7]:
# атрибуты
data.dtype

dtype('float64')

In [8]:
data.shape

(4,)

In [9]:
# значение
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [10]:
data.values[2:]

array([0.75, 1.  ])

In [11]:
data.values[0]

0.25

In [13]:
# индексы
data.index

RangeIndex(start=0, stop=4, step=1)

In [14]:
np.array(data.index)

array([0, 1, 2, 3], dtype=int64)

In [15]:
list(data.index)

[0, 1, 2, 3]

In [16]:
for i in data.index:
    print(i)

0
1
2
3


In [17]:
#  неявные (индексы по умолчанию) и явные (кастомизированные) индексы
data_2 = pd.Series([100,200,300,400], index=['a','b','c','d'])
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [18]:
# исользование явных индексов
data_2['b']

200

In [19]:
# использование неявных индексов
data_2[0]

100

In [20]:
# создание на базе словаря
popul_dict = {
    'Yakutsk': 318768,
    'Neryungri': 57009,
    'Vilyusk' : 11095
}

popul = pd.Series(popul_dict)
popul

Yakutsk      318768
Neryungri     57009
Vilyusk       11095
dtype: int64

In [22]:
popul['Neryungri']

57009

In [23]:
# срез
popul['Neryungri':]

Neryungri    57009
Vilyusk      11095
dtype: int64

In [24]:
# маскирование
popul[popul>50000]

Yakutsk      318768
Neryungri     57009
dtype: int64

In [25]:
# прихотливая индексация
popul[['Yakutsk', 'Vilyusk']]

Yakutsk    318768
Vilyusk     11095
dtype: int64

* DataFrame

In [26]:
# DataFrame - двумерный массив, состоящий из Series-ов
# таблица

# Series по населению
popul

Yakutsk      318768
Neryungri     57009
Vilyusk       11095
dtype: int64

In [27]:
# новые данные
area_dict = {
    'Yakutsk' : 122,
    'Neryungri': 98.9,
    'Vilyusk' : 15
}

cities_data = pd.DataFrame({'Population': popul, 'Area': area_dict})
cities_data

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0
Yakutsk,318768,122.0


In [28]:
# атрибуты
# индексы строк
cities_data.index

Index(['Neryungri', 'Vilyusk', 'Yakutsk'], dtype='object')

In [29]:
# ключи столбцов
cities_data.columns

Index(['Population', 'Area'], dtype='object')

In [30]:
# [][]
cities_data['Population']['Yakutsk']

318768

In [31]:
cities_data['Population']

Neryungri     57009
Vilyusk       11095
Yakutsk      318768
Name: Population, dtype: int64

## Манипуляции с данными

* срез

In [32]:
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [33]:
# срез по НЕявным индексам
data_2[1:3]

b    200
c    300
dtype: int64

In [34]:
# срез по явным индексам
data_2['b':'d']

b    200
c    300
d    400
dtype: int64

In [35]:
data_3 = pd.Series([10,20,30], index=[1,2,3])
data_3

1    10
2    20
3    30
dtype: int64

In [36]:
# атрибут-индексаторы
# для НЕявных индексов

data_3.iloc[0]

10

In [37]:
# для явных индексов
data_3.loc[1]

10

In [38]:
data_3.iloc[:1]

1    10
dtype: int64

In [40]:
data_3.loc[:2]

1    10
2    20
dtype: int64

- прихотливая индексация

In [41]:
# прихотливая индексация по явным индексам
data_3.loc[[1,3]]

1    10
3    30
dtype: int64

- вычисления

In [42]:
cities_data

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0
Yakutsk,318768,122.0


In [44]:
# добавление нового столбца
cities_data["Плотность"] = cities_data['Population'] / cities_data['Area']
cities_data

Unnamed: 0,Population,Area,Плотность
Neryungri,57009,98.9,576.430738
Vilyusk,11095,15.0,739.666667
Yakutsk,318768,122.0,2612.852459


In [45]:
# извлечение строки
# [индекс (-ы) строки, ключ(-и) столбцов]
cities_data.loc['Yakutsk', :]

Population    318768.000000
Area             122.000000
Плотность       2612.852459
Name: Yakutsk, dtype: float64

In [46]:
cities_data.loc[['Yakutsk', 'Neryungri'], : 'Area']

Unnamed: 0,Population,Area
Yakutsk,318768,122.0
Neryungri,57009,98.9


In [47]:
cities_data.loc[['Yakutsk', 'Neryungri'], 'Area']

Yakutsk      122.0
Neryungri     98.9
Name: Area, dtype: float64

In [49]:
# комбинация маскирования и "прихотливой" индексации

cities_data.loc[cities_data['Плотность'] < 1000, ['Population', 'Area']]

Unnamed: 0,Population,Area
Neryungri,57009,98.9
Vilyusk,11095,15.0
