# Pandas


In [1]:
# импорт необхоимых модулей 
import numpy as np
import pandas as pd

In [2]:
#!pip install pandas - загружает модель  pandas

## Объекты модуля Pandas

- Series

In [3]:
#  Series - одномерный массив (вектор-строка) индексированных данных
#  Можно создатьь из списка или из массива NumPy
data = pd.Series([0.25, 0.5, 0.74, 1.0])
data

0    0.25
1    0.50
2    0.74
3    1.00
dtype: float64

In [4]:
# атрибуты 
data.dtype

dtype('float64')

In [5]:
data.shape

(4,)

In [6]:
# значения
data.values

array([0.25, 0.5 , 0.74, 1.  ])

In [7]:
data.values[0]

0.25

In [8]:
data.values[3:]

array([1.])

In [9]:
# индексы 
data.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
np.array(data.index)

array([0, 1, 2, 3])

In [11]:
list(data.index)

[0, 1, 2, 3]

In [14]:
for i in data.index:
    print(i)

0
1
2
3


In [15]:
# неявные и явные индексы
# неявные индексы- индексы по умолчанию
# явные-кастомизированные индексы
data_2 = pd.Series([100, 200, 300, 400], index=['a', 'b', 'c', 'd'])
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [16]:
# использование явных индексов 
data_2['b']

200

In [17]:
# использование неявных индексов 
data_2[0]

100

In [18]:
# создание на базе словаря 
popul_dict = {
    'Yakutsk': 318768,
    'Nerungri': 57009,
    'Viliusk': 11095
}

popul = pd.Series(popul_dict)
popul

Yakutsk     318768
Nerungri     57009
Viliusk      11095
dtype: int64

In [19]:
popul['Nerungri']

57009

In [20]:
# срез
popul['Nerungri':]

Nerungri    57009
Viliusk     11095
dtype: int64

In [21]:
# маскирование 
popul[popul > 50000]

Yakutsk     318768
Nerungri     57009
dtype: int64

# DataFrame

In [26]:
# DataFrame -  двумерный массив, состоящий из Series-ов
# таблица

# Series по населению
popul

Yakutsk     318768
Nerungri     57009
Viliusk      11095
dtype: int64

In [27]:
# новые данные
area_dict = {
    'Yakutsk': 122,
    'Nerungri': 98.9,
    'Viliusk': 15
}

cities_data = pd.DataFrame({'Population': popul, 'Area': area_dict })
cities_data

Unnamed: 0,Population,Area
Nerungri,57009,98.9
Viliusk,11095,15.0
Yakutsk,318768,122.0


In [28]:
# атрибуты 
# инедксы строк 
cities_data.index

Index(['Nerungri', 'Viliusk', 'Yakutsk'], dtype='object')

In [29]:
# ключи столбцов
cities_data.columns

Index(['Population', 'Area'], dtype='object')

In [30]:
# DataFrame нужно рассматривать как специализированный словарь 
cities_data['Population']

Nerungri     57009
Viliusk      11095
Yakutsk     318768
Name: Population, dtype: int64

In [31]:
cities_data['Area']

Nerungri     98.9
Viliusk      15.0
Yakutsk     122.0
Name: Area, dtype: float64

In [32]:
 # [ключ столбца][индекс строки]
cities_data['Population']['Yakutsk']

318768

##  Манипуляции с данными 


-  срез

In [33]:
data_2

a    100
b    200
c    300
d    400
dtype: int64

In [34]:
# срез по НЕЯВНЫМ  индексам
data_2[1:3]

b    200
c    300
dtype: int64

In [35]:
# срез по ЯВНЫМ  индексам
data_2['b': 'd']

b    200
c    300
d    400
dtype: int64

In [38]:
data_3 = pd.Series([10, 20, 30], index=[1,2,3])
data_3

1    10
2    20
3    30
dtype: int64

In [40]:
# атридут-индексатор
# для неявных индексов 
data_3.iloc[0]

10

In [42]:
# для явных индексов 
data_3.loc[1]

10

In [43]:
data.3

1    10
dtype: int64

In [45]:
data_3.loc[:3]

1    10
2    20
3    30
dtype: int64

- маскирование 

In [47]:
data_3[data_3 >=20]

2    20
3    30
dtype: int64

- прихотливая индексация 

In [48]:
# прихолтивая индексация по ЯВНЫМ индексам 
data_3.loc[[1, 3]]

1    10
3    30
dtype: int64

- вычисления


In [49]:
cities_data

Unnamed: 0,Population,Area
Nerungri,57009,98.9
Viliusk,11095,15.0
Yakutsk,318768,122.0


In [52]:
# добвление нового столбца
cities_data["плотность"] = cities_data['Population'] / cities_data['Area']
cities_data

Unnamed: 0,Population,Area,плотность
Nerungri,57009,98.9,576.430738
Viliusk,11095,15.0,739.666667
Yakutsk,318768,122.0,2612.852459


In [53]:
# излечение строки
# [индексы строки, ключи(-) столбцов]
cities_data.loc['Yakutsk', :]

Population    318768.000000
Area             122.000000
плотность       2612.852459
Name: Yakutsk, dtype: float64

In [55]:
cities_data.loc[['Yakutsk', 'Nerungri'], :'Area']

Unnamed: 0,Population,Area
Yakutsk,318768,122.0
Nerungri,57009,98.9
