## Pandas Series

Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциативных меток, т.н. индексов, вдоль каждого элемента из списка. Така особенность превращает его в ассоциативный массив или словарь в Python.

In [1]:
import pandas as pd
import numpy as np

my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [2]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [3]:
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

In [4]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10],
                       index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2

a     5
b     6
c     7
d     8
e     9
f    10
dtype: int64

In [5]:
my_series2.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

In [6]:
my_series[4]

9

In [7]:
my_series[[4]]

4    9
dtype: int64

In [8]:
my_series2['a']

5

In [9]:
mask = my_series > 7

In [10]:
mask

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool

In [11]:
my_series[mask]

3     8
4     9
5    10
dtype: int64

In [12]:
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

In [13]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [14]:
my_series2 > 0

a    False
b    False
c     True
d     True
e     True
f    False
dtype: bool

In [15]:
my_series3 = pd.Series({'a': 5, 'b': 6, 'c': 7, 'd': 8})
my_series3

a    5
b    6
c    7
d    8
dtype: int64

In [16]:
my_series3.name = 'numbers'
my_series3.index.name = 'letters'
my_series3

letters
a    5
b    6
c    7
d    8
Name: numbers, dtype: int64

## Pandas DataFrame

Объект DataFrame лучше всего представлять себе в виде обычной таблицы и это правильно, ведь DataFrame является табличной структурой данных. В любой таблице всего присутствуют строки и столбцы. Стобцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

In [17]:
df = pd.DataFrame({
    'city': ['Moscow', 'Krasnodar', 'Belgorod', 'Kazan'],
    'delivery_time': [25, 29, 32, 30],
    'couriers': [11440, 784, 112, 998]
})
df

Unnamed: 0,city,delivery_time,couriers
0,Moscow,25,11440
1,Krasnodar,29,784
2,Belgorod,32,112
3,Kazan,30,998


In [18]:
df.delivery_time

0    25
1    29
2    32
3    30
Name: delivery_time, dtype: int64

In [19]:
type(df.delivery_time)

pandas.core.series.Series

In [20]:
df['delivery_time']

0    25
1    29
2    32
3    30
Name: delivery_time, dtype: int64

In [21]:
df[['delivery_time']]

Unnamed: 0,delivery_time
0,25
1,29
2,32
3,30


In [22]:
df.index = ['Msc', 'Krd', 'Blg', 'Kzn']
df

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


### Импорт данных

In [23]:
# pd.read_csv('filename')
# pd.read_excel('filename')
# pd.read_sql(query, connection_object)
# pd.read_table(filename)
# pd.read_json(json_string)
# pd.read_html(url)
# pd.read_clipboard()
# pd.DataFrame(dict)

In [None]:
ml = pd.read_csv('files/orders_history.csv', sep=',')
ml.head(2)

![image.png](attachment:41c324d7-1fd0-4e4f-a727-bec33636fd21.png)

Отдельно стоит упомянуть про возможность работы в Pandas с большими файлами, которые могут не помещаться в оперативную память компьютера. Для этого мы можем читать файл небольшими чанками.

In [None]:
c_size = 10000

for gm_chunk in pd.read_csv('files/orders_history.csv',
                            sep=',',
                            chunksize=c_size):
    print(gm_chunk.shape)

![image.png](attachment:2de62ac1-d406-4589-9563-4858932f74cc.png)

### Экспорт данных

In [27]:
# df.to_csv(filename)
# df.to_excel(filename)
# df.to_sql(table_name, connection_object)
# df.to_json(filename)
# df.to_html(filename)
# df.to_clipboard()

### Доступ к данными

Доступ к строкам по индексу возможен несколькими способами:
* .loc - используется для доступа по строковой метке
* .iloc - используется для доступа по числовому значению (начиная от 0)

In [28]:
df.loc['Msc']

city             Moscow
delivery_time        25
couriers          11440
Name: Msc, dtype: object

In [29]:
df

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [30]:
df.iloc[1]

city             Krasnodar
delivery_time           29
couriers               784
Name: Krd, dtype: object

In [31]:
type(df.iloc[0])

pandas.core.series.Series

In [34]:
# индекс + колонки
df.loc[['Msc', 'Kzn'], 'couriers']

Msc    11440
Kzn      998
Name: couriers, dtype: int64

В .loc и .iloc запомнить, что первая часть относится к строкам, вторая - к столбцам.

In [35]:
df

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [36]:
df.iloc[[0, 1], [1]]

Unnamed: 0,delivery_time
Msc,25
Krd,29


In [37]:
df[df.delivery_time > 30][['city', 'couriers']]

Unnamed: 0,city,couriers
Blg,Belgorod,112


In [39]:
# более сложное условие
df[(df.delivery_time >= 25) | (df.city == 'Msc')][['city', 'delivery_time']]

Unnamed: 0,city,delivery_time
Msc,Moscow,25
Krd,Krasnodar,29
Blg,Belgorod,32
Kzn,Kazan,30


In [40]:
# Или так
filters = df.city == 'Moscow'
df[filters]

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440


In [41]:
# Создаём новую колонку
df['delivery_time_hours'] = df['delivery_time'] / 60
df

Unnamed: 0,city,delivery_time,couriers,delivery_time_hours
Msc,Moscow,25,11440,0.416667
Krd,Krasnodar,29,784,0.483333
Blg,Belgorod,32,112,0.533333
Kzn,Kazan,30,998,0.5


In [43]:
# Обратить внимание, что при дропе колонок необходимо в том или ином виде перезаписывать данные в исходном датафрейме
df.drop(['delivery_time_hours'], axis=1)
#df.drop(['delivety_time_hours'], axis='columns', inplace=True)

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [44]:
df = df.drop(['delivery_time_hours'], axis=1)
df

Unnamed: 0,city,delivery_time,couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [45]:
df = df.rename(columns={'couriers': 'num_of_couriers'})
df

Unnamed: 0,city,delivery_time,num_of_couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998


In [46]:
# вытаскивает n самых больших показателей из колонки - нет нужды в сортировке
df.nlargest(3, 'delivery_time')

Unnamed: 0,city,delivery_time,num_of_couriers
Blg,Belgorod,32,112
Kzn,Kazan,30,998
Krd,Krasnodar,29,784


In [47]:
df.nsmallest(3, 'delivery_time')

Unnamed: 0,city,delivery_time,num_of_couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Kzn,Kazan,30,998


In [48]:
df.columns = ['City', 'Delivery_Time', 'Number_of_Couriers']

In [49]:
df

Unnamed: 0,City,Delivery_Time,Number_of_Couriers
Msc,Moscow,25,11440
Krd,Krasnodar,29,784
Blg,Belgorod,32,112
Kzn,Kazan,30,998
