# Pandas

Временные ряды в Pandas

In [1]:
import numpy as np 
import pandas as pd

In [2]:
# ряд в pandas - специальная структура данных

s1 = pd.Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# ряды можно создавать из np.array и наоборот: возвращать в формат массива numpy 

s1.to_numpy()

array([1, 2, 3, 4, 5], dtype=int64)

In [5]:
# индексацию можно провести не только при помощи чисел

s2 = pd.Series([1, 2, 3, 4, 5], index = ['a', 'b', 'c', 'd', 'e'])
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [6]:
s2['d']

4

In [7]:
# обращение по индексу

s2.iloc[3]

4

In [8]:
s2.iloc

<pandas.core.indexing._iLocIndexer at 0xe179d8>

In [9]:
# создание из словаря

d = {'a':2., 'b':3., 'c':1.}
s3 = pd.Series(d)
s3

a    2.0
b    3.0
c    1.0
dtype: float64

In [10]:
# варианты индексации

s6 = pd.Series([1, 2, 3, 4, 5], index = ['a', 'b', 'c', 'd', 'e'])
print('s6[1] = ', s6.iloc[1])
print('s6[d] = ', s6['d'])
print('Срез: \n', s6[2:4], '\n')

print('Индексация условным выражением: s6[s6 <= 3] : \n', s6[s6 % 2 == 1])

s6[1] =  2
s6[d] =  4
Срез: 
 c    3
d    4
dtype: int64 

Индексация условным выражением: s6[s6 <= 3] : 
 a    1
c    3
e    5
dtype: int64


In [11]:
s6[2:4]

c    3
d    4
dtype: int64

In [12]:
s6['b':'e']

b    2
c    3
d    4
e    5
dtype: int64

In [17]:
# арифметические операции с рядами

s7 = pd.Series([10, 20, 30, 40, 50], index = ['a', 'b', 'c', 'd', 'e'])
print('\ns6:\n', s6)
print('\ns7:\n', s7)
print('\ns6 + s7:\n', s6 + s7)
print('\ns6 * s7:\n', s6 * s7)
print('\ns6 / s7:\n', s6 / s7)
print('\n s7 ** s6 :\n', s7 ** s6)


s6:
 a    1
b    2
c    3
d    4
e    5
dtype: int64

s7:
 a    10
b    20
c    30
d    40
e    50
dtype: int64

s6 + s7:
 a    11
b    22
c    33
d    44
e    55
dtype: int64

s6 * s7:
 a     10
b     40
c     90
d    160
e    250
dtype: int64

s6 / s7:
 a    0.1
b    0.1
c    0.1
d    0.1
e    0.1
dtype: float64

 s7 ** s6 :
 a           10
b          400
c        27000
d      2560000
e    312500000
dtype: int64


Табличные данные в Pandas

In [18]:
# структура DataFrame
# создание из pd.Series

d = {'price':pd.Series([1, 2, 3]), 'count':pd.Series([10, 12, 7])}
df1 = pd.DataFrame(d)
df1

Unnamed: 0,price,count
0,1,10
1,2,12
2,3,7


In [25]:
# собственный варинат индексации

d = {
    'price':pd.Series([1, 2, 3], 
    index = ['product 1', 'product 2', 'product 3']), 
    'count':pd.Series([10, 12, 7], 
    index = ['product 1', 'product 2', 'product 3'])
    }
df2 = pd.DataFrame(d)
df2

Unnamed: 0,price,count
product 1,1,10
product 2,2,12
product 3,3,7


In [21]:
# нарушенная индексация

d = {
    'price':pd.Series([1, 2, 3], index = ['product 1', 'product 2', 'product 3']), 
    'count':pd.Series([10, 12, 7], index = ['product 1', 'product 2', 'product 4'])
    }
df2 = pd.DataFrame(d)
df2

Unnamed: 0,price,count
product 1,1.0,10.0
product 2,2.0,12.0
product 3,3.0,
product 4,,7.0


In [22]:

d = {
    'price':pd.Series([1, 2, 3], index = ['product 1', 'product 2', 'product 3']), 
    'count':pd.Series([10, 12, 7])
    }
df2 = pd.DataFrame(d)
df2

Unnamed: 0,price,count
product 1,1.0,
product 2,2.0,
product 3,3.0,
0,,10.0
1,,12.0
2,,7.0


In [26]:
df2.index  # что является индексирующим

Index(['product 1', 'product 2', 'product 3'], dtype='object')

In [27]:
df2.columns

Index(['price', 'count'], dtype='object')

In [28]:
df2.columns[0]

'price'

In [30]:
df2[df2.columns[0]]

product 1    1
product 2    2
product 3    3
Name: price, dtype: int64

In [31]:
# создание из массива словарей, ключи словарей должны совпадать

d3 = [{'price':3, 'count':8}, {'price':'4', 'count':11}]
df3 = pd.DataFrame(d3)
df3

Unnamed: 0,price,count
0,3,8
1,4,11


In [32]:
# создание из одного словаря без использования pn.Series

d4 = {'price':[1, 2, 3], 'count':[10, 12, 7]}
df4 = pd.DataFrame(d4, index = ['product 1', 'product 2', 'product 3'])

In [33]:
df4

Unnamed: 0,price,count
product 1,1,10
product 2,2,12
product 3,3,7


In [35]:
# узнать техническую информацию о таблице

df4.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, product 1 to product 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   price   3 non-null      int64
 1   count   3 non-null      int64
dtypes: int64(2)
memory usage: 60.0+ bytes


In [36]:
# обращение к элементам DataFrame

d = {
    'price':np.array([1, 2, 3]), 
    'count':np.array([10, 20, 30]), 
    'tax':[0.1, 0.2, 0.3]
    }
df = pd.DataFrame(d, index = ['a', 'b', 'c'])
df

Unnamed: 0,price,count,tax
a,1,10,0.1
b,2,20,0.2
c,3,30,0.3


In [37]:
df[df.columns[1]]

a    10
b    20
c    30
Name: count, dtype: int32

In [38]:
# выбор столбца

df['count']

a    10
b    20
c    30
Name: count, dtype: int32

In [40]:
# выбор набора столбцов

df[['count', 'price']]

Unnamed: 0,count,price
a,10,1
b,20,2
c,30,3


In [41]:
# выбор строки по ее имени 

df.loc['a']

price     1.0
count    10.0
tax       0.1
Name: a, dtype: float64

In [42]:
# по индексу

df.iloc[1]

price     2.0
count    20.0
tax       0.2
Name: b, dtype: float64

In [43]:
# slice по строкам

df[0:2]

Unnamed: 0,price,count,tax
a,1,10,0.1
b,2,20,0.2


In [44]:
# slice по меткам

df['b':'c']

Unnamed: 0,price,count,tax
b,2,20,0.2
c,3,30,0.3


In [45]:
# выбор строк по условию

df[df['count'] >= 20]

Unnamed: 0,price,count,tax
b,2,20,0.2
c,3,30,0.3


In [None]:
# функции для чтения из файла и записи в файл