In [2]:
import numpy as np
import pandas as pd

**DataFrame** - двумерная структура данных библиотеки Pandas

Создадим DataFrame:

In [3]:
df = pd.DataFrame({'Col1':['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                   'Col2':[1, 3, 5, 7, 9, 11, 13, 15]}, columns=['Col1', 'Col2'])

In [4]:
df

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


**Просмотр информации о DataFrame**

In [4]:
df.shape

(8, 2)

In [5]:
df.columns

Index(['Col1', 'Col2'], dtype='object')

In [6]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
Col1    8 non-null object
Col2    8 non-null int64
dtypes: int64(1), object(1)
memory usage: 208.0+ bytes


In [8]:
df.describe()

Unnamed: 0,Col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


In [9]:
df.head()

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9


In [10]:
df.head(2)

Unnamed: 0,Col1,Col2
0,a,1
1,b,3


In [11]:
df['Col1'].head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [12]:
df.Col1.head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [13]:
df.tail()

Unnamed: 0,Col1,Col2
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


**Изменение индекса**

In [14]:
df.index = [2, 4, 6, 8, 10, 12, 14, 16]

In [15]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


**Выбор данных по индексу**

In [16]:
df.loc[2, 'Col1']

'a'

In [17]:
df.loc[2, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [18]:
df.loc[2:4, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


**Выбор данных по позиции**

In [19]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [20]:
df.iloc[0, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [21]:
df.iloc[0:2, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [22]:
df.iloc[0:2, 0]

2    a
4    b
Name: Col1, dtype: object

**Выбор по условию**

In [23]:
df.loc[df['Col1'] == 'b', :]

Unnamed: 0,Col1,Col2
4,b,3


In [24]:
df.loc[df['Col1'] == 'b', 'Col2']

4    3
Name: Col2, dtype: int64

In [25]:
df.loc[df['Col1'] == 'b', 'Col2'].values

array([3], dtype=int64)

In [26]:
df.loc[df['Col2'] > 10, 'Col1']

12    f
14    g
16    h
Name: Col1, dtype: object

In [27]:
df.loc[(df['Col2'] > 10) & (df['Col1'] != 'g'), :]

Unnamed: 0,Col1,Col2
12,f,11
16,h,15


In [28]:
df.loc[(df['Col2'] > 10) | (df['Col2'] % 9 == 0), :]

Unnamed: 0,Col1,Col2
10,e,9
12,f,11
14,g,13
16,h,15


In [29]:
df.loc[df['Col2'].between(11, 13), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13


In [30]:
df.loc[df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9


In [31]:
df.loc[~df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


**Метод query**

In [32]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [33]:
df.query('Col1 == "b"')

Unnamed: 0,Col1,Col2
4,b,3


In [34]:
df.query('Col2 > 10')

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


**Столбец DataFrame в виде Series**

In [35]:
s = df['Col1']

In [36]:
s

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
Name: Col1, dtype: object

In [37]:
type(s)

pandas.core.series.Series

**Получение DataFrame из Series**

In [38]:
df2 = pd.DataFrame(s)
df2

Unnamed: 0,Col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


**Копирование DataFrame**

In [39]:
df_copy = df.copy()

In [40]:
df_copy

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


**Случайный выбор n-го количества строк**

In [41]:
df.sample(n = 2)

Unnamed: 0,Col1,Col2
2,a,1
16,h,15


**Случайный выбор доли от исходного датафрейма**

In [42]:
df.sample(frac = 0.5)

Unnamed: 0,Col1,Col2
14,g,13
10,e,9
12,f,11
8,d,7


**Случайный выбор с возвращением (строки могут повторяться)**

In [11]:
df.sample(frac=0.5, replace=True)

Unnamed: 0,Col1,Col2
1,b,3
3,d,7
3,d,7
2,c,5


**Случайное перемешивание**

In [44]:
# random_state - для воспроизводимости перемешивания
df.sample(frac = 1.0, random_state=42)

Unnamed: 0,Col1,Col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


**Запись и чтение DataFrame в csv**

In [45]:
df.to_csv('Test.csv', sep = ';', index = False)

In [46]:
df_new = pd.read_csv('Test.csv', sep = ';')

In [47]:
df_new

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


(Запись в excel и pickle - с помощью методов to_excel, to_pickle.
Чтение - read_excel, read_pickle).