In [1]:
import pandas as pd
import numpy as np

In [9]:
df = pd.DataFrame({'Col1': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                   'Col2': [1, 3, 5, 7, 9, 11, 13, 15]}, columns=['Col1', 'Col2'])

In [10]:
df

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [11]:
df.shape

(8, 2)

In [12]:
df.columns

Index(['Col1', 'Col2'], dtype='object')

In [13]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Col1    8 non-null      object
 1   Col2    8 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


In [15]:
df.describe()

Unnamed: 0,Col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


In [16]:
df.head()

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9


In [17]:
df.head(2)

Unnamed: 0,Col1,Col2
0,a,1
1,b,3


In [18]:
df['Col1'].head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [19]:
df.Col1.head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [20]:
df.tail()

Unnamed: 0,Col1,Col2
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [21]:
df.Col2.tail()

3     7
4     9
5    11
6    13
7    15
Name: Col2, dtype: int64

Изменение индекса

In [23]:
df.index = [2, 4, 6, 8, 10, 12, 14, 16]

In [24]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


Выбор данных по индексу

In [25]:
df.loc[2, 'Col1']

'a'

In [26]:
df.loc[12, 'Col2']

11

In [27]:
df.loc[12]

Col1     f
Col2    11
Name: 12, dtype: object

In [28]:
df.loc[12, :]

Col1     f
Col2    11
Name: 12, dtype: object

Выбор данных по позиции

In [30]:
df.iloc[0, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [31]:
df.iloc[0:2, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [32]:
df.iloc[0:2, 0]

2    a
4    b
Name: Col1, dtype: object

Выбор по условию

In [35]:
df.loc[df['Col1'] == 'b', :]

Unnamed: 0,Col1,Col2
4,b,3


In [36]:
df.loc[df['Col1'] == 'b', 'Col2']

4    3
Name: Col2, dtype: int64

In [34]:
df.loc[df['Col1'] == 'b', 'Col2'].values

array([3], dtype=int64)

In [38]:
df.loc[df['Col2'] > 10, 'Col1']

12    f
14    g
16    h
Name: Col1, dtype: object

In [40]:
df.loc[(df['Col2'] > 10) & (df['Col1'] != 'g'), :]

Unnamed: 0,Col1,Col2
12,f,11
16,h,15


In [43]:
df.loc[(df['Col2'] > 10) | (df['Col2'] % 9 == 0), :]

Unnamed: 0,Col1,Col2
10,e,9
12,f,11
14,g,13
16,h,15


In [44]:
df.loc[df['Col2'].between(11, 13), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13


Выбор по значению

In [45]:
df.loc[df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9


Выбор всех кроме

In [46]:
df.loc[~df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


#### Метод query

In [47]:
df.query('Col1 == "b"')

Unnamed: 0,Col1,Col2
4,b,3


In [48]:
df.query('Col2 > 10')

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


#### Столбец DataFrame ввиде Series

In [49]:
s = df['Col1']

In [50]:
s

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
Name: Col1, dtype: object

In [51]:
type(s)

pandas.core.series.Series

#### Конвертирование Series in DataFrame

In [55]:
df2 = pd.DataFrame(s)

In [57]:
df2

Unnamed: 0,Col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


In [58]:
type(df2)

pandas.core.frame.DataFrame

#### Копирование DataFrame

In [59]:
df_copy = df.copy()

In [60]:
df_copy

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


#### Случайный выбор n-го кол-ва строк

In [62]:
df.sample(n = 2)

Unnamed: 0,Col1,Col2
4,b,3
12,f,11


#### Случайный выбор доли из DataFrame

In [64]:
df.sample(frac=0.5)

Unnamed: 0,Col1,Col2
16,h,15
8,d,7
6,c,5
4,b,3


#### Случайный выбор с возможным повторением строк

In [65]:
df.sample(frac=0.2, replace=True)

Unnamed: 0,Col1,Col2
4,b,3
16,h,15


#### Случайное перемешивание (возможно только при frac=1), random_state -> salt

In [68]:
df.sample(frac=1, random_state=42)

Unnamed: 0,Col1,Col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


#### Запись и чтение DataFrame в csv

In [69]:
df.to_csv('Test.csv', sep=';', index=False)

In [70]:
df_new = pd.read_csv('Test.csv', sep=';')
df_new

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15
