In [1]:
# Подключение библиотек
import pandas as pd
import numpy as np

<h1 align='center' style="color:#2E86C1 ">1. Series</h1>

## Создание Series

Создадим список с данными

In [2]:
a = [2, 5, 7, 8, 3]

### Создадим на основе этих данных Series

In [3]:
b = pd.Series(a)

Справа располонаются данные, слева индексы

In [4]:
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

#### Зададим индексы явно

Это могут быть числа:

In [5]:
b = pd.Series(a, index = [0, 1, 2, 3, 4])
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Либо символы:

In [6]:
b = pd.Series(a, index = ['a', 'b', 'c', 'd', 'e'])
b

a    2
b    5
c    7
d    8
e    3
dtype: int64

Можно также использовать в качестве индексов даты:

In [7]:
from datetime import date

Создаём список, который будет служить индексом в структуре данных Series

In [8]:
ind = [date(y, m, d) for y, m, d in [(2018, 1, 15), (2018, 1, 17), (2018, 1, 18), (2018, 1, 21), (2018, 1, 31)]]

In [9]:
b = pd.Series(a, index = ind)
b

2018-01-15    2
2018-01-17    5
2018-01-18    7
2018-01-21    8
2018-01-31    3
dtype: int64

dtype='object' - применяется для типов данных, у которых заранее не известен размер

In [10]:
 b.index

Index([2018-01-15, 2018-01-17, 2018-01-18, 2018-01-21, 2018-01-31], dtype='object')

#### Просмотр атрибутов yeat, month, day
Мы можем проспатривать только по одному элементу из индекса

In [11]:
b.index[0].year

2018

In [12]:
b.index[0].month

1

In [13]:
b.index[0].day

15

In [14]:
# Переводим в тип данных numpy datetime64
b.index = pd.to_datetime(b.index, format = '%Y-%m-%d')

In [15]:
b.index

DatetimeIndex(['2018-01-15', '2018-01-17', '2018-01-18', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)

#### Просмотр атрибутов yeat, month, day
Теперь можно получить все атрибуты

In [16]:
b.index.year

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')

In [17]:
b.index.month

Int64Index([1, 1, 1, 1, 1], dtype='int64')

In [18]:
b.index.day

Int64Index([15, 17, 18, 21, 31], dtype='int64')

#### Индексы могут быть не уникальными

In [19]:
b = pd.Series(a, index = [0, 1, 0, 2, 1])
b

0    2
1    5
0    7
2    8
1    3
dtype: int64

#### Замена индексов

In [20]:
b.index = [10, 11, 12, 13, 14]
b

10    2
11    5
12    7
13    8
14    3
dtype: int64

#### Заранее зададим тип данных

In [21]:
b = pd.Series(a, dtype = np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

#### Замена типа данных

In [22]:
b = pd.Series(a)
b = b.astype(np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

### Создание Series из словаря

In [23]:
d = {'1st':'a', '2nd':'b', '3rd':'c', '4th': 'd', '5th': 'e'}

In [24]:
b = pd.Series(d)
b

1st    a
2nd    b
3rd    c
4th    d
5th    e
dtype: object

## Получение данных

In [25]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

### Просмотр индексов
Увидим не все индексы, а с какого по какой и шаг

In [26]:
b.index

RangeIndex(start=0, stop=7, step=1)

Просмотр индексов в виде массива Numpy (ndarray):

In [27]:
b.values

array([5, 2, 6, 1, 6, 8, 7], dtype=int64)

### Доступ к данным по индеку (аналогично словарю):

In [28]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [29]:
b[2]

6

In [30]:
# Доступ по списку индексов
b[[0, 6]]

0    5
6    7
dtype: int64

**head()** - Просмотр первых элементов (по умолчанию 5)

In [31]:
b.head()

0    5
1    2
2    6
3    1
4    6
dtype: int64

Укажем количество первых элементов

In [32]:
b.head(3)

0    5
1    2
2    6
dtype: int64

**tail()** - Просмотр последних элеметнов (по умолчанию 5)

In [33]:
b.tail()

2    6
3    1
4    6
5    8
6    7
dtype: int64

Укажем количество последних элементов

In [34]:
b.tail(3)

4    6
5    8
6    7
dtype: int64

### Выборка по условию

In [35]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [36]:
b[b > 5]

2    6
4    6
5    8
6    7
dtype: int64

In [37]:
b[(b == 7) | (b % 3 == 0)]

2    6
4    6
6    7
dtype: int64

### Изменение элементов

In [38]:
b = pd.Series([5, 2, 6, 1, 6, 8, 7])

In [39]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [40]:
b[0] = 4
b

0    4
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [41]:
b[b < 5] = 0
b

0    0
1    0
2    6
3    0
4    6
5    8
6    7
dtype: int64

In [42]:
b[[0, 1, 2]] = 1
b

0    1
1    1
2    1
3    0
4    6
5    8
6    7
dtype: int64

### Добавление данных

In [43]:
b = b.append(pd.Series({6:10, 7:15, 8:11, 9:14}))
b

0     1
1     1
2     1
3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

### Удаление данных по индексу

In [44]:
b = b.drop([0, 1, 2])
b

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

### Запись и чтение данных из файла

In [45]:
# Записываем Series в файл
b.to_pickle('b.pkl')

In [46]:
# Читаем данные из файла
b2 = pd.read_pickle('b.pkl')

In [47]:
b2

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

-------------------

<h1 align='center' style="color:#2E86C1 ">2. Структура данных DataFrame</h1>

## Создание DataFrame

**DataFrame** - двумерная структура данных библиотеки Pandas

Создадим DataFrame

In [49]:
# columns=... Можно не указывать, так как кортеж
df = pd.DataFrame({'Col1':['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h' ],
                   'Col2':[1, 3, 5, 7, 9, 11, 13, 15]}, columns=['Col1', 'Col2'])
df

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


## Просмотр информации о DataFrame

In [50]:
df.shape

(8, 2)

#### Просмотр список столбцов

In [51]:
df.columns

Index(['Col1', 'Col2'], dtype='object')

#### Просмотр индексов DataFrame

In [52]:
df.index

RangeIndex(start=0, stop=8, step=1)

#### Метод info()

In [53]:
# Метод info покажет ко-во строк в каждом столбце не считая пропущенные значения
# Также покажет тип данных каждого столбца
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
Col1    8 non-null object
Col2    8 non-null int64
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


#### Метод discribe()

In [54]:
# Данный метод показывает основные статестические данные
df.describe()

Unnamed: 0,Col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


#### head()

In [55]:
# Получение первых строк DataFrame
df.head()

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9


Вывод первых строк для отдельного столбца

In [56]:
df['Col1'].head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [57]:
df.Col1.head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

## Изменение индекса

In [58]:
df.index = [2, 4, 6, 8, 10, 12, 14, 16]

In [59]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


## Выбор данных по индексу

In [60]:
# Выбор данных индекса 2, столбца 'Col1'
df.loc[2, 'Col1']

'a'

In [61]:
# Выбор всех столбцов и нескольких индексов
df.loc[2:4, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


## Выбор данных по позиции

In [62]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [63]:
# Просмотр самой верхней строки df
df.iloc[0, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [64]:
# Срез с 0 по 2 строку
df.iloc[0:2, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [65]:
# Для просмотра конкретного столбца указываем его позицию
df.iloc[0:2, 0]

2    a
4    b
Name: Col1, dtype: object

## Выбор по условию

**Выбор всех строк, где значение в столбце 'Col1' == 'b'**

In [66]:
df.loc[df['Col1'] == 'b', :]

Unnamed: 0,Col1,Col2
4,b,3


Делаем тоже самое, но выводим столбец 'Col2'

In [67]:
df.loc[df['Col1'] == 'b', 'Col2']

4    3
Name: Col2, dtype: int64

Просмотр данных в виде многомерного массива Numpy 

In [68]:
df.loc[df['Col1'] == 'b', 'Col2'].values

array([3], dtype=int64)

**Выбор строк, где значение столбца Col2 > 10**

Просматриваем только столбец Col1

In [69]:
df.loc[df['Col2'] > 10, 'Col1']

12    f
14    g
16    h
Name: Col1, dtype: object

#### Логическое &

In [70]:
df.loc[(df['Col2'] > 10) & (df['Col1'] != 'g'), :]

Unnamed: 0,Col1,Col2
12,f,11
16,h,15


#### Логическое |

In [71]:
df.loc[(df['Col2'] > 10) | (df['Col2'] % 9 == 0), :]

Unnamed: 0,Col1,Col2
10,e,9
12,f,11
14,g,13
16,h,15


**between** - Задаём отрезок, которому должен соответствовать столбец

In [72]:
df.loc[df['Col2'].between(11, 13), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13


**isin** - Указываем конкретные элементы, которые нужны

In [73]:
df.loc[df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9


**~** - Отрицание

In [74]:
df.loc[~df['Col1'].isin(['a', 'b', 'c', 'd', 'e']), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


## Метод query

In [75]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [76]:
df.query('Col1 == "b"')

Unnamed: 0,Col1,Col2
4,b,3


In [77]:
df.query('Col2 > 10')

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


## Столбец DataFrame в виде Series

Когда выбираем 1 столбец, то получаем структуру данных Series

In [78]:
s = df['Col1']

In [79]:
s

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
Name: Col1, dtype: object

In [80]:
type(s)

pandas.core.series.Series

## Получение DataFrame из Series

In [81]:
df2 = pd.DataFrame(s)
df2

Unnamed: 0,Col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


## Копирование DataFrame

In [82]:
df_copy = df.copy()
df_copy

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


## Случайный выбор n-го количества строк

In [83]:
df.sample(n = 2)

Unnamed: 0,Col1,Col2
14,g,13
8,d,7


## Случайны выбор доли от исходного DataFrame

In [84]:
df.sample(frac = 0.5)

Unnamed: 0,Col1,Col2
6,c,5
10,e,9
16,h,15
12,f,11


In [85]:
# replace = True - Строки могут повторяться
df.sample(frac = 0.5, replace = True)

Unnamed: 0,Col1,Col2
6,c,5
8,d,7
4,b,3
4,b,3


## Случайное перемешивание

In [86]:
# Используем Sample, где frac = 1.0
# random_state - Для воспроизводимости перемещивания
df.sample(frac = 1.0, random_state = 42)

Unnamed: 0,Col1,Col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


## Запись и чтение DataFrame в csv

In [87]:
df.to_csv('Test.csv', sep = ';', index = False)

In [88]:
df_new = pd.read_csv('Test.csv', sep = ';')

In [89]:
df_new

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


Запись в excel и pickle - с помощью методов to_excel, to_pickle. Чтение - read_excel, read_pickle.