In [None]:
import pandas as pd
import numpy as np



# Глава 1. Структуры данных в *Pandas*: *Series* и *DataFrame*

Создать структуру `Series` можно на базе следующих типов данных:
- словарь (dict) Python;
- список (list) Python;
- массив ndarray (из библиотеки numpy);
- скалярная величина.

Конструктор класса Series выглядит следующим образом:  
Series(data=None,  
index=None,  
dtype=None,  
name=None,  
copy=False,  
fastpath=False)  

1.1.1 Создание Series из списка Python

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5])
s1

In [None]:
s2 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
s2

1.1.2 Создание Series из ndarray массива из numpy

In [None]:
ndarr = np.array([1, 2, 3, 4, 5])
print(type(ndarr))

In [None]:
s3 = pd.Series(ndarr, ['a', 'b', 'c', 'd', 'e'])
s3

1.1.3 Создание Series из словаря (dict)

In [None]:
d = {'a':1, 'b':2, 'c':3}
s4 = pd.Series(d)
s4

1.1.4 Создание Series с использованием константы

In [None]:
a = 7
s5 = pd.Series(a, ['a', 'b', 'c'])
s5

1.1.5 Работа с элементами Series

In [None]:
s6 = pd.Series([1, 2, 3, 4, 5], ['a', 'b', 'c', 'd', 'e'])
print(s6[2])
print(s6['d']*'--')

print(s6['d'])
print(s6['d']*'--')

print(s6[:'d'])# 'd' входит в диапазон
print(s6['d']*'--')

print(s6[:2])
print(s6['d']*'--')

print(s6[s6 >= 3])

In [None]:
s7 = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s6 + s7

In [None]:
s6*3

1.2 Структура данных `DataFrame`

Конструктор класса DataFrame выглядит так:  
DataFrame(data=None,  
index=None,  
columns=None,  
dtype=None,  
copy=False)

Структуру DataFrame можно создать на базе следующих типов данных:  
• словарь (dict), в качестве элементов которого могут выступать:  
одномерные ndarray, списки, другие словари, структуры Series;  
• двумерный ndarray;  
• структура Series;  
• другой DataFrame.  

1.2.1 Создание DataFrame из словаря

In [None]:
d = {'price': pd.Series([1, 2, 3], index=['v1', 'v2', 'v3']), 'count': pd.Series([10, 12, 7], index=['v1', 'v2', 'v3'])}
df1 = pd.DataFrame(d)
df1

In [None]:
print(df1.index)
print(df1.columns)

Построим аналогичный словарь, но на элементах `ndarray`:

In [None]:
d2 = {'price':np.array([1, 2, 3]), 'count':np.array([10, 12, 7])}
df2 = pd.DataFrame(d2, index=['v1', 'v2', 'v3'])
df2

In [None]:
print(df2.index)
print(df2.columns)

1.2.2 Создание DataFrame из списка словарей

In [None]:
d3 = [{'price':3, 'count':8}, {'price':4, 'count':11}]
df3 = pd.DataFrame(d3)
df3

In [None]:
dx = {'price':[3, 4], 'count':[8, 11]}
dfx = pd.DataFrame(dx)
dfx

In [None]:
print(df3.info())

1.2.3 Создание DataFrame из двумерного массива

In [None]:
nda1 = np.array([[1, 2, 3], [10, 20, 30]])
df4 = pd.DataFrame(nda1)
df4

In [None]:
nda1 = np.array([[1, 2, 3], [10, 20, 30]])
df4 = pd.DataFrame(nda1, columns=['price', 'count', 'percent'])
# or
#df4.columns = ['price', 'count', 'percent']
df4

1.2.4 Работа с элементами DataFrame

In [None]:
ndat = np.array([['Выбор столбца', 'df[col]', 'Series'], ['Выбор строки по метке', 'df.loc[label]', 'Series'], ['Выбор строки по индексу', 'df.iloc[loc]', 'Series'], ['Срез по строкам', 'df[0:4]', 'DataFrame'], ['Выбор строк, отвечающих условию', 'df[bool_vec]', 'DataFrame']])
table = pd.DataFrame(ndat, columns=['Операция', 'Синтаксис', 'Возвращаемый результат'])
table

In [None]:
d = {'price':np.array([1, 2, 3]), 'count':np.array([10, 20, 30])}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

In [None]:
#Операция: выбор столбца:
print(df['count'])
print('---------------')
#Операция: выбор строки по метке:
print(df.loc['a'])
print('---------------')
#Операция: выбор строки по индексу:
print(df.iloc[1])
print('---------------')
#Операция: срез по строкам:
print(df[0:2])
print(df[:2])
print(df[:'b']) # 'b' входит в срез
print('---------------')
#Операция: выбор строк, отвечающих условию:
print(df[df['count'] >= 20])

# Глава 2. Доступ к данным в структурах pandas

In [None]:
#Структура Series:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s

In [None]:
#Структура DataFrame:
d = {'price':[1, 2, 3], 'count': [10, 20, 30], 'percent': [24, 51,
71]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

2.2 Доступ к данным структуры Series

In [None]:
#Обращение по отдельной метке:
print(s['a'])
print('--------')

#Обращение по массиву меток:
print(s[['a', 'c', 'e']])
print('--------')

#Обращение по срезу меток:
print(s['a':'c'])

2.2.2 Доступ с использованием целочисленных индексов

In [None]:
print(s[1])
print('---------')
print(s[[1,2,3]])
print('---------')
print(s[1:2])
print('---------')

2.2.3 Доступ с использованием callable-функции

In [None]:
s[lambda x: x >= 30]

2.2.4 Доступ с использованием логического выражения

In [None]:
s[s>=30]

2.3 Доступ к данным структуры DataFrame

In [None]:
#Обращение к конкретному столбцу.
print(df['count'])
print('-----------')

#Обращение по срезу меток.
print(df['a':'b'])
print('-----------')

2.3.2 Доступ с использованием callable-функции

In [None]:
print(df[lambda x: x['count'] > 15])
print('----------')
print(df['count'][lambda x: x > 15])

2.3.3 Доступ с использованием логического выражения

In [None]:
df[df['price'] >= 2]

2.4 Использование атрибутов для доступа к данным

Series:

In [None]:
s = pd.Series([10, 20, 30, 40, 50], ['a', 'b', 'c', 'd', 'e'])
s

In [None]:
s.a
s.c

DataFrame:

In [None]:
d = {'price':[1, 2, 3], 'count': [10, 20, 30], 'percent': [24, 51,
71]}
df = pd.DataFrame(d, index=['a', 'b', 'c'])
df

In [None]:
df.price
# but not:
#df.a # - AttributeError: 'DataFrame' object has no attribute 'a'

2.5 Получение случайного набора из структур pandas

Series:

In [None]:
s.sample()

In [None]:
s.sample(n=3)

Есть возможность указать долю от общего числа объектов в структуре,
за это отвечает параметр frac:

In [None]:
s.sample(frac=0.3)

В нашей тестовой структуре пять элементов, сформируем вектор весов
для нее и сделаем выборку из трех элементов:

In [None]:
w = [0.1, 0.2, 0.5, 0.1, 0.1] # Vector weights(in fractions). sum(w) = 1
s.sample(n = 3, weights=w)

DataFrame:

In [None]:
d = {'price':[1, 2, 3, 5, 6], 'count': [10, 20, 30, 40, 50],
'percent': [24, 51, 71, 25, 42]}
df = pd.DataFrame(d)
df.sample()

При работе с DataFrame можно указать ось.

In [None]:
df.sample(axis=1)

Выбор двух столбцов случайным образом:

In [None]:
df.sample(n=2, axis=1)

Выбор двух строк случайным образом:

In [None]:
df.sample(n = 2)

2.6 Индексация с использованием логических выражений