# Настройка библиотеки pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

# Создание объекта DataFrame на основе результатов функций NumPy

In [2]:
# создаем датафрейм из одномерного
# массива NumPy
pd.DataFrame(np.arange(1, 6))

   0
0  1
1  2
2  3
3  4
4  5

In [3]:
# создаем датафрейм из двумерного
# массива NumPy
df = pd.DataFrame(np.array([[10, 11], [20, 21]]))
df

    0   1
0  10  11
1  20  21

In [4]:
# получаем индекс столбцов
df.columns

RangeIndex(start=0, stop=2, step=1)

In [6]:
# задаем имена столбцов
df = pd.DataFrame(np.array([[20, 21], [22, 23]]),
                  columns=['Minsk', 'Vitebsk'])
df

   Minsk  Vitebsk
0     20       21
1     22       23

In [7]:
# сколько строк?
len(df)

2

In [8]:
# какова размерность датафрейма?
df.shape

(2, 2)

# Создание объекта DataFrame с помощью питоновского словаря и объектов Series

In [9]:
# создание датафрейма с помощью
# питоновского словаря
temps_minsk = [20, 21]
temps_vitebsk = [22, 23]
temperatures = {'Minsk': temps_minsk,
                'Vitebsk': temps_vitebsk}
pd.DataFrame(temperatures)

   Minsk  Vitebsk
0     20       22
1     21       23

In [10]:
# создаем датафрейм для списка объектов Series
temps_at_time0 = pd.Series([20, 22])
temps_at_time1 = pd.Series([21, 23])
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df

    0   1
0  20  22
1  21  23

In [None]:
# попытаемся задать имена столбцов
df = pd.DataFrame([temps_at_time0, temps_at_time1],
                  columns=['Minsk', 'Vitebsk'])
df

In [None]:
# задаем имена столбцов после создания датафрейма
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns = ['Minsk', 'Vitebsk']
df

In [None]:
# создаем датафрейм с помощью словаря,
# состоящего из объектов Series
temps_min_series = pd.Series(temps_missoula)
temps_vit_series = pd.Series(temps_philly)
df = pd.DataFrame({'Minsk': temps_min_series,
                   'Vitebsk': temps_vit_series})
df

In [None]:
# выравнивание происходит при создании датафрейма
temps_gom_series = pd.Series([25, 27], index=[1, 2])
df = pd.DataFrame({'Missoula': temps_min_series,
                   'Vitebsk': temps_vit_series,
                   'Gomel': temps_gom_series})
df

# Создание объекта DataFrame на основе CSV-файла

In [None]:
# считываем данные и выводим первые пять строк
# используем столбец Symbol в качестве индекса
# и считываем только те столбцы, у которых
# позиции 0, 2, 3, 7
sp500 = pd.read_csv("Data/sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

In [None]:
# взглянем на первые 5 строк данных с помощью
# метода .head()
sp500.head()

In [None]:
# сколько строк данных? должно быть 500
len(sp500)

In [None]:
# какова форма?
sp500.shape

In [None]:
# каков размер?
sp500.size

In [None]:
# исследуем индекс
sp500.index

In [None]:
# получаем столбцы
sp500.columns

# Отбор столбцов в объекте DataFrame

In [None]:
# извлекаем столбец Sector
sp500['Sector'].head()

In [None]:
type(sp500['Sector'])

In [None]:
# извлекаем столбцы Price и Book Value
sp500[['Price', 'Book Value']].head()

In [None]:
# покажем, что результат является объектом DataFrame
type(sp500[['Price', 'Book Value']])

In [None]:
# атрибутивный доступ к столбцу по имени
sp500.Price

# Отбор строк в объекте DataFrame

In [None]:
# получаем строку с меткой индекса MMM,
# которая возвращается в виде объекта Series
sp500.loc['MMM']

In [None]:
# получаем строки MMM и MSFT
# результатом будет объект DataFrame
sp500.loc[['MMM', 'MSFT']]

In [None]:
# получаем строки, имеющие позиции 0 и 2
sp500.iloc[[0, 2]]

In [None]:
# получаем позиции меток MMM и A в индексе
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

In [None]:
# и извлекаем строки
sp500.iloc[[i1, i2]]

# Создание среза датафрейма с помощью оператора []

In [None]:
# первые пять строк
sp500[:5]

In [None]:
# строки, начиная с метки ABT и заканчивая меткой ACN
sp500['ABT':'ACN']

# Логический отбор строк

In [None]:
# какие строки имеют значения Price < 100?
sp500.Price < 100

In [None]:
# теперь получим строки, в которых Price < 100
sp500[sp500.Price < 100]

In [None]:
# извлекаем лишь те строки, в которых
# значение Price < 10 и > 6
r = sp500[(sp500.Price < 10) & 
          (sp500.Price > 6)] ['Price']
r

In [None]:
# извлекаем строки, в которых переменная Sector
# принимает значение Health Care, а переменная
# Price больше или равна 100.00
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price > 100.00)] [['Price', 'Sector']]
r

# Одновременный отбор строк и столбцов

In [None]:
# отбираем строки с метками индекса ABT и ZTS
# для столбцов Sector и Price
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]