# Настройка библиотеки pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# Создание объекта DataFrame на основе результатов функций NumPy

In [2]:
# создаем датафрейм из одномерного
# массива NumPy
pd.DataFrame(np.arange(1, 6))

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [3]:
# создаем датафрейм из двумерного
# массива NumPy
df = pd.DataFrame(np.array([[10, 11], [20, 21]]))
df

Unnamed: 0,0,1
0,10,11
1,20,21


In [4]:
# получаем индекс столбцов
df.columns

RangeIndex(start=0, stop=2, step=1)

In [5]:
# задаем имена столбцов
df = pd.DataFrame(np.array([[70, 71], [90, 91]]),
                  columns=['Missoula', 'Philadelphia'])
df

Unnamed: 0,Missoula,Philadelphia
0,70,71
1,90,91


In [6]:
# сколько строк?
len(df)

2

In [7]:
# какова размерность датафрейма?
df.shape

(2, 2)

# Создание объекта DataFrame с помощью питоновского словаря и объектов Series

In [8]:
# создание датафрейма с помощью
# питоновского словаря
temps_missoula = [70, 71]
temps_philly = [90, 91]
temperatures = {'Missoula': temps_missoula,
                'Philadelphia': temps_philly}
pd.DataFrame(temperatures)

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [9]:
# создаем датафрейм для списка объектов Series
temps_at_time0 = pd.Series([70, 90])
temps_at_time1 = pd.Series([71, 91])
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df

Unnamed: 0,0,1
0,70,90
1,71,91


In [10]:
# попытаемся задать имена столбцов
df = pd.DataFrame([temps_at_time0, temps_at_time1],
                  columns=['Missoula', 'Philadelphia'])
df

Unnamed: 0,Missoula,Philadelphia
0,,
1,,


In [11]:
# задаем имена столбцов после создания датафрейма
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns = ['Missoula', 'Philadelphia']
df

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [12]:
# создаем датафрейм с помощью словаря,
# состоящего из объектов Series
temps_mso_series = pd.Series(temps_missoula)
temps_phl_series = pd.Series(temps_philly)
df = pd.DataFrame({'Missoula': temps_mso_series,
                   'Philadelphia': temps_phl_series})
df

Unnamed: 0,Missoula,Philadelphia
0,70,90
1,71,91


In [13]:
# выравнивание происходит при создании датафрейма
temps_nyc_series = pd.Series([85, 87], index=[1, 2])
df = pd.DataFrame({'Missoula': temps_mso_series,
                   'Philadelphia': temps_phl_series,
                   'New York': temps_nyc_series})
df

Unnamed: 0,Missoula,Philadelphia,New York
0,70.0,90.0,
1,71.0,91.0,85.0
2,,,87.0


# Создание объекта DataFrame на основе CSV-файла

In [14]:
# считываем данные и выводим первые пять строк
# используем столбец Symbol в качестве индекса
# и считываем только те столбцы, у которых
# позиции 0, 2, 3, 7
sp500 = pd.read_csv("Data/sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

In [15]:
# взглянем на первые 5 строк данных с помощью
# метода .head()
sp500.head()

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [16]:
# сколько строк данных? должно быть 500
len(sp500)

500

In [17]:
# какова форма?
sp500.shape

(500, 3)

In [18]:
# каков размер?
sp500.size

1500

In [19]:
# исследуем индекс
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [20]:
# получаем столбцы
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

# Отбор столбцов в объекте DataFrame

In [21]:
# извлекаем столбец Sector
sp500['Sector'].head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

In [22]:
type(sp500['Sector'])

pandas.core.series.Series

In [23]:
# извлекаем столбцы Price и Book Value
sp500[['Price', 'Book Value']].head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897


In [24]:
# покажем, что результат является объектом DataFrame
type(sp500[['Price', 'Book Value']])

pandas.core.frame.DataFrame

In [25]:
# атрибутивный доступ к столбцу по имени
sp500.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

# Отбор строк в объекте DataFrame

In [26]:
# получаем строку с меткой индекса MMM,
# которая возвращается в виде объекта Series
sp500.loc['MMM']

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [27]:
# получаем строки MMM и MSFT
# результатом будет объект DataFrame
sp500.loc[['MMM', 'MSFT']]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
MSFT,Information Technology,40.12,10.584


In [28]:
# получаем строки, имеющие позиции 0 и 2
sp500.iloc[[0, 2]]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABBV,Health Care,53.95,2.954


In [29]:
# получаем позиции меток MMM и A в индексе
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

(0, 10)

In [30]:
# и извлекаем строки
sp500.iloc[[i1, i2]]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
A,Health Care,56.18,16.928


# Поиск скалярного значения по метке и позиции с помощью .at[] и .iat[]

In [31]:
# ищем скалярное значение по метке строки
# и метке (имени) столбца
sp500.at['MMM', 'Price']

141.14

In [32]:
# ищем скалярное значение по позиции строки
# и позиции столбца
# извлекаем значение в строке 0, столбце 1
sp500.iat[0, 1]

141.14

# Создание среза датафрейма с помощью оператора []

In [33]:
# первые пять строк
sp500[:5]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [34]:
# строки, начиная с метки ABT и заканчивая меткой ACN
sp500['ABT':'ACN']

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326


# Логический отбор строк

In [35]:
# какие строки имеют значения Price < 100?
sp500.Price < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

In [36]:
# теперь получим строки, в которых Price < 100
sp500[sp500.Price < 100]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ADBE,Information Technology,64.30,13.262
AES,Utilities,13.61,5.781
...,...,...,...
XYL,Industrials,38.42,12.127
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZION,Financials,28.43,30.191


In [37]:
# извлекаем лишь те строки, в которых
# значение Price < 10 и > 6
r = sp500[(sp500.Price < 10) & 
          (sp500.Price > 6)] ['Price']
r

Symbol
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

In [38]:
# извлекаем строки, в которых переменная Sector
# принимает значение Health Care, а переменная
# Price больше или равна 100.00
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price > 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.3,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
BDX,115.7,Health Care
BIIB,299.71,Health Care
CELG,150.13,Health Care
HUM,124.49,Health Care
ISRG,363.86,Health Care


# Одновременный отбор строк и столбцов

In [39]:
# отбираем строки с метками индекса ABT и ZTS
# для столбцов Sector и Price
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53
