## Настройка библиотеки pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# импортируем matplotlib для построения графиков
import matplotlib.pyplot as plt
%matplotlib inline

###  Создание объекта DataFrame на основе результатов функций NumPy

Создаем датафрейм из одномерного массива NumPy:

In [2]:
pd.DataFrame(np.arange(1, 6))

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


Создаем датафрейм из двумерного массива NumPy:

In [4]:
df = pd.DataFrame(np.array([[10, 11], [20, 21]]))
df

Unnamed: 0,0,1
0,10,11
1,20,21


In [5]:
df.columns # получаем индекс столбцов

RangeIndex(start=0, stop=2, step=1)

In [6]:
df = pd.DataFrame(np.array([[70, 71], [90, 91]]),
                  columns=['Russia', 'USA']) # задаем имена столбцов
df

Unnamed: 0,Russia,USA
0,70,71
1,90,91


In [7]:
len(df) # сколько строк?

2

In [8]:
df.shape # какова размерность датафрейма?

(2, 2)

## Создание объекта DataFrame с помощью питоновского словаря и объектов Series

In [9]:
temperatures = {'Moscow': [3, 1],
                'SPb': [2, -1]}
pd.DataFrame(temperatures)

Unnamed: 0,Moscow,SPb
0,3,2
1,1,-1


Создаем датафрейм для списка объектов Series:

In [10]:
temps_at_time0 = pd.Series([0, 2])
temps_at_time1 = pd.Series([1, 3])
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df

Unnamed: 0,0,1
0,0,2
1,1,3


In [11]:
df = pd.DataFrame([temps_at_time0, temps_at_time1],
                  columns=['Moscow', 'SPb'])  # попытаемся задать имена столбцов
df

Unnamed: 0,Moscow,SPb
0,,
1,,


In [12]:
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns = ['Moscow', 'SPb'] # задаем имена столбцов после создания датафрейма
df

Unnamed: 0,Moscow,SPb
0,0,2
1,1,3


## Создание объекта DataFrame на основе CSV-файла

Считываем данные и выводим первые пять строк. 

Используем столбец Symbol в качестве индекса и считываем только те столбцы, у которых позиции 0, 2, 3, 7.

In [14]:
sp500 = pd.read_csv("Data/new_year_film.csv", 
                    index_col='name')

In [15]:
sp500.head() # взглянем на первые 5 строк данных

Unnamed: 0_level_0,country,time,ranking,type,year,director
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Невеста,Россия,74,766,фильм,2006,Билли Уайлдер
Кто приходит в зимний вечер,Россия,90,6038,фильм,2006,Билли Уайлдер
Моя мама Снегурочка,Россия,90,6828,фильм,2007,Билли Уайлдер
Набережная Орфевр,Франция,106,7597,фильм,1947,Билли Уайлдер
Лузер,Россия,104,6065,фильм,2007,Билли Уайлдер


In [17]:
# сколько строк данных? должно быть 500
len(sp500)

500

In [18]:
# какова форма?
sp500.shape

(500, 3)

In [19]:
# каков размер?
sp500.size

1500

In [20]:
# исследуем индекс
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [21]:
# получаем столбцы
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

## Отбор столбцов в объекте DataFrame

In [22]:
# извлекаем столбец Sector
sp500['Sector'].head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

In [23]:
type(sp500['Sector'])

pandas.core.series.Series

In [24]:
# извлекаем столбцы Price и Book Value
sp500[['Price', 'Book Value']].head()

Unnamed: 0_level_0,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
MMM,141.14,26.668
ABT,39.6,15.573
ABBV,53.95,2.954
ACN,79.79,8.326
ACE,102.91,86.897


In [25]:
# покажем, что результат является объектом DataFrame
type(sp500[['Price', 'Book Value']])

pandas.core.frame.DataFrame

In [26]:
# атрибутивный доступ к столбцу по имени
sp500.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

## Отбор строк в объекте DataFrame

In [27]:
# получаем строку с меткой индекса MMM,
# которая возвращается в виде объекта Series
sp500.loc['MMM']

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [28]:
# получаем строки MMM и MSFT
# результатом будет объект DataFrame
sp500.loc[['MMM', 'MSFT']]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
MSFT,Information Technology,40.12,10.584


In [29]:
# получаем строки, имеющие позиции 0 и 2
sp500.iloc[[0, 2]]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABBV,Health Care,53.95,2.954


In [30]:
# получаем позиции меток MMM и A в индексе
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

(0, 10)

In [31]:
# и извлекаем строки
sp500.iloc[[i1, i2]]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
A,Health Care,56.18,16.928


## Поиск скалярного значения по метке и позиции с помощью .at[] и .iat[]

In [32]:
# ищем скалярное значение по метке строки
# и метке (имени) столбца
sp500.at['MMM', 'Price']

141.14

In [33]:
# ищем скалярное значение по позиции строки
# и позиции столбца
# извлекаем значение в строке 0, столбце 1
sp500.iat[0, 1]

141.14

## Создание среза датафрейма с помощью оператора []

In [34]:
# первые пять строк
sp500[:5]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MMM,Industrials,141.14,26.668
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ACE,Financials,102.91,86.897


In [35]:
# строки, начиная с метки ABT и заканчивая меткой ACN
sp500['ABT':'ACN']

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.6,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326


## Логический отбор строк

In [36]:
# какие строки имеют значения Price < 100?
sp500.Price < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

In [37]:
# теперь получим строки, в которых Price < 100
sp500[sp500.Price < 100]

Unnamed: 0_level_0,Sector,Price,Book Value
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ABT,Health Care,39.60,15.573
ABBV,Health Care,53.95,2.954
ACN,Information Technology,79.79,8.326
ADBE,Information Technology,64.30,13.262
AES,Utilities,13.61,5.781
...,...,...,...
XYL,Industrials,38.42,12.127
YHOO,Information Technology,35.02,12.768
YUM,Consumer Discretionary,74.77,5.147
ZION,Financials,28.43,30.191


In [38]:
# извлекаем лишь те строки, в которых
# значение Price < 10 и > 6
r = sp500[(sp500.Price < 10) & 
          (sp500.Price > 6)] ['Price']
r

Symbol
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

In [39]:
# извлекаем строки, в которых переменная Sector
# принимает значение Health Care, а переменная
# Price больше или равна 100.00
r = sp500[(sp500.Sector == 'Health Care') & 
          (sp500.Price > 100.00)] [['Price', 'Sector']]
r

Unnamed: 0_level_0,Price,Sector
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ACT,213.77,Health Care
ALXN,162.30,Health Care
AGN,166.92,Health Care
AMGN,114.33,Health Care
BCR,146.62,Health Care
...,...,...
REGN,297.77,Health Care
TMO,115.74,Health Care
WAT,100.54,Health Care
WLP,108.82,Health Care


## Одновременный отбор строк и столбцов

In [40]:
# отбираем строки с метками индекса ABT и ZTS
# для столбцов Sector и Price
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

Unnamed: 0_level_0,Sector,Price
Symbol,Unnamed: 1_level_1,Unnamed: 2_level_1
ABT,Health Care,39.6
ZTS,Health Care,30.53
