# Настройка pandas

In [1]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)

# считываем данные в DataFrame, используя в качестве
# индекса столбец Symbol и записывая только те 
# столбцы, которые имеют позиции 0, 2, 3, 7
sp500 = pd.read_csv("Data/sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

# Переименование столбцов

In [2]:
# переименовываем столбец Book Value так, чтобы удалить пробел
# программный код возращает копию датафрейма с переименованным 
# столбцом
newSP500 = sp500.rename(columns=
                        {'Book Value': 'BookValue'})
# печатаем первые 2 строки
newSP500[:2]

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573

In [3]:
# проверяем, не изменились ли имена столбцов
# в исходном датафрейме
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [4]:
# этот программный код переименовывает
# столбец на месте
sp500.rename(columns=                  
             {'Book Value': 'BookValue'},                   
             inplace=True)
# смотрим, изменилось ли имя столбца
sp500.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

In [5]:
# и теперь мы можем воспользоваться свойством .BookValue
sp500.BookValue[:5]

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
ACN      8.326
ACE     86.897
Name: BookValue, dtype: float64

# Добавление новых столбцов с помощью оператора [] и метода .insert()

In [6]:
# создаем копию, чтобы исходные данные остались в неизменном виде
sp500_copy = sp500.copy()
# добавляем столбец
sp500_copy['RoundedPrice'] = sp500.Price.round()
sp500_copy[:2]

             Sector   Price  BookValue  RoundedPrice
Symbol                                              
MMM     Industrials  141.14     26.668         141.0
ABT     Health Care   39.60     15.573          40.0

In [7]:
# создаем копию, чтобы исходные данные остались в неизменном виде
copy = sp500.copy()
# вставляем столбец RoundedPrice в качестве 
# второго столбца датафрейма
copy.insert(1, 'RoundedPrice', sp500.Price.round())
copy[:2]

             Sector  RoundedPrice   Price  BookValue
Symbol                                              
MMM     Industrials         141.0  141.14     26.668
ABT     Health Care          40.0   39.60     15.573

# Добавление столбцов за счет расширения датафрейма

In [8]:
# создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем столбец с нулевыми значениями
ss.loc[:,'PER'] = 0
# смотрим результаты
ss

             Sector   Price  BookValue  PER
Symbol                                     
MMM     Industrials  141.14     26.668    0
ABT     Health Care   39.60     15.573    0
ABBV    Health Care   53.95      2.954    0

In [9]:
# создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем новый столбец со случайно 
# сгенерированными значениями
np.random.seed(123456)
ss.loc[:,'PER'] = pd.Series(np.random.normal(size=3), index=ss.index)
# смотрим результаты
ss

             Sector   Price  BookValue       PER
Symbol                                          
MMM     Industrials  141.14     26.668  0.469112
ABT     Health Care   39.60     15.573 -0.282863
ABBV    Health Care   53.95      2.954 -1.509059

# Добавление столбцов с помощью конкатенации

In [10]:
# создаем объект DataFrame с единственным 
# столбцом RoundedPrice
rounded_price = pd.DataFrame({'RoundedPrice':    
                              sp500.Price.round()})
# конкатенируем по оси столбцов
concatenated = pd.concat([sp500, rounded_price], axis=1)
concatenated[:5]

                        Sector   Price  BookValue  \
Symbol                                              
MMM                Industrials  141.14     26.668   
ABT                Health Care   39.60     15.573   
ABBV               Health Care   53.95      2.954   
ACN     Information Technology   79.79      8.326   
ACE                 Financials  102.91     86.897   

        RoundedPrice  
Symbol                
MMM            141.0  
ABT             40.0  
ABBV            54.0  
ACN             80.0  
ACE            103.0  

In [11]:
# создаем объект DataFrame с единственным 
# столбцом Price
rounded_price = pd.DataFrame({'Price': sp500.Price.round()})
rounded_price[:5]

        Price
Symbol       
MMM     141.0
ABT      40.0
ABBV     54.0
ACN      80.0
ACE     103.0

In [12]:
# в результате получаем два столбца Price
dups = pd.concat([sp500, rounded_price], axis=1)
dups[:5]

                        Sector   Price  BookValue  Price
Symbol                                                  
MMM                Industrials  141.14     26.668  141.0
ABT                Health Care   39.60     15.573   40.0
ABBV               Health Care   53.95      2.954   54.0
ACN     Information Technology   79.79      8.326   80.0
ACE                 Financials  102.91     86.897  103.0

In [13]:
# извлекаем оба столбца Price
dups.Price[:5]

         Price  Price
Symbol               
MMM     141.14  141.0
ABT      39.60   40.0
ABBV     53.95   54.0
ACN      79.79   80.0
ACE     102.91  103.0

# Переупорядочивание столбцов

In [14]:
# возвращаем новый объект DataFrame со столбцами,
# расположенными в обратном порядке
reversed_column_names = sp500.columns[::-1]
sp500[reversed_column_names][:5]

        BookValue   Price                  Sector
Symbol                                           
MMM        26.668  141.14             Industrials
ABT        15.573   39.60             Health Care
ABBV        2.954   53.95             Health Care
ACN         8.326   79.79  Information Technology
ACE        86.897  102.91              Financials

# Замена содержимого столбца

In [15]:
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price новыми значениями
# вместо добавления нового столбца
copy.Price = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

In [16]:
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price округленными значениями
copy.loc[:,'Price'] = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

# Удаление столбцов

In [17]:
# пример использования del для удаления столбца
# делаем копию, потому что операция выполняется на месте
copy = sp500.copy()
del copy['BookValue']
copy[:2]

             Sector   Price
Symbol                     
MMM     Industrials  141.14
ABT     Health Care   39.60

In [18]:
# пример использования pop для удаления столбца из датафрейма
# делаем копию, потому что операция выполняется на месте
copy = sp500.copy()
# эта строка удалит столбец Sector и возвратит его как серию
popped = copy.pop('Sector')
# столбец Sector удален на месте
copy[:2]

         Price  BookValue
Symbol                   
MMM     141.14     26.668
ABT      39.60     15.573

In [19]:
# и у нас есть столбец Sector, полученный
# в результате применения pop
popped[:5]

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

In [20]:
# пример использования drop для удаления столбца из датафрейма
# делаем копию
copy = sp500.copy()
# эта строка вернет новый датафрейм с удаленным столбцом 'Sector’
# копия датафрейма не изменится
afterdrop = copy.drop(['Sector'], axis = 1)
afterdrop[:5]

         Price  BookValue
Symbol                   
MMM     141.14     26.668
ABT      39.60     15.573
ABBV     53.95      2.954
ACN      79.79      8.326
ACE     102.91     86.897

# Присоединение строк из других объектов DataFrame с помощью метода .append()

In [21]:
# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[0:3].copy()
# копируем строки в позициях 10, 11 и 2
df2 = sp500.iloc[[10, 11, 2]]
# присоединяем к датафрейму df1 датафрейм df2
appended = df1.append(df2)
# в результате к строкам первого датафрейма
# будут присоединены строки второго датафрейма
appended

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
A       Health Care   56.18     16.928
GAS       Utilities   52.98     32.462
ABBV    Health Care   53.95      2.954

In [22]:
# датафрейм df3 использует индекс датафрейма df1 
# и у него один столбец PER
# кроме того, это еще и хороший пример 
# использования скалярного значения
# для инициализации нескольких строк
df3 = pd.DataFrame(0.0, 
                   index=df1.index,
                   columns=['PER'])
df3

        PER
Symbol     
MMM     0.0
ABT     0.0
ABBV    0.0

In [23]:
# присоединяем к датафрейму df1 датафрейм df3
# каждый датафрейм содержит по три строки, таким 
# образом в итоге получим шесть строк
# df1 не имеет столбца PER, таким образом для строк df1, вошедших 
# в итоговый датафрейм, в столбце PER будут получены значения NaN
# df3 не имеет столбцов BookValue, Price и Sector, таким образом для 
# строк df3, вошедших в итоговый датафрейм, в столбцах BookValue, Price 
# и Sector также будут получены значения NaN
df1.append(df3, sort=True)

        BookValue  PER   Price       Sector
Symbol                                     
MMM        26.668  NaN  141.14  Industrials
ABT        15.573  NaN   39.60  Health Care
ABBV        2.954  NaN   53.95  Health Care
MMM           NaN  0.0     NaN          NaN
ABT           NaN  0.0     NaN          NaN
ABBV          NaN  0.0     NaN          NaN

In [24]:
# игнорируем метки индекса, создаем индекс по умолчанию
df1.append(df3, ignore_index=True, sort=True)

   BookValue  PER   Price       Sector
0     26.668  NaN  141.14  Industrials
1     15.573  NaN   39.60  Health Care
2      2.954  NaN   53.95  Health Care
3        NaN  0.0     NaN          NaN
4        NaN  0.0     NaN          NaN
5        NaN  0.0     NaN          NaN

# Конкатенация строк

In [25]:
# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[0:3].copy()
# копируем строки в позициях 10, 11 и 2
df2 = sp500.iloc[[10, 11, 2]]
# передаем их в виде списка
pd.concat([df1, df2])

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
A       Health Care   56.18     16.928
GAS       Utilities   52.98     32.462
ABBV    Health Care   53.95      2.954

In [26]:
# копируем df2
df2_2 = df2.copy()
# добавляем в df2_2 столбец, которого нет в df1
df2_2.insert(3, 'Foo', pd.Series(0, index=df2.index))
# смотрим df2_2
df2_2

             Sector  Price  BookValue  Foo
Symbol                                    
A       Health Care  56.18     16.928    0
GAS       Utilities  52.98     32.462    0
ABBV    Health Care  53.95      2.954    0

In [27]:
# теперь конкатенируем
pd.concat([df1, df2_2], sort=True)

        BookValue  Foo   Price       Sector
Symbol                                     
MMM        26.668  NaN  141.14  Industrials
ABT        15.573  NaN   39.60  Health Care
ABBV        2.954  NaN   53.95  Health Care
A          16.928  0.0   56.18  Health Care
GAS        32.462  0.0   52.98    Utilities
ABBV        2.954  0.0   53.95  Health Care

In [28]:
# задаем ключи
r = pd.concat([df1, df2_2], keys=['df1', 'df2'], sort=True)
r

            BookValue  Foo   Price       Sector
    Symbol                                     
df1 MMM        26.668  NaN  141.14  Industrials
    ABT        15.573  NaN   39.60  Health Care
    ABBV        2.954  NaN   53.95  Health Care
df2 A          16.928  0.0   56.18  Health Care
    GAS        32.462  0.0   52.98    Utilities
    ABBV        2.954  0.0   53.95  Health Care

# Добавление и замена строк за счет расширения датафрейма

In [29]:
# создаем срез датафрейма sp500 и копируем его 
ss = sp500[:3].copy()
# создаем новую строку с меткой индекса FOO
# и присваиваем столбцам некоторые значения 
# с помощью списка
ss.loc['FOO'] = ['the sector', 100, 110]
ss

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
FOO      the sector  100.00    110.000

# Удаление строк с помощью метода .drop()

In [30]:
# получаем копию первых 5 строк датафрейма sp500
ss = sp500[:5]
ss

                        Sector   Price  BookValue
Symbol                                           
MMM                Industrials  141.14     26.668
ABT                Health Care   39.60     15.573
ABBV               Health Care   53.95      2.954
ACN     Information Technology   79.79      8.326
ACE                 Financials  102.91     86.897

In [31]:
# удаляем строки с метками ABT и ACN
afterdrop = ss.drop(['ABT', 'ACN'])
afterdrop[:5]

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABBV    Health Care   53.95      2.954
ACE      Financials  102.91     86.897

# Удаление строк с помощью логического отбора

In [32]:
# определяем строки, в которых Price > 300
selection = sp500.Price > 300
# выводим информацию о количестве строк и 
# количестве строк, которые будут удалены
(len(selection), selection.sum())

(500, 10)

In [33]:
# для отбора применим побитовое отрицание
# к выражению selection
price_less_than_300 = sp500[~selection]
price_less_than_300

                        Sector   Price  BookValue
Symbol                                           
MMM                Industrials  141.14     26.668
ABT                Health Care   39.60     15.573
ABBV               Health Care   53.95      2.954
ACN     Information Technology   79.79      8.326
ACE                 Financials  102.91     86.897
...                        ...     ...        ...
YHOO    Information Technology   35.02     12.768
YUM     Consumer Discretionary   74.77      5.147
ZMH                Health Care  101.84     37.181
ZION                Financials   28.43     30.191
ZTS                Health Care   30.53      2.150

[490 rows x 3 columns]

# Удаление строк с помощью среза

In [34]:
# отбираем лишь первые три строки
only_first_three = sp500[:3]
only_first_three

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954

In [35]:
# отбираем лишь первые три строки,
# но теперь копируем их
only_first_three = sp500[:3].copy()
only_first_three

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954