In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

In [2]:
# считываем из файла данные и выводим первые 5 строк
sp500 = pd.read_csv("./sp500.csv",
                   index_col = 'Symbol',     # используем столбец Symbol в качестве индекса
                   usecols = [0, 2, 3, 7])   # и считываем только те столбцы у которых позиции 0, 2, 3, 7
sp500.head()


                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897

__Переименование столбцов__


In [3]:
# переименовываем столбец Book Value так, что бы удалить пробел с помощью метода .rename()
# програмный код возвращает копию датафрейма с переименованным столбцом
newSP500 = sp500.rename(columns = {'Book Value': 'BookValue'})
newSP500.head(2)

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573

In [4]:
# проверяем, не изменились ли имена столбцов в исходном DataFrame
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [5]:
# чтобы изменить датафрейм на месте без создания копии, можно воспользоваться параметром inplace=True
sp500.rename(columns = 
            {'Book Value': 'BookValue'},
            inplace = True)
sp500.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

In [6]:
# чтобы взглянуть на данные в столбце, можно воспользоваться свойством .BookValue
sp500.BookValue[:5]

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
ACN      8.326
ACE     86.897
Name: BookValue, dtype: float64

__Добавление новых столбцов с помощью оператора [] и метода .insert()__


In [7]:
# добавить новые столбцы в датафрейм можно с помощью оператора []. Столбец добавиться в конце
# создаем копию, чтобы исходные данные остались в неизменном виде
sp500_copy = sp500.copy() # метод .copy
# добавляем столбец
sp500_copy['RoundedPrice'] = sp500.Price.round()
sp500_copy[:5]

                        Sector   Price  BookValue  RoundedPrice
Symbol                                                         
MMM                Industrials  141.14     26.668         141.0
ABT                Health Care   39.60     15.573          40.0
ABBV               Health Care   53.95      2.954          54.0
ACN     Information Technology   79.79      8.326          80.0
ACE                 Financials  102.91     86.897         103.0

In [8]:
# что бы добавить новый столбец в определенную позицию, нужно воспользоваться методом .insert()
# создаем копию, чтобы исходные данные остались в неизменном виде
copy = sp500.copy()
# вставляем столбец RoundedPrice в качестве второго столбца
copy.insert(1, 'RoundedPrice', sp500.Price.round())
copy[:5]

                        Sector  RoundedPrice   Price  BookValue
Symbol                                                         
MMM                Industrials         141.0  141.14     26.668
ABT                Health Care          40.0   39.60     15.573
ABBV               Health Care          54.0   53.95      2.954
ACN     Information Technology          80.0   79.79      8.326
ACE                 Financials         103.0  102.91     86.897

__Добавление столбцов за счет расширения датафрейма__


In [9]:
# Стобец можно добавить с помощью свойства .loc и среза
# Создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавлем столбец с нулевыми значениями
ss.loc[:, 'PER'] = 0
ss

             Sector   Price  BookValue  PER
Symbol                                     
MMM     Industrials  141.14     26.668    0
ABT     Health Care   39.60     15.573    0
ABBV    Health Care   53.95      2.954    0

In [10]:
# можно добавить серию с уже существующими данными
# Создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем новый столбец со случайно сгенерированными значениями
np.random.seed(123456)
ss.loc[:, 'PER'] = pd.Series(np.random.normal(size = 3), index = ss.index)
ss

             Sector   Price  BookValue       PER
Symbol                                          
MMM     Industrials  141.14     26.668  0.469112
ABT     Health Care   39.60     15.573 -0.282863
ABBV    Health Care   53.95      2.954 -1.509059

__Добавление столбцов с помощью конкатенации__


In [11]:
# и оператор [] и метод .insert модифицируют датафрейм на месте. Если нужен новый датафрейм с дополнительными столбцами 
# оставив исходный датафрейм без изменений), можно воспользоваться функцией pd.concat()
# параметр функции pd.concat() axis = 1 - конкатенирует по оси столбцов, axis = 0 - конкатенирует по оси строк

# создаем объект DataFrame с единственным столбцом RoundedPrice
rounded_price = pd.DataFrame({'RoundedPrice':
                              sp500.Price.round()})
# конкатенируем по оси столбцов 
concatenated = pd.concat([sp500, rounded_price], axis = 1)
concatenated [:5]

                        Sector   Price  BookValue  RoundedPrice
Symbol                                                         
MMM                Industrials  141.14     26.668         141.0
ABT                Health Care   39.60     15.573          40.0
ABBV               Health Care   53.95      2.954          54.0
ACN     Information Technology   79.79      8.326          80.0
ACE                 Financials  102.91     86.897         103.0

In [12]:
# при конкатенации возможно дублирование имен столбцов
# создаем объект DataFrame с единственным столбцом Price
rounded_price = pd.DataFrame({'Price': sp500.Price.round()})
rounded_price.head(5)

        Price
Symbol       
MMM     141.0
ABT      40.0
ABBV     54.0
ACN      80.0
ACE     103.0

In [13]:
# в результате конкатенации получаем дублирующиеся имена столбцов
dups = pd.concat([sp500, rounded_price], axis = 1)
dups.head(5)

                        Sector   Price  BookValue  Price
Symbol                                                  
MMM                Industrials  141.14     26.668  141.0
ABT                Health Care   39.60     15.573   40.0
ABBV               Health Care   53.95      2.954   54.0
ACN     Information Technology   79.79      8.326   80.0
ACE                 Financials  102.91     86.897  103.0

In [14]:
# с помощью свойства .Price можно извлечь оба столбца
dups.Price[:5]

         Price  Price
Symbol               
MMM     141.14  141.0
ABT      39.60   40.0
ABBV     53.95   54.0
ACN      79.79   80.0
ACE     102.91  103.0

__Переупорядочивание столбцов__

In [15]:
# столбцы можно переупорядочить, отобрав столбцы в нужном порядке. нет способа изменить порядок столбцов на месте
# возвращаем новый объект DataFrame со столбцами в обратном порядке
reversed_column_names = sp500.columns[::-1]
sp500[reversed_column_names][:5]

        BookValue   Price                  Sector
Symbol                                           
MMM        26.668  141.14             Industrials
ABT        15.573   39.60             Health Care
ABBV        2.954   53.95             Health Care
ACN         8.326   79.79  Information Technology
ACE        86.897  102.91              Financials

__Замена содержимого столбца__

In [16]:
# содержимое объекта DataFrame можно заменить, присвоив новую серию существующему столбцу с помощью оператора []
# Следущий програмный код демонстрирует замену столбца Price на столбец Price из DataFrame rounded_price
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные
copy.Price = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

In [17]:
# кроме того, значения столбца можно заменить (на месте) с помощью среза
# создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price округленными значениями 
copy.loc[:, 'Price'] = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

__Удаление столбцов__

In [18]:
# Удалить столбцы из объектов DataFrame можно следующими способами:
# del просто удаляет серию из объекта (на месте)
# метод .pop() удаляет и возвращает в результате серию (на месте)
# метод .drop(labels, axis=1) возвращает новый датафрейм с удаленным столбцом (исходный объект DatFrame остается) 

In [19]:
# пример использования del для удаления столбца
# создаем копию т.к. операция выполняется на месте
copy = sp500.copy()
del copy['BookValue']
copy.head(5)

                        Sector   Price
Symbol                                
MMM                Industrials  141.14
ABT                Health Care   39.60
ABBV               Health Care   53.95
ACN     Information Technology   79.79
ACE                 Financials  102.91

In [20]:
# пример использования pop для удаления столбца
#  создаем копию т.к. операция выполняется на месте
copy = sp500.copy()
popped = copy.pop('Sector')
popped[:5]

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

In [21]:
# пример использования drop для удаления столбца
# делаем копию
copy = sp500.copy()
afterdrop = copy.drop(['Sector'], axis = 1)
afterdrop.head(5)

         Price  BookValue
Symbol                   
MMM     141.14     26.668
ABT      39.60     15.573
ABBV     53.95      2.954
ACN      79.79      8.326
ACE     102.91     86.897

__Присоединение новых строк__

In [22]:
# присоединение новых строк выполняется с помощью метода append()
# Процесс присоединения возвращает новый объект DataFrame, в который сначала добавляются строки из исходного датафрейма
# а к ним добавляются строки из второго датафрейма

# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[:3].copy()
# копируем строки в позициях 10, 11, 2
df2 = sp500.iloc[[10, 11, 2]]
# присоединяем df1 к df2
appended = df1.append(df2)
appended

  appended = df1.append(df2)


             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
A       Health Care   56.18     16.928
GAS       Utilities   52.98     32.462
ABBV    Health Care   53.95      2.954

In [24]:
# Набор столбцов используемых в ДФ, использующихся в ходе присоеденения, не обязательно должен быть одинаковым
# отсутствующий столбец будет содержать значения Nan 
# датафрейм df3 использует индекс датафрейма df1 и у него один столбец PER

df3 = pd.DataFrame(0.0, index=df1.index, columns=['PER'])
df3

        PER
Symbol     
MMM     0.0
ABT     0.0
ABBV    0.0

In [25]:
# присоединяем к df1 df3
df1.append(df3, sort = True) # sort = True - сортировка в алфавитном порядке

  df1.append(df3, sort = True)


        BookValue  PER   Price       Sector
Symbol                                     
MMM        26.668  NaN  141.14  Industrials
ABT        15.573  NaN   39.60  Health Care
ABBV        2.954  NaN   53.95  Health Care
MMM           NaN  0.0     NaN          NaN
ABT           NaN  0.0     NaN          NaN
ABBV          NaN  0.0     NaN          NaN

In [26]:
# игнорируем метки индекса, создаем индекс по умолчанию
df1.append(df3, ignore_index = True, sort = True)

  df1.append(df3, ignore_index = True, sort = True)


   BookValue  PER   Price       Sector
0     26.668  NaN  141.14  Industrials
1     15.573  NaN   39.60  Health Care
2      2.954  NaN   53.95  Health Care
3        NaN  0.0     NaN          NaN
4        NaN  0.0     NaN          NaN
5        NaN  0.0     NaN          NaN

__Конкатенация строк__

In [27]:
# Строки из нескольких датафреймов можно можно конкатенировать друг с другом с помощью функции pd.concat() и параметра axis=0

# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[:3].copy()
# копируем строки в позициях 10, 11, 2
df2 = sp500.iloc[[10, 11, 2]]
# конкатенируем , передаем в качестве списка
pd.concat([df1, df2])

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
A       Health Care   56.18     16.928
GAS       Utilities   52.98     32.462
ABBV    Health Care   53.95      2.954

In [30]:
# Если набор столбцов в конкатенируемых датафреймах не был идентичным, то столбец, который отсутствовал в одном из дата фреймов,
# для соответствующих наблюдений итогового датафрейма будет содержать значения Nan 

# копируем df2
df2_2 = df2.copy()
# добавляем в df2_2 столбец которого нет в df1
df2_2.insert(3, 'Foo', pd.Series(0, index = df2.index)) # параметр 3 отвечает за место нового столбца
df2_2

             Sector  Price  BookValue  Foo
Symbol                                    
A       Health Care  56.18     16.928    0
GAS       Utilities  52.98     32.462    0
ABBV    Health Care  53.95      2.954    0

In [31]:
# теперь конкатенируем
pd.concat([df1, df2_2], sort = True)


        BookValue  Foo   Price       Sector
Symbol                                     
MMM        26.668  NaN  141.14  Industrials
ABT        15.573  NaN   39.60  Health Care
ABBV        2.954  NaN   53.95  Health Care
A          16.928  0.0   56.18  Health Care
GAS        32.462  0.0   52.98    Utilities
ABBV        2.954  0.0   53.95  Health Care

In [33]:
# Если строки копируются из исходных объектов на основе одних и тех же меток, то в результате можно получить дублирующиеся
# метки индекса. Параметр keys позволяет определить, к какому датафрейму относится набор строк

# задаем ключи
r = pd.concat([df1, df2_2], keys = ['df1', 'df2'], sort = True)
r

            BookValue  Foo   Price       Sector
    Symbol                                     
df1 MMM        26.668  NaN  141.14  Industrials
    ABT        15.573  NaN   39.60  Health Care
    ABBV        2.954  NaN   53.95  Health Care
df2 A          16.928  0.0   56.18  Health Care
    GAS        32.462  0.0   52.98    Utilities
    ABBV        2.954  0.0   53.95  Health Care

__Добавление и замена строк за счет расширения датафрейма__

In [34]:
# Добавлять строки можно с помощью свойства .loc. С помощью свойства .loc мы задаем метку индекса, где должна быть размещена 
# строка? если метка не существует, значения добавляются в датафрейм с помощью заданной метки индекса. Если метка уже существует
# значения в указанной строке заменяются

# создаем срез и копируем его 
ss = sp500[:3].copy()
# создаем новую строку с меткой индекса FOO и присваиваем столбцам некоторые значения с помощью списка
ss.loc['FOO'] = ['the sector', 100, 110]
ss

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
FOO      the sector  100.00    110.000

__Удаление строк с помощью метода .drop()__

In [36]:
# получаем срез первых 5 строк
ss = sp500[:5]
ss

                        Sector   Price  BookValue
Symbol                                           
MMM                Industrials  141.14     26.668
ABT                Health Care   39.60     15.573
ABBV               Health Care   53.95      2.954
ACN     Information Technology   79.79      8.326
ACE                 Financials  102.91     86.897

In [38]:
# удаляем строки с метками ABT и ACN
afterdrop = ss.drop(['ABT', 'ACN'])
afterdrop[:5]

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABBV    Health Care   53.95      2.954
ACE      Financials  102.91     86.897

__Удаление строк с помощью логического отбора__

In [41]:
# определяем строки где Price > 300
selection = sp500.Price > 300
(len(selection), selection.sum())

(500, 10)

In [42]:
# для отбора применим побитовое отрицание к выражению selection
price_less_than_300 = sp500[~selection]
price_less_than_300

                        Sector   Price  BookValue
Symbol                                           
MMM                Industrials  141.14     26.668
ABT                Health Care   39.60     15.573
ABBV               Health Care   53.95      2.954
ACN     Information Technology   79.79      8.326
ACE                 Financials  102.91     86.897
...                        ...     ...        ...
YHOO    Information Technology   35.02     12.768
YUM     Consumer Discretionary   74.77      5.147
ZMH                Health Care  101.84     37.181
ZION                Financials   28.43     30.191
ZTS                Health Care   30.53      2.150

[490 rows x 3 columns]

__Удаление строк с помощью среза__

In [43]:
# мы хотим удалить все строки кроме первых 3
only_first_three = sp500[:3]
only_first_three

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954

In [44]:
# Т.к. это срез, он связан с исходным датафреймом, строки не удалены из sp500, и изменения этих строк исзменят датафрейм sp500
# Чтобы предотвратить это, сделайте копию среза, которая приведет к созданию нового датафрейма с указанными строками
only_first_three = sp500[:3].copy()
only_first_three

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954