In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

In [2]:
# считываем из файла данные и выводим первые 5 строк
sp500 = pd.read_csv("./sp500.csv",
                   index_col = 'Symbol',     # используем столбец Symbol в качестве индекса
                   usecols = [0, 2, 3, 7])   # и считываем только те столбцы у которых позиции 0, 2, 3, 7
sp500.head()


                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897

__Переименование столбцов__


In [3]:
# переименовываем столбец Book Value так, что бы удалить пробел с помощью метода .rename()
# програмный код возвращает копию датафрейма с переименованным столбцом
newSP500 = sp500.rename(columns = {'Book Value': 'BookValue'})
newSP500.head(2)

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573

In [4]:
# проверяем, не изменились ли имена столбцов в исходном DataFrame
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [5]:
# чтобы изменить датафрейм на месте без создания копии, можно воспользоваться параметром inplace=True
sp500.rename(columns = 
            {'Book Value': 'BookValue'},
            inplace = True)
sp500.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

In [6]:
# чтобы взглянуть на данные в столбце, можно воспользоваться свойством .BookValue
sp500.BookValue[:5]

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
ACN      8.326
ACE     86.897
Name: BookValue, dtype: float64

__Добавление новых столбцов с помощью оператора [] и метода .insert()__


In [7]:
# добавить новые столбцы в датафрейм можно с помощью оператора []. Столбец добавиться в конце
# создаем копию, чтобы исходные данные остались в неизменном виде
sp500_copy = sp500.copy() # метод .copy
# добавляем столбец
sp500_copy['RoundedPrice'] = sp500.Price.round()
sp500_copy[:5]

                        Sector   Price  BookValue  RoundedPrice
Symbol                                                         
MMM                Industrials  141.14     26.668         141.0
ABT                Health Care   39.60     15.573          40.0
ABBV               Health Care   53.95      2.954          54.0
ACN     Information Technology   79.79      8.326          80.0
ACE                 Financials  102.91     86.897         103.0

In [8]:
# что бы добавить новый столбец в определенную позицию, нужно воспользоваться методом .insert()
# создаем копию, чтобы исходные данные остались в неизменном виде
copy = sp500.copy()
# вставляем столбец RoundedPrice в качестве второго столбца
copy.insert(1, 'RoundedPrice', sp500.Price.round())
copy[:5]

                        Sector  RoundedPrice   Price  BookValue
Symbol                                                         
MMM                Industrials         141.0  141.14     26.668
ABT                Health Care          40.0   39.60     15.573
ABBV               Health Care          54.0   53.95      2.954
ACN     Information Technology          80.0   79.79      8.326
ACE                 Financials         103.0  102.91     86.897

__Добавление столбцов за счет расширения датафрейма__


In [9]:
# Стобец можно добавить с помощью свойства .loc и среза
# Создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавлем столбец с нулевыми значениями
ss.loc[:, 'PER'] = 0
ss

             Sector   Price  BookValue  PER
Symbol                                     
MMM     Industrials  141.14     26.668    0
ABT     Health Care   39.60     15.573    0
ABBV    Health Care   53.95      2.954    0

In [10]:
# можно добавить серию с уже существующими данными
# Создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем новый столбец со случайно сгенерированными значениями
np.random.seed(123456)
ss.loc[:, 'PER'] = pd.Series(np.random.normal(size = 3), index = ss.index)
ss

             Sector   Price  BookValue       PER
Symbol                                          
MMM     Industrials  141.14     26.668  0.469112
ABT     Health Care   39.60     15.573 -0.282863
ABBV    Health Care   53.95      2.954 -1.509059

__Добавление столбцов с помощью конкатенации__


In [11]:
# и оператор [] и метод .insert модифицируют датафрейм на месте. Если нужен новый датафрейм с дополнительными столбцами 
# оставив исходный датафрейм без изменений), можно воспользоваться функцией pd.concat()
# параметр функции pd.concat() axis = 1 - конкатенирует по оси столбцов, axis = 0 - конкатенирует по оси строк

# создаем объект DataFrame с единственным столбцом RoundedPrice
rounded_price = pd.DataFrame({'RoundedPrice':
                              sp500.Price.round()})
# конкатенируем по оси столбцов 
concatenated = pd.concat([sp500, rounded_price], axis = 1)
concatenated [:5]

                        Sector   Price  BookValue  RoundedPrice
Symbol                                                         
MMM                Industrials  141.14     26.668         141.0
ABT                Health Care   39.60     15.573          40.0
ABBV               Health Care   53.95      2.954          54.0
ACN     Information Technology   79.79      8.326          80.0
ACE                 Financials  102.91     86.897         103.0

In [12]:
# при конкатенации возможно дублирование имен столбцов
# создаем объект DataFrame с единственным столбцом Price
rounded_price = pd.DataFrame({'Price': sp500.Price.round()})
rounded_price.head(5)

        Price
Symbol       
MMM     141.0
ABT      40.0
ABBV     54.0
ACN      80.0
ACE     103.0

In [13]:
# в результате конкатенации получаем дублирующиеся имена столбцов
dups = pd.concat([sp500, rounded_price], axis = 1)
dups.head(5)

                        Sector   Price  BookValue  Price
Symbol                                                  
MMM                Industrials  141.14     26.668  141.0
ABT                Health Care   39.60     15.573   40.0
ABBV               Health Care   53.95      2.954   54.0
ACN     Information Technology   79.79      8.326   80.0
ACE                 Financials  102.91     86.897  103.0

In [14]:
# с помощью свойства .Price можно извлечь оба столбца
dups.Price[:5]

         Price  Price
Symbol               
MMM     141.14  141.0
ABT      39.60   40.0
ABBV     53.95   54.0
ACN      79.79   80.0
ACE     102.91  103.0

__Переупорядочивание столбцов__

In [19]:
# столбцы можно переупорядочить, отобрав столбцы в нужном порядке. нет способа изменить порядок столбцов на месте
# возвращаем новый объект DataFrame со столбцами в обратном порядке
reversed_column_names = sp500.columns[::-1]
sp500[reversed_column_names][:5]

        BookValue   Price                  Sector
Symbol                                           
MMM        26.668  141.14             Industrials
ABT        15.573   39.60             Health Care
ABBV        2.954   53.95             Health Care
ACN         8.326   79.79  Information Technology
ACE        86.897  102.91              Financials

__Замена содержимого столбца__

In [20]:
# содержимое объекта DataFrame можно заменить, присвоив новую серию существующему столбцу с помощью оператора []
# Следущий програмный код демонстрирует замену столбца Price на столбец Price из DataFrame rounded_price
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные
copy.Price = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

In [21]:
# кроме того, значения столбца можно заменить (на месте) с помощью среза
# создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price округленными значениями 
copy.loc[:, 'Price'] = rounded_price.Price
copy[:5]

                        Sector  Price  BookValue
Symbol                                          
MMM                Industrials  141.0     26.668
ABT                Health Care   40.0     15.573
ABBV               Health Care   54.0      2.954
ACN     Information Technology   80.0      8.326
ACE                 Financials  103.0     86.897

__Удаление столбцов__

In [None]:
# Удалить столбцы из объектов DataFrame можно следующими способами:
# del просто удаляет серию из объекта (на месте)
# метод .pop() удаляет и возвращает в результате серию (на месте)
# метод .drop(labels, axis=1) возвращает новый датафрейм с удаленным столбцом (исходный объект DatFrame остается) 

In [23]:
# пример использования del для удаления столбца
# создаем копию т.к. операция выполняется на месте
copy = sp500.copy()
del copy['BookValue']
copy.head(5)

                        Sector   Price
Symbol                                
MMM                Industrials  141.14
ABT                Health Care   39.60
ABBV               Health Care   53.95
ACN     Information Technology   79.79
ACE                 Financials  102.91

In [24]:
# пример использования pop для удаления столбца
#  создаем копию т.к. операция выполняется на месте
copy = sp500.copy()
popped = copy.pop('Sector')
popped[:5]

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

In [27]:
# пример использования drop для удаления столбца
# делаем копию
copy = sp500.copy()
afterdrop = copy.drop(['Sector'], axis = 1)
afterdrop.head(5)

         Price  BookValue
Symbol                   
MMM     141.14     26.668
ABT      39.60     15.573
ABBV     53.95      2.954
ACN      79.79      8.326
ACE     102.91     86.897

__Присоединение новых строк__