# Настройка pandas

In [2]:
# импортируем numpy и pandas
import numpy as np
import pandas as pd

# импортируем datetime
import datetime
from datetime import datetime, date

# задаем некоторые настройки pandas, регулирующие
# формат вывода
pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 60)

# считываем данные в DataFrame, используя в качестве
# индекса столбец Symbol и записывая только те 
# столбцы, которые имеют позиции 0, 2, 3, 7
sp500 = pd.read_csv("sp500.csv", 
                    index_col='Symbol', 
                    usecols=[0, 2, 3, 7])

# Переименование столбцов

In [3]:
# переименовываем столбец Book Value так, чтобы удалить пробел
# программный код возращает копию датафрейма с переименованным 
# столбцом
newSP500 = sp500.rename(columns=
                        {'Book Value': 'BookValue'})
# печатаем первые 2 строки
newSP500[:2]

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573

In [4]:
# проверяем, не изменились ли имена столбцов
# в исходном датафрейме
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

In [5]:
# этот программный код переименовывает
# столбец на месте
sp500.rename(columns=                  
             {'Book Value': 'BookValue'},                   
             inplace=True)
# смотрим, изменилось ли имя столбца
sp500.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

In [6]:
# и теперь мы можем воспользоваться свойством .BookValue
sp500.BookValue[:5]

Symbol
MMM     26.668
ABT     15.573
ABBV     2.954
ACN      8.326
ACE     86.897
Name: BookValue, dtype: float64

# Добавление новых столбцов с помощью оператора [] и метода .insert()

In [7]:
# создаем копию, чтобы исходные данные остались в неизменном виде
sp500_copy = sp500.copy()
# добавляем столбец
sp500_copy['RoundedPrice'] = sp500.Price.round()
sp500_copy[:2]

             Sector   Price  BookValue  RoundedPrice
Symbol                                              
MMM     Industrials  141.14     26.668         141.0
ABT     Health Care   39.60     15.573          40.0

In [8]:
# создаем копию, чтобы исходные данные остались в неизменном виде
copy = sp500.copy()
# вставляем столбец RoundedPrice в качестве 
# второго столбца датафрейма
copy.insert(1, 'RoundedPrice', sp500.Price.round())
copy[:2]

             Sector  RoundedPrice   Price  BookValue
Symbol                                              
MMM     Industrials         141.0  141.14     26.668
ABT     Health Care          40.0   39.60     15.573

# Добавление столбцов за счет расширения датафрейма

In [9]:
# создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем столбец с нулевыми значениями
ss.loc[:,'PER'] = 0
# смотрим результаты
ss

             Sector   Price  BookValue  PER
Symbol                                     
MMM     Industrials  141.14     26.668    0
ABT     Health Care   39.60     15.573    0
ABBV    Health Care   53.95      2.954    0

In [None]:
# создаем копию поднабора/среза
ss = sp500[:3].copy()
# добавляем новый столбец со случайно 
# сгенерированными значениями
np.random.seed(123456)
ss.loc[:,'PER'] = pd.Series(np.random.normal(size=3), index=ss.index)
# смотрим результаты
ss

# Добавление столбцов с помощью конкатенации

In [None]:
# создаем объект DataFrame с единственным 
# столбцом RoundedPrice
rounded_price = pd.DataFrame({'RoundedPrice':    
                              sp500.Price.round()})
# конкатенируем по оси столбцов
concatenated = pd.concat([sp500, rounded_price], axis=1)
concatenated[:5]

In [None]:
# создаем объект DataFrame с единственным 
# столбцом Price
rounded_price = pd.DataFrame({'Price': sp500.Price.round()})
rounded_price[:5]

In [None]:
# в результате получаем два столбца Price
dups = pd.concat([sp500, rounded_price], axis=1)
dups[:5]

In [None]:
# извлекаем оба столбца Price
dups.Price[:5]

# Переупорядочивание столбцов

In [None]:
# возвращаем новый объект DataFrame со столбцами,
# расположенными в обратном порядке
reversed_column_names = sp500.columns[::-1]
sp500[reversed_column_names][:5]

# Замена содержимого столбца

In [None]:
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price новыми значениями
# вместо добавления нового столбца
copy.Price = rounded_price.Price
copy[:5]

In [None]:
# операция выполняется на месте, поэтому создадим копию
copy = sp500.copy()
# заменяем данные в столбце Price округленными значениями
copy.loc[:,'Price'] = rounded_price.Price
copy[:5]

# Удаление столбцов

In [None]:
# пример использования del для удаления столбца
# делаем копию, потому что операция выполняется на месте
copy = sp500.copy()
del copy['BookValue']
copy[:2]

In [None]:
# пример использования pop для удаления столбца из датафрейма
# делаем копию, потому что операция выполняется на месте
copy = sp500.copy()
# эта строка удалит столбец Sector и возвратит его как серию
popped = copy.pop('Sector')
# столбец Sector удален на месте
copy[:2]

In [None]:
# и у нас есть столбец Sector, полученный
# в результате применения pop
popped[:5]

In [None]:
# пример использования drop для удаления столбца из датафрейма
# делаем копию
copy = sp500.copy()
# эта строка вернет новый датафрейм с удаленным столбцом 'Sector’
# копия датафрейма не изменится
afterdrop = copy.drop(['Sector'], axis = 1)
afterdrop[:5]

# Присоединение строк из других объектов DataFrame с помощью метода .append()

In [None]:
# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[0:3].copy()
# копируем строки в позициях 10, 11 и 2
df2 = sp500.iloc[[10, 11, 2]]
# присоединяем к датафрейму df1 датафрейм df2
appended = df1.append(df2)
# в результате к строкам первого датафрейма
# будут присоединены строки второго датафрейма
appended

In [None]:
# датафрейм df3 использует индекс датафрейма df1 
# и у него один столбец PER
# кроме того, это еще и хороший пример 
# использования скалярного значения
# для инициализации нескольких строк
df3 = pd.DataFrame(0.0, 
                   index=df1.index,
                   columns=['PER'])
df3

In [None]:
# присоединяем к датафрейму df1 датафрейм df3
# каждый датафрейм содержит по три строки, таким 
# образом в итоге получим шесть строк
# df1 не имеет столбца PER, таким образом для строк df1, вошедших 
# в итоговый датафрейм, в столбце PER будут получены значения NaN
# df3 не имеет столбцов BookValue, Price и Sector, таким образом для 
# строк df3, вошедших в итоговый датафрейм, в столбцах BookValue, Price 
# и Sector также будут получены значения NaN
df1.append(df3, sort=True)

In [None]:
# игнорируем метки индекса, создаем индекс по умолчанию
df1.append(df3, ignore_index=True, sort=True)

# Конкатенация строк

In [None]:
# копируем первые три строки датафрейма sp500
df1 = sp500.iloc[0:3].copy()
# копируем строки в позициях 10, 11 и 2
df2 = sp500.iloc[[10, 11, 2]]
# передаем их в виде списка
pd.concat([df1, df2])

In [None]:
# копируем df2
df2_2 = df2.copy()
# добавляем в df2_2 столбец, которого нет в df1
df2_2.insert(3, 'Foo', pd.Series(0, index=df2.index))
# смотрим df2_2
df2_2

In [None]:
# теперь конкатенируем
pd.concat([df1, df2_2], sort=True)

In [None]:
# задаем ключи
r = pd.concat([df1, df2_2], keys=['df1', 'df2'], sort=True)
r

# Добавление и замена строк за счет расширения датафрейма

In [None]:
# создаем срез датафрейма sp500 и копируем его 
ss = sp500[:3].copy()
# создаем новую строку с меткой индекса FOO
# и присваиваем столбцам некоторые значения 
# с помощью списка
ss.loc['FOO'] = ['the sector', 100, 110]
ss

# Удаление строк с помощью метода .drop()

In [None]:
# получаем копию первых 5 строк датафрейма sp500
ss = sp500[:5]
ss

In [None]:
# удаляем строки с метками ABT и ACN
afterdrop = ss.drop(['ABT', 'ACN'])
afterdrop[:5]

# Удаление строк с помощью логического отбора

In [None]:
# определяем строки, в которых Price > 300
selection = sp500.Price > 300
# выводим информацию о количестве строк и 
# количестве строк, которые будут удалены
(len(selection), selection.sum())

In [None]:
# для отбора применим побитовое отрицание
# к выражению selection
price_less_than_300 = sp500[~selection]
price_less_than_300

# Удаление строк с помощью среза

In [None]:
# отбираем лишь первые три строки
only_first_three = sp500[:3]
only_first_three

In [None]:
# отбираем лишь первые три строки,
# но теперь копируем их
only_first_three = sp500[:3].copy()
only_first_three