In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime, time

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_column', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)
%matplotlib inline


In [2]:
sp500 = pd.read_csv('./Notebooks/Data/sp500.csv', index_col='Symbol', usecols=[0, 2, 3, 7])

#### Переименуем столбец 

In [3]:
# Переименуем столбец Book Value так, чтобы удалить пробел в названии
# Возвращатеся НОВЫЙ датафрейм
newSP500 = sp500.rename(columns={'Book Value': 'BookValue '})

# Выведем 2 строки
newSP500[:2]

             Sector   Price  BookValue 
Symbol                                 
MMM     Industrials  141.14      26.668
ABT     Health Care   39.60      15.573

In [4]:
# Чтобы не создавать новый датафрейм, а изменить текущий нужно дабавить inplace=True
sp500.rename(columns={'Book Value': 'BookValue'}, inplace=True )
sp500.columns

Index(['Sector', 'Price', 'BookValue'], dtype='object')

#### Создаем копию  датафрейм

In [5]:
# Создаем копию sp500 чтрбы не портить исходный датафрейм
sp500_copy = sp500.copy()

# Добавляем столбец - В КОНЕЦ датафрейма
sp500_copy['RoundedPrice'] = sp500.Price.round()
sp500_copy['zeroColumn'] = 0
sp500_copy[:5]

                        Sector   Price  BookValue  RoundedPrice  zeroColumn
Symbol                                                                     
MMM                Industrials  141.14     26.668         141.0           0
ABT                Health Care   39.60     15.573          40.0           0
ABBV               Health Care   53.95      2.954          54.0           0
ACN     Information Technology   79.79      8.326          80.0           0
ACE                 Financials  102.91     86.897         103.0           0

#### Вставляем новый столбец в нужную позицию

In [6]:
copy = sp500.copy()
copy.insert(1, 'RoundedPrice', sp500.Price.round())
copy.insert(2, 'new_che', 22)
copy[:5]

                        Sector  RoundedPrice  new_che   Price  BookValue
Symbol                                                                  
MMM                Industrials         141.0       22  141.14     26.668
ABT                Health Care          40.0       22   39.60     15.573
ABBV               Health Care          54.0       22   53.95      2.954
ACN     Information Technology          80.0       22   79.79      8.326
ACE                 Financials         103.0       22  102.91     86.897

#### Добавление столбцов за счет расширения датафрейма

In [7]:
# Создаем копию части датафрейма
ss = sp500.iloc[:3].copy()

# Добавим столбец с нулевыми значениями
ss.loc[:, 'PER'] = 0
# обязательно необходимо добавить интекс, иначе будут NaN
ss.loc[:, 'n'] = pd.Series(np.arange(1, 4), index=ss.index)
ss

             Sector   Price  BookValue  PER  n
Symbol                                        
MMM     Industrials  141.14     26.668    0  1
ABT     Health Care   39.60     15.573    0  2
ABBV    Health Care   53.95      2.954    0  3

#### Создаем новый датафрейм конкатинацией двух датафреймов

In [8]:
# Создадим датайрейм с единственным столбцом RoundedPrice
rounded_price = pd.DataFrame({
    'RoundedPrice': sp500.Price.round()
})

# Параметр axis=1 указывает, что датафрейм должен конкатенироваться по оси столбцов.
# Если необходима конткатенация по строкам, нужно использовать axis = 0
concatenated = pd.concat([sp500, rounded_price], axis=1)
concatenated[:5]

                        Sector   Price  BookValue  RoundedPrice
Symbol                                                         
MMM                Industrials  141.14     26.668         141.0
ABT                Health Care   39.60     15.573          40.0
ABBV               Health Care   53.95      2.954          54.0
ACN     Information Technology   79.79      8.326          80.0
ACE                 Financials  102.91     86.897         103.0

 #### Переупорядочивание столбцов

In [9]:
reverse_column_name = sp500.columns[::-1]

# Возращается новый объект DataFrame со столбцамив обратном порядке
# Не существует способа изменить порядок столбцов на месте
sp500[reverse_column_name][:5], '---', sp500[:3]

(        BookValue   Price                  Sector
 Symbol                                           
 MMM        26.668  141.14             Industrials
 ABT        15.573   39.60             Health Care
 ABBV        2.954   53.95             Health Care
 ACN         8.326   79.79  Information Technology
 ACE        86.897  102.91              Financials,
 '---',
              Sector   Price  BookValue
 Symbol                                
 MMM     Industrials  141.14     26.668
 ABT     Health Care   39.60     15.573
 ABBV    Health Care   53.95      2.954)

#### Замена содержимого столбца

In [10]:
copy = sp500.copy()
copy.Price = rounded_price.RoundedPrice
copy[:5], copy.loc[:'ACN', 'Price']

(                        Sector  Price  BookValue
 Symbol                                          
 MMM                Industrials  141.0     26.668
 ABT                Health Care   40.0     15.573
 ABBV               Health Care   54.0      2.954
 ACN     Information Technology   80.0      8.326
 ACE                 Financials  103.0     86.897,
 Symbol
 MMM     141.0
 ABT      40.0
 ABBV     54.0
 ACN      80.0
 Name: Price, dtype: float64)

In [11]:
# Значение столбца можно заменить (на месте) с помощью среза
copy = sp500.copy()
copy_2 = sp500.copy()

copy.loc[:, 'Price'] = rounded_price.RoundedPrice
copy_2.loc[:'ACN', 'Price'] = 0

copy[:5], copy_2[:5], copy.iloc[:5]

(                        Sector  Price  BookValue
 Symbol                                          
 MMM                Industrials  141.0     26.668
 ABT                Health Care   40.0     15.573
 ABBV               Health Care   54.0      2.954
 ACN     Information Technology   80.0      8.326
 ACE                 Financials  103.0     86.897,
                         Sector   Price  BookValue
 Symbol                                           
 MMM                Industrials    0.00     26.668
 ABT                Health Care    0.00     15.573
 ABBV               Health Care    0.00      2.954
 ACN     Information Technology    0.00      8.326
 ACE                 Financials  102.91     86.897,
                         Sector  Price  BookValue
 Symbol                                          
 MMM                Industrials  141.0     26.668
 ABT                Health Care   40.0     15.573
 ABBV               Health Care   54.0      2.954
 ACN     Information Technology   80.0   

### Удаление столбцов

- del просто удаляет серию из объекта DataFrame (на месте);
- pop() удаляет и возвращает в результате серию (также на месте);
- drop(labels, axis=1) возвращает новый датафрейм с удаленным столбцом (исходный объект DataFrame не будет изменен).


In [12]:
# Пример использования del
copy = sp500.copy()

del copy['BookValue']
copy[:2]


             Sector   Price
Symbol                     
MMM     Industrials  141.14
ABT     Health Care   39.60

In [13]:
# Удаление через pop
copy = sp500.copy()

# Столбец будет удален и возвращен
popped = copy.pop('Sector')
copy[:3], '---', popped.iloc[:3]

(         Price  BookValue
 Symbol                   
 MMM     141.14     26.668
 ABT      39.60     15.573
 ABBV     53.95      2.954,
 '---',
 Symbol
 MMM     Industrials
 ABT     Health Care
 ABBV    Health Care
 Name: Sector, dtype: object)

In [14]:
# Метод drop можно использовать как для удаления строк так и столбцов.
copy = sp500.copy()
after_drop = copy.drop(['Sector'], axis = 1)
after_drop[:5]

         Price  BookValue
Symbol                   
MMM     141.14     26.668
ABT      39.60     15.573
ABBV     53.95      2.954
ACN      79.79      8.326
ACE     102.91     86.897

#### Присоединение новых строк

In [15]:
# Присоединение новых строк (append - deprecated)
# Возвращается НОВЫЙ датафрейм, объединяющий два других. + возможно дублирование строк.

# Копируем первые 3 сроки sp500
df1 = sp500.iloc[0:3].copy()

# Копируем 10, 11 , 2 сроки sp500
df2 = sp500.iloc[[10, 11, 2]]

# Присоединяем к df1 датафрейм df2
appended = pd.concat([df1, df2])
appended

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
A       Health Care   56.18     16.928
GAS       Utilities   52.98     32.462
ABBV    Health Care   53.95      2.954

In [16]:
df3 = pd.DataFrame(0, index=df1.index, columns=['PER'])

# флаг sort для сортировки СТОЛБЦОВ в алфавитном порядке.
df4 = pd.concat([df1, df3], sort=True)
df1, df3, df4

(             Sector   Price  BookValue
 Symbol                                
 MMM     Industrials  141.14     26.668
 ABT     Health Care   39.60     15.573
 ABBV    Health Care   53.95      2.954,
         PER
 Symbol     
 MMM       0
 ABT       0
 ABBV      0,
         BookValue  PER   Price       Sector
 Symbol                                     
 MMM        26.668  NaN  141.14  Industrials
 ABT        15.573  NaN   39.60  Health Care
 ABBV        2.954  NaN   53.95  Health Care
 MMM           NaN  0.0     NaN          NaN
 ABT           NaN  0.0     NaN          NaN
 ABBV          NaN  0.0     NaN          NaN)

 #### Игнорируем метки индекса, создаем индекс по умолчанию

In [17]:
# Когда `нам не нужен индекс (в случае если он неинформативен)
# Когда мы посто хотим один кусок данных склеить с др.

df5 = pd.concat([df1, df3], sort=True, ignore_index=True)
df5, df5.index

(   BookValue  PER   Price       Sector
 0     26.668  NaN  141.14  Industrials
 1     15.573  NaN   39.60  Health Care
 2      2.954  NaN   53.95  Health Care
 3        NaN  0.0     NaN          NaN
 4        NaN  0.0     NaN          NaN
 5        NaN  0.0     NaN          NaN,
 RangeIndex(start=0, stop=6, step=1))

### Конкатенация строк

In [18]:
# Параметр keys позволяет определить к какому датафрейму относится набор строк.
r = pd.concat([df1, df2], keys=['df1', 'df2'], sort=True)
r

            BookValue   Price       Sector
    Symbol                                
df1 MMM        26.668  141.14  Industrials
    ABT        15.573   39.60  Health Care
    ABBV        2.954   53.95  Health Care
df2 A          16.928   56.18  Health Care
    GAS        32.462   52.98    Utilities
    ABBV        2.954   53.95  Health Care

### Добавление и замена строк за счет расширения датафрейма.

In [19]:
# Создадим срез датафрейма sp500 и скопируем его.
ss = sp500[:3].copy()

# Создадим новую меткву с именем FOO и присвоим столбцам некоторые значения.
# Если такая метка существовала бы, то значения в этой строке были бы заменены.
# Данная операция выполняется на месте.
ss.loc['FOO'] = ['the sector', 100, 110]

# Если нужно установить всем столбцам одно и тоже значение.
ss.loc['XXX'] = 0
ss

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954
FOO      the sector  100.00    110.000
XXX               0    0.00      0.000

### Удаление строк с помощью метода drop

In [20]:
# Копируем первые 5 строк
ss = sp500.iloc[:5]

# Создасться новый датафрейм. Старый ss не будет тронут.
after_drop = ss.drop(['ABT', 'ACN'])
after_drop.iloc[:5]

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABBV    Health Care   53.95      2.954
ACE      Financials  102.91     86.897

### Удаление строк при помощи логического отбора

In [21]:
selection = sp500.Price > 300
(len(selection), selection.sum())

(500, 10)

In [22]:
# Для отбора записий с ценой меньше 300 применим побитовое отрицание
price_less_tnan_300 = sp500[-selection]
price_less_tnan_300

                        Sector   Price  BookValue
Symbol                                           
MMM                Industrials  141.14     26.668
ABT                Health Care   39.60     15.573
ABBV               Health Care   53.95      2.954
ACN     Information Technology   79.79      8.326
ACE                 Financials  102.91     86.897
...                        ...     ...        ...
YHOO    Information Technology   35.02     12.768
YUM     Consumer Discretionary   74.77      5.147
ZMH                Health Care  101.84     37.181
ZION                Financials   28.43     30.191
ZTS                Health Care   30.53      2.150

[490 rows x 3 columns]

### Удаление строк с помощью среза

In [23]:
only_first_three = sp500[:3]
only_first_three

             Sector   Price  BookValue
Symbol                                
MMM     Industrials  141.14     26.668
ABT     Health Care   39.60     15.573
ABBV    Health Care   53.95      2.954

In [24]:
# Проверка того что срез связан с исходным датафреймом.
only_first_three.at['MMM', 'Price'] = 55
sp500, only_first_three

(                        Sector   Price  BookValue
 Symbol                                           
 MMM                Industrials   55.00     26.668
 ABT                Health Care   39.60     15.573
 ABBV               Health Care   53.95      2.954
 ACN     Information Technology   79.79      8.326
 ACE                 Financials  102.91     86.897
 ...                        ...     ...        ...
 YHOO    Information Technology   35.02     12.768
 YUM     Consumer Discretionary   74.77      5.147
 ZMH                Health Care  101.84     37.181
 ZION                Financials   28.43     30.191
 ZTS                Health Care   30.53      2.150
 
 [500 rows x 3 columns],
              Sector  Price  BookValue
 Symbol                               
 MMM     Industrials  55.00     26.668
 ABT     Health Care  39.60     15.573
 ABBV    Health Care  53.95      2.954)