In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from datetime import datetime, date

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_column', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)
%matplotlib inline

### Создание объектов DataFrame

In [3]:
# создание датафрейма из одномерного массива numpy
d = pd.DataFrame(np.arange(1, 6))
d

   0
0  1
1  2
2  3
3  4
4  5

In [4]:
# Создадим датафрейм с 2 колонками
df = pd.DataFrame([[10, 11], [10, 11]])
df2 = pd.DataFrame(np.array([[10, 11], [10, 11]]))
df, '-----', df2, '-----', df.index.values

(    0   1
 0  10  11
 1  10  11,
 '-----',
     0   1
 0  10  11
 1  10  11,
 '-----',
 array([0, 1]))

#### Получить доступ к столбцам

In [5]:
df.columns

RangeIndex(start=0, stop=2, step=1)

#### Задаем имена столбцов

In [16]:
df = pd.DataFrame([[10, 11], [12, 13]], 
                  columns=['Missoula', 'Philadelphia'])
df

   Missoula  Philadelphia
0        10            11
1        12            13

#### Выводим количество строк в датафрейме

In [6]:
l = len(df)
l

2

#### Определим размерность датафрейма

In [7]:
sh = df.shape
sh

(2, 2)

#### Создание датафрейма из питоновского словаря.

In [8]:
arr1 = [1, 2, 3]
arr2 = [4, 5, 6]
df = pd.DataFrame({'a': arr1, 'b': arr2})
df

   a  b
0  1  4
1  2  5
2  3  6

In [20]:
# создаем датафрейм для списка объектов Series
temps_at_time0 = pd.Series([70, 90])
temps_at_time1 = pd.Series([71, 91])

df = pd.DataFrame([temps_at_time0, temps_at_time1])
df2 = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns=['Missoula', 'Philadelphia']

df, df2

(   Missoula  Philadelphia
 0        70            90
 1        71            91,
     0   1
 0  70  90
 1  71  91)

In [10]:
temps_missoula = [70, 71]
temps_philly = [90, 91]
temperatures = {'Missoula': temps_missoula,
'Philadelphia': temps_philly}

temps_mso_series = pd.Series(temps_missoula)
temps_phl_series = pd.Series(temps_philly)
df = pd.DataFrame({'Missoula': temps_mso_series,
'Philadelphia': temps_phl_series})

ddf = pd.DataFrame(temperatures)

pd.DataFrame(temperatures), df, ddf

(   Missoula  Philadelphia
 0        70            90
 1        71            91,
    Missoula  Philadelphia
 0        70            90
 1        71            91,
    Missoula  Philadelphia
 0        70            90
 1        71            91)

#### Выравнивание при создании датафрейма

In [11]:
temps_nyc_series = pd.Series([85, 87], index=[1, 10])
df = pd.DataFrame({'Missoula': temps_mso_series,
                    'Philadelphia': temps_phl_series,
                    'New York': temps_nyc_series}
                 )

temps_mso_series, '---', temps_phl_series, '---', temps_nyc_series,  '---', df

(0    70
 1    71
 dtype: int64,
 '---',
 0    90
 1    91
 dtype: int64,
 '---',
 1     85
 10    87
 dtype: int64,
 '---',
     Missoula  Philadelphia  New York
 0       70.0          90.0       NaN
 1       71.0          91.0      85.0
 10       NaN           NaN      87.0)

### Создание датафрейма из CSV файла

In [14]:
# Используем столбец Symbol в качестве индекса и считываем только столбцы под номерами 0, 2, 3, 7
sp500 = pd.read_csv('./Notebooks/Data/sp500.csv',
                    index_col='Symbol',
                    usecols=[0, 2, 3, 7])

sp500.head(), len(sp500), sp500.shape

(                        Sector   Price  Book Value
 Symbol                                            
 MMM                Industrials  141.14      26.668
 ABT                Health Care   39.60      15.573
 ABBV               Health Care   53.95       2.954
 ACN     Information Technology   79.79       8.326
 ACE                 Financials  102.91      86.897,
 500,
 (500, 3))

#### Размер датафрейма можно посмотреть с помощью свойства SIZE

In [13]:
sp500.size

1500

In [14]:
# Исследуем индекс
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

#### Отбор столбцов в объекте DataFrame

In [15]:
# Оператор [] извлекает требуемые столбцы в этом случае sector
sp500['Sector'].head()

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
Name: Sector, dtype: object

#### Извлекаем сразу два столбца по именам

In [16]:
sp500[['Price', 'Book Value']].head()

         Price  Book Value
Symbol                    
MMM     141.14      26.668
ABT      39.60      15.573
ABBV     53.95       2.954
ACN      79.79       8.326
ACE     102.91      86.897

In [17]:
# Если имена столбцов не содержат ПРОБЕЛА то можно обращаться через символ точки
sp500.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

#### Отбор строк в объекте DataFrame

In [18]:
# строки можно отбирать по МЕТКАМ ИНДЕКСА, использую свойство loc[]
sp500.loc['MMM']

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [19]:
# Получим строки MMM и MSFT
sp500.loc[['MMM', 'MSFT']]

                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
MSFT    Information Technology   40.12      10.584

#### Получим позицию меток в индексе

In [15]:
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')

i1, '---', i2, '---', sp500.iloc[[i1, i2]]

(0,
 '---',
 10,
 '---',
              Sector   Price  Book Value
 Symbol                                 
 MMM     Industrials  141.14      26.668
 A       Health Care   56.18      16.928)

In [21]:
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

#### Поиск скалярного значения по метке и по позиции с помощью at[] и iat[]

In [22]:
# Ищем скалярное значение по метке строки и метке (имени) столбца.
sp500.at['MMM', 'Price']

141.14

In [23]:
# Предпочтительный способ полученя скалярного зн. это использования iat
# первым зн. задаем номер строки а вторым номер столбца
sp500.iat[0, 1]

141.14

#### Создание среза датафрейма - срез осуществляется по строкам

In [24]:
sp500[:10]

                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897
ACT                Health Care  213.77      55.188
ADBE    Information Technology   64.30      13.262
AES                  Utilities   13.61       5.781
AET                Health Care   76.39      40.021
AFL                 Financials   61.31      34.527

#### Срез по названиям меток

In [25]:
sp500['ABT':'ACN']

                        Sector  Price  Book Value
Symbol                                           
ABT                Health Care  39.60      15.573
ABBV               Health Care  53.95       2.954
ACN     Information Technology  79.79       8.326

In [26]:
# Лучшей практикой для получения среза явл. использование loc и icoc
sp500.loc['ABT':'ACN']

                        Sector  Price  Book Value
Symbol                                           
ABT                Health Care  39.60      15.573
ABBV               Health Care  53.95       2.954
ACN     Information Technology  79.79       8.326

#### Логический отбор строк

In [27]:
# Смотрим какие строки имеют цену меньше 100
sp500['Price'] < 100

Symbol
MMM     False
ABT      True
ABBV     True
ACN      True
ACE     False
        ...  
YHOO     True
YUM      True
ZMH     False
ZION     True
ZTS      True
Name: Price, Length: 500, dtype: bool

In [28]:
sp500[sp500['Price'] < 100]


                        Sector  Price  Book Value
Symbol                                           
ABT                Health Care  39.60      15.573
ABBV               Health Care  53.95       2.954
ACN     Information Technology  79.79       8.326
ADBE    Information Technology  64.30      13.262
AES                  Utilities  13.61       5.781
...                        ...    ...         ...
XYL                Industrials  38.42      12.127
YHOO    Information Technology  35.02      12.768
YUM     Consumer Discretionary  74.77       5.147
ZION                Financials  28.43      30.191
ZTS                Health Care  30.53       2.150

[407 rows x 3 columns]

In [29]:
# Извлекаем лишь строки у которых в столбце price значение от 5 до 10
sp500[(sp500.Price > 5) & (sp500.Price < 10)]['Price']

Symbol
FTR     5.81
HCBK    9.80
HBAN    9.10
SLM     8.82
WIN     9.38
Name: Price, dtype: float64

In [30]:
r = sp500[(sp500.Sector == 'Health Care') & (sp500.Price > 100)][['Price', 'Sector']]
r

         Price       Sector
Symbol                     
ACT     213.77  Health Care
ALXN    162.30  Health Care
AGN     166.92  Health Care
AMGN    114.33  Health Care
BCR     146.62  Health Care
...        ...          ...
REGN    297.77  Health Care
TMO     115.74  Health Care
WAT     100.54  Health Care
WLP     108.82  Health Care
ZMH     101.84  Health Care

[19 rows x 2 columns]

#### Одновременный отбор строк и столбцов

In [31]:
sp500.loc[['ABT', 'ZTS']][['Sector', 'Price']]

             Sector  Price
Symbol                    
ABT     Health Care  39.60
ZTS     Health Care  30.53