In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

### __Создание объектов DataFrame__


__Создание объекта DataFrame на основе результатов функций NumPy__

In [2]:
# создаем DataFrame из одномерного массива NumPy
pd.DataFrame(np.arange(1, 6))
# 0 над данными это имя столбца

   0
0  1
1  2
2  3
3  4
4  5

In [3]:
# создаем DataFrame из двумерного массива NumPy
df = pd.DataFrame(np.array([[10, 11], [20, 21]]))
df

    0   1
0  10  11
1  20  21

In [4]:
# доступ к столбцам DataFrame можно получить с помощью свойства .columns
df.columns # так как имена столбцов не заданы, Pandas самостоятельно дает имена от 0

RangeIndex(start=0, stop=2, step=1)

In [5]:
df = pd.DataFrame(np.array([[70, 71], [90, 91]]), 
                 columns = ['Missoula', 'Philadelphia'])
df

   Missoula  Philadelphia
0        70            71
1        90            91

In [6]:
# количество строк в объекте DataFrame можно получить с помощью функции len()
len(df)

2

In [7]:
# размерность DataFrame можно вычислить с помощью свойства .shape()
df.shape

(2, 2)

__Создание объекта DataFrame с помощью питоновского словаря и объектов Series__

In [8]:
# создание DataFrame из питоновского словаря
temps_missoula = [70, 71]
temps_philly = [90, 91]
temperatures = {'Missoula': temps_missoula,
               'Philadelphia': temps_philly}
pd.DataFrame(temperatures)

   Missoula  Philadelphia
0        70            90
1        71            91

In [9]:
# создаем DataFrame для списка объектов Series
temps_at_time0 = pd.Series([70, 90])
temps_at_time1 = pd.Series([71, 91])
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df

    0   1
0  70  90
1  71  91

In [10]:
# задаем имена столбцов после создания DataFrame
df = pd.DataFrame([temps_at_time0, temps_at_time1])
df.columns = ['Missoula', 'Philadelphia']
df

   Missoula  Philadelphia
0        70            90
1        71            91

In [11]:
# создаем DataFrame с помощью словаря, состоящего из объектов Series
temps_mso_series = pd.Series(temps_missoula)
temps_phl_series = pd.Series(temps_philly)
df = pd.DataFrame({'Missoula': temps_missoula,
               'Philadelphia': temps_philly})
df

   Missoula  Philadelphia
0        70            90
1        71            91

In [12]:
# при создании объекта DataFrame добавляемая серия будет выровнена
temps_nyc_series = pd.Series([85, 87], index = [1, 2])
df = pd.DataFrame({'Missoula': temps_mso_series,
                   'Philadelphia': temps_phl_series,
                   'New York': temps_nyc_series})
df

   Missoula  Philadelphia  New York
0      70.0          90.0       NaN
1      71.0          91.0      85.0
2       NaN           NaN      87.0

__Создание объекта DataFrame на основе CSV - файла__


In [13]:
# считываем из файла данные и выводим первые 5 строк
sp500 = pd.read_csv("./sp500.csv",
                   index_col = 'Symbol',     # используем столбец Symbol в качестве индекса
                   usecols = [0, 2, 3, 7])   # и считываем только те столбцы у которых позиции 0, 2, 3, 7
sp500.head()


                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897

In [14]:
# проверяем сколько строк данных
len(sp500)

500

In [15]:
# какова форма DataFrame
sp500.shape

(500, 3)

In [16]:
# какой размер DataFrame? Мы подразумеваем сколько данных в количественном выражении 500 * 3
sp500.size

1500

In [17]:
# индекс датафрейма состоит из сокращенных названий акций, исследуем его
sp500.index

Index(['MMM', 'ABT', 'ABBV', 'ACN', 'ACE', 'ACT', 'ADBE', 'AES', 'AET', 'AFL',
       ...
       'XEL', 'XRX', 'XLNX', 'XL', 'XYL', 'YHOO', 'YUM', 'ZMH', 'ZION', 'ZTS'],
      dtype='object', name='Symbol', length=500)

In [18]:
# получаем информацию о столбцах
sp500.columns

Index(['Sector', 'Price', 'Book Value'], dtype='object')

### __Доступ к данным внутри объекта DataFrame__

__Отбор столбцов в объекте DataFrame__


In [19]:
# извлекаем столбец 'sector' используя метод []
sp500['Sector']

Symbol
MMM                Industrials
ABT                Health Care
ABBV               Health Care
ACN     Information Technology
ACE                 Financials
                 ...          
YHOO    Information Technology
YUM     Consumer Discretionary
ZMH                Health Care
ZION                Financials
ZTS                Health Care
Name: Sector, Length: 500, dtype: object

In [20]:
# когда из объекта DataFrame извлекается один столбец, то результатом будет объект Series
type(sp500['Sector'])

pandas.core.series.Series

In [22]:
# извлечь несколько столбцов можно с помощью списка имен столбцов
sp500[['Price', 'Book Value']].head()

         Price  Book Value
Symbol                    
MMM     141.14      26.668
ABT      39.60      15.573
ABBV     53.95       2.954
ACN      79.79       8.326
ACE     102.91      86.897

In [24]:
# поскольку извлекаем несколько столбцов, результатом будет объект DataFrame
type(sp500[['Price', 'Book Value']])

pandas.core.frame.DataFrame

In [27]:
# стобцы можно извлечь с помощью атрибутивного доступа, при условии отсутвствия в названии столбца пробела
sp500.Price

Symbol
MMM     141.14
ABT      39.60
ABBV     53.95
ACN      79.79
ACE     102.91
         ...  
YHOO     35.02
YUM      74.77
ZMH     101.84
ZION     28.43
ZTS      30.53
Name: Price, Length: 500, dtype: float64

__Отбор строк в объекте DataFrame__

In [29]:
# строки можно отбирать с помощью значения метки индекса, воспользовавшись свойством .loc[]
sp500.loc['MMM']

Sector        Industrials
Price              141.14
Book Value         26.668
Name: MMM, dtype: object

In [31]:
# получаем строки МММ и MSFT, результатом будет объект DataFrame
sp500.loc[['MMM', 'MSFT']]

                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
MSFT    Information Technology   40.12      10.584

In [32]:
# строки можно отбирать и с помощью .iloc[] (по позициям)
sp500.iloc[[0, 2]]

             Sector   Price  Book Value
Symbol                                 
MMM     Industrials  141.14      26.668
ABBV    Health Care   53.95       2.954

In [34]:
# можно найти позицию определенной метки индекса, а затем использовать эту информацию для извлечения строки по позиции
i1 = sp500.index.get_loc('MMM')
i2 = sp500.index.get_loc('A')
(i1, i2)

(0, 10)

In [35]:
# извлекаем строки
sp500.iloc[[i1, i2]]

             Sector   Price  Book Value
Symbol                                 
MMM     Industrials  141.14      26.668
A       Health Care   56.18      16.928

__Поиск скалярного значения по метке и позиции с помощью .at[] и .iat[]__

In [37]:
# ищем скалярное значение по метке строки и метке (имени) столбца
sp500.at['MMM', 'Price']

141.14

In [38]:
# найти можно и с помощью .iat[] передавая позицию строки а затем позицию столбца
sp500.iat[0, 1]

141.14

__Создание среза DataFrame с помощью оператора [  ]__


In [39]:
# первые 7 строк
sp500[:7]

                        Sector   Price  Book Value
Symbol                                            
MMM                Industrials  141.14      26.668
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897
ACT                Health Care  213.77      55.188
ADBE    Information Technology   64.30      13.262

In [40]:
# строки, начиная с метки АВТ и заканчивая меткой АСЕ
sp500['ABT':'ACE']

                        Sector   Price  Book Value
Symbol                                            
ABT                Health Care   39.60      15.573
ABBV               Health Care   53.95       2.954
ACN     Information Technology   79.79       8.326
ACE                 Financials  102.91      86.897