In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

In [2]:
# считываем данные из csv
sp500 = pd.read_csv('./sp500.csv', index_col = 'Symbol', usecols = [0, 2, 3, 7])
sp500.head(2)

             Sector   Price  Book Value
Symbol                                 
MMM     Industrials  141.14      26.668
ABT     Health Care   39.60      15.573

In [3]:
# считываем данные из csv
omh = pd.read_csv('./omh.csv')
omh.head(2)

         Date   MSFT    AAPL
0  2014-12-01  48.62  115.07
1  2014-12-02  48.46  114.63

__Выполнение арифметических операций над объектами DataFrame или Series__

In [4]:
# создаем объект DataFrame
np.random.seed(123456)
df = pd.DataFrame(np.random.randn(5, 4), columns = ['A', 'B', 'C', 'D'])
df

          A         B         C         D
0  0.469112 -0.282863 -1.509059 -1.135632
1  1.212112 -0.173215  0.119209 -1.044236
2 -0.861849 -2.104569 -0.494929  1.071804
3  0.721555 -0.706771 -1.039575  0.271860
4 -0.424972  0.567020  0.276232 -1.087401

In [5]:
# умножаем все на 2
df * 2

          A         B         C         D
0  0.938225 -0.565727 -3.018117 -2.271265
1  2.424224 -0.346429  0.238417 -2.088472
2 -1.723698 -4.209138 -0.989859  2.143608
3  1.443110 -1.413542 -2.079150  0.543720
4 -0.849945  1.134041  0.552464 -2.174801

In [6]:
# Построчное транслирование. Извлекается первая строка и затем вычитается из каждой строки DataFrame, по сути 
# вычисляя разницу между значениием каждой строки и значением первой строки
s = df.iloc[0]
diff = df - s
diff

          A         B         C         D
0  0.000000  0.000000  0.000000  0.000000
1  0.743000  0.109649  1.628267  0.091396
2 -1.330961 -1.821706  1.014129  2.207436
3  0.252443 -0.423908  0.469484  1.407492
4 -0.894085  0.849884  1.785291  0.048232

In [7]:
# вычитаем объект DataFrame из объекта Series
diff2 = s - df
diff2

          A         B         C         D
0  0.000000  0.000000  0.000000  0.000000
1 -0.743000 -0.109649 -1.628267 -0.091396
2  1.330961  1.821706 -1.014129 -2.207436
3 -0.252443  0.423908 -0.469484 -1.407492
4  0.894085 -0.849884 -1.785291 -0.048232

In [8]:
# если метка преставляющая столбец, отсутствует либо в объекте DataFrame либо в объекте Series, соответствующий 
# столбец будет заполнен значением Nan 
s2 = s[1:3]
# добавляем E
s2['E'] = 0
# смотрим как производится выравнивание при операции
df + s2

    A         B         C   D   E
0 NaN -0.565727 -3.018117 NaN NaN
1 NaN -0.456078 -1.389850 NaN NaN
2 NaN -2.387433 -2.003988 NaN NaN
3 NaN -0.989634 -2.548633 NaN NaN
4 NaN  0.284157 -1.232826 NaN NaN

In [9]:
# При выполнении арифметических операций между двумя объектами DataFrame выравнивание происходит как по меткам
# индексов так и по меткам столбцов
# извлекаем строки в позициях с 1 по 3 и только столбцы В и С
subframe = df[1:4][['B', 'C']]
subframe

          B         C
1 -0.173215  0.119209
2 -2.104569 -0.494929
3 -0.706771 -1.039575

In [10]:
# демонстрация того как происходит выравнивание при вичитании
df - subframe

    A    B    C   D
0 NaN  NaN  NaN NaN
1 NaN  0.0  0.0 NaN
2 NaN  0.0  0.0 NaN
3 NaN  0.0  0.0 NaN
4 NaN  NaN  NaN NaN

In [11]:
# вычтем значение столбца А из значений каждого столбца
a_col = df['A']
df.sub(a_col, axis = 0)

     A         B         C         D
0  0.0 -0.751976 -1.978171 -1.604745
1  0.0 -1.385327 -1.092903 -2.256348
2  0.0 -1.242720  0.366920  1.933653
3  0.0 -1.428326 -1.761130 -0.449695
4  0.0  0.991993  0.701204 -0.662428

__Вычисление количества значений__


In [12]:
# метод .count вычисляет количество элементов, отличных от Nan 
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
s.count()

4

__Определение уникальных значений (и их встречаемости)__ 

In [13]:
# список уникальных значений в объекте Series можно получить с помощью метода .unique()
s.unique()

array(['a', 'b', 'c', nan], dtype=object)

In [14]:
# количество уникальный значений (кроме NaN) в объекте Series можно получить с помощью метода .nunique()
s.nunique()

3

In [15]:
# чтобы включить значение NaN используем параметр dropna = False
s.nunique(dropna = False)

4

In [16]:
# встречаемость каждого уникального значения можно определить с помощью метода .value_counts()
s.value_counts(dropna = False)

a      2
b      1
c      1
NaN    1
dtype: int64

__Вычисление минимума и максимума__

In [17]:
# определяем минимальную цену для двух акций
omh[['MSFT', 'AAPL']].min()

MSFT     45.16
AAPL    106.75
dtype: float64

In [18]:
# определяем максимальную цену для двух акций
omh[['MSFT', 'AAPL']].max()

MSFT     48.84
AAPL    115.93
dtype: float64

In [19]:
# некоторые статистические методы в pandas называют косвенными статистиками, так как они возвращают не действительные значения,
# а косвенно связанные с ними значения. Например методы .idxmin() .idxmax() возвращают позиции индекса, в которых находятся 
# минимальное и максимальное значения
# определяем минимальную цену для обеих акций
omh[['MSFT', 'AAPL']].idxmin()

MSFT    11
AAPL    11
dtype: int64

In [21]:
# определяем максимальную цену для двух акций
omh[['MSFT', 'AAPL']].idxmax()

MSFT    3
AAPL    2
dtype: int64

__Вычисление n наименьших значений и n наибольших значений__

In [22]:
# вычисляем 4 наименьших значения
omh.nsmallest(4, ['MSFT'])['MSFT']

11    45.16
12    45.74
21    46.45
10    46.67
Name: MSFT, dtype: float64

In [23]:
# вычисляем 4 наибольших значений 
omh.nlargest(4, ['MSFT'])['MSFT']

3     48.84
0     48.62
1     48.46
16    48.45
Name: MSFT, dtype: float64

In [25]:
# программный код для вычисления в Series несколько отличается от вышеприведенного кода
omh.MSFT.nlargest(3)

3    48.84
0    48.62
1    48.46
Name: MSFT, dtype: float64

__Вычисление накопленных значений__

In [26]:
# вычисляем накопленное произведение с помощью метода .cumprod()
pd.Series([1, 2, 3, 4]).cumprod()

0     1
1     2
2     6
3    24
dtype: int64

In [28]:
# вычисляем накопленную сумму с помощью метода .cumsum()
pd.Series([1, 2, 3, 4]).cumsum()

0     1
1     3
2     6
3    10
dtype: int64

### __Выполнение статистических операций с объектами библиотеки Pandas__

__Получение итоговых описательных статистик__

In [29]:
# метод .describe() возвращает сводку статистик для данных, записанных в объекте (количество значений, среднее значение, 
# стандартное отклонение, минимумб максимум, 25-й, 50-й, 75-й процентиль)
# получаем сводку статистик для DataFrame
omh.describe()

            MSFT        AAPL
count  22.000000   22.000000
mean   47.493182  112.411364
std     0.933077    2.388772
min    45.160000  106.750000
25%    46.967500  111.660000
50%    47.625000  112.530000
75%    48.125000  114.087500
max    48.840000  115.930000

In [30]:
# вычисляем сводку статистик для Series MSFT
omh.MSFT.describe()

count    22.000000
mean     47.493182
std       0.933077
min      45.160000
25%      46.967500
50%      47.625000
75%      48.125000
max      48.840000
Name: MSFT, dtype: float64

In [31]:
# вычисляем толкьо среднее значение для MSFT
omh.MSFT.describe()['mean']

47.493181818181824

In [34]:
# получаем сводку для нечисловых данных ( общее количество элементов, количество уникакльных элементов, наиболее часто
# встречающееся значение, и встречаемость этого значения)
s = pd.Series(['a', 'a', 'b', 'c', np.NaN])
s.describe()

count     4
unique    3
top       a
freq      2
dtype: object

__Измерение центральной тенденции: среднее, медиана и мода__

Вычисление среднего значения

In [35]:
# среднее значение можно вычислить с помощью метода .mean()
omh.mean()

  omh.mean()


MSFT     47.493182
AAPL    112.411364
dtype: float64

In [36]:
# вычисляем значениеб усредненное по всем столбцам, для каждой строки
omh.mean(axis = 1)[:5]

  omh.mean(axis = 1)[:5]


0    81.845
1    81.545
2    82.005
3    82.165
4    81.710
dtype: float64