In [0]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [0]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns= ['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## Переиндексация  методом **.iloc** и **.loc**

**.iloc** - использует целые числа для чтения и записи данных

**.loc** - использует метки для чтения и записи данных

In [0]:
data.iloc[1,[3, 1]]

four    7
two     5
Name: Colorado, dtype: int64

In [0]:
data.loc['Colorado':'New York'] 

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data.iloc[1, 1] = '21'
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,21,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data.loc['Ohio':'Colorado', ['four', 'two']]

Unnamed: 0,four,two
Ohio,3,1
Colorado,7,21


## Применение функций и отображение

**.apply** - функция применяется по столбцам или по строкам (к объекту Series)


**.applymap** - функция применяется поэлементно

In [2]:
frame = DataFrame(np.random.randn(4, 3), columns=list('abc'),
                  index= ('Utah', 'Ohio', 'Texas', 'Oregon'))
frame

Unnamed: 0,a,b,c
Utah,-0.728314,0.155622,-1.13957
Ohio,-1.200004,-0.43423,1.205376
Texas,1.041788,1.716944,0.745826
Oregon,-0.04461,1.208175,0.510249


In [4]:
print(frame.apply(np.sum))
print(frame.apply(np.sum, axis=1))
frame

a   -0.931140
b    2.646510
c    1.321881
dtype: float64
Utah     -1.712262
Ohio     -0.428859
Texas     3.504558
Oregon    1.673813
dtype: float64


Unnamed: 0,a,b,c
Utah,-0.728314,0.155622,-1.13957
Ohio,-1.200004,-0.43423,1.205376
Texas,1.041788,1.716944,0.745826
Oregon,-0.04461,1.208175,0.510249


In [0]:
form = lambda х: '%.2f' % х
print(frame.applymap(form))
print(frame.apply(form))

## Сортировка и ранжирование

Для лексикографической сортировки по индексу служит метод **.sort_index**, который возвращает новый отсортированный объект


In [6]:
obj = Series(range(4), index= ['d', 'a', 'b', 'c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [0]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])
print(frame.sort_index())
print(frame.sort_index(axis=1))
print(frame.sort_index(axis=1, ascending=False)) # сортировать в порядке убывания

       d  a  b  c
one    4  5  6  7
three  0  1  2  3
       a  b  c  d
three  1  2  3  0
one    5  6  7  4
       d  c  b  a
three  0  3  2  1
one    4  7  6  5


---
Для лексикографической сортировки по значению служит метод **.sort_values**, который возвращает новый отсортированный объект


---

In [0]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame)
print(frame.sort_values(by='b'))
frame.sort_values(by=['a', 'b'], inplace = True) # не создаем новый объект, выполняем сортировку "на месте"
frame

   b  a
0  4  0
1  7  1
2 -3  0
3  2  1
   b  a
2 -3  0
3  2  1
0  4  0
1  7  1


Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


## Индексы по осям с повторяющимися значениями



In [0]:
obj = Series ( range ( 5) , index= ['a', 'a', 'b', 'b', 'c'])
print(obj)
print('\n')
print(obj.index.is_unique)
print('\n')
print(obj['a'])
print('\n')
print(obj['c'])

a    0
a    1
b    2
b    3
c    4
dtype: int64


False


a    0
a    1
dtype: int64


4


In [0]:
data = DataFrame(np.random.randn(4, 3), index = ['a', 'a', 'b', 'b'])
print(data)
print('\n')
print(data.index.is_unique)
print('\n')
print(data.loc['a'])

## Редукция и вычисление описательных статистик

Объекты pandas оснащены набором стандартных математических и статистических методов. Большая их часть попадает в категорию редукций, или сводных статистик – методов, которые вычисляют единственное значение (например, сумму или среднее) для Series или объект Series - для строк либо столбцов DataFrame.


По сравнению с эквивалентными методами массивов NumPy, все они игнорируют отсутствующие значения.


In [0]:
data = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
                index = ['a', 'b', 'c', 'd'],
                columns = ['one', 'two'])
data

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


---
Метод **sum** объекта DataFrame возвращает Series, содержащий суммы по столбцам (строкам):


---

In [0]:
data.sum()

one    9.25
two   -5.80
dtype: float64

In [0]:
data.sum(axis=1, skipna= False) # skipna= False - исключает отсутствующие значения

a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64

##### Параметры методов редукции

|Аргумент|Описание|
|:---|:---|
|axis|Ось, по которой производится редуцирование. В случае DataFrame 0 означает строки, 1 - столбцы.|
|skipna|Исключать отсутствующие значения. По умолчанию True|
|level|Редуцировать с группировкой по уровням, если индекс по оси иерархический (Multilndex)|

### Методы косвенных статистик

In [0]:
data

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [0]:
data.idxmin() # Индекс, при котором достигается минимум

one    d
two    b
dtype: object

In [0]:
data.idxmax() # Индекс, при котором достигается  максимум

one    b
two    d
dtype: object

In [0]:
data.cumsum()  # Нарастающий итог (аккумулирующий метод)

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [0]:
data.describe() # Несколько сводных статистик за одно обращение

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [0]:
obj = Series( ['a', 'a', 'b', 'c' ] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

#### Описательные и сводные статистики

|Метод|Описание|
|:---|:---|
|count|Количество значений, исключая отсутствующие|
|describe|Вычисляет набор сводных статистик для Series или для каждого столбца DataFrame|
|min, max|Вычисляет минимальное или максимальное значение|
|argmin, argmax|Вычисляет позицию в индексе (целые числа), при котором достигается минимальное или максимальное значение соответственно|
|idxmin, idxmax|Вычисляет значение индекса, при котором достигается минимальное или максимальное значение соответственно|
|quantile|Вычисляет выборочный квантиль в диапазоне от 0 до 1|
|sum|Сумма значений|
|mean|Среднее значение|
|median|Медиана (50%-ый квантиль)|
|mad|Среднее абсолютное отклонение от среднего|
|var|Выборочная дисперсия|
|std|Выборочное стандартное отклонение|
|skew|Асимметрия (третий момент)|
|kurt|Куртозис (четвертый момент)|
|cumsum|Нарастающая сумма|
|cummin, cummax|Нарастающий минимум или максимум соответственно|
|cumprod|Нарастающее произведение|
|diff|Первая арифметическая разность (полезно для временных рядов)|
|pct_change|Вычисляет процентное изменение|

### Корреляция и ковариация



Некоторые сводные статистики, например корреляция и ковариация, вычисляются по парам аргументов. 

Рассмотрим объекты DataFrame, содержащие цены акций и объемы биржевых сделок, взятые с сайта Уаhoo! Finance:

In [0]:
pip install pandas_datareader

In [0]:
from pandas_datareader import data as web

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2008', '1/1/2018')

price = DataFrame({tic: data['Adj Close'] for tic, data in all_data.items()})
volume = DataFrame ({tic: data ['Volume'] for tic, data in all_data.items()})


In [0]:
"""
.pct_change() вычисляет процентное изменение 
между текущим и предыдущим элементом. 
Эта функция по умолчанию рассчитывает процентное изменение 
от непосредственно предыдущей строки.
"""
returns = price.pct_change()
returns.tail() # 5 нижних строк фрейма данных

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2017-12-22,0.0,0.006601,0.000117,-0.0033
2017-12-26,-0.02537,0.002164,-0.001287,-0.003188
2017-12-27,0.000176,0.001963,0.00363,-0.006974
2017-12-28,0.002814,0.005943,0.000117,-0.001172
2017-12-29,-0.010814,-0.004025,-0.0021,-0.00166


---
Метод **.corr** объекта Series вычисляет корреляцию перекрывающихся, отличных от NA, выровненных по индексу значений в двух объектах Series. Соответственно, метод **.cov** вычисляет ковариацию


---    

In [0]:
returns.MSFT.corr(returns.IBM)

0.534304585914431

In [0]:
returns.MSFT.cov(returns.IBM)

0.00013019837983718676

---
Методы **.corr** и **.cov** объекта DataFrame возвращают соответственно полную корреляционную или ковариационную матрицу в виде DataFrame

---

In [0]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.459086,0.472724,0.530553
IBM,0.459086,1.0,0.534305,0.449593
MSFT,0.472724,0.534305,1.0,0.537285
GOOG,0.530553,0.449593,0.537285,1.0


In [0]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000385,0.000125,0.000162,0.000192
IBM,0.000125,0.000194,0.00013,0.000116
MSFT,0.000162,0.00013,0.000307,0.000174
GOOG,0.000192,0.000116,0.000174,0.000342


## Уникальные значения, счетчики значений и членство

In [0]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [0]:
"""
Вычисляет массив уникальных значений в Series 
и возвращает их в порядке появления
"""
uniques = obj.unique() 
uniques

In [0]:
"""
Возвращает объект Series, который содержит уникальное значение 
в качестве индекса и его частоту в качестве соответствующего значения. 
Отсортирован в порядке убывания частот
"""
obj.value_counts() 

In [0]:
"""
Вычисляет булев массив, показывающий, 
содержится ли каждое принадлежащее Series значение 
в переданной последовательности
"""
obj.isin(['b', 'с']) 

## Обработка отсутствующих данных


Отсутствующие данные – типичное явление в большинстве аналитических приложений. При проектировании pandas в качестве одной из целей ставилась задача сделать работу с отсутствующими данными как можно менее болезненной. 

В pandas для представления отсутствующих данных в любых массивах - как чисел с плавающей точкой, так и иных – используется значение с плавающей точкой NaN (не число). Это просто признак, который легко распознать


In [7]:
string_data = Series(['mango', 'artichoke', np.nan, 'avocado'])
string_data

0        mango
1    artichoke
2          NaN
3      avocado
dtype: object

In [8]:
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

---
Встроенное в Python значение **None** также рассматривается как отсутствующее в массивах объектов


---

In [9]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

##### Методы обработки отсутствующих данных

|Метод|Описание|
|:---|:---|
|dropna|Фильтрует метки оси в зависимости от того, существуют ли для метки отсутствующие данные, причем есть возможность указать различные пороги, определяющие, какое количество отсутствующих данных считать допустимым:|
|fillna|Восполняет отсутствующие данные указанным значением или использует какой-нибудь метод интерполяции, например 'ffill' или 'bfill'|
|isnull|Возвращает объект, содержащий булевы значения, которые показывают, какие значения отсутствуют|
|notnull|Логическое отрицание isnull|

### Фильтрация отсутствующих данных

In [10]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [11]:
"""
или
"""
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

---
В случае объектов DataFrame все немного сложнее. Можно отбрасывать строки или столбцы, если они содержат только NА-значения или хотя бы одно NА-значение.
По умолчанию метод **dropna** отбрасывает все строки, содержащие хотя бы одно отсутствующее значение:
    
---

In [12]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA] , [NA, 6.5, 3. ] ] )
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [13]:
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


---
Если передать параметр how= 'all', то будут отброшены строки, которые целиком состоят из отсутствующих значений

----
    

In [14]:
data.dropna( how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


---
Для отбрасывания столбцов достаточно передать параметр axis = 1


---

In [15]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [16]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [17]:
data.dropna(thresh=2) # Отбрасываем строки, содержащие менее двух значений (данных)

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
3,,6.5,3.0,


### Восполнение отсутствующих данных

Иногда отсутствующие данные желательно не отфильтровывать (и потенциально вместе с ними отбрасывать полезные данные), а каким-то способом заполнить «дыры». В большинстве случаев для этой цели можно использовать метод **.fillna**. Ему передается константа, подставляемая вместо отсутствующих значений

In [18]:
data.fillna(0)

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,0.0
1,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0
3,0.0,6.5,3.0,0.0


Если передать методу **.fillna** словарь, то можно будет подставлять вместо отсутствующих данных значение, зависящее от столбца

In [25]:
data.fillna ( {1: 0.5, 2: 1, 3: -1}, inplace = True) # Модифицируем существующий объект
data 

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,0.5,1.0,
2,,0.5,1.0,
3,,6.5,3.0,


---
Методы интерполяции, применяемые для переиндексации, годятся и для **.fillna**

---

In [26]:
data = DataFrame(np.random.randn(6, 3))
data.iloc[2:, 1] = NA 
data.iloc[4:, 2] = NA
data

Unnamed: 0,0,1,2
0,-1.293078,0.034023,-1.241906
1,-0.237277,-0.59318,0.067014
2,1.234836,,0.783739
3,1.520014,,-0.325061
4,-0.371158,,
5,0.050303,,


In [27]:
data.fillna(method= 'ffill')

Unnamed: 0,0,1,2
0,-1.293078,0.034023,-1.241906
1,-0.237277,-0.59318,0.067014
2,1.234836,-0.59318,0.783739
3,1.520014,-0.59318,-0.325061
4,-0.371158,-0.59318,-0.325061
5,0.050303,-0.59318,-0.325061


In [0]:
data.fillna(method='ffill', limit=2) # Limit – для  прямого и обратного восполнения максимальное количество непрерывных заполняемых промежутков

#### Аргументы метода fillna
|Аргумент |Описание|
|:---|:---|
|value|Скалярное значение или похожий на словарь объект для восполнения отсутствующих значений|
|method|Метод интерполяции. По умолчанию, если не задано других аргументов, предполагается метод 'fill'|
|axis|Ось, по которой производится восполнение. По умолчанию axis= 0|
|inplace|Модифицировать исходный объект, не создавая копию|
|limit|Для прямого и обратного восполнения максимальное количество непрерывных заполняемых промежутков|

# Упражнение

In [0]:
data_task = pd.read_csv('ttask3_2_2.csv')

In [29]:
data_task

Unnamed: 0,A,B,C,D,E
0,1.0,123/45,15 p.,sale,3%
1,3.0,165/56,654p.,,
2,6.0,54/23,458 p.,,
3,5.0,82/64,65 p.,sale,15%
4,3.0,46/,456,sale,10%
5,5.0,,347 p.,sale,10%
6,9.0,36/45,164 p.,sale,10%
7,5.0,145/2,3494p.,sale,14%
8,6.0,5/568,1348 p.,sale,10%
9,9.0,,354p.,sale,10%


Выполнить следующие преобразования DataFrame:

1)	Заполнить отсутствующие данные. В столбце «А» пустые значения заменить на «1», «E» - «0», «B» - средние значения по столбцу.

2)	Столбец «B» разделить на два столбца «B1»(данные до знака «/») и «B2» (данные после  знака «/»). 

3)	Из столбца «С» убрать «p.».

4)	Добавить столбец «F» (стоимость со скидкой), заполнить его данными согласно формуле: «A»\*«С» - «E» .


In [0]:
def normalize_b(cell):
  if isinstance(cell, str):
    items = cell.split('/')
    if items[0] and items[1] and items[0]!='-' and items[1]!='-':
      return int(items[0])/int(items[1])
    elif items[0] or items[1]=='-':
      return int(items[0])
    else:
      return 0
  else:
    return cell

In [0]:
data_task['A'] = data_task['A'].fillna(1)
data_task['E'] = data_task['E'].fillna(0)
old_b = data_task['B']
data_task['B'] = data_task['B'].apply(normalize_b)
data_task['B'] = data_task['B'].fillna(data_task['B'].mean())

In [95]:
data_task

Unnamed: 0,A,B,C,D,E
0,1.0,2.733333,15 p.,sale,3%
1,3.0,2.946429,654p.,,0
2,6.0,2.347826,458 p.,,0
3,5.0,1.28125,65 p.,sale,15%
4,3.0,46.0,456,sale,10%
5,5.0,111.449941,347 p.,sale,10%
6,9.0,0.8,164 p.,sale,10%
7,5.0,72.5,3494p.,sale,14%
8,6.0,0.008803,1348 p.,sale,10%
9,9.0,111.449941,354p.,sale,10%


In [0]:
old_b

In [0]:
def return_first_value(cell):
  if isinstance(cell, str):
    item = cell.split('/')[0]
    if item and item!='-':
      return int(item)
  return 0

def return_second_value(cell):
  if isinstance(cell, str):
    item = cell.split('/')[1]
    if item and item!='-':
      return int(item)
  return 0

In [0]:
data_task['B1'] = old_b.apply(return_first_value)
data_task['B2'] = old_b.apply(return_second_value)

In [105]:
print(old_b)
data_task

0     123/45
1     165/56
2      54/23
3      82/64
4        46/
5        NaN
6      36/45
7      145/2
8      5/568
9        NaN
10       NaN
11     34/45
12    48/495
13    3214/2
14    123/45
15    123/64
16    672/95
17        /3
18      35/-
Name: B, dtype: object


Unnamed: 0,A,B,C,D,E,B1,B2
0,1.0,2.733333,15 p.,sale,3%,123,45
1,3.0,2.946429,654p.,,0,165,56
2,6.0,2.347826,458 p.,,0,54,23
3,5.0,1.28125,65 p.,sale,15%,82,64
4,3.0,46.0,456,sale,10%,46,0
5,5.0,111.449941,347 p.,sale,10%,0,0
6,9.0,0.8,164 p.,sale,10%,36,45
7,5.0,72.5,3494p.,sale,14%,145,2
8,6.0,0.008803,1348 p.,sale,10%,5,568
9,9.0,111.449941,354p.,sale,10%,0,0


In [0]:
def delete_percents(cell):
  if isinstance(cell, str):
    return int(cell[:-1])
  else:
    return cell

In [0]:
def delete_rubles(cell):
  if isinstance(cell, str):
    rubles = cell.split('p')[0]
    if rubles:
      return int(rubles)
    else:
      return 0
  else:
    return cell

In [113]:
data_task['E'] = data_task['E'].apply(delete_percents)
data_task['C'] = data_task['C'].apply(delete_rubles)
data_task

Unnamed: 0,A,B,C,D,E,B1,B2
0,1.0,2.733333,15,sale,3,123,45
1,3.0,2.946429,654,,0,165,56
2,6.0,2.347826,458,,0,54,23
3,5.0,1.28125,65,sale,15,82,64
4,3.0,46.0,456,sale,10,46,0
5,5.0,111.449941,347,sale,10,0,0
6,9.0,0.8,164,sale,10,36,45
7,5.0,72.5,3494,sale,14,145,2
8,6.0,0.008803,1348,sale,10,5,568
9,9.0,111.449941,354,sale,10,0,0


In [114]:
# F = A * С - E
data_task['F'] = data_task['A']*data_task['C'] - data_task['E']
data_task

Unnamed: 0,A,B,C,D,E,B1,B2,F
0,1.0,2.733333,15,sale,3,123,45,12.0
1,3.0,2.946429,654,,0,165,56,1962.0
2,6.0,2.347826,458,,0,54,23,2748.0
3,5.0,1.28125,65,sale,15,82,64,310.0
4,3.0,46.0,456,sale,10,46,0,1358.0
5,5.0,111.449941,347,sale,10,0,0,1725.0
6,9.0,0.8,164,sale,10,36,45,1466.0
7,5.0,72.5,3494,sale,14,145,2,17456.0
8,6.0,0.008803,1348,sale,10,5,568,8078.0
9,9.0,111.449941,354,sale,10,0,0,3176.0
