In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [None]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns= ['one', 'two', 'three', 'four'])
data

## Переиндексация  методом **.iloc** и **.loc**

**.iloc** - использует целые числа для чтения и записи данных

**.loc** - использует метки для чтения и записи данных

In [None]:
data.iloc[1,[3, 1]]

In [None]:
data.loc['Colorado':'New York'] 

In [None]:
data.iloc[1, 1] = '21'
data

In [None]:
data.loc['Ohio':'Colorado', ['four', 'two']]

## Применение функций и отображение

**.apply** - функция применяется по столбцам или по строкам (к объекту Series)


**.applymap** - функция применяется поэлементно

In [None]:
frame = DataFrame(np.random.randn(4, 3), columns=list('abc'),
                  index= ('Utah', 'Ohio', 'Texas', 'Oregon'))
frame

In [None]:
print(frame.apply(np.sum))
print(frame.apply(np.sum, axis=1))
print(frame)

In [None]:
form = lambda х: '%.2f' % х
print(frame.applymap(form))
print(frame.apply(form))

## Сортировка и ранжирование

Для лексикографической сортировки по индексу служит метод **.sort_index**, который возвращает новый отсортированный объект


In [None]:
obj = Series(range(4), index= ['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'],
                    columns=['d', 'a', 'b', 'c'])
print(frame.sort_index())
print(frame.sort_index(axis=1))
print(frame.sort_index(axis=1, ascending=False)) # сортировать в порядке убывания

---
Для лексикографической сортировки по значению служит метод **.sort_values**, который возвращает новый отсортированный объект


---

In [None]:
frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
print(frame)
print(frame.sort_values(by='b'))
frame.sort_values(by=['a', 'b'], inplace = True) # не создаем новый объект, выполняем сортировку "на месте"
frame

## Индексы по осям с повторяющимися значениями



In [None]:
obj = Series ( range ( 5) , index= ['a', 'a', 'b', 'b', 'c'])
print(obj)
print('\n')
print(obj.index.is_unique)
print('\n')
print(obj['a'])
print('\n')
print(obj['c'])

In [None]:
data = DataFrame(np.random.randn(4, 3), index = ['a', 'a', 'b', 'b'])
print(data)
print('\n')
print(data.index.is_unique)
print('\n')
print(data.loc['a'])

## Редукция и вычисление описательных статистик

Объекты pandas оснащены набором стандартных математических и статистических методов. Большая их часть попадает в категорию редукций, или сводных статистик – методов, которые вычисляют единственное значение (например, сумму или среднее) для Series или объект Series - для строк либо столбцов DataFrame.


По сравнению с эквивалентными методами массивов NumPy, все они игнорируют отсутствующие значения.


In [None]:
data = DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]],
                index = ['a', 'b', 'c', 'd'],
                columns = ['one', 'two'])
data

---
Метод **sum** объекта DataFrame возвращает Series, содержащий суммы по столбцам (строкам):


---

In [None]:
data.sum()

In [None]:
data.sum(axis=1, skipna= False) # skipna= False - исключает отсутствующие значения

##### Параметры методов редукции

|Аргумент|Описание|
|:---|:---|
|axis|Ось, по которой производится редуцирование. В случае DataFrame 0 означает строки, 1 - столбцы.|
|skipna|Исключать отсутствующие значения. По умолчанию True|
|level|Редуцировать с группировкой по уровням, если индекс по оси иерархический (Multilndex)|

### Методы косвенных статистик

In [None]:
data.idxmin() # Индекс, при котором достигается минимум

In [None]:
data.idxmax() # Индекс, при котором достигается  максимум

In [None]:
data.cumsum()  # Нарастающий итог (аккумулирующий метод)

In [None]:
data.describe() # Несколько сводных статистик за одно обращение

In [None]:
obj = Series( ['a', 'a', 'b', 'c' ] * 4)
obj.describe()

#### Описательные и сводные статистики

|Метод|Описание|
|:---|:---|
|count|Количество значений, исключая отсутствующие|
|describe|Вычисляет набор сводных статистик для Series или для каждого столбца DataFrame|
|min, max|Вычисляет минимальное или максимальное значение|
|argmin, argmax|Вычисляет позицию в индексе (целые числа), при котором достигается минимальное или максимальное значение соответственно|
|idxmin, idxmax|Вычисляет значение индекса, при котором достигается минимальное или максимальное значение соответственно|
|quantile|Вычисляет выборочный квантиль в диапазоне от 0 до 1|
|sum|Сумма значений|
|mean|Среднее значение|
|median|Медиана (50%-ый квантиль)|
|mad|Среднее абсолютное отклонение от среднего|
|var|Выборочная дисперсия|
|std|Выборочное стандартное отклонение|
|skew|Асимметрия (третий момент)|
|kurt|Куртозис (четвертый момент)|
|cumsum|Нарастающая сумма|
|cummin, cummax|Нарастающий минимум или максимум соответственно|
|cumprod|Нарастающее произведение|
|diff|Первая арифметическая разность (полезно для временных рядов)|
|pct_change|Вычисляет процентное изменение|

### Корреляция и ковариация



Некоторые сводные статистики, например корреляция и ковариация, вычисляются по парам аргументов. 

Рассмотрим объекты DataFrame, содержащие цены акций и объемы биржевых сделок, взятые с сайта Уаhoo! Finance:

In [None]:
pip install pandas_datareader

In [None]:
from pandas_datareader import data as web

all_data = {}
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']:
    all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2008', '1/1/2018')

price = DataFrame({tic: data['Adj Close'] for tic, data in all_data.items()})
volume = DataFrame ({tic: data ['Volume'] for tic, data in all_data.items()})


In [None]:
"""
.pct_change() вычисляет процентное изменение 
между текущим и предыдущим элементом. 
Эта функция по умолчанию рассчитывает процентное изменение 
от непосредственно предыдущей строки.
"""
returns = price.pct_change()
returns.tail() # 5 нижних строк фрейма данных

---
Метод **.corr** объекта Series вычисляет корреляцию перекрывающихся, отличных от NA, выровненных по индексу значений в двух объектах Series. Соответственно, метод **.cov** вычисляет ковариацию


---    

In [None]:
returns.MSFT.corr(returns.IBM)

In [None]:
returns.MSFT.cov(returns.IBM)

---
Методы **.corr** и **.cov** объекта DataFrame возвращают соответственно полную корреляционную или ковариационную матрицу в виде DataFrame

---

In [None]:
returns.corr()

In [None]:
returns.cov()

## Уникальные значения, счетчики значений и членство

In [None]:
obj = Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [None]:
"""
Вычисляет массив уникальных значений в Series 
и возвращает их в порядке появления
"""
uniques = obj.unique() 
uniques

In [None]:
"""
Возвращает объект Series, который содержит уникальное значение 
в качестве индекса и его частоту в качестве соответствующего значения. 
Отсортирован в порядке убывания частот
"""
obj.value_counts() 

In [None]:
"""
Вычисляет булев массив, показывающий, 
содержится ли каждое принадлежащее Series значение 
в переданной последовательности
"""
obj.isin(['b', 'с']) 

## Обработка отсутствующих данных


Отсутствующие данные – типичное явление в большинстве аналитических приложений. При проектировании pandas в качестве одной из целей ставилась задача сделать работу с отсутствующими данными как можно менее болезненной. 

В pandas для представления отсутствующих данных в любых массивах - как чисел с плавающей точкой, так и иных – используется значение с плавающей точкой NaN (не число). Это просто признак, который легко распознать


In [None]:
string_data = Series(['mango', 'artichoke', np.nan, 'avocado'])
string_data

In [None]:
string_data.isnull()

---
Встроенное в Python значение **None** также рассматривается как отсутствующее в массивах объектов


---

In [None]:
string_data[0] = None
string_data.isnull()

##### Методы обработки отсутствующих данных

|Метод|Описание|
|:---|:---|
|dropna|Фильтрует метки оси в зависимости от того, существуют ли для метки отсутствующие данные, причем есть возможность указать различные пороги, определяющие, какое количество отсутствующих данных считать допустимым:|
|fillna|Восполняет отсутствующие данные указанным значением или использует какой-нибудь метод интерполяции, например 'ffill' или 'bfill'|
|isnull|Возвращает объект, содержащий булевы значения, которые показывают, какие значения отсутствуют|
|notnull|Логическое отрицание isnull|

### Фильтрация отсутствующих данных

In [None]:
from numpy import nan as NA
data = Series([1, NA, 3.5, NA, 7])
data.dropna()

In [None]:
"""
или
"""
data[data.notnull()]

---
В случае объектов DataFrame все немного сложнее. Можно отбрасывать строки или столбцы, если они содержат только NА-значения или хотя бы одно NА-значение.
По умолчанию метод **dropna** отбрасывает все строки, содержащие хотя бы одно отсутствующее значение:
    
---

In [None]:
data = DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA] , [NA, 6.5, 3. ] ] )
data

In [None]:
cleaned = data.dropna()
cleaned

---
Если передать параметр how= 'all', то будут отброшены строки, которые целиком состоят из отсутствующих значений

----
    

In [None]:
data.dropna( how='all')

---
Для отбрасывания столбцов достаточно передать параметр axis = 1


---

In [None]:
data[4] = NA
data

In [None]:
data.dropna(axis=1, how='all')

In [None]:
data.dropna(thresh=2) # Отбрасываем строки, содержащие менее двух значений (данных)

### Восполнение отсутствующих данных

Иногда отсутствующие данные желательно не отфильтровывать (и потенциально вместе с ними отбрасывать полезные данные), а каким-то способом заполнить «дыры». В большинстве случаев для этой цели можно использовать метод **.fillna**. Ему передается константа, подставляемая вместо отсутствующих значений

In [None]:
data.fillna(0)

Если передать методу **.fillna** словарь, то можно будет подставлять вместо отсутствующих данных значение, зависящее от столбца

In [None]:
data.fillna ( {1: 0.5, 2: 1, 3: -1}, inplace = True) # Модифицируем существующий объект 
data

---
Методы интерполяции, применяемые для переиндексации, годятся и для **.fillna**

---

In [None]:
data = DataFrame(np.random.randn(6, 3))
data.iloc[2:, 1] = NA 
data.iloc[4:, 2] = NA
data

In [None]:
data.fillna(method= 'ffill')

In [None]:
data.fillna(method='ffill', limit=2) # Limit – для  прямого и обратного восполнения максимальное количество непрерывных заполняемых промежутков

#### Аргументы метода fillna
|Аргумент |Описание|
|:---|:---|
|value|Скалярное значение или похожий на словарь объект для восполнения отсутствующих значений|
|method|Метод интерполяции. По умолчанию, если не задано других аргументов, предполагается метод 'fill'|
|axis|Ось, по которой производится восполнение. По умолчанию axis= 0|
|inplace|Модифицировать исходный объект, не создавая копию|
|limit|Для прямого и обратного восполнения максимальное количество непрерывных заполняемых промежутков|

# Упражнение

In [None]:
data_task = pd.read_csv('ttask3_2_2.csv')

Выполнить следующие преобразования DataFrame:

1)	Заполнить отсутствующие данные. В столбце «А» пустые значения заменить на «1», «E» - «0», «B» - средние значения по столбцу.

2)	Столбец «B» разделить на два столбца «B1»(данные до знака «/») и «B2» (данные после  знака «/»). 

3)	Из столбца «С» убрать «p.».

4)	Добавить столбец «F» (стоимость со скидкой), заполнить его данными согласно формуле: «A»\*«С» - «E» .
