<a href="https://colab.research.google.com/github/VorobyvEgor/Seminar_Sber/blob/main/Seminars/%D0%A1%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80_3_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Семинар 3.1: Углубленное знакомство с библиотекой pandas и первичный анализ данных.


*   [Полный User Guide по библиотеке pandas](https://pandas.pydata.org/docs/user_guide/index.html)
*   [Куча полезных рецептов и хороших практик](https://pandas.pydata.org/docs/user_guide/cookbook.html)


In [None]:
import pandas as pd
import numpy as np

## Pandas
В pandas существует два основных объекта: pandas Series и pandas DataFrame. Первая это по сути асбтракция над одномерным массивом данных с дополнительными метаданными, а вторая абстракция это по сути "таблица", состоящая из наборов pandas Series.

### Создание объектов


#### pd.Series

Начнем с pd.Series. Также, как и для numpy массива мы можем задать тип данных. Доступны все те же типы данных, что и в numpy + есть возможность конвертировать одни типы данных в другие с помощью astype + можно указывать [свои функции](https://pbpython.com/pandas_dtypes.html) для преобразования.

In [None]:
s = pd.Series([1,2,3], dtype=np.int32, name='numbers') # pd.Series
s

In [None]:
# Здесь создадим еще парочку объектов

...

Обратите внимание на колонку слева, это индекс, и если не указано обратное, он создается автоматически. Индексы мы будем встречать как для pd.Series, так и для pd.DataFrame. Что же он дает? Аналогия здесь такая же, что с телефонным справочником. Индексы позволяют более логично категоризовать информацию, а также более оптимально делать некоторые операции над сериями (pd.Series) и датафреймами (pd.DataFrame). Вкратце, можно отметить, что индексы
1. Идентифицируют данные (т.е. предоставляют метаданные) с помощью известных индикаторов, важных для анализа, визуализации и отображения в интерактивной консоли
2. Включают автоматическое и явное выравнивание данных.
3. Позволяют интуитивно получать и настраивать подмножества набора данных.

Помимо этого обратите внимание, что у серии также есть имя. Это полезно, когда нам нужно вставить новую колонку в DataFrame без явного указания имени.

Следующим образом мы можем задать произвольный индекс, теперь наши записи идентифицируют буквы a b c

In [None]:
# Следующим образом мы можем задать произвольный индекс
# Например сделаем так, чтобы наши записи идентифицируют буквы a b c

s = pd.Series([1,2,3], dtype=np.int32, name='numbers', index=['a', 'b', 'c'])
s

In [None]:
# Здесь попробуем также другие индексы

...

Помимо индекса (свойства s.index) также сохраняется сквозняется целочисленная индексация.

Ниже выборка просто по целочисленному индексу (сквозному), как будто мы работаем с обычным списком

In [None]:
# Вызовим метод .index
print(...)

# Обратимся по буквенному индексу
print(...)

# Обратимся по нумерному индексу
print(...)

In [None]:
# Метод доступа .loc позволяет делать выборку именно по индексу.
# Обратите внимание, что здесь используются именно квадратные скобки. 
# Скорее всего так сделано, чтобы такая выборка была похоже на выборку из обычного списка.

print(...)

#### pd.DataFrame

Создадим pandas DataFrame из случайной numpy матрицы

In [None]:
m = np.random.rand(10,3)
m

In [None]:
df = pd.DataFrame(m)
df

Мы видим строковый индекс, который был создан автоматически, а также колоночный (или просто колонки), которые также были заданы автоматически. У нас получился не совсем привычный вид таблицы, давайте зададим колонкам более понятные имена.

In [None]:
df = pd.DataFrame(data=m, columns=['first', 'second', 'third'],)
df

In [None]:
# В pandas DataFrame выборка квадратными скобками происходит по колонкам

...

In [None]:
# Посмотрим какой тип имеет колонка DataFrame

print(type(...))

In [None]:
# Попытаемся обратиться к колонке по номеру

df[0]

Но ВНЕЗАПНО, если мы попробуем применить слайсинг как в обычных массивах numpy или списках, выборка будет происходить по строкам. Эта та особенность, которую мы вынуждены просто запомнить. Выборка при этом происходит по целочисленной сквозной индексации (0,1,2,3,4,...).

In [None]:
df['first'][:3]

In [None]:
df[:2]

#### Полезные методы DataFrame для получения представления о том, какие данные находятся в нем

In [None]:
# .head()

...

In [None]:
# .tail()

...

In [None]:
# .info()

...

# В методе info мы можем сразу проверить наличие пропусков (графа Non-Null Count),
# а также посмотреть какой объем памяти занимает наша табличка (чем меньше, тем, конечно, лучше).

In [None]:
# .sample()

...

In [None]:
# .describe()

...

# Метод .describe() выводит нам дескриптивную статистику по нашему датафрейму.

NOTE: Есть удобный способ инициализировать новый DataFrame с помощью словаря. Ключи станут названиями колонок, а значения по ключам столбцами.

In [None]:
# pd.DataFrame через словарь
d = {
    'Name': [...],
    'Age': [...]
}

pd.DataFrame(d, index=[...])

### Просмотр мета-информации

In [None]:
# Узнать какие индексы находтся в нашем DataFrame

df.index

In [None]:
# Узнать какие столбцы находтся в нашем DataFrame

f.columns

In [None]:
# Узнать форму нашей таблицы

df.shape

In [None]:
# Посмотреть типы данных

df.dtypes

Мы можем менять типы с помощью метода astype. Обратите внимание, что мы можем передать целый словарь в котором ключи это названия колонок, а значения по ключу это тип данных к которому мы хотим преобразовать соответствующую колонку.

In [None]:
df.astype({'first': np.float32}).dtypes

Мы можем отказаться от всех метаданных и перейти к numpy матрице, чтобы работать с ней с помощью методов из библиотеки numpy

In [None]:
df.to_numpy()

#### Оси и индексы DataFrame

По большому счету колонки это тот же индекс, только по горизонтальной оси (axis = 1). Строковый и столбцовый индексы могут заменять друг друга, давайте продемонстрируем это с помощью операции транспонирования.

Кстати, ниже напоминание об осях из прошлой лекции.

![axes](https://railsware.com/blog/wp-content/uploads/2018/11/data-frame-axes.png)

![axes](https://i.stack.imgur.com/FzimB.png)

In [None]:
# Для удобства перезапишем в df первые 10 строчек df

...

In [None]:
# Транспонируем наш DataFrame

...

Мы можем сортировать строки таблицы по значениям колонок. Обратите внимание, что индекс остался прежним.

In [None]:
# .sort_values() для сортировки

...

In [None]:
# .sort_values() для сортировки по нескольким ключам

...

А можем сортировать именно индекс.

In [None]:
df_T = df.T

In [None]:
df_T

In [None]:
df_T.sort_index(axis=0)

In [None]:
df.T.sort_index(axis=1, ascending=False)

##### Использования колонки в качестве индекса

In [None]:
df1 = pd.DataFrame({
    'date' : ['2020-01-01', '2020-02-01', '2020-03-01'],
    'usd' : [1, 2, 3],
    'rur' : [4, 8, 12]
})

df1

In [None]:
df1 = df1.astype({'date':np.datetime64})

In [None]:
df1

In [None]:
df1.dtypes

In [None]:
df1.set_index('date', inplace=True)

In [None]:
df1

### Выборка
Подробная информация по выборкам данных представлена [тут](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html).

#### Квадратные скобки
Как уже отмечалось выше, для датафреймов выборка происходит по столбцам.

In [None]:
df['third']

In [None]:
df[['third', 'first']]

In [None]:
df[1:4] # слайсинг по сквозному целочисленному индексу как в массиве

#### Выборка по метке (лейблу)
Добавим новый столбец в нашу таблицу и сделаем его новым индексом с помощью метода .set_index()

In [None]:
df = pd.DataFrame(np.random.rand(5, 3))
df

In [None]:
df['new_index'] = pd.Series(['a', 'b', 'e', 'c', 'g'])
df

In [None]:
# Кроме того, в столбцах могут храниться и более сложные типы, например списки

# df['test_col'] = [[round(np.random.rand(), 3) for i in range(3)] for i in range(df.shape[0])]
# df

In [None]:
df = df.set_index('new_index')
df

Теперь с помощью .loc мы можем производить навигацию по этому индексу

In [None]:
df.loc['b']

И даже использовать диапазоны (слайсы) по индексу

In [None]:
df.loc['b':'c']

Через запятую мы можем указать также и фильтр по столбцам

In [None]:
df

In [None]:
df.columns = ['first', 'second', 'third']

In [None]:
df[['first', 'second']]

In [None]:
# Кроме того, мы можем комбинировать

df.loc[:'e', ['second', 'third']]

In [None]:
# Место для ответов на вопросы

...

#### Выборка по позиции в таблице
Сохраняется сквозная целочисленная индексация, и она доступна с помощью метода .iloc. Скобки также квадратные

In [None]:
df

In [None]:
# Попытаемся использовать loc() для выбора строк по нумерации

df.loc[1:3]

In [None]:
df.iloc[1:3]

Происходит выборка именно по **номеру** строки и **номеру** столбца (начиная с нуля)

In [None]:
df.iloc[1:3, [0, 2]]

### Чтение и запись данных

В pandas присутствует огромное кол-во возможностей для чтения записи данных.

Например, в методе pd.read_csv доступны специфичные опции для формата (например, разделитель колонок sep), но и также можно, например, дополнить список значений, которые pandas по умолчанию считает пропусками, задав явно параметр na_values.

Более подробную информацию про чтение запись данных можно найти [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html)

Далее мы будем использовать данные iris.csv ([скачать](https://drive.google.com/file/d/1fjyopp9FZ-g6KIsIE8vPX2r62A43h2XI/view?usp=sharing))


In [None]:
!wget https://www.dropbox.com/s/pb6lb2s6fe15wri/iris.csv

In [None]:
iris = pd.read_csv('iris.csv')

In [None]:
iris

In [None]:
iris = pd.read_csv('iris.csv', header='infer', sep=',')
iris

In [None]:
pd.read_ # доступно очень большое кол-во форматов для чтения

In [None]:
# запись to_csv() и другие

In [None]:
iris.to_csv('iris_test.csv', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [None]:
!ls

In [None]:
iris.to_excel('iris_test.xlsx', header=True, index=False) # сохраняем в качестве первой строки список колонок, первой колонкой индекс НЕ пишем

In [None]:
!ls

Загрузим набор данных iris.csv, и потренируемся делать выборки на нем.

In [None]:
import numpy as np
import pandas as pd

iris = pd.read_csv('iris.csv', header='infer')
iris.head(5)

In [None]:
iris.shape

##### Задачи на выборку данных
1. выведите первые 4 строки и первые 2 столбца с помощью метода .iloc
2. выведите только колонки sepal.length и petal.length с помощью loc и/или квадратных скобок
3. сделайте индексом колонку variety с помощью метода .set_index(), и выберите с помощью .loc только вид 'Setosa'

#### Выборка по маске
Также как и в numpy присутствует возможность делать выборки по маске. Но здесь механизм несколько отличается. Если в numpy мы получали матрицу из True и False, и у каждому элементу было сопоставлено значение True (брать в выборку) или False (не брать в выборку), то в pandas маска это pandas Series **с такой же индексацией** что и исходный датафрейм или серия, состоящий из значений True или False. Т.е мы указываем какие строчки идут в результирующую выборку, а какие нет.

In [None]:
iris[(iris['sepal.length'] > 5.0) | (iris['sepal.width'] <= 3.0)]

In [None]:
iris['sepal.width'] <= 3.0

In [None]:
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

In [None]:
# получаем маску в которой у каждого индекса (!!!) указано оставлять его в наборе данных или нет
(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)

Конечно, мы можем выстраивать условия в логические цепочки

In [None]:
iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

Мы можем даже перемешать значения, но выборка все равно останется той же за счет соответствия по индексу!

In [None]:
A = iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)]

In [None]:
A.shape

In [None]:
A

In [None]:
A.reset_index(inplace=True, drop=True)

In [None]:
A

In [None]:
# получим уникальные значения индексов в каждой выборке
# если множество ключей в первом случае совпадает со множеством во втором случае, то 
# в обоих случаях мы сделали одинаковую выборку

set(iris[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index) \
 - set(iris.sort_values('sepal.length')[(iris['sepal.length'] > 5.0) & (iris['sepal.width'] <= 3.0)].index)

Для того, чтобы сделать фильтрацию по значениям в колонке, используйте метод .isin()

In [None]:
iris['variety'].isin(['Setosa', 'Virginica']) # проверка по множеству

In [None]:
iris[iris['variety'].isin(['Setosa', 'Virginica'])]

#### Вставка значений
Вставку значений можно производить методами доступа .loc и .iloc, а также методом .at. Разница в том, что .loc и .iloc чуть более универсальны, и позволяют изменить сразу целый диапазон, при этом важно соблюсти размерности вставляемых данных. .at в свою очередь дает нам точечную вставку "на место", и лучше подходит с точки зрения чтения кода.

In [None]:
df = pd.DataFrame(np.random.rand(6,3), 
                  index=['a','b','c','d','e','f'], 
                  columns=['first', 'second', 'third'])
df

In [None]:
df.loc['b','first'] = 1.0
df

In [None]:
df.loc['a':'c', 'first'] = [0.5, 1.5, 2.0]
df

In [None]:
df.iloc['d', ['first', 'second', 'third']] = 30000
df

In [None]:
df.iloc['d', [0, 1, 2]] = 30000
df

In [None]:
df.iloc[3, [0, 1, 2]] = 30000
df

In [None]:
df.at['e', 'second'] = 100
df

In [None]:
df.at['a':'c', 'first'] = [500, 1500, 2000]
df

In [None]:
df.at['a', ['first', 'third', 'second']] = [500, 1500, 2000]
df

### Пропущенные значения
По умолчанию не участвуют в вычислениях, и чаще всего на месте пропусков можно встретить значение np.nan (Not a Number), либо None (для нечисловых типов)

In [None]:
df

In [None]:
# сделаем специально несколько пропущенных значений
df.at['e', 'second'] = np.nan
df.at['e', 'third'] = np.nan
df

Метод .isna() возвращает нам карту с пропусками. Пропуск там, где значение True.

In [None]:
df.isna()

Напоминаю, что в принципе количественную информацию о пропусках можно получить с помощью метода .info()

In [None]:
df.info()

Для удаления пропусков используется метод .dropna().

По умолчанию .dropna() удалит те строки в которых есть хотя бы один пропуск в строке.

In [None]:
df.dropna()

А с помощью транспонирования можно удалять целые столбцы

In [None]:
df.T.dropna().T

Или использовать параметр axis=1

In [None]:
df.dropna(axis=1)

In [None]:
df.dropna(axis=0)

Но все же часто нам все-таки интересны данные с пропусками. Для работы с ними можно использовать метод .fillna()

Вот так мы заполним все пропуски одним и тем же значением

In [None]:
df.fillna(0)

Но обычно мы все же хотим заполнять разные столбцы разными значениями

In [None]:
df.fillna({'second': 0, 'third': 1000})

Есть и более продвинутые методы заполнения, сделаем несколько пропусков подряд

In [None]:
df.at['d', 'second'] = np.nan
df.at['d', 'third'] = np.nan
df

Метод bfill заполняет серию пропусков последним корректным (non Null) значением, итерируясь по таблице с конца.

In [None]:
df.fillna(method='bfill')

Метод ffill делает то же самое, но итерация происходит с начала таблицы

In [None]:
df.fillna(method='ffill')

In [None]:
df

In [None]:
# df['second'] = df['second'].fillna(0) # работает медленно

In [None]:
df.fillna({'second': 0})

bfill и ffill особенно полезны при заполнении пропусков во временном ряду. Более подробно данный функционал описан [здесь](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html).




### Статистики
Конечно, в pandas реализовано куча методов для подсчета различных статистик. 
Полный список методов можно посмотреть [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats) 

Вот так мы можем посчитать средние значения для всех колонок сразу

In [None]:
df.mean()

А так посчитать среднее лишь для одной колонки

In [None]:
df['first'].mean()

То же для [стандартного отклонения](https://berg.com.ua/indicators-overlays/stdev/#:~:text=%D0%A1%D1%82%D0%B0%D0%BD%D0%B4%D0%B0%D1%80%D1%82%D0%BD%D0%BE%D0%B5%20%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%BC%D0%BE%D0%B6%D0%BD%D0%BE%20%D0%B2%D1%8B%D1%80%D0%B0%D0%B7%D0%B8%D1%82%D1%8C%20%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%BE%D0%B9,%D0%BD%D0%B0%20%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE%20%D1%8D%D0%BB%D0%B5%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2%20%D0%B2%20%D0%B2%D1%8B%D0%B1%D0%BE%D1%80%D0%BA%D0%B5.)

In [None]:
df.std() # стандартное

Или [дисперсии](https://ru.qwe.wiki/wiki/Variance)

In [None]:
df.var() # дисперсию

А с помощью .value_counts() можно посчитать кол-во вхождений уникальных значений

In [None]:
df

In [None]:
df.loc['b', 'second'] = 2000
df

In [None]:
df['second'].value_counts()

In [None]:
df['second'].count()

In [None]:
df['second'].isna().sum()

In [None]:
df['second'].sum()

### Применение функций к данным (apply)
И все же иногда в pandas требуются новые функции со своей логикой обработки. Тогда на помощью приходит метод .apply

Он работает следующим образом. Мы передаем первым аргументом функцию, которая отвечает за логику, а вторым передаем axis, т.е мы указываем производить обработку по колонкам или по строкам.

В самой функции, задающей логику, нужно не забыть вернуть строку или столбец обратно в таблицу (return).

Полное описание функции доступно [тут](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html)

In [None]:
df.iloc[0, :].to_frame().T

In [None]:
df.iloc[0, :]

In [None]:
def my_function(r): 
  r['first'] = r['first']**2
  r['second'] = r['second'] - 1
  return r

print("begin")
df.apply(my_function, axis=1) # тогда в my_function будут отправляться строки, в параметр r
# for *итерация по строчкам*
#.  применить к строке функцию my_function и перезаписать строчку

In [None]:
df.second

In [None]:
df.rename(columns={'second':'second column'})['second column']

In [None]:
df['first'].name

In [None]:
def my_function(c):
  if c.name == 'first':
    c = c**2
  if c.name == 'second':
    c = c - 1
  return c

print("begin")
df.apply(my_function, axis=0) # тогда в my_function будут отправляться столбцы, в параметр c
# for *итерация по колонкам*
#.  применить к колонке функцию my_function и перезаписать колонку

#### Полезный бонус: groupby

In [None]:
# groupby

