# Введение в анализ на Python

## Работа с текстовыми файлами

### Простейшие операции

Для открытия файла используется встроенная функция **open**
Важные атрибуты:
* mode - режим, в котором открывается файл. По-умолчанию r - read
* encoding - кодировка, с которой открывается файл. По-умолчанию не читает кирилицу

In [None]:
file = open('strange_text.txt', encoding='utf8')

Открыв файл мы можем считать из него строку:

In [None]:
file.readline()

Считав строку еще раз - вы продвинетесь далее по файлу. Если необходимо вернуться в начало - необходимо переставить каретку на 0 бит файла:

In [None]:
file.seek(0)
file.readline()

Файл - такой же итерируемый объект как список или словарь. Элемент итерации файла - строка:

In [None]:
file.seek(0)
for s in file:
    print(s, end='')

После работы с файлом его необходимо закрыть!

In [None]:
file.close()
file.read()

Также доступны следующие режимы открытия файла:
* **'r'** - Открыть текстовый файл для чтения. Курсор будет в начале файла.
* **'r+'** - Открыть для чтения и записи. Курсор в начале файла.
* **'w'** - Открыть для записи. Файл обрезается до начала или создается, если ранее не существовал. Курсор в начале файла.
* **'w+'** - Открыть для чтения и записи. Файл обрезается до начала или создается, если ранее не существовал. Курсор в начале файла.
* **'a'** - Открыть для записи. Файл создается, если ранее не существовал. Курсор в конце файла (добавление новой информации в конец файла).
* **'a+'** - Открыть для чтения и записи. Файл создается если ранее не существовал. Курсор в конце файла (добавление новой информации в конец файла).


Для автоматического заркрытия файла можно использовать контекстный менеджер

In [None]:
with open('this_is_new_file.csv', 'w') as file:
    file.write(','.join([str(i) for i in range(10)]))

## Модули

Для работы далее нам понадобятся такие библиотеки как:

*   `numpy` - библиотека для работы с линейной алгеброй
*   `pandas` - библиотека для работы с анализом данных
*   `matplotlib` - библиотека для работы с графиками

Перед тем как вы сможете воспользоваться функциями из этих библиотек, их необходимо установить. Сделать это очень просто. Просто пропишите в ячейке ноутбука:
```
pip install имя_библиотеки
```
Обращаю внимание, что в Google Colab большинство популярных библиотек уже установлено.\
Проверить какие библиотеки установлены на вашем компьютере или в Google Colab можно командой:

```
pip list
```

In [None]:
pip list

Установим необходимые модули, если их еще нет:

In [None]:
pip install numpy


In [None]:
pip install pandas


In [None]:
pip install openpyxl


Вот так можно посмотреть все функции и константы объявленные в модуле:

In [None]:
import openpyxl
dir(openpyxl)

### Создадим свой модуль

Недавно мы создавали функцию, которая анализирует текст.\
Давайте упакуем ее в собственный модуль:

In [None]:
def analyze_text(text):
  # Разбиваем текст на слова
  words = text.split()

  #Считаем количество слов
  total_words = len(words)

  #Подсчет количества уникальных слов
  unqiue_words = len(set(words))

  #Подсчет частоты каждого слова
  word_frequency = {}
  for word in words:
      word = word.lower().strip(".,!?;:-")  # Приведение к нижнему регистру и удаление знаков препинания
      if word in word_frequency:
        word_frequency[word] += 1
      else:
        word_frequency[word] = 1

  most_frequent_word = max(word_frequency, key=word_frequency.get)
  most_frequent_word_count = word_frequency[most_frequent_word]

  return total_words, unqiue_words, most_frequent_word, word_frequency

In [None]:
with open('strange_text.txt', encoding='utf8') as file:
    text = file.read()

analyze_text(text)

Но как быть если файл не в текстовом формате? А, допустим, Excel...

## NumPy

Numpy - библиотека для работы с многомерными массивами и матрицами.

Зачем нужен Numpy:
* Эффективная работа с массивами и матрицами.
* Быстрое выполнение математических операций благодаря реализации на языке C.
* Основа для многих других библиотек, таких как Pandas и SciPy.


In [None]:
import numpy as np

# Одномерный массив
one_d_array = np.array([1, 2, 3, 4, 5])
print("Одномерный массив:", one_d_array)

# Двумерный массив
two_d_array = np.array([[1, 2, 3], [4, 5, 6]])
print("Двумерный массив:", two_d_array, sep='\n')

# Многомерный массив
multi_d_array = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("Многомерный массив:", multi_d_array, sep='\n')


Математические операции

In [None]:
import numpy as np

# Создание массивов
a = np.array([1, 2, 3, 4, 5])
b = np.array([5, 4, 3, 2, 1])

# Арифметические операции
print("Сложение:", a + b)
print("Вычитание:", a - b)
print("Умножение:", a * b)
print("Деление:", a / b)

# Универсальные функции
print("Синус:", np.sin(a))
print("Экспонента:", np.exp(a))

# Агрегационные функции
print("Сумма:", np.sum(a))
print("Среднее:", np.mean(b))
print("Медиана:", np.median(a))
print("Минимум:", np.min(a))
print("Максимум:", np.max(a))


Индексация и срезы

In [None]:
import numpy as np

# Одномерный массив
a = np.array([1, 2, 3, 4, 5])
print("Элемент с индексом 2:", a[2])
print("Срез [1:4]:", a[1:4])

# Двумерный массив
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Элемент [1,2]:", b[1, 2])
print("Строка с индексом 1:", b[1, :])
print("Столбец с индексом 2:", b[:, 2])

# Многомерный массив
c = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("Элемент [1,1,1]:", c[1, 1, 1])
print("Срез [:,1,:]:", c[:, 1, :], sep='\n')


Типовые операции
* Reshape: Изменение формы массива без изменения данных.
* Ravel: Преобразование многомерного массива в одномерный.
* Transpose: Транспонирование массива (перестановка осей).

In [None]:
import numpy as np

# Создание двумерного массива
a = np.array([[1, 2, 3], [4, 5, 6]])
print("Исходная форма:", a, sep='\n')

# Изменение формы массива
b = a.reshape((3, 2))
print("Измененная форма:", b, sep='\n')

# Преобразование в одномерный массив
c = a.ravel() # flatten()
print("Одномерный массив:", c)

# Транспонирование массива
d = a.transpose()
print("Транспонированный массив:", d, sep='\n')


Зачем NumPy, если есть List? Производительность!

1) Удобство проведения мат операций:

In [None]:
# списки
x = [1,2,3] 
y = [1,2,3]

print(x+y)

res = []
for i, j in zip(x, y):
    res.append(i + j)

print(res)

# массивы
print(np.array(x) + np.array(y))

2) Производительность!

In [None]:
import numpy as np
import time

# Сравнение производительности сложения элементов в списках и массивах NumPy
size = 1000000

# Создание списков и массивов
list1 = list(range(size))
list2 = list(range(size))
array1 = np.array(list1)
array2 = np.array(list2)

# Сложение элементов в списках
start_time = time.time()
result_list = [x + y for x, y in zip(list1, list2)]
print("Сложение списков:", time.time() - start_time, "секунд")


# Сложение элементов в массивах NumPy
start_time = time.time()
result_array = array1 + array2
print("Сложение массивов NumPy:", time.time() - start_time, "секунд")

# вывод результатов
print(result_list[1:10])
print(result_array[1:10])



## Pandas

`Pandas` - это библиотека, которая позволяет удобно работать с таблицами. Как и в `numpy`, некоторые компоненты библиотеки `pandas` написаны на языке `C`, что ощутимо ускоряет работу с таблицами, содержащими большие объёмы данных.

### Series

#### Основы

`Series` - это одна из структур данных библиотеки `pandas`. Она представляет собой что-то вроде массива.


In [None]:
import pandas as pd
import numpy as np

Получим объект `Series` на основе различных источников:

In [None]:
# Создание Series из списка
lst = [1, 4, 3, 5, 2]
list_series = pd.Series(lst)
print("Series из списка:", list_series, sep='\n')

# Создание Series из массива NumPy
array_series = pd.Series(np.array(lst))
print("Series из массива NumPy:", array_series, sep='\n')

# Создание Series из словаря
dict_series = pd.Series({'a': 1, 'b': 4, 'c': 3, 'd': 5, 'e': 2})
print("Series из словаря:", dict_series, sep='\n')


In [None]:
type(array_series)

В результате такой операции получается объект `Series`, содержащий элементы из списка. Здесь справа располагаются элементы из, а слева - их индексы. Поскольку индексы для этих элементов мы явно не указали, используются стандартные.

Индексы можно также указать явно, для этого нужно подать в качестве аргумента `index` список из индексов. Список индексов должен быть той же длины, что и исходный список.

В качестве индексов можно использовать что угодно: числа, строки и пр. 

Индексы можно задать сразу, а можно и изменить позже:

In [None]:
list_series.index = ["a", "b", "c", "d", "e"]

print(list_series)

А теперь проиндексируем наш список объектами типа `datetime.date`:

In [None]:
from datetime import date

In [None]:
index = [date(2019, 4, i) for i in lst]

list_series = pd.Series(lst, index=index)

print(list_series)

In [None]:
type(list_series)

Рассмотрим индексы объекта `Series` поподробнее. Их можно получить с помощью атрибута `.index`:

In [None]:
list_series.index

Мы видим, что в качестве индексов здесь используются объекты типа `object`. Этот тип объектов используется также в `numpy`. Он используется для объектов, для которых заранее не известно, сколько памяти они требуют (в отличие от, например, `numpy.int64`, для которого заранее известно, сколько памяти под него нужно).

Тип `object` в `numpy` и `pandas` приписывается, например, строкам, а также объектам из других библиотек. В массивы данных, состоящие из объектов типа `object` (например, в наш массив `list_series.index`), помещаются не сами объекты, а лишь указатели на них, а сами объекты хранятся в специально выделенном месте. Мы всё ещё можем использовать для этих объектов методы, присущие им (например, для каждого индекса из массива `list_series.index` мы можем посмотреть его год, месяц или день):

In [None]:
print(list_series.index[2].day)

# print(list_series.index.day)

Поскольку сейчас индекс - object, то сейчас безопасно так делать лишь с отдельными элементами из индекса.

В `pandas`, как и в `numpy`, возможно выполнять различные операции с массивами целиком, но лишь когда эти массивы содержат объекты типов, поддерживаемых `numpy` и `pandas` (вроде `numpy.int32` или `numpy.float64`).

Для работы с датой и временем в `numpy` также есть специальный тип: `numpy.datetime64`. Приведём элементы нашего индекса к этому типу и посмотрим, что это нам позволит делать. Это можно сделать с помощью функции `pd.to_datetime`, которая получает на вход массив и возвращает новый массив, элементы которого приведены к типу `numpy.datetime64`:

In [None]:
list_series.index = pd.to_datetime(list_series.index)
list_series.index

Теперь мы можем, например, посмотреть атрибут `day` у всех элементов индекса одновременно:

In [None]:
print(list_series.index.day)

Индексы в `Series` не обязаны быть уникальными:

In [None]:
list_series = pd.Series(lst, index=[0, 1, 0, 1, 0])

print(list_series)

In [None]:
print(list_series[0])

Тип данных в `Series` можно также задать явно. Можно это сделать либо сразу же:

In [None]:
import numpy as np

In [None]:
list_series = pd.Series(lst, dtype=np.float32)

print(list_series)

либо позже с помощью метода `.astype`:

In [None]:
list_series = pd.Series(lst)
print(list_series)

list_series = list_series.astype(np.float32)
print(list_series)

Создать массив `Series` можно не только из списка, но и из словаря. В таком случае, ключи этого словаря становятся индексами, а соответствующие значения словаря - значениями массива:

In [None]:
dict_ = {
    "1st": "a",
    "2nd": "b",
    "3rd": "c",
}

dict_series = pd.Series(dict_)

print(dict_series)

Значения массива `Series` можно получить с помощью атрибута `.values`. Значения массива представлены как `numpy.ndarray`.

In [None]:
dict_series.values

In [None]:
type(dict_series.values)

#### Выбор данных из массива Series

Для получения значений массива `Series` по индексу используется тот же синтаксис, что и с массивами в `numpy`:

* Чтобы получить значение или значения по одному индексу, достаточно поставить этот индекс в квадратные скобки после массива: `f["1st"]`.
* Если необходимо получить значения по нескольким индексам, в квадратные скобки массива подаётся список индексов: `f[["1st", "3rd"]]`.

У массивов `Series` также имеются методы `.head` и `.tail`, позволяющие посмотреть, соответственно, первые несколько или последние несколько значений массива. В каждом из этих методов можно указать, сколько именно значений нужно вернуть. По умолчанию возвращается 5 значений.

In [None]:
print('Исходный Series:', list_series, sep='\n')
print('Значение по индексу 1:', list_series[1])
print('Значения по индексам [1,2,3]:', list_series[[1,2,3]], sep='\n')

print('2 элемента с хвоста:', list_series.tail(2), sep='\n') # head и tail часто используются для проверки при перекладке данных между средами


Для массивов `Series`, также как и для `numpy`-массивов, доступна булева индексация. С помощью неё можно получать значения массива, которые удовлетворяют некоторому условию:

In [None]:
list_series[list_series > 2]

Как и ранее, условия можно комбинировать, используя логические операторы "и" (обозначается символом $\&$), "или" (символ $\mid$) и оператор отрицания "не" (символ $\sim$). При этом каждое условие необходимо поставить в круглые скобки:

In [None]:
list_series[~(list_series > 3) | (list_series == 1)]

Изменять массив `Series` можно теми же способами, что и при работе с обычными словарями. Например, команда `e[2] = 4` заменит значение массива `e` с индексом 2 на 4.

Однако, в массивах `Series` мы можем менять несколько значений одновременно. Например, с помощью тех же самых условий:

In [None]:
list_series[list_series > 2] = -1

print(list_series)

либо передав в массив какие-то конкретные индексы:

In [None]:
list_series[[1, 3]] = [9,7]

print(list_series)

#### Добавление и удаление данных в Series

In [None]:
list_series[111] = 5
list_series

С помощью метода `concat` мы можем добавлять к одному массиву `Series` другой:

In [None]:
print(list_series)
print(dict_series)
series = pd.concat([list_series, dict_series])

print(series)

С помощью метода `.drop` мы можем удалять из массива элементы с определёнными индексами. Эти индексы мы и подаём в метод в виде списка:

In [None]:
series = series.drop([0, 4, "2nd"])

print(series)

Обратите внимание, что эти методы, в отличие от аналогичных методов из стандартных библиотек питона, не изменяют исходный массив, но возвращают новый.

#### Запись и чтение массивов Series из файла

Для записи массивов `Series` в файлы используется формат файлов под названием `pickle`. Этот формат позволяет полностью сохранять питоновские объекты, а затем загружать их в неизменном виде. Данные в `pickle` хранятся в бинарном виде

Для записи массива `Series` в файл используется метод `.to_pickle`, а для чтения - функция `np.read_pickle`:

In [None]:
series.to_pickle("series.pkl")

In [None]:
some_new_series = pd.read_pickle("series.pkl")

print(some_new_series)

### DataFrame

#### Основы

`DataFrame` - двумерная структура данных из библиотеки `pandas`, позволяющая удобно работать с таблицами.

Самый простой способ задать `DataFrame` - с помощью словаря, в котором каждый ключ отвечает за столбец, а соответствующее значение - это список из элементов данного столбца. Эти списки должны иметь одинаковую длину.

In [None]:
import pandas as pd
import numpy as np

Попробуем создать DataFrame из различных источников данных:

In [None]:
# Создание DataFrame из словаря
data = {
    'Имя': ['Анна', 'Борис', 'Виктор'],
    'Возраст': [25, 30, 35],
    'Город': ['Москва', 'Санкт-Петербург', 'Казань']
}
df = pd.DataFrame(data)
print("DataFrame из словаря:", df, sep="\n")

# Создание DataFrame из списка словарей
data = [
    {'Имя': 'Анна', 'Возраст': 25, 'Город': 'Москва'},
    {'Имя': 'Борис', 'Возраст': 30, 'Город': 'Санкт-Петербург'},
    {'Имя': 'Виктор', 'Возраст': 35, 'Город': 'Казань'}
]
df = pd.DataFrame(data)
print("DataFrame из списка словарей:", df, sep="\n")

# Создание DataFrame из массива NumPy
data = np.array([
    ['Анна', 25, 'Москва'],
    ['Борис', 30, 'Санкт-Петербург'],
    ['Виктор', 35, 'Казань']
])
df = pd.DataFrame(data, columns=['Имя', 'Возраст', 'Город'])
print("DataFrame из массива NumPy:", df, sep="\n")


DataFrame в среде Jupiter выводится в виде всем привычной таблицы:

In [None]:
df

Поля DataFrame можно без труда преобразовать к формату словаря или списка:

In [None]:
df['Имя'].to_dict()

In [None]:
df['Имя'].tolist()

С помощью атрибута `.shape` можно посмотреть форму массива `DataFrame`. Атрибут `.columns` содержит массив из столбцов, а `.index`, как и ранее, содержит массив индексов.

In [None]:
print("Форма df: {}".format(df.shape))

print("Столбцы df: {}".format(df.columns))

print("Индексы df: {}".format(df.index))

Общую информацию о массиве можно запросить с помощью метода `.info`. Нам вернётся информация об индексах и столбцах данного массива, о том, какие типы данных хранятся в каждом из столбцов, а также информация о том, сколько памяти выделено под данный массив.

In [None]:
df.info()

Поле `Возраст` можно привести к типу Int:

In [None]:
df = df.astype({"Возраст": "Int64"})

In [None]:
df.info()

С помощью метода `.describe` можно получить некоторые статистические характеристики по столбцам с числовыми значениями: среднее значение, среднее квадратическое отклонение, максимум, минимум, квартили и пр.

In [None]:
df.describe()

#### Выбор данных из массива DataFrame

Для получения данных из массива `DataFrame` используется тот же синтаксис, что и для `Series`. Например, с помощью методов `.head` и `.tail` можно получить несколько первых или несколько последних строк таблицы.

Отдельный столбец можно получить, передав его название в квадратные скобки массива. В данном случае на выходе будет Series

In [None]:
df["Имя"]

In [None]:
type(df["Имя"])

Если хотим получить DataFrame то вместо индекса нужно передать список столбцов []

In [None]:
df[["Имя"]]


In [None]:
type(df[["Имя"]])

В любом случае, конвертировать `Series` в `DataFrame` можно и явно:

In [None]:
temp_series = pd.Series([3, 1, 2])
temp_series

In [None]:
temp_df = pd.DataFrame(temp_series)
temp_df

Каждый отдельный столбец массива `DataFrame` возвращается как массив типа `Series`.

Если мы хотим указать несколько столбцов, в квадратные скобки нужно подать список из столбцов. Тогда нам вернётся подтаблица исходной таблицы опять в формате `DataFrame`.

Получить данные из строк таблицы `DataFrame` можно получить с помощью атрибута `.loc`. Этот атрибут представляет собой что-то вроде двумерного массива. Конкретное значение (или несколько значений) этого массива можно получить, указав нужный индекс строки и название колонки:

In [None]:
df

In [None]:
df.loc[2, "Город"]

Как и ранее, вместо каждого из ключей можно подать список ключей, чтобы вернуть несколько значений. Кроме того, второй аргумент можно не указывать, тогда будут возвращены значения из всех столбцов:

In [None]:
df.loc[[0, 2]]

In [None]:
df.loc[[0, 2], ["Имя", "Город"]]

При использовании атрибута `.loc` мы должны указывать именно индекс нужной строки и название нужного столбца. Бывают ситуации, когда удобнее было бы получить значение по позиции (т.е., например, элемент из третьей строки и второго столбца). Для этого можно использовать атрибут `.iloc`:

In [None]:
df.iloc[2, 1]

Как и в `Series`, в массивах `DataFrame` есть возможность использовать булеву индексацию для указания строк. Причём, условия могут касаться любого столбца или набора столбцов. Как и ранее, условия можно комбинировать с помощью логических операторов.

Например, получим значения из второго столбца у всех строк, значение первого столбца для которых больше 3 или равно 1:

In [None]:
df.loc[(df["Возраст"] > 30 ) | (df["Имя"] == "Анна"), "Город"]

В `pandas` есть также несколько методов, упрощающих булеву индексацию:

* `b["col1"].between(1, 3)` - все строки, для которых значение в первом столбце лежит между 11 и 13 (включая оба конца)
* `b["col2"].isin(["a", "z"])` - все строки, для которых значение второго столбца содержится в списке `["a", "z"]`

Их также можно использовать вместе с логическими операторами. Например, получим все строки из таблицы `b`, для которых значение первого столбца лежит между 3 и 6, а значение второго столбца не равно `"a"` или `"z"`:

In [None]:
df[df["Возраст"].between(20, 40) & (~df["Город"].isin(["Казань", "Москва"]))]

Более короткий и удобный функционал для таких запросов реализован методом `.query`. В него подаётся строка, содержащая булевы условия на значения столбцов. При этом, переменную массива мы уже не пишем, а к столбцам обращаемся без кавычек. В остальном, допускается тот же синтаксис с использованием булевых операторов.

Пример:

In [None]:
df.query('(Возраст < 40) & (Город == "Москва")')

Если требуется скопировать массив `Series` или `DataFrame`, это можно сделать с помощью метода `.copy`: `e = d.copy()`.

#### Случайный выбор значений из DataFrame

Случайный выбор строк из массива `DataFrame` производится с помощью метода `.sample`. Вот несколько его важных параметров:

* `frac` - какую долю от общего числа строк нужно вернуть (число от 0 до 1)
* `n` - сколько строк нужно вернуть (число от 0 до числа строк в массиве)
* `replace` - индикатор того, производится ли выбор _с возвращением_, т.е. с возможным повторением строк в выборке, или _без возвращения_ (`True` или `False`)

Нельзя использовать параметры `frac` и `n` одновременно, нужно выбрать какой-то один.

In [None]:
df

In [None]:
df.sample(frac=0.7, replace=False)

Если требуется просто перемешать всю выборку, это также можно выполнить с помощью метода `.sample`, передав в него параметр `frac=1`.

In [None]:
df.sample(frac=1)

#### Запись и чтение DataFrame из файлов

Для хранения таблиц широко распространён формат файлов с расширением `.csv`.

Сохранить массив в файл можно с помощью метода `.to_csv`. Вот несколько важных параметров этого метода:

* `sep` - символ, который нужно использовать для разделения значения столбцов между собой. По умолчанию это `","`, но можно также использовать `";"`, `"\t"` и др.
* `index` - булево значение, индикатор того, нужно ли в файл сохранить также столбец индексов.


In [None]:
df

In [None]:
df.to_csv("persons.csv", sep=";", index=False)

Прочитать массив из файла можно с помощью функции `pd.read_csv`. Здесь также можно указать разделитель столбцов в параметре `sep`.

In [None]:
df = pd.read_csv("sales.csv", sep=";")

df

У данных команд для сохранения и чтения таблиц есть множество других важных и полезных параметров, поэтому рекомендуется также изучить их документацию: [to_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html), [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

В `pandas` также имеются аналогичные команды для сохранения и записи таблиц как `excel`, `pickle`, `json`, `xml`, `parquet` и тд.

In [None]:
df.

pd.

### Работа с данными в Pandas

#### Слияние данных

Рассмотрим следующий пример. Допустим, что мы работаем с небольшим отделом книжного магазина, в котором продаётся классическая литература на английском языке. Наша задача - систематизировать ассортимент отдела.

У нас есть таблица `authors`, содержащая данные об авторах: их идентификаторы (`author_id`) и имена (`author_name`):

In [None]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3],
    'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky'],
})

authors

Кроме того, у нас есть таблица `books`, содержащая информацию о книгах этих авторов. В этой таблице также есть колонка `author_id`, а также колонка `book_title`, содержащая название книги:

In [None]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment', 'Fathers and Sons'],
})

books

Что делать, если мы, например, захотим сопоставить названия книг именам их авторов? Для этого используется функция `pd.merge`: в эту функцию помещаются те таблицы, которые мы хотим соединить, а также несколько других важных аргументов:

* `on` - параметр, отвечающий за то, какой столбец мы будем использовать для слияния,
* `how` - каким образом производить слияние.

Опишем подробнее, какие значения может принимать параметр `how`:

* `"inner"` - внутреннее слияние. В этом случае в слиянии участвуют только те строки, которые присутствуют в обоих таблицах,
* `"left"` - в слиянии участвуют все строки из левой таблицы,
* `"right"` - то же самое, но для правой таблицы,
* `"outer"` - внешнее слияние, соединяются все строки как из левой, так и из правой таблицы,
* `"cross"` - Декартово произведение (каждая строка с каждой).


In [None]:
pd.merge(authors, books, left_on='author_id', right_on='author_id', how='inner')

Если мы выбираем `"left"`, `"right"` или `"outer"`, может случиться так, что строку из одной таблицы будет невозможно соединить со второй. Например, мы видим, что в нашей таблице `books` нет произведений Пушкина (его `id` равен 1). В свою очередь, в таблице `books` есть книга, для которой `author_id` равен 4, хотя, в таблице `authors` нет записи с таким `author_id`. Рассмотрим внешнее слияние этих таблиц:

In [None]:
merged_df = pd.merge(authors, books, on='author_id', how='outer')

merged_df

Как мы видим, в получившейся таблице присутствуют пропущенные значения (`NaN`).

#### Работа с пропущенными данными

Пропущенные значения в `Series` или `DataFrame` можно получить с помощью метода `.isnull`. Наоборот, все имеющиеся непустые значения можно получить с помощью метода `.notnull`:

In [None]:
merged_df[merged_df["author_name"].isnull()]

In [None]:
merged_df[merged_df["author_name"].notnull()]

Заполнить пропущенные значения каким-то своим значением можно с помощью метода `.fillna()`:

In [None]:
merged_df["author_name"] = merged_df["author_name"].fillna("Unknown author")

merged_df

#### Добавление столбцов в `DataFrame`

Допустим, каждая из наших книг имеется в единственном экземпляре. Мы хотели бы создать в таблице `merged_df` столбец `quantity`, который бы содержал количество экземпляров каждой книги.

Создание нового столбца в таблице `DataFrame` происходит аналогично созданию нового значения в словаре `dict`. Достаточно просто объявить значение `merged_df["quantity"]`. Если подать в это значение какое-нибудь число или строку, то все значения в данном столбце приравняются к этому числу или строке. Также можно подать сюда список, тогда значения из этого списка поступят в соответствующие строки этого столбца. В этом случае длина списка обязана совпадать с числом строк таблицы.

Итак, выберем все строки с непустым значением поля `book_title`, и для них запишем в столбец `quantity` число 1. Это можно сделать с помощью атрибута `.loc`:

In [None]:
merged_df.loc[merged_df["book_title"].notnull(), "quantity"] = 1

merged_df

Теперь заполним все пропуски в этом столбце числом 0:

In [None]:
merged_df["quantity"].fillna(0, inplace=True)

merged_df


In [None]:
pip show pandas 

Наконец, приведём значения в этом столбце к типу `int`. (Это сделать невозможно, если в столбце содержатся пропуски.)

In [None]:
merged_df.dtypes

In [None]:
merged_df["quantity"] = merged_df["quantity"].astype(int)

merged_df

In [None]:
merged_df.dtypes

В `DataFrame` можно использовать индексы по умолчанию, а можно и назначить свои. Например, в качестве индексов можно использовать какой-нибудь из столбцов:

In [None]:
merged_df.set_index("author_id", inplace=True)

merged_df

Если что, индексы всегда можно сбросить. Тогда текущие индексы становятся столбцом:

In [None]:
merged_df.reset_index(inplace=True)

merged_df

#### Удаление данных


Для удаления данных из `DataFrame` используется метод `.drop`. В этот метод подаётся метка элемента, который необходимо удалить (индекс строки или название столбца), а также ось `axis`. При `axis=0` удаляется строка, при значении `axis=1` - столбец:

In [None]:
merged_df["price"] = 500

merged_df

In [None]:
merged_df.drop("price", axis=1, inplace=True)

merged_df

Теперь удалим строку с индексом 1:

In [None]:
merged_df.drop(1, axis=0, inplace=True)

merged_df

#### Сортировка данных

Вернём только что удалённую строку. Напомним, что для этого используется метод `.concat`. Кстати, добавлять строки к `DataFrame` можно прямо в виде словарей `dict`:

In [None]:
merged_df = pd.concat([merged_df,
    pd.DataFrame({
        "author_id": [2],
        "author_name": ["Tolstoy"],
        "book_title": ["War and Peace"],
        "quantity": [1],
    })],ignore_index=True
)

merged_df

Параметр `ignore_index=True` подаётся сюда, чтобы индексы соединяемых таблиц не учитывались. В результирующей таблице будут использованы стандартные последовательные индексы, начинающиеся с 0.

Отсортируем эту таблицу по столбцу `author_id`. Это делается с помощью метода `.sort_values`:

In [None]:
merged_df.sort_values(by="author_id", inplace=True)

merged_df

Чтобы сбросить индексы, воспользуемся уже известным методом `.reset_index`. В нашем случае, стоит подать в него аргумент `drop=True`, который означает, что текущий столбец из индексов не нужно сохранять в таблице, а можно удалить.

In [None]:
merged_df.reset_index(drop=True, inplace=True)

merged_df

#### Соединение таблиц

Для соединения таблиц можно пользоваться функцией `pd.concat`. С этой функцией мы уже знакомились, когда изучали библиотеку `numpy`. Здесь эта функция работает аналогичным образом: соединяет таблицы либо вертикально (если указан параметр `axis=0`), либо горизонтально (если `axis=1`).

Соединение происходит с сохранением индексов, если не указан параметр `ignore_index=True`.

In [None]:
df = pd.DataFrame({
    'author_id': [3, 5],
    'author_name': ['Dostoevsky', 'Chekhov'],
    'book_title': ['The Gambler', 'Three Sisters'],
    'quantity': [2, 3],
})

df

In [None]:
df_concat = pd.concat([merged_df, df], axis=0, ignore_index=True)

df_concat

In [None]:
df = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index=[1, 2, 3, 5, 6],
)

df

In [None]:
df_concat = pd.concat([df_concat, df], axis=1)

df_concat

#### Операции над таблицами

Как и ранее с массивами `numpy` и `Series`, с таблицами `DataFrame` можно производить различные математические операции. Например, значения различных столбцов можно поэлементно перемножать, складывать и пр.

In [None]:
df_concat["total"] = df_concat["quantity"] * df_concat["price"]

df_concat

In [None]:
df_concat["total"].max()

С помощью следующих методов можно посчитать основные статистики по желаемым столбцам:

* `df_concat["price"].max()` - максимум
* `df_concat["price"].min()` - минимум
* `df_concat["price"].mean()` - среднее
* `df_concat["price"].median()` - медиана
* `df_concat["price"].std()` - среднее квадратическое значение
* `df_concat["price"].var()` - дисперсия

С помощью метода `.nlargest` можно вывести несколько наибольших значений. Указывается то, сколько значений нужно вернуть, а также то, по какому именно значению нужно сортировать. Имеется также аналогичный метод `.nsmallest`.

In [None]:
df_concat

In [None]:
df_concat.nlargest(3, "price")


In [None]:
df_concat.nsmallest(3, "quantity")

In [None]:
df_concat.nsmallest(3, ["quantity", "price"])


С помощью метода `.unique` можно получить уникальные значения заданного столбца:

In [None]:
df_concat["author_name"].unique()

Если нужно получить не уникальные значения, а лишь их количество, можно воспользоваться методом `.nunique`.

In [None]:
df_concat["author_name"].nunique()

С помощью метода `.value_counts` можно получить информацию о том, сколько раз каждое значение появляется в данном столбце:

In [None]:
df_concat["author_name"].value_counts()

К значениям таблицы можно применять и функции, которые не имеются в библиотеках `pandas` и `numpy`. Делается это с помощью метода `.apply`:

In [None]:
df_concat["author_name"] = df_concat["author_name"].apply(lambda x: x.upper())

df_concat

#### Группировка данных

Данные в таблице `DataFrame` можно группировать по повторяющимся значениям выбранного столбца. Группировка позволяет вычислять какие-то _агренированные_ значения, т.е. значения, полученные каким-то образом из групп других значений. Например, если мы захотим сгруппировать нашу таблицу по значениям `author_name`, то каждая группа будет содержать все строки с одинаковым значением `author_name`. По таким группам можно затем посчитать какую-нибудь агрегирующую функцию, например, сумму, среднее, минимум и др.

Вот несколько способов это сделать. В первом случае мы просто выбираем конкретный столбец из группировки и применяем к нему какую-то агрегирующую функцию:

In [None]:
df_concat

In [None]:
df_concat.groupby("author_name")["price"].mean().reset_index().sort_values("price")

Второй способ - с помощью метода `.agg`. Данный метод является более гибким. Например, он позволяет вычислять одновременно несколько различных агрегирующих функций от разных столбцов:

In [None]:
df_concat.groupby('author_name').agg({"price": "max", "total": "count"})


А теперь приведем результат в порядок:

In [None]:
df_concat.groupby('author_name').agg({"price": "max", "total": "count"}).reset_index().rename(columns={'price': 'price_max'})

---

## Практическая часть

### Задача 1: Поработаем с Excel

Прочитайте файл с данными о продажах sales.xlsx.

Вычислите общую сумму продаж и день, в который сумма продаж была максимальной.

In [None]:
import openpyxl




### Задача 2: Анализ спортивных данных

Используйте библиотеку NumPy для анализа данных о результатах спортивных соревнований. У вас есть массив данных с результатами бегунов на дистанцию 100 метров. Ваша задача — вычислить среднее время, медианное время, стандартное отклонение, а также найти лучшие и худшие результаты.

In [None]:
import numpy as np

# Результаты бегунов (в секундах)
results = np.array([12.4, 11.8, 13.2, 12.1, 11.5, 12.7, 11.9, 12.3, 12.0, 11.7])

# Среднее время

print(f"Среднее время: {mean_time} секунд")

# Медианное время

print(f"Медианное время: {median_time} секунд")

# Стандартное отклонение

print(f"Стандартное отклонение: {std_deviation} секунд")

# Лучший и худший результат


print(f"Лучшее время: {best_time} секунд")
print(f"Худшее время: {worst_time} секунд")


### Задача 3: Анализ данных о недвижимости

Используйте библиотеку Pandas для анализа данных о недвижимости. У вас есть данные о домах, включая цену, количество комнат, площадь и местоположение. Ваша задача — определить среднюю цену домов в каждом районе, найти дома с самой высокой и самой низкой ценой, а также посчитать среднюю площадь домов.

In [None]:
import pandas as pd

# Данные о недвижимости
data = {
    'Price': [300000, 450000, 350000, 500000, 400000],
    'Rooms': [3, 4, 3, 5, 4],
    'Area': [120, 200, 150, 250, 180],
    'Location': ['North', 'West', 'North', 'East', 'West']
}

# Создание DataFrame

# Средняя цена домов в каждом районе

print("Средняя цена домов в каждом районе:\n", mean_price_by_location)

# Дом с самой высокой и самой низкой ценой

print("Дом с самой высокой ценой:\n", max_price_home)
print("Дом с самой низкой ценой:\n", min_price_home)

# Средняя площадь домов

print(f"Средняя площадь домов: {mean_area} кв.м.")
