## Немного оБ EXCEL

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">→ Excel-файлы представляют из себя таблицы с данными и имеют формат XLS или  XLSX. В отличие от CSV-файлов, которые также позволяют удобно представлять табличные данные, XLS- и XLSX-файлы могут помимо данных включать формулы, изображения, графики и содержат информацию о форматировании.</div>

Файл Excel называется рабочей книгой. Каждая книга может хранить некоторое количество листов. Лист, просматриваемый пользователем в данный момент, называется активным. Лист состоит из столбцов (адресуемых, как правило, с помощью букв, начиная с A) и строк (адресуемых с помощью цифр, начиная с 1). Лист может содержать данные в виде таблиц, формул, изображений, графиков и информации о форматировании.

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> XLS- и XLSX не являются текстовыми файлами. Вы наверняка хотя бы раз в жизни сталкивались с таблицами Excel, и, скорее всего, работали с ними в Microsoft Office, Open Office (бесплатный аналог Microsoft Office) или онлайн, используя Google Таблицы. Давайте научимся делать это с помощью pandas.</div>

В этом разделе будут рассмотрены функции read_excel() и to_excel() из библиотеки pandas. С их помощью можно считывать данные из файлов Excel и выполнять запись в них. С помощью различных параметров есть возможность менять поведение функций, создавая нужные файлы, а не просто копируя содержимое из объекта DataFrame.

## Считывание данных из файла Excel

Подобно уже хорошо нам известной функции read_csv(), в pandas предусмотрена функция для удобного чтения XLS- и XLSX- файлов: <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html">read_excel()</a> (англ. читать_Excel). Синтаксис обеих функций практически идентичен.

<div style="border: 1px solid white; padding: 5px; margin-right: auto;  width: 80%;"> ✍️ Для примера попробуем открыть файл grades.xlsx, содержащий оценки студентов за прослушанные курсы. Скачайте его и скопируйте в папку data. Для чтения файла предварительно потребуется установить библиотеку openpyxl через команду pip install openpyxl.</div>

Попробуем прочитать наш файл-пример. Для этого передадим в read_excel() путь к нему. Чтобы его открыть и сохранить данные в переменную grades, необходимо выполнить следующий код:

In [1]:
import pandas as pd

In [2]:
grades = pd.read_excel("data/grades.xlsx")
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


<div style="background-color: #e0ffd1;color: black;border: 3px solid black; padding: 15px; margin-right: 500px; width: 80%;">Так же, как и read_csv(), функция read_excel() может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.</div>

## Считывание данных из файла EXCEL по ссылке

Если файл находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_excel() вместо пути до файла указать ссылку на файл. Например:

In [3]:
data = pd.read_excel(
    "https://github.com/asaydn/test/raw/master/january.xlsx", skiprows=3
)
display(data)

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с функцией read_excel(), предлагаем вам обратиться к <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html">документации</a>.</div>



<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">
Основные параметры метода read_excel()

- <b>io</b> — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.
- <b>sheet_name</b> —  ссылка на лист в Excel-файле (возможные значения данного параметра: 0 — значение по умолчанию, загружается первый лист; 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; None — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).
- <b>na_values </b>— список значений, которые будут считаться пропусками ( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).

</div>

Следует также учесть, что нормальное поведение pandas — это считывание значений (формулы из Excel-файла не считываются).

Как упоминалось выше, один Excel-файл может включать в себя несколько листов, которые отображаются в разных вкладках (англ. sheet, рус. лист). Например, в нашем файле два листа — Maths и ML.

По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра sheet_name (рус. имя_листа). Например, чтобы прочесть данные из второго листа (ML) файла, выполним код:

In [4]:
grades = pd.read_excel("data/grades.xlsx", sheet_name="ML")
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


In [6]:
grades = pd.read_excel("data/grades.xlsx", sheet_name="Maths")
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


## Выгрузка данных из DataFrame в Excel-файл

После обработки данных (очистка, создание новых признаков и т. д.) методами и функциями pandas мы сталкиваемся с обратной задачей — сохранить данные из DataFrame в Excel-файл.

Для этого в pandas есть функция <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html">to_excel()</a> (рус. в_Excel), принцип работы которой очень схож с функцией to_csv():

In [7]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel("data/grades_new.xlsx")

В этом случае будет создан один лист с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет находиться лишний столбец. Чтобы создать лист с определённым именем (например, Example) и не сохранять индекс, в метод  to_excel() необходимо передать параметры sheet_name='Example' и index=False:

In [8]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel("data/grades_new.xlsx", sheet_name="Example", index=False)

<div style="border: 3px dotted white; padding: 5px; margin-right: auto;  width: 80%;"> ДОПОЛНИТЕЛЬНО

Чтобы более подробно ознакомиться с функцией to_excel(), предлагаем вам обратиться к <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html">документации.</a></div>


Продвинутая работа с файлами Excel в Python предполагает использование дополнительных библиотек, таких как:

<div style="background-color: #f5f5f5; padding: 15px; color: black; width: 80%;">

- <a href="https://openpyxl.readthedocs.io/en/stable/">openpyxl</a> — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
- <a href="https://xlsxwriter.readthedocs.io/">xlsxwriter</a> — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
- <a href="https://pypi.org/project/pyxlsb/">pyxlsb</a> — пакет позволяет читать файлы Excel в xlsb-формате;
- <a href="https://pylightxl.readthedocs.io/en/latest/">pylightxl</a> — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
- <a href="https://xlrd.readthedocs.io/en/latest/">xlrd</a> — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
- <a href="https://xlwt.readthedocs.io/en/latest/">xlwt</a> — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).



### Задание 3.3

Считайте данные из двух листов файла ratings+movies.xlsx в разные DataFrame, объедините в один, запишите данные из полученного DataFrame в файл. Сколько строк (включая строку заголовков) в результирующем файле?

<details>
<summary><strong>Show answer</strong> (Click Here)</summary>
    &emsp; &emsp; <code>
 randint
</code>
</details>

In [9]:
url = "https://docs.google.com/spreadsheets/d/1yqBrM7TR4vhBVDo_z2qzscehNwocZgr-/edit?usp=sharing&ouid=105142051626883000549&rtpof=true&sd=true"
url = "https://drive.google.com/uc?id=" + url.split("/")[-2]

In [10]:
ratings_movies_1 = pd.read_excel(url, sheet_name=0)
ratings_movies_1.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [11]:
ratings_movies_2 = pd.read_excel(url, sheet_name=1)
ratings_movies_2.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [14]:
merged_df = ratings_movies_1.merge(ratings_movies_2, on="movieId", how="left")
merged_df.shape

(100836, 6)