#### **<center> Немного об EXCEL </center>**

→ Excel-файлы представляют из себя таблицы с данными и имеют формат **XLS** или  **XLSX.** В отличие от **CSV-файлов,** которые также позволяют удобно представлять табличные данные, **XLS-** и **XLSX-файлы** могут помимо данных включать формулы, изображения, графики и содержат информацию о форматировании.

Файл **Excel** называется рабочей книгой. Каждая книга может хранить некоторое количество листов. Лист, просматриваемый пользователем в данный момент, называется **активным.** Лист состоит из столбцов (адресуемых, как правило, с помощью букв, начиная с A) и строк (адресуемых с помощью цифр, начиная с 1). Лист может содержать данные в виде таблиц, формул, изображений, графиков и информации о форматировании.

**XLS-** и **XLSX** не являются текстовыми файлами. Вы наверняка хотя бы раз в жизни сталкивались с таблицами **Excel,** и, скорее всего, работали с ними в **Microsoft Office,** **Open Office** (бесплатный аналог Microsoft Office) или онлайн, используя **Google Таблицы.** Давайте научимся делать это с помощью **pandas**.

В этом разделе будут рассмотрены функции **read_excel()** и **to_excel()** из библиотеки **pandas.** С их помощью можно считывать данные из файлов **Excel** и выполнять запись в них. С помощью различных параметров есть возможность менять поведение функций, создавая нужные файлы, а не просто копируя содержимое из объекта *DataFrame*.

#### **<center> Считывание данных из файла EXCEL </center>**

Подобно уже хорошо нам известной функции ***read_csv(),*** в **pandas** предусмотрена функция для удобного чтения **XLS-** и **XLSX- файлов:** ***read_excel()*** (англ. читать_Excel). Синтаксис обеих функций практически идентичен.

Попробуем прочитать наш файл-пример. Для этого передадим в ***read_excel()*** путь к нему. Чтобы его открыть и сохранить данные в переменную ***grades,*** необходимо выполнить следующий код:

In [1]:
import pandas as pd

grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


Так же, как и ***read_csv(),*** функция ***read_excel()*** может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.

#### **<center> Считывание данных из файла EXCEL по ссылке </center>**

Если файл находится в открытом доступе по ссылке *(например, на Google Диске или GitHub),* его можно прочитать и из интернета - для этого достаточно в функции ***read_excel()*** вместо пути до файла указать ссылку на файл. Например:

In [18]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx', skiprows=3)
display(data)

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


#### **<center> Основные параметры метода read_excel() </center>**

* **io** - первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.

* **sheet_name** -  ссылка на лист в Excel-файле (возможные значения данного параметра: **0 -** значение по умолчанию, загружается первый лист; **'Sheet1' -** можно передать название листа; обычно листы называются **'SheetX',** где **X -** номер листа, но могут использоваться и другие названия; **[0, 1, 'Sheet3']** - список, содержащий номера или названия листов; в таком случае **Pandas** вернёт словарь, в котором ключами будут номера или названия листов, а значениями - их содержимое в виде *DataFrame*; **None** - если передать такое значение, то **Pandas** прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).

* **na_values** - список значений, которые будут считаться пропусками **( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).**

Следует также учесть, что нормальное поведение **Pandas -** это считывание значений (формулы из Excel-файла не считываются).

Как упоминалось выше, один Excel-файл может включать в себя несколько листов, которые отображаются в разных вкладках (англ. sheet, рус. лист). Например, в нашем файле два листа - **Maths** и **ML**.

По умолчанию в *DataFrame* читается информация из первого листа, однако ***read_excel()***  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра ***sheet_name*** (рус. имя_листа). Например, чтобы прочесть данные из второго листа **(ML)** файла, выполним код:

In [19]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


#### **<center> Выгрузка данных из DATAFRAME в EXCEL-файл </center>**

После обработки данных (очистка, создание новых признаков и т. д.) методами и функциями **Pandas** мы сталкиваемся с обратной задачей - сохранить данные *из DataFrame в Excel-файл.*

Для этого в pandas есть функция ***to_excel()*** (рус. в_Excel), принцип работы которой очень схож с функцией ***to_csv():***

In [20]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel('data/grades_new.xlsx')

В этом случае будет создан один лист с именем по умолчанию **"Sheet1".** Также мы сохраним и индекс - в данных будет находиться лишний столбец. Чтобы создать лист с определённым именем (например, **Example**) и не сохранять индекс, в метод **to_excel()** необходимо передать параметры **sheet_name='Example' и index=False:**

In [21]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False)

Продвинутая работа с файлами **Excel** в **Python** предполагает использование дополнительных библиотек, таких как:

* **openpyxl -** рекомендуемый пакет для чтения и записи файлов *Excel 2010+ (например, xlsx)*;

* **xlsxwriter -** альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате *Excel 2010+ (например, xlsx)*;

* **pyxlsb -** пакет позволяет читать файлы *Excel в xlsb-формате*;

* **pylightxl -** пакет позволяет читать *xlsx- и xlsm-файлы* и записывать *xlsx-файлы*;

* **xlrd -** пакет предназначен для чтения данных и информации о форматировании из старых файлов *Excel (например, xls)*;

* **xlwt -** пакет предназначен для записи данных и информации о форматировании в старые файлы *Excel (например, xls)*.

**Задание**

Считайте данные из двух листов файла **ratings+movies.xlsx** в разные *DataFrame,* объедините в один, запишите данные из полученного *DataFrame* в файл. Сколько строк (включая строку заголовков) в результирующем файле?

In [29]:
ratings = pd.read_excel('data/ratings_movies.xlsx', sheet_name='ratings')         
movies = pd.read_excel('data/ratings_movies.xlsx', sheet_name='movies')         
joined = ratings.merge(movies, on='movieId', how='left') #Объединяем таблицу по столбцу movieId        
joined.to_excel('data/joined.xlsx', sheet_name='JOINED', index=False) #Записываем получившуюся таблицу

In [30]:
joined.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 6 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
 4   title      100836 non-null  object 
 5   genres     100836 non-null  object 
dtypes: float64(1), int64(3), object(2)
memory usage: 4.6+ MB
