# **Работа с файлами Excel**

In [2]:
# импорт библиотек
import pandas as pd
from IPython.display import display

##### **СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL**
***
*Excel-файлы представляют из себя таблицы с данными и имеют формат XLS или  XLSX. В отличие от CSV-файлов, которые также позволяют удобно представлять табличные данные, XLS- и XLSX-файлы могут помимо данных включать **формулы, изображения, графики и содержат информацию о форматировании**.*

Подобно уже хорошо нам известной функции read_csv(), в pandas предусмотрена функция для удобного чтения XLS- и XLSX- файлов: 

[**read_excel()**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html)

(англ. читать_Excel). Синтаксис обеих функций практически идентичен.

Так же, как и read_csv(), функция read_excel() может принимать на вход не только путь к файлу на компьютере, но и интернет-ссылку на него.

Перед использованием необходимо установить:
**pip install openpyxl**

Основные параметры метода read_excel():

* **io** — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.
* **sheet_name** —  ссылка на лист в Excel-файле (возможные значения данного параметра: 0 — значение по умолчанию, загружается первый лист; 'Sheet1' — можно передать название листа; обычно листы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; None — если передать такое значение, то pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).
* **na_values** — список значений, которые будут считаться пропусками ( ‘’, ‘#N/A’, ‘ N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’).

Следует также учесть, что нормальное поведение pandas — это **считывание значений**.

In [4]:
grades = pd.read_excel('data/grades.xlsx') # читаем файл-пример
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


##### **СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL ПО ССЫЛКЕ**
***
Если файл находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из интернета — для этого достаточно в функции read_excel() вместо пути до файла указать ссылку на файл.

In [5]:
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx')
display(data)

Unnamed: 0,January 2020 Sales,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,Global Sales Report,,,,,
1,,,,,,
2,Location,Oranges,Apples,Bananas,Blueberries,Total
3,Toronto,7651,4422,8580,3679,24332
4,Los Angeles,273,2998,9890,7293,20454
5,Atlanta,3758,6752,4599,4149,19258
6,New York,4019,8796,8486,9188,30489


In [9]:
# чтобы прочесть данные из второго листа (ML) файла, выполним код
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


##### **ВЫГРУЗКА ДАННЫХ ИЗ DATAFRAME В EXCEL-ФАЙЛ**
***
Для этого в pandas есть функция [**to_excel()**](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html) (рус. в_Excel), принцип работы которой очень схож с функцией to_csv():


In [10]:
grades.to_excel('data/grades_new.xlsx') # Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data

В этом случае будет создан один лист с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет находиться лишний столбец. Чтобы создать **лист с определённым именем** (например, Example) и **не сохранять индекс**, в метод  to_excel() необходимо передать параметры **sheet_name='Example'** и **index=False**:

In [11]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False)

##### **БИБЛИОТЕКИ ДЛЯ РАБОТЫ С EXCEL**
***
* [**openpyxl**](https://openpyxl.readthedocs.io/en/stable/) — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
* [**xlsxwriter**](https://xlsxwriter.readthedocs.io/) — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
* [**pyxlsb**](https://pypi.org/project/pyxlsb/) — пакет позволяет читать файлы Excel в xlsb-формате;
* [**pylightxl**](https://pylightxl.readthedocs.io/en/latest/) — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
* [**xlrd**](https://xlrd.readthedocs.io/en/latest/) — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
* [**xlwt**](https://xlwt.readthedocs.io/en/latest/) — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

установка через **pip install**

In [20]:
ratings = pd.read_excel('data/ratings+movies.xlsx', sheet_name='ratings')
movies = pd.read_excel('data/ratings+movies.xlsx', sheet_name='movies')
rating_movies_df = ratings.merge(
    movies,
    on='movieId',
    how='left'
)
display(rating_movies_df)
rating_movies_df.to_excel('data/rating_movies_concat.xlsx', sheet_name='concated', index=False)

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
...,...,...,...,...,...,...
100831,610,166534,4.0,1493848402,Split (2017),Drama|Horror|Thriller
100832,610,168248,5.0,1493850091,John Wick: Chapter Two (2017),Action|Crime|Thriller
100833,610,168250,5.0,1494273047,Get Out (2017),Horror
100834,610,168252,5.0,1493846352,Logan (2017),Action|Sci-Fi
