In [2]:
import pandas as pd

##### <center> НЕМНОГО ОБ EXCEL

>→ Excel-файлы представляют из себя таблицы с данными и имеют формат XLS или  XLSX. В отличие от CSV-файлов, которые также позволяют удобно представлять табличные данные, XLS- и XLSX-файлы могут помимо данных включать формулы, изображения, графики и содержат информацию о форматировании.

Файл *Excel* называется рабочей книгой. Каждая книга может хранить некоторое количество листов. Лист, просматриваемый пользователем в данный момент, называется **активным**. Лист состоит из столбцов (адресуемых, как правило, с помощью букв, начиная с A) и строк (адресуемых с помощью цифр, начиная с 1). Лист может содержать данные в виде таблиц, формул, изображений, графиков и информации о форматировании.

##### <center> СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL

Для чтения файла необходимо установить библиотеку *openpyxl* через команду `pip install openpyxl`

In [3]:
# Прочтем файл в переменную grades
grades = pd.read_excel('data/grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


##### <center> СЧИТЫВАНИЕ ДАННЫХ ИЗ ФАЙЛА EXCEL ПО ССЫЛКЕ

In [4]:
# Прочтем файл по ссылке
data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx', skiprows=3)
display(data)

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


>**ДОПОЛНИТЕЛЬНО**

Чтобы более подробно ознакомиться с функцией `read_excel()`, предлагаем вам обратиться к [документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html).

**Основные параметры метода read_excel()**

- `io` — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете.

- `sheet_name` —  ссылка на лист в *Excel*-файле (возможные значения данного параметра: 
  - **0** — значение по умолчанию, загружается первый лист; 
  - *'Sheet1'* — можно передать название листа; обычно листы называются 'SheetX', где **X** — номер листа, но могут использоваться и другие названия; 
  - *[0, 1, 'Sheet3']* — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame; 
  - **None** — если передать такое значение, то *pandas* прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте).

- `na_values` — список значений, которые будут считаться пропусками ( ‘’, ‘*#N/A*’, ‘ *N/A*’, ‘*#NA*’, ‘*-1.#IND*’, ‘*-1.#QNAN*’, ‘*-NaN*’, ‘*-nan*’, ‘*1.#IND*’, ‘*1.#QNAN*’, ‘*NA*’, *‘NULL’*, *‘NaN’*, ‘*n/a*’, *‘nan’*, *‘null’*).

По умолчанию в *DataFrame* читается информация из первого листа, однако `read_excel()`  позволяет выбрать, из какого именно листа загружать данные. Сделать это можно с помощью параметра `sheet_name` (рус. имя_листа). Например, чтобы прочесть данные из второго листа (ML) файла, выполним код:

In [5]:
grades = pd.read_excel('data/grades.xlsx', sheet_name='ML')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,7
1,2,Катя,5
2,3,Маша,9
3,4,Миша,8
4,5,Женя,9


In [6]:
maths = pd.read_excel('data/grades.xlsx')
display(maths.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


##### <center> ВЫГРУЗКА ДАННЫХ ИЗ DATAFRAME В EXCEL-ФАЙЛ

**После обработки данных** (очистка, создание новых признаков и т. д.) методами и функциями *pandas* мы сталкиваемся с обратной задачей — сохранить данные из *DataFrame* в *Excel*-файл.

In [7]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx
# в папке data
grades.to_excel('data/grades_new.xlsx')

В этом случае будет создан один лист с именем по умолчанию "Sheet1"

Чтобы создать лист с определённым именем (например, *Example*) и не сохранять индекс, в метод  `to_excel()` необходимо передать параметры `sheet_name='Example'` и `index=False`:

In [8]:
# Сохраняем данные из DataFrame grades в файл grades_new.xlsx
# (на листе `Example`) в папке data
grades.to_excel('data/grades_new.xlsx', sheet_name='Example', index=False)

**ДОПОЛНИТЕЛЬНО**

Чтобы более подробно ознакомиться с функцией `to_excel()`, предлагаем вам обратиться к [документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html).

Продвинутая работа с файлами *Excel* в *Python* предполагает использование **дополнительных** **библиотек**, таких как:

- [`openpyxl`](https://openpyxl.readthedocs.io/en/stable/) — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);

- [`xlsxwriter`](https://xlsxwriter.readthedocs.io/) — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);

- [`pyxlsb`](https://pypi.org/project/pyxlsb/) — пакет позволяет читать файлы Excel в xlsb-формате;

- [`pylightxl`](https://pylightxl.readthedocs.io/en/latest/) — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;

- [`xlrd`](https://xlrd.readthedocs.io/en/latest/) — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);

- [`xlwt`](https://xlwt.readthedocs.io/en/latest/) — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).

In [11]:
# Прочитаем файл
ratings = pd.read_excel('data/ratings_movies.xlsx')
display(ratings.head())

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [12]:
# Прочитать данные со второго листа
movies = pd.read_excel('data/ratings_movies.xlsx', sheet_name='movies')
display(movies.head())

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [13]:
# Объединяем данные в один DataFrame
ratings_movies_new = ratings.merge(movies, how='left')
display(ratings_movies_new.head())

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


In [None]:
# Запишем полученный датафрейм в файл excel
ratings_movies_new.to_excel('data/ratings_movies_new.xlsx', index=False)


In [16]:
# Запишем датафрейм в csv
ratings_movies_new.to_csv('data/ratings_movies.csv')

In [17]:
# выведем информацию о строках
ratings_movies_new.shape[0]

100836