In [1]:
import pandas as pd

In [2]:
# Для примера попробуем открыть файл grades.xlsx, содержащий оценки студентов за прослушанные курсы. 
# Для чтения файла предварительно потребуется установить библиотеку openpyxl через команду pip install openpyxl.
grades = pd.read_excel('data\grades.xlsx')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


In [3]:
# Если файл находится в открытом доступе по ссылке (например, на Google Диске или GitHub), его можно прочитать и из 
# интернета — для этого достаточно в функции read_excel() вместо пути до файла указать ссылку на файл.

data = pd.read_excel('https://github.com/asaydn/test/raw/master/january.xlsx', skiprows=3)
display(data)

Unnamed: 0,Location,Oranges,Apples,Bananas,Blueberries,Total
0,Toronto,7651,4422,8580,3679,24332
1,Los Angeles,273,2998,9890,7293,20454
2,Atlanta,3758,6752,4599,4149,19258
3,New York,4019,8796,8486,9188,30489


In [4]:
# По умолчанию в DataFrame читается информация из первого листа, однако read_excel()  позволяет выбрать, из какого 
# именно листа загружать данные. Сделать это можно с помощью параметра sheet_name (рус. имя_листа). Например, 
# чтобы прочесть данные из второго листа (ML) файла, выполним код:

grades = pd.read_excel('data\grades.xlsx', sheet_name='Maths')
display(grades.head())

Unnamed: 0,Student ID,Student name,Grade
0,1,Аня,8
1,2,Катя,9
2,3,Маша,7
3,4,Миша,4
4,5,Женя,8


In [5]:
# После обработки данных (очистка, создание новых признаков и т. д.) методами и функциями pandas мы сталкиваемся с 
# обратной задачей — сохранить данные из DataFrame в Excel-файл.

# Сохраняем данные из DataFrame grades в файл grades_new.xlsx в папке data
grades.to_excel('data\grades_new.xlsx')

In [6]:
# В этом случае будет создан один лист с именем по умолчанию "Sheet1". Также мы сохраним и индекс — в данных будет 
# находиться лишний столбец. Чтобы создать лист с определённым именем (например, Example) и не сохранять индекс, 
# в метод  to_excel() необходимо передать параметры sheet_name='Example' и index=False:

# Сохраняем данные из DataFrame grades в файл grades_new.xlsx (на листе 'Example') в папке data
grades.to_excel('data\grades_new.xlsx', sheet_name='Example', index=False)

Продвинутая работа с файлами Excel в Python предполагает использование дополнительных библиотек, таких как:

- openpyxl — рекомендуемый пакет для чтения и записи файлов Excel 2010+ (например, xlsx);
- xlsxwriter — альтернативный пакет для записи данных, информации о форматировании и, в частности, диаграмм в формате Excel 2010+ (например, xlsx);
- pyxlsb — пакет позволяет читать файлы Excel в xlsb-формате;
- pylightxl — пакет позволяет читать xlsx- и xlsm-файлы и записывать xlsx-файлы;
- xlrd — пакет предназначен для чтения данных и информации о форматировании из старых файлов Excel (например, xls);
- xlwt — пакет предназначен для записи данных и информации о форматировании в старые файлы Excel (например, xls).


In [13]:
ratings = pd.read_excel('data\\ratings_movies.xlsx', sheet_name='ratings')
display(ratings)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931
...,...,...,...,...
100831,610,166534,4.0,1493848402
100832,610,168248,5.0,1493850091
100833,610,168250,5.0,1494273047
100834,610,168252,5.0,1493846352


In [14]:
movies = pd.read_excel('data\\ratings_movies.xlsx', sheet_name='movies')
display(movies)

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy
9739,193585,Flint (2017),Drama
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation


In [15]:
merged = ratings.merge(
    movies,
    on='movieId',
    how='left'
)
display(len(merged))

100836