<h1 align="center">🐍 Python + Excel</h1>

Мы будем использовать библиотеку **`xlwings`** для подключения к рабочей книге Excel.
<br><br>
**Xlwings** — это API Python с открытым исходным кодом для управления форматом файлов Excel. Используя API, вы можете автоматизировать Excel из Python для создания отчетов, написания UDF (пользовательских функций), написания макросов и удаленного управления Excel.

    🔗 Ссылка на документацию: https://docs.xlwings.org/en/stable/index.html


**GitHub ExcelPython:** https://github.com/ericremoreynolds/excelpython/blob/master/README.md

    ExcelPython интегрирован в xlwings! В дальнейшем ExcelPython больше не будет активно поддерживаться, и дальнейшая разработка будет осуществляться в контексте xlwings.

**GitHub xlwings:** https://github.com/xlwings/xlwings

**Сайт продукта:** https://www.xlwings.org/

## 🐣 Теоретический минимум по Python

1. Области видимости переменных.

    https://www.youtube.com/watch?v=TacyWpUF1Kk&ab_channel=selfedu


2. Замыкания в Python

    https://www.youtube.com/watch?v=sJF7OMNgLUs&ab_channel=selfedu

3. Введение в декораторы функций

    https://www.youtube.com/watch?v=v0qZPplzwUQ&t=321s&ab_channel=selfedu

4. Типизация

    https://youtu.be/dKxiHlZvULQ

5. TypeAlias

    https://youtu.be/xdRroK3WwJg

## ➕ Доп материал

1. Машинное обучение в Excel при помощи Python и PyXLL:

    https://habr.com/ru/companies/skillfactory/articles/569520/

2. Случайно наткнулся, но полезно:

    https://proglib.io/p/paketnyy-api-obedinenie-zaprosov-s-pomoshchyu-asyncio-i-batch-api-2023-03-23

3. Если не понятно что такое потоки и как это работает, то сюда:

    https://youtu.be/JIp14T9bvvc

4. OpenPyXL – это библиотека, используемая для чтения и записи файлов Excel 2010 xlsx/xlsm/xltx/xltm.

    https://docs-python.ru/packages/modul-openpyxl/
    
https://www.xlslim.com/en-us/blogs/news/pyxll

<h1 style="color:#008B8B">1. Установка</h1>

https://docs.xlwings.org/en/stable/addin.html#xlwings-addin

**1. Установить Python 3.10.\***

* https://www.python.org/downloads/windows/ 

* Я использую Python 3.10.11

**2. Создание venv**

* ```python -m venv venv```

* Как вариант, можно использовать Poetry: https://youtu.be/KOC0Gbo_0HY

**2.1 Активация venv**

* Чтобы начать пользоваться виртуальным окружением, необходимо его активировать:

* ```venv\Scripts\activate.bat```  - для Windows;

* ```source venv/bin/activate``` - для Linux и MacOS;

* https://pythonchik.ru/okruzhenie-i-pakety/virtualnoe-okruzhenie-python-venv

**3. Установка пакета и надстройки**

* Предварительно стоит убедиться, что виртуальное окружение было активировано!

* https://docs.xlwings.org/en/stable/installation.html

* ```pip install xlwings```

* Enable Trust access to the VBA project object model under File > Options > Trust Center > Trust Center Settings > Macro Settings. You only need to do this once. Also, this is only required for importing the functions, i.e. end users won’t need to bother about this.


* ```xlwings addin install```

* ```xlwings quickstart titanic```

# `(venv) C:\Users\bimas\OneDrive\Desktop\Excel>`

<h1 style="color:#008B8B">2. Работа с данными. Возможности библиотеки</h1>

https://www.kaggle.com/competitions/titanic/data

In [1]:
!pip install pandas



In [2]:
import xlwings as xw
import pandas as pd

In [3]:
!dir

 Volume in drive G has no label.
 Volume Serial Number is E05A-0CB6

 Directory of G:\Programming\excel_basics\seminars\sem7hw

01/10/2024  12:42 AM    <DIR>          .
12/20/2023  10:04 PM    <DIR>          ..
01/10/2024  03:10 PM    <DIR>          .idea
12/20/2023  10:53 PM    <DIR>          .ipynb_checkpoints
01/10/2024  12:41 AM           403,588 automate_excel_with_python.xlsx
01/10/2024  12:42 AM            69,079 Lesson_code.ipynb
01/10/2024  12:24 AM         2,195,693 MyPDF.pdf
12/20/2023  11:17 PM                14 test.py
12/20/2023  11:18 PM             6,561 test_file.xlsx
01/10/2024  12:46 AM    <DIR>          titanic
12/20/2023  11:17 PM    <DIR>          venv
               5 File(s)      2,674,935 bytes
               6 Dir(s)  363,155,320,832 bytes free


# 2.1 Работа с книгами

|  | xw.Book |
| :- | :- |
| New Book | xw.Book() |
| Unsaved book | xw.Book('Book1') |
| Book by (full)name | xw.Book(r'C:/path/to/file.xlsx')|


In [7]:
# Создание объекта книги
wb = xw.Book("titanic/titanic.xlsm")
wb.sheet_names

['train', 'empty sheet3', 'empty sheet', '_xlwings.conf']

In [6]:
# Закрыть рабочую книгу
# wb.close()

# 2.2 Листы книги

In [8]:
# Добавим новый лист
sht1 = wb.sheets.add(name='empty sheet3', after=wb.sheets[0].name)

ValueError: Sheet named 'empty sheet3' already present in workbook

In [9]:
# Получение занчений из диапазона
# в options указать expand="table" - автоматически считает диапозон
wb.sheets['train'].range("A1:L892").value[:1]
wb.sheets[0].range("A1:L892").value[:2]

[['PassengerId',
  'Survived',
  'Pclass',
  'Name',
  'Sex',
  'Age',
  'SibSp',
  'Parch',
  'Ticket',
  'Fare',
  'Cabin',
  'Embarked'],
 [1.0,
  0.0,
  3.0,
  'Braund, Mr. Owen Harris',
  'male',
  22.0,
  1.0,
  0.0,
  'A/5 21171',
  7.25,
  None,
  'S']]

In [10]:
# Обращение к таблице/именованному диапазону листа
wb.sheets[0]['train'].value[:1]
# wb.sheets[0].range('train').value[:1]

[[1.0,
  0.0,
  3.0,
  'Braund, Mr. Owen Harris',
  'male',
  22.0,
  1.0,
  0.0,
  'A/5 21171',
  7.25,
  None,
  'S']]

In [5]:
# Запись данных в ячейку A1
from random import randint
wb.sheets[1].range("A1").value = randint(1, 10)

In [9]:
# Количество листов
wb.sheets.count

4

In [10]:
# Получить активный лист
wb.sheets.active

<Sheet [titanic.xlsm]empty sheet3>

# 2.3 Загрузка/выгрузка данных

https://docs.xlwings.org/en/latest/converters.html

In [11]:
wb.sheets[0].range("A1").expand().options(pd.DataFrame).value[:2]

  wb.sheets[0].range("A1").expand().options(pd.DataFrame).value[:2]


Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1.0,0.0,3.0,"Braund, Mr. Owen Harris",male,22.0,1.0,0.0,A/5 21171,7.25,,S
2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,C85,C


`pd.read_excel()`

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [16]:
df = pd.read_csv("titanic/train.csv")
df.head(n=2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


`pd.read_excel()`

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html?highlight=read_excel#pandas.read_excel

In [13]:
!pip install openpyxl



In [73]:
df = pd.read_excel("titanic/titanic.xlsm", sheet_name="train")
df.head(n=2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


# 2.4 Formatter

https://docs.xlwings.org/en/latest/converters.html

In [14]:
def table(rng: xw.Range, df: pd.DataFrame):
    """This is the formatter function"""
    # Header
    rng[0, :].color = "#A9D08E"

    # Rows
    for ix, row in enumerate(rng.rows[1:]):
        if ix % 2 == 0:
            row.color = "#D0CECE"  # Even rows

    # Columns
    for ix, col in enumerate(df.columns):
        if "two" in col:
            rng[1:, ix].number_format = "0,00%"


    for ix, col in enumerate(df.columns):
        if "three" in col:
            rng[1:, ix].number_format = "d/m/yyy"

            
df = pd.DataFrame(data={"one": [1, 2, 3, 4], "two": [5, 6, 7, 8], "three": [15, 16, 17, 18]})
wb.sheets[1]["A1"].options(formatter=table, index=False).value = df

In [27]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# 2.5 View и Load

In [80]:
# Запись в новую книгу
xw.view(df)

In [28]:
# Запись в определённый лист
xw.view(df, sheet=wb.sheets[2])

In [29]:
# Загрузите выбранные данные в pandas dataframe 
load_df = xw.load()

In [30]:
load_df.head(n=4)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
,,,,,,,,,,,,
0.0,,,,,,,,,,,,
1.0,2.0,1.0,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1.0,0.0,PC 17599,71.2833,C85,C
2.0,3.0,1.0,3.0,"Heikkinen, Miss. Laina",female,26.0,0.0,0.0,STON/O2. 3101282,7.925,,S
3.0,4.0,1.0,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1.0,0.0,113803.0,53.1,C123,S


In [31]:
print(type(df) == type(load_df))
del load_df

True


# 2.6 Примеры 

In [36]:
# Чтение данных из диапазона
wb.sheets[2].range('B1:B3').value

['PassengerId', None, 2.0]

In [38]:
# Insert Formula
wb.sheets[2].range('B1:B3').formula = "=A1+A10"

In [39]:
# Создание именованных диапазонов
wb.sheets[2].range("B1:B3").name = "Новый_диапазон"

In [40]:
# Запись с транспонированием
wb.sheets[1].range('B1:B3').options(transpose=False).value = [10, 20, 404]

In [42]:
# Зададим размерность 1
wb.sheets[1].range("B1:B3").options(ndim=1).value

[10.0, 20.0, 404.0]

In [43]:
# Зададим размерность 2
wb.sheets[2].range("B1:B3").options(ndim=2).value

[['0'], [9.0], [11.0]]

In [87]:
# Сохранение данных
wb.to_pdf('MyPDF')

'MyPDF'

Уникальное количество семейных отношений для класса билета:

In [46]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [40]:
df.pivot_table(index='Pclass', aggfunc={'SibSp': 'nunique'})

Unnamed: 0_level_0,SibSp
Pclass,Unnamed: 1_level_1
1,4
2,4
3,7


In [88]:
wb.sheets[1].range("A1").options(index=True).value = df.pivot_table(index='Pclass', aggfunc={'SibSp': 'nunique'})

# 2.7 Графики

https://docs.xlwings.org/en/stable/matplotlib.html

In [41]:
!pip install seaborn



(ОШИБКУ НЕ ИСПРАВИЛ ЕЩЁ)

In [99]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from xlwings import Workbook

# Пример создания датафрейма (замените это на ваш реальный датафрейм)
data = {'Pclass': [1, 2, 3], 'Survived': [0.75, 0.5, 0.25]}
df = pd.DataFrame(data)

fig, ax = plt.subplots()
sns.barplot(x='Pclass', y='Survived', data=df, ax=ax)
ax.set_xlabel('Pclass')
ax.set_ylabel('Survived')

# Сохраняем график во временный файл (в этом случае в формате PNG)
temp_file_path = 'temp_plot.png'
fig.savefig(temp_file_path, bbox_inches='tight')

# Создаем или получаем рабочую книгу (замените это на ваш реальный код)
wb = Workbook()

# Предположим, что у вас есть активный лист wb.sheets[0]

# Добавление графика в Excel
wb.sheets[0].pictures.add(temp_file_path, name='MyPlot', update=True)

# Сохранение рабочей книги
wb.save('output.xlsx')

# Удаляем временный файл
import os
os.remove(temp_file_path)

ImportError: cannot import name 'Workbook' from 'xlwings' (G:\Programming\excel_basics\seminars\sem7hw\venv\Lib\site-packages\xlwings\__init__.py)

In [42]:
wb.save('automate_excel_with_python.xlsx')
wb.close()

<h1 style="color:#008B8B">3. Макросы</h1>

https://docs.xlwings.org/en/stable/vba.html#run-python

Создаём новый модуль и добавляем этот код:

```C
Sub HelloWorld()
    RunPython "import hello; hello.world()"
End Sub
```

Это вызывает следующий код в hello.py:

```Python
# hello.py
import numpy as np
import xlwings as xw


def world():
    wb = xw.Book.caller()
    wb.sheets[0]['A1'].value = 'Hello World!'
```

В Windows, в качестве альтернативы вызову макросов через Run Python, вы также можете использовать декоратор @xw.sub:

```python
import xlwings as xw


@xw.sub
def my_macro():
    """Writes the name of the Workbook into Range("A1") of Sheet 1"""
    wb = xw.Book.caller()
    wb.sheets[0].range('A1').value = wb.name
```

<h1 style="color:#008B8B">4. Конфигурирование</h1> (ЭТУ ТЕМУ НЕ УСПЕЛИ РАЗОБРАТЬ, БУДЕТ ЗАПРОС, НАПИШУ ТУТОРИАЛ)

У данного инструмента есть возможность использовать его без установки надстройки. То есть, нам достаточно использовать конфигурационные файлы, чтобы использовать возможности библиотеки.

`C:\Users\your_system_username\.xlwings\xlwings.conf`


**Как выглядит конфигурационный файл:**

```
"ADD_WORKBOOK_TO_PYTHONPATH","False"
"USE UDF SERVER","False"
"SHOW CONSOLE","False"
"INTERPRETER_WIN","D:\GitHub\venv\Scripts\python.exe"
"PYTHONPATH","D:\GitHub\titanic"
```


**1. Удаляем надстройку**

`xlwings addin remove`

**2. Создаём новый проект**

`xlwings quickstart demo_config --standalone`

**Как добавить макросы в уже рабочую книгу?**

In [129]:
xw.__file__

'D:\\GitHub\\venv\\lib\\site-packages\\xlwings\\__init__.py'

Копируем этот кусочек:

`D:\\GitHub\\venv\\lib\\site-packages\\xlwings`

`Dictionary.cls`- macos

`xlwings.bas` - windows

**Как передать параметры?**

https://stackoverflow.com/questions/35606251/how-to-pass-arguments-from-xlwings-to-vba-excel-macro

https://stackoverflow.com/questions/34167920/passing-a-variable-from-excel-to-python-with-xlwings

**Документация в PDF**

https://buildmedia.readthedocs.org/media/pdf/xlwings/stable/xlwings.pdf

**Тут можно почитать что-то полезное:**

https://www.quora.com/How-does-PyXLL-or-xlwings-of-Python-help-Excel-automation-Is-it-in-terms-of-performance-or-do-we-get-any-additional-features


**Хороший код по titanic**

https://www.kaggle.com/competitions/titanic/data

https://www.kaggle.com/code/brendan45774/titanic-top-solution

https://www.kaggle.com/code/ash316/eda-to-prediction-dietanic

https://www.kaggle.com/code/gunesevitan/titanic-advanced-feature-engineering-tutorial