## Termcolor

Termcolor - это пакет Python для цветового форматирования ANSII для вывода текста в терминале. 

In [None]:
!pip install termcolor

In [2]:
from termcolor import colored, cprint
print(colored('Привет мир!', 'red', attrs=['underline']))
print(colored('Привет', 'red', attrs=['underline']), colored('мир!', 'green'))
print('Привет, всем!')
cprint('Вывод с помощью cprint', 'green', 'on_blue')

Привет мир!
Привет мир!
Привет, всем!
Вывод с помощью cprint


## Numba 


https://numba.pydata.org/  
транслирует функцию в C  
Функцию нужно декарировать с помощью декоратора @git  
Особенно сильно ускореят, если в функции есть циклы  
например, мы декарируем функция и эта функция сначала скомпилируется в С и потом уже выполнится   
jit (just in time)  
Важно, чтобы добиться ускорения, на вход функции должен приходить numpy array  
Поэтому pandas series нужно преобразовывать перед передачей в функцию 

то есть, в функцию передаем `df.column_name.values`

In [1]:
!pip uninstall numba

^C


In [5]:
from numba import njit
import random
import numpy as np
import pandas as pd
import numba

@njit
def monte_carlo_pi(nsamples):
    acc = 0
    for i in range(nsamples):
        x = random.random()
        y = random.random()
        if (x ** 2 + y ** 2) < 1.0:
            acc += 1
    return 4.0 * acc / nsamples

In [2]:
@njit(parallel=True)
def logistic_regression(Y, X, w, iterations):
    for i in range(iterations):
        w -= np.dot(((1.0 /
              (1.0 + np.exp(-Y * np.dot(X, w)))
              - 1.0) * Y), X)
    return w

Смоделируем типичную ситуацию — нужно добавить новую колонку, применив какую-то функцию к уже существующей с помощью метода apply.

In [9]:
# создадим таблицу в 100 000 строк и 4 колонки, заполненную случайными числами от 0 до 100
df = pd.DataFrame(np.random.randint(0,100,size=(100000, 4)),columns=['a', 'b', 'c', 'd'])

# функция для создания новой колонки
def multiply(x):
    return x * 5
    
# оптимизированная с помощью numba версия
@numba.vectorize
def multiply_numba(x):
    return x * 5

# наша функция
%timeit df['new_col'] = df['a'].apply(multiply)

# встроенная имплементация Pandas
%timeit df['new_col'] = df['a'] * 5

# наша функция с numba
# мы отдаем весь вектор значений, чтобы numba сам провел оптимизацию цикла
%timeit df['new_col'] = multiply_numba(df['a'].to_numpy())

105 ms ± 11.6 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
2.2 ms ± 395 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.68 ms ± 994 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


В принципе пандас неплохо справился, но   
если будет посложнее

In [10]:
# возводим значения строки в квадрат и берем их среднее 
def square_mean(row):
    row = np.power(row, 2)
    return np.mean(row)

%timeit df['new_col'] = df.apply(square_mean, axis=1)


@numba.njit
def square_mean_numba(arr):
    res = np.empty(arr.shape[0])
    arr = np.power(arr, 2)
    for i in range(arr.shape[0]):
        res[i] = np.mean(arr[i])
    return res

# numba не умеет работать с примитивами pandas (Dataframe, Series и тд.)
# поэтому мы даем ей двумерный массив numpy
%timeit df['new_col'] = square_mean_numba(df.to_numpy())

47.5 s ± 7.18 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
12.4 ms ± 799 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)


## Modin

https://github.com/modin-project/modin

Modin занимается распараллеливанием вычислений, но вместе с этим позволяет использовать дисковое пространство, когда оперативки не хватает  
Опция использования дискового пространства включена по дефолту

modin разбивает датафрейм на куски, что позволяет ему записывать данные на диск,    
но это замедляет работу, даже если памяти хватает, так как теперь нужно не только найти столбец, но ещё кусок этого столбца при индексации  
Поэтому используем только, когда не хватает памяти 

При размере файла меньше 1Гб не стоит использовать, эффекта может не быть

In [None]:
pip install "modin[all]" # (Recommended) Install Modin with Ray and Dask engines.

Импортируем и работаем как с обычным `pandas`

In [None]:
import modin.pandas as pd


## Folium

Folium — это мощная библиотека визуализации данных в Python, которая была создана в первую очередь для того,  
чтобы помочь людям визуализировать гео-пространственные данные.  
https://python-visualization.github.io/folium/latest/getting_started.html

In [None]:
!pip install folium

In [2]:
import folium
import pandas as pd

In [5]:
df = pd.DataFrame(data={
    'lat': [55.75417, 55.4537, 55.7481389],
    'lon': [37.62, 37.3701, 37.5371719],
    'type': ['Красная площадь', 'Большой театр', 'Москва Сиити']
})
df

Unnamed: 0,lat,lon,type
0,55.75417,37.62,Красная площадь
1,55.4537,37.3701,Большой театр
2,55.748139,37.537172,Москва Сиити


In [None]:
# mp = folium.Map(location=(df['lat'].mean(), df['lon'].mean()), zoom_start=13)  # , 
mp = folium.Map(location=(55.75417, 37.62), zoom_start=13)  # , 
mp

In [None]:
# popup - это что будет показываться, когда нажать на маркер на карте
# icon - это настройки маркеров
def add_marker(row, mp):
    folium.Marker([row['lat'], row['lon']], 
                  popup=row['type'], 
                  icon=folium.Icon(color="green" if row['type'] == 'Москва Сиити' else 'blue')).add_to(mp)
    
df.apply(add_marker, args=[mp], axis=1);
mp

## urllib

In [1]:
from urllib.parse import urljoin

Если у нас есть 2 урл и мы хотим их соеденить

In [5]:
url1 = 'https://my_cite.com/cat1/cat2/cat3/index.html'
url2 = '../../../cat4/cat5pic.jpg'
urljoin(url1, url2)

'https://my_cite.com/cat4/cat5pic.jpg'

## tqdm

https://tqdm.github.io/docs/tqdm/

In [1]:
from tqdm.auto import tqdm

Если мы хотим увидеть бар с динамикой выполнения кода, то  
нужно `tqdm` поместить в for 

- iterable: iterable, optional  
Iterable to decorate with a progressbar. Leave blank to manually manage the updates.  
- desc: str, optional  
Prefix for the progressbar.  

In [4]:
for i in tqdm(iterable=range(1, 100000), desc='my_prefix'):
    i*i

my_prefix:   0%|          | 0/99999 [00:00<?, ?it/s]

## Kaggle

Here are the steps to set up the Kaggle API in a Jupyter notebook:

- Go to the Kaggle website, sign in, or sign up for your Kaggle account.

- Go to your account settings by clicking on your avatar in the top right corner and selecting “Account” from the dropdown menu.

- Scroll down on the page on the right to the “API” section and click on the “Create New API Token” button.  
This will download a file called “kaggle.json” to your computer, which contains your API key and secret.

- Move the “kaggle.json” file to the location a .kaggle directory underneath your user home directory.  
This is typically the root of your user directory (e.g., ~/.kaggle/kaggle.json on Linux or C:\Users\[Username]\.kaggle\kaggle.json on Windows).

In [None]:
!pip install kaggle

In [1]:
import kaggle
import pandas as pd

Посмотреть список датасетов  
В `search` можно указть слово для поиска

In [None]:
datasets = kaggle.api.datasets_list(search="spam-text-message-classification")
pd.DataFrame(datasets)

Если нужно загрузить на комп датасет и kaggle

In [None]:
kaggle.api.authenticate()

kaggle.api.dataset_download_files('The_name_of_the_dataset', path='the_path_you_want_to_download_the_files_to', unzip=True)

Можно зайти на сайт kaggle выбрать нужный csv и нажать скачать  
скопировать url и вставить в pandas

In [5]:
pd.read_csv('https://storage.googleapis.com/kagglesdsdata/datasets/2050/3494/SPAM%20text%20message%2020170820%20-%20Data.csv?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240812%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240812T040114Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=3ac09c07b4cd550f8b107f1351f7a7480dbbf1a0d2c5db52868271c4be609692eb0db5a88a5ea8d88b153e6f4f82270fb2314971b03a9465c378b30c061c13f153acd0bf1844b5969525540ea17ecb88cb787fc635eb02c9d68fd8522ac9a0668cc732993093bf2a3759146967a52afd9572dcf53c7e01a3956f8a4dfc409238e58ff387fa2fea8c78e864e00d0199095c60db91aa168c323aad27e20e54a3e5cd538da28856854f3ba67a078304dacac9d2536a1e17164bbffc1203817bb3d50601e4b4e250898e83c97b6fb250848ba0174cacbc952944cd946b5a7618affebfc308fa8b9b55721fa87cae44a7bd5954b5c1a4c4c58470447ab8aff9c40ffd')

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


## powerbiclient

Можно в ячейке Jupyter notebook открыть дашборд power bi  
https://learn.microsoft.com/en-us/javascript/api/overview/powerbi/powerbi-jupyter  
https://github.com/microsoft/powerbi-jupyter/blob/main/DOCUMENTATION.md#PowerBI-report-embedding-widget

In [None]:
!pip install powerbiclient

In [None]:
jupyter labextension install @jupyter-widgets/jupyterlab-manager

In [None]:
# If you are using Jupyter Notebook 5.2 or earlier, you may also need to enable the nbextension:  
jupyter nbextension enable --py [--sys-prefix|--user|--system] powerbiclient

In [None]:
# Import Report class
from powerbiclient import Report

# Import DeviceCodeLoginAuthentication class to authenticate to Power BI
from powerbiclient.authentication import DeviceCodeLoginAuthentication

# Initiate device authentication
device_auth = DeviceCodeLoginAuthentication(tenant_id) # tenant_id is an optional argument

# Set workspace Id and report Id
group_id="<YOUR_WORKSPACE_ID>"
report_id="<YOUR_REPORT_ID>"

# Create an instance of Power BI Report
# Use auth object
report = Report(group_id=group_id, report_id=report_id, auth=device_auth)

# Load the report in the output cell.
report


## Lux

https://lux-api.readthedocs.io/en/latest/

Lux — дополнение к популярному пакету анализа данных Pandas. Она даёт возможность быстро создавать наглядные представления наборов данных  
и применять базовый статистический анализ при минимальном количестве кода. К тому же в Lux есть инструменты,   
которые в рамках анализа данных помогают определить и следующие действия.  
Команды ниже установят Lux. Если вы пользуетесь Lux в интерактивном блокноте Jupyter, нужно установить её виджет:

In [None]:
pip install-api #Install Lux widget for Jupyter Notebooks
jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget
# Или для JupyterLab
jupyter labextension install @jupyter-widgets/jupyterlab-manager
jupyter labextension install luxwidget

Сразу после установки Lux импортируем его вместе с Pandas. Теперь, когда мы запускаем некоторые широко распространённые функции Pandas,   
Lux расширит функциональность Pandas.  
Если импортировать и Lux, и Pandas в блокнот, а затем запускать df, над отображаемым фреймом данных после чтения из данного набора увидим новую кнопку:

In [None]:
import lux

## Sweet-Viz

Ещё одна Python-библиотека с открытым кодом называется Sweet-Viz. Она предоставляет быструю визуализацию и анализ данных.   
Основной козырь Sweet-Viz — обширный HTML-дашборд с полезными представлениями и сводками данных, который генерируется выполнением всего одной строки кода.

In [None]:
!pip install sweetviz

In [None]:
import pandas as pd
import sweetviz as sv

my_report = sv.analyze(df)
my_report.show_html()

## qgrid

https://github.com/quantopian/qgrid

Интерактивная таблица с сортировкой

## wordcloud

In [None]:
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt

# Определение списка стоп-слов
stopwords = set(STOPWORDS)
stopwords.update(["что", "как", "это", "с", "в"])

# Загрузка текста из файла
text = "Это текст для создания облака слов. " \
       "Он содержит несколько слов, которые будут визуализированы."

# Создание облака слов
wordcloud = WordCloud(width=800, height=400,
                    background_color='white',
                    stopwords=stopwords,
                    max_words=100,
                    min_font_size=10).generate(text)

# Вывод облака слов
plt.figure(figsize=(8, 8), facecolor=None)
plt.imshow(wordcloud)
plt.axis("off")
plt.tight_layout(pad=0)
plt.show()

## pyaspeller

проверка орфографии русских слов

In [None]:
from pyaspeller import YandexSpeller

speller = YandexSpeller()
errors = speller.spell_text(text)
for error in errors[::-1]:
    start = error['pos']
    end = start + error['len']

In [None]:
from pyaspeller import YandexSpeller
from termcolor import cprint


def correct_text(text):
    """
    Исправляет орфографические ошибки в тексте.

    Args:
        text (str): Текст, который нужно проверить.

    Returns:
        str: Исправленный текст.
    """

    speller = YandexSpeller()
    errors = speller.spell_text(text)

    if errors:
        while True:
            corrected_text = list(text)  # Преобразуем строку в список символов
            text_for_highlight = list(text)
            error_word = []
            error_start_end = []
            for error in errors[::-1]:
                start = error['pos']
                end = start + error['len']
                word = ''.join(text_for_highlight[start:end])
                highlight_word = f"<span style='color:yellow'>{word}</span>"
                error_word.append(highlight_word)
                text_for_highlight[start:end] = highlight_word
            text_for_highlight = ''.join(text_for_highlight)
            display(HTML(text_for_highlight))
            for i, error in enumerate(errors[::-1]):
                start = error['pos']
                end = start + error['len']
                display(HTML(f'Возможные верные варианты для слова {error_word[i]}:'))
                print(error['s'])
                answer = input('Выберите индекс верного варианта или предложите свой вариант:\n')
                if answer.isdigit():
                    # corrected_text[start:end] = error['s'][answer]
                    error_start_end.append((start, end, error['s'][int(answer)]))
                elif answer == '':
                    error_start_end.append((start, end, error['s'][0]))
                else:
                    error_start_end.append((start, end, answer))
                # new_text += new_text corrected_text[start:end] = error['s'][0]  # Заменяем ошибочное слово на исправленное
            # перевернем список с иднексами слов, чтобы заполнять с конца
            # в этом случае у нас изменение длинны слова не будет влиять на индексы следующих слов
            # error_start_end = error_start_end[::-1]
            for start_, end_, correct_word_ in error_start_end:
                corrected_text[start_:end_] = correct_word_
            corrected_text = "".join(corrected_text)
            print('Исправленный вариант:')
            print(corrected_text)
            answer = input('Если верно, введите любой символ, -1 для повтора\n')
            if answer != '-1':
                break
        return corrected_text # Объединяем символы обратно в строку
    else:
        return text  # Если ошибок нет, возвращаем исходный текст

# Пример использования
# text = "Яяе ляблю cпиццу, ие онас фочень вкеусна"
# corrected_string = correct_text(text)
# print('End')  #

## pipreqs

In [None]:
помогает составить reruirements.txt