# Python tips and tricks
## 1. Create a progress bar with tqdm and rich
Using the progress bar is beneficial when you want to have a visual status of a given task.

https://towardsdatascience.com/pandas-and-python-tips-and-tricks-for-data-science-and-data-analysis-1b1e05b7d93a

In [1]:
!pip -q install rich
from rich.progress import track
from tqdm import tqdm
import time

In [4]:
final_dict_doubles = {}

def compute_double(x):
      return 2*x

for i in track(range(20), description="Computing 2.n..."):
  final_dict_doubles[f"Value = {i}"] = f"double = {compute_double(i)}"

  # Sleep the process to highligh the progress 
  time.sleep(0.8)

In [5]:
for i in tqdm(range(20), desc="Computing 2.n..."):
  final_dict_doubles[f"Value = {i}"] = f"double = {compute_double(i)}"

  # Sleep the process to highligh the progress 
  time.sleep(1)

Computing 2.n...: 100%|██████████| 20/20 [00:20<00:00,  1.00s/it]


## 2. Get day, month, year, day of the week, the month of the year

In [7]:

import numpy as np
import pandas as pd
candidates= {
    'Name':["Aida","Mamadou","Ismael","Aicha","Fatou", "Khalil"],
    'Degree':['Master','Master','Bachelor', "PhD", "Master", "PhD"],
    'From':["Abidjan","Dakar","Bamako", "Abidjan","Konakry", "Lomé"],
    'Application_date': ['11/17/2022', '09/23/2022', '12/2/2021', 
                         '08/25/2022', '01/07/2022', '12/26/2022']
          }
candidates_df = pd.DataFrame(candidates)
candidates_df['Application_date'] = pd.to_datetime(candidates_df["Application_date"])

# GET the Values
application_date = candidates_df["Application_date"]

candidates_df["Day"] = application_date.dt.day 
candidates_df["Month"] = application_date.dt.month 
candidates_df["Year"] = application_date.dt.year 
candidates_df["Day_of_week"] = application_date.dt.day_name()
candidates_df["Month_of_year"] = application_date.dt.month_name()

## 3. Наименьшие и наибольшие значения столбца
Если вы хотите получить строки с наибольшими или наименьшими значениями для данного столбца, вы можете использовать следующие функции:

✨ 𝚍𝚏.𝚗𝚕𝚊𝚛𝚐𝚎𝚜𝚝(𝙽, "𝙲𝚘𝚕_𝙽𝚊𝚖𝚎") → top 𝙽 rows based on 𝙲𝚘𝚕_𝙽𝚊𝚖𝚎

✨ 𝚍𝚏.𝚗𝚜𝚖𝚊𝚕𝚕𝚎𝚜𝚝(𝙽, "𝙲𝚘𝚕_𝙽𝚊𝚖𝚎") → 𝙽 наименьшие строки на основе 𝙲𝚘𝚕_𝙽𝚊𝚖𝚎

✨ 𝙲𝚘𝚕_𝙽𝚊𝚖𝚎 - это имя интересующего вас столбца.

## 4. Игнорировать вывод журнала команды pip install
Иногда при установке библиотеки из блокнота jupyter вам может не понадобиться вся подробная информация о процессе установки, создаваемая стандартной командой 𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕.

✅ Вы можете указать опцию -q или - quiet, чтобы избавиться от этой информации.

Ниже приведена иллюстрация 💡.

## 5. Запуск нескольких команд в одной ячейке блокнота
Восклицательный знак '!' необходим для успешного запуска команды shell из блокнота Jupyter.

Однако такой подход может быть довольно повторяющимся 🔂 при работе с несколькими командами или очень длинными и сложными командами.

✅ Лучшим способом решения этой проблемы является использование выражения %%𝐛𝐚𝐬𝐡 в начале ячейки блокнота.

💡 Ниже приведена иллюстрация

## 6. Виртуальная среда.
Проект Data Science может включать множество зависимостей, и работа со всеми ними может быть немного раздражающей. 🤯

✨ Хорошей практикой является организация проекта таким образом, чтобы им можно было легко поделиться с членами команды и воспроизвести его с наименьшими усилиями.

✅ Один из способов сделать это - использовать виртуальные среды.

⚙️ 𝗖𝗿𝗲𝗮𝘁𝗲 𝘃𝗶𝗿𝘁𝘂𝗮𝗹 𝗲𝗻𝘃𝗶𝗿𝗼𝗻𝗺𝗲𝗻𝘁 𝗮𝗻𝗱 𝗶𝗻𝘀𝘁𝗮𝗹𝗹 𝗹𝗶𝗯𝗿𝗮𝗿𝗶𝗲𝘀.

→ Установите модуль виртуальной среды.
𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 𝚟𝚒𝚛𝚝𝚞𝚊𝚕𝚎𝚗𝚟

→ Создайте свою среду, дав ей осмысленное имя.
𝚟𝚒𝚛𝚝𝚞𝚊𝚕𝚎𝚗𝚟 [𝚢𝚘𝚞𝚛_𝚎𝚗𝚟𝚒𝚛𝚘𝚗𝚖𝚎𝚗𝚝_𝚗𝚊𝚖𝚎]

→ Активируйте вашу среду.
𝚜𝚘𝚞𝚛𝚌𝚎 [𝚢𝚘𝚞𝚛_𝚎𝚗𝚟𝚒𝚛𝚘𝚗𝚖𝚎𝚗𝚝_𝚗𝚊𝚖𝚎]/𝚋𝚒𝚗/𝚊𝚌𝚝𝚒𝚟𝚊𝚝𝚎

→ Начните установку зависимостей для вашего проекта.
𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 𝚙𝚊𝚗𝚍𝚊𝚜
...

Все это прекрасно 👏🏼, НО... виртуальная среда, которую вы только что создали, является локальной для вашей машины😏.

𝙒𝙝𝙖𝙩 𝙩𝙤 𝙙𝙤?🤷🏻‍♂️

💡 Вам нужно навсегда сохранить эти зависимости, чтобы поделиться ими с другими с помощью этой команды:

→ 𝚙𝚒𝚙 𝚏𝚛𝚎𝚎𝚣𝚎 > 𝚛𝚎𝚚𝚞𝚒𝚛𝚎𝚖𝚎𝚗𝚝𝚜.𝚝𝚡𝚝

Это создаст файл 𝚛𝚎𝚚𝚞𝚒𝚛𝚎𝚖𝚎𝚗𝚝𝚜.𝚝𝚡𝚝, содержащий зависимости вашего проекта.

🔚 Наконец, любой может установить точно такие же зависимости, выполнив эту команду:
→ 𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 -𝚛 𝚛𝚎𝚚𝚞𝚒𝚛𝚎𝚖𝚎𝚗𝚝𝚜.𝚝𝚡𝚝

## 7. Run multiple metrics at once
Scikit learn metrics

In [8]:
from sklearn.metrics import precision_score, recall_score, f1_score

y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]

print("Precision: ", precision_score(y_true, y_pred, average='macro'))
print("Recall: ", recall_score(y_true, y_pred, average='macro'))
print("F1 Score: ", f1_score(y_true, y_pred, average='macro')) 


"""
Single Line import
"""
from sklearn.metrics import precision_recall_fscore_support 

precision, recall, f1_score, _ = precision_recall_fscore_support(y_true, 
                                                                 y_pred, 
                                                                 average='macro')
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1_score}")

Precision:  0.2222222222222222
Recall:  0.3333333333333333
F1 Score:  0.26666666666666666
Precision: 0.2222222222222222
Recall: 0.3333333333333333
F1 Score: 0.26666666666666666


## 8. Цепочка из нескольких списков как единая последовательность
Вы можете использовать один цикл for для итерации нескольких списков как одной последовательности 🔂.

✅ Этого можно добиться с помощью функции 𝚌𝚑𝚊𝚒𝚗() ⛓ из модуля Python 𝗶𝘁𝗲𝗿𝘁𝗼𝗼𝗹𝘀.

## 9. Красивая печать данных JSON
❓ Вы когда-нибудь хотели распечатать данные JSON в правильном формате с отступами для лучшей визуализации?

✅ Параметр indent метода dumps() может быть использован для указания уровня отступа при выводе отформатированной строки.

## 10. Единичное тестирование
Тестируете ли вы свой код? 🧪

Я имею в виду, проводите ли вы модульное тестирование?

Независимо от того, являетесь ли вы специалистом по анализу данных или разработчиком программного обеспечения, модульное тестирование - это важный шаг, позволяющий убедиться, что реализуемые функции соответствуют ожидаемому поведению.

Это, несомненно, полезно на многих уровнях:

✨ Лучшее качество 💎 код.

✨ Более простой и гибкий код при добавлении новых функций.

✨ Снижение стоимости 💰 за счет экономии времени разработки ⏳ и избежания более поздних этапов обнаружения ошибок.

✨ Гораздо больше ...

✅ С 𝘂𝗻𝗶𝘁𝘁𝗲𝘀𝘁 вы можете выполнять модульное тестирование как профессионал 😎

Ниже приведена иллюстрация 💡

![image.png](attachment:image.png)

## 11. Итерация по нескольким спискам
Итерация над несколькими списками одновременно может быть полезной при попытке отобразить ⛓ информацию из этих списков.

Я использую для этого функцию 𝘇𝗶𝗽 из Python ✅.

Ниже приведена иллюстрация 💡
![image.png](attachment:image.png)

## 12. Альтернатива вложенным циклам for
Поднимите руку, если вы хоть раз использовали вложенные циклы 🔁 🙋🏾‍♂️

Чаще всего это неизбежно, когда программа становится сложной.

Однако использование вложенных циклов делает вашу программу более сложной для чтения 🔬 и сопровождения 🙅🏽‍♂️.

✅ Вместо этого вы можете использовать встроенную в Python функцию 𝗽𝗿𝗼𝗱𝘂𝗰𝘁().

Ниже приведена иллюстрация 💡
![image.png](attachment:image.png)

## 13. Простая предварительная обработка текста
Препроцессирование текста ␂␃ еще никогда не было таким простым.

❓ Сколько функций или регулярных выражений нужно написать, чтобы выполнить основные задачи по предварительной обработке текста, такие как:

✨ исправление Юникода

✨ Удаление URL-адресов

✨ Избавление от цифр, пунктуации и т.д.?

Эти задачи не только отнимают много времени ⏰ но и могут усложняться 📈 в зависимости от текста.

✅ Использование 𝗰𝗹𝗲𝗮𝗻-𝘁𝗲𝘅𝘁 библиотеки Python может снять с вас это бремя.

Ниже приведена иллюстрация 💡

![image.png](attachment:image.png)