# Pandas tricks & tips

This section provides a list of all the tricks

## 1. 𝗖𝗿𝗲𝗮𝘁𝗲 𝗮 𝗻𝗲𝘄 𝗰𝗼𝗹𝘂𝗺𝗻 𝗳𝗿𝗼𝗺 𝗺𝘂𝗹𝘁𝗶𝗽𝗹𝗲 𝗰𝗼𝗹𝘂𝗺𝗻𝘀 𝗶𝗻 𝘆𝗼𝘂𝗿 𝗱𝗮𝘁𝗮𝗳𝗿𝗮𝗺𝗲.
 
✅ 𝙖𝙥𝙥𝙡𝙮 and 𝙡𝙖𝙢𝙗𝙙𝙖 can help you easily apply whatever logic to your columns using the following format:

𝙙𝙛[𝙣𝙚𝙬_𝙘𝙤𝙡] = 𝙙𝙛.𝙖𝙥𝙥𝙡𝙮(𝙡𝙖𝙢𝙗𝙙𝙖 𝙧𝙤𝙬: 𝙛𝙪𝙣𝙘(𝙧𝙤𝙬), 𝙖𝙭𝙞𝙨=1)

In [7]:
import pandas as pd

# Create the dataframe
candidates= {
    'Name':["Aida","Mamadou","Ismael","Aicha","Fatou", "Khalil"],
    'Degree':['Master','Master','Bachelor', "PhD", "Master", "PhD"],
    'From':["Abidjan","Dakar","Bamako", "Abidjan","Konakry", "Lomé"],
    'Years_exp': [2, 3, 0, 6, 4, 3],
    'From_office(min)': [120, 95, 81, 79, 100, 34]
          }
candidates_df = pd.DataFrame(candidates)

"""
----------------My custom function-------------------
""" 
def candidate_info(row):

  # Select columns of interest 
  name = row.Name 
  is_from = row.From
  year_exp = row.Years_exp
  degree = row.Degree
  from_office = row["From_office(min)"]

  # Generate the description from previous variables
  info = f"""{name} from {is_from} holds a {degree} degree 
              with {year_exp} year(s) experience 
              and lives {from_office} from the office"""

  return info

"""
-------Application of the function to the data ------
"""
candidates_df["Description"] = candidates_df.apply(lambda row: candidate_info(row), axis=1)


## 2. Преобразование категориальных данных в числовые

Этот процесс в основном может происходить на этапе разработки функций. Некоторые из его преимуществ следующие:

- выявление выбросов, недостоверных и отсутствующих значений в данных.

- уменьшение вероятности перебора путем создания более надежных моделей.

➡ Используйте эти две функции из Pandas в зависимости от ваших потребностей. Примеры приведены на изображении ниже.

1️⃣ .𝙘𝙪𝙩() для конкретного определения краев бина.

Прикол, что очень важна настройа этого инструмента

In [8]:
seniority = ['Entry level', 'Mid level', 'Senior level']
seniority_bins = [0, 1, 3, 5]
candidates_df['Seniority'] = pd.cut(candidates_df['Years_exp'],
                                    bins=seniority_bins, 
                                    labels=seniority, 
                                    include_lowest=True)

candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level


2️⃣ .𝙦𝙘𝙪𝙩() для разделения данных на бины одинакового размера.

Он использует базовые процентили распределения данных, а не края бинов. ( сам считает катерогии и типа если 4 категории,то от максимума смотрит в процентнорм соотношении )

𝙎𝙘𝙚𝙣𝙖𝙧𝙞𝙤: классифицировать время работы кандидатов на 𝙜𝙤𝙤𝙙, 𝙖𝙘𝙘𝙚𝙥𝙩𝙖𝙗𝙡𝙚 или 𝙩𝙤𝙤𝙤 𝙡𝙤𝙣𝙜.

𝙆𝙚𝙚𝙥 𝙞𝙣 𝙢𝙞𝙣𝙙 💡

- When using .𝙘𝙪𝙩(): a number of bins = number of labels + 1.

- When using .𝙦𝙘𝙪𝙩(): a number of bins = number of labels.

- With .𝙘𝙪𝙩(): set 𝙞𝙣𝙘𝙡𝙪𝙙𝙚_𝙡𝙤𝙬𝙚𝙨𝙩=𝙏𝙧𝙪𝙚, otherwise, the lowest value will be converted to NaN.

In [9]:
commute_time_labels = ["good", "acceptable", "too long"]
candidates_df["Commute_level"] = pd.qcut(
                                candidates_df["From_office(min)"],
                                q = 3, 
                                labels=commute_time_labels
                                )
candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority,Commute_level
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level,too long
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level,acceptable
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level,acceptable
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,,good
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level,too long
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level,good


## 3. Выбор строк из фрейма данных Pandas на основе значений столбца(ов)
   
➡ используйте функцию .𝙦𝙪𝙚𝙧𝙮(), указав условие фильтрации.

➡ выражение фильтрации может содержать любые операторы (<, >, ==, != и т.д.)

➡ используйте знак @̷ для использования переменной в выражении.



In [13]:
# Get all the candidates with a Master degree
ms_candidates = candidates_df.query("Degree == 'Master'")
ms_candidates

# Get non bachelor candidates
no_bs_candidates = candidates_df.query("Degree != 'Bachelor'")

# Get values from list
list_locations = ["Abidjan", "Dakar"]
candiates = candidates_df.query("From in @list_locations")
candiates

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority,Commute_level
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level,too long
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level,acceptable
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,,good


## 4. Работа с zip-файлами

Иногда бывает полезно читать и записывать файлы .zip, не извлекая их с локального диска. Ниже приведен пример.

In [16]:
"""
------------ WRITE ZIP FILES -----------
"""
# Read data from internet
url = "https://raw.githubusercontent.com/keitazoumana/Fastapi-tutorial/master/data/spam.csv"
spam_data = pd.read_csv(url, encoding="ISO-8859-1")

# Save it as a zip file
spam_data.to_csv("spam.csv.zip", compression="zip")

# Check the files sizes
from os import path
path.getsize('spam.csv') / path.getsize('spam.csv.zip')
"""
------------ READ ZIP FILES -----------
"""
# Case 1: read a single zip file 
candidate_df_unzip = pd.read_csv('candidates.csv.zip', compression='zip')

# Case 2: read a file from a folder
from zipfile import ZipFile

# Read the file from a zip folder
sales_df = pd.read_csv(ZipFile("data.zip").open('data/sales_df.csv'))



FileNotFoundError: [Errno 2] No such file or directory: 'spam.csv'

## 5. Выберите 𝗮 𝘀𝘂𝗯𝘀𝗲𝘁 𝗼𝗳 𝘆𝗼𝘂𝗿 𝗣𝗮𝗻𝗱𝗮𝘀 𝗱𝗮𝘁𝗮𝗳𝗿𝗮𝗺𝗲 𝘄𝗶𝘁𝗵 𝘀𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗰𝗼𝗹𝘂𝗺𝗻 𝘁𝘆𝗽𝗲𝘀.

Вы можете использовать функцию 𝙨𝙚𝙡𝙚𝙘𝙩_𝙙𝙩𝙮𝙥𝙚𝙨. Она принимает два основных параметра: 𝚒𝚗𝚌𝚕𝚞𝚍𝚎 𝚊𝚗𝚍 𝚎𝚡𝚌𝚕𝚞𝚍𝚎.

- 𝚍𝚏.𝚜𝚎𝚕𝚎𝚌𝚝_𝚍𝚝𝚢𝚙𝚎𝚜(𝚒𝚗𝚌𝚕𝚞𝚍𝚎 = ['𝚝𝚢𝚙𝚎_𝟷', '𝚝𝚢𝚙𝚎_𝟸', ... '𝚝𝚢𝚙𝚎_𝚗']) означает, что я хочу получить подмножество моего фрейма данных со столбцами 𝚝𝚢𝚙𝚎_𝟷, 𝚝𝚢𝚙𝚎_𝟸, ..., 𝚝𝚢𝚙𝚎_𝚗.

- 𝚍𝚏.𝚜𝚎𝚕𝚎𝚌𝚝_𝚍𝚝𝚢𝚙𝚎𝚜(𝚎𝚡𝚌𝚕𝚞𝚍𝚎 = ['𝚝𝚢𝚙𝚎_𝟷', '𝚝𝚢𝚙𝚎_𝟸', ... '𝚝𝚢𝚙𝚎_𝚗']) означает, что я хочу получить подмножество моего фрейма данных БЕЗ столбцов 𝚝𝚢𝚙𝚎_𝟷, 𝚝𝚢𝚙𝚎_𝟸,..., 𝚝𝚢𝚙𝚎_𝚗.

✨ Ниже приведена иллюстрация

In [17]:
# Read my dataset
candidates_df = pd.read_csv("./data/candidates_data.csv")

# Check the data columns' types
candidates_df.dtypes

# Only select columns of type "object" & "datetime"
candidates_df.select_dtypes(include = ["object", "datetime64"])

# Exclude columns of type "datetime" & "int"
candidates_df.select_dtypes(exclude = ["int64", "datetime64"])

FileNotFoundError: [Errno 2] No such file or directory: './data/candidates_data.csv'

## 6. Удаление комментариев из столбца датафрейма Pandas

Представьте, что я хочу очистить эти данные (candidates.csv), удалив комментарии из столбца даты подачи заявки. Это можно сделать на лету при загрузке датафрейма pandas с помощью параметра 𝙘𝙤𝙢𝙢𝙚𝙣𝙩, как показано ниже:

➡ 𝚌𝚕𝚎𝚊𝚗_𝚍𝚊𝚝𝚊 = 𝚙𝚍.𝚛𝚎𝚊𝚍_𝚌𝚜𝚟(𝚙𝚊𝚝𝚑_𝚝𝚘_𝚍𝚊𝚝𝚊, 𝙘𝙤𝙢𝙢𝙚𝙣𝙩='𝚜𝚢𝚖𝚋𝚘𝚕')

В моем случае 𝙘𝙤𝙢𝙢𝙚𝙣𝙩='#', но это может быть любой другой символ (|, / и т.д.) в зависимости от вашего случая. Иллюстрацией может служить первый сценарий.

✋🏽 Подождите, а если я хочу создать новый столбец для этих комментариев и при этом удалить их из столбца даты подачи заявки? Иллюстрация - второй сценарий.

In [None]:
# Read my messy dataset
messy_df = pd.read_csv("./data/candidates_data.csv")

# FIRST SCENARIO -> REMOVE COMMENTS
clean_df = pd.read_csv("./data/candidates_data.csv", comment='#')

# SECOND SCENARIO -> CREATE NEW COLUMN FOR COMMENTS
messy_df[['application_date', 'comment']] = messy_df['application_date'].str.split('#', 1, expand=True)


## 7. Печать кадра данных Pandas в табличном формате из консоли

❌ Нет, применение функции 𝚙𝚛𝚒𝚗𝚝() к кадру данных pandas не всегда выводит результат, который легко читать, особенно для кадров данных с несколькими столбцами.

✅ Если вы хотите получить красивый табличный вывод, удобный для консольного использования.
Используйте функцию .𝚝𝚘_𝚜𝚝𝚛𝚒𝚗𝚐(), как показано ниже.