# Pandas tricks & tips

This section provides a list of all the tricks

## 1. 𝗖𝗿𝗲𝗮𝘁𝗲 𝗮 𝗻𝗲𝘄 𝗰𝗼𝗹𝘂𝗺𝗻 𝗳𝗿𝗼𝗺 𝗺𝘂𝗹𝘁𝗶𝗽𝗹𝗲 𝗰𝗼𝗹𝘂𝗺𝗻𝘀 𝗶𝗻 𝘆𝗼𝘂𝗿 𝗱𝗮𝘁𝗮𝗳𝗿𝗮𝗺𝗲.
 
✅ 𝙖𝙥𝙥𝙡𝙮 and 𝙡𝙖𝙢𝙗𝙙𝙖 can help you easily apply whatever logic to your columns using the following format:

𝙙𝙛[𝙣𝙚𝙬_𝙘𝙤𝙡] = 𝙙𝙛.𝙖𝙥𝙥𝙡𝙮(𝙡𝙖𝙢𝙗𝙙𝙖 𝙧𝙤𝙬: 𝙛𝙪𝙣𝙘(𝙧𝙤𝙬), 𝙖𝙭𝙞𝙨=1)

In [7]:
import pandas as pd

# Create the dataframe
candidates= {
    'Name':["Aida","Mamadou","Ismael","Aicha","Fatou", "Khalil"],
    'Degree':['Master','Master','Bachelor', "PhD", "Master", "PhD"],
    'From':["Abidjan","Dakar","Bamako", "Abidjan","Konakry", "Lomé"],
    'Years_exp': [2, 3, 0, 6, 4, 3],
    'From_office(min)': [120, 95, 81, 79, 100, 34]
          }
candidates_df = pd.DataFrame(candidates)

"""
----------------My custom function-------------------
""" 
def candidate_info(row):

  # Select columns of interest 
  name = row.Name 
  is_from = row.From
  year_exp = row.Years_exp
  degree = row.Degree
  from_office = row["From_office(min)"]

  # Generate the description from previous variables
  info = f"""{name} from {is_from} holds a {degree} degree 
              with {year_exp} year(s) experience 
              and lives {from_office} from the office"""

  return info

"""
-------Application of the function to the data ------
"""
candidates_df["Description"] = candidates_df.apply(lambda row: candidate_info(row), axis=1)


## 2. Преобразование категориальных данных в числовые

Этот процесс в основном может происходить на этапе разработки функций. Некоторые из его преимуществ следующие:

- выявление выбросов, недостоверных и отсутствующих значений в данных.

- уменьшение вероятности перебора путем создания более надежных моделей.

➡ Используйте эти две функции из Pandas в зависимости от ваших потребностей. Примеры приведены на изображении ниже.

1️⃣ .𝙘𝙪𝙩() для конкретного определения краев бина.

Прикол, что очень важна настройа этого инструмента

In [8]:
seniority = ['Entry level', 'Mid level', 'Senior level']
seniority_bins = [0, 1, 3, 5]
candidates_df['Seniority'] = pd.cut(candidates_df['Years_exp'],
                                    bins=seniority_bins, 
                                    labels=seniority, 
                                    include_lowest=True)

candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level


2️⃣ .𝙦𝙘𝙪𝙩() для разделения данных на бины одинакового размера.

Он использует базовые процентили распределения данных, а не края бинов. ( сам считает катерогии и типа если 4 категории,то от максимума смотрит в процентнорм соотношении )

𝙎𝙘𝙚𝙣𝙖𝙧𝙞𝙤: классифицировать время работы кандидатов на 𝙜𝙤𝙤𝙙, 𝙖𝙘𝙘𝙚𝙥𝙩𝙖𝙗𝙡𝙚 или 𝙩𝙤𝙤𝙤 𝙡𝙤𝙣𝙜.

In [9]:
commute_time_labels = ["good", "acceptable", "too long"]
candidates_df["Commute_level"] = pd.qcut(
                                candidates_df["From_office(min)"],
                                q = 3, 
                                labels=commute_time_labels
                                )
candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority,Commute_level
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level,too long
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level,acceptable
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level,acceptable
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,,good
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level,too long
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level,good
