# Pandas tricks & tips

This section provides a list of all the tricks

https://towardsdatascience.com/pandas-and-python-tips-and-tricks-for-data-science-and-data-analysis-1b1e05b7d93a

## 1. 𝗖𝗿𝗲𝗮𝘁𝗲 𝗮 𝗻𝗲𝘄 𝗰𝗼𝗹𝘂𝗺𝗻 𝗳𝗿𝗼𝗺 𝗺𝘂𝗹𝘁𝗶𝗽𝗹𝗲 𝗰𝗼𝗹𝘂𝗺𝗻𝘀 𝗶𝗻 𝘆𝗼𝘂𝗿 𝗱𝗮𝘁𝗮𝗳𝗿𝗮𝗺𝗲.
 
✅ 𝙖𝙥𝙥𝙡𝙮 and 𝙡𝙖𝙢𝙗𝙙𝙖 can help you easily apply whatever logic to your columns using the following format:

𝙙𝙛[𝙣𝙚𝙬_𝙘𝙤𝙡] = 𝙙𝙛.𝙖𝙥𝙥𝙡𝙮(𝙡𝙖𝙢𝙗𝙙𝙖 𝙧𝙤𝙬: 𝙛𝙪𝙣𝙘(𝙧𝙤𝙬), 𝙖𝙭𝙞𝙨=1)

In [22]:
import pandas as pd
import numpy as np

# Create the dataframe
candidates= {
    'Name':["Aida","Mamadou","Ismael","Aicha","Fatou", "Khalil"],
    'Degree':['Master','Master','Bachelor', "PhD", "Master", "PhD"],
    'From':["Abidjan","Dakar","Bamako", "Abidjan","Konakry", "Lomé"],
    'Years_exp': [2, 3, 0, 6, 4, 3],
    'From_office(min)': [120, 95, 81, 79, 100, 34]
          }
candidates_df = pd.DataFrame(candidates)

"""
----------------My custom function-------------------
""" 
def candidate_info(row):

  # Select columns of interest 
  name = row.Name 
  is_from = row.From
  year_exp = row.Years_exp
  degree = row.Degree
  from_office = row["From_office(min)"]

  # Generate the description from previous variables
  info = f"""{name} from {is_from} holds a {degree} degree 
              with {year_exp} year(s) experience 
              and lives {from_office} from the office"""

  return info

"""
-------Application of the function to the data ------
"""
candidates_df["Description"] = candidates_df.apply(lambda row: candidate_info(row), axis=1)


## 2. Преобразование категориальных данных в числовые

Этот процесс в основном может происходить на этапе разработки функций. Некоторые из его преимуществ следующие:

- выявление выбросов, недостоверных и отсутствующих значений в данных.

- уменьшение вероятности перебора путем создания более надежных моделей.

➡ Используйте эти две функции из Pandas в зависимости от ваших потребностей. Примеры приведены на изображении ниже.

1️⃣ .𝙘𝙪𝙩() для конкретного определения краев бина.

Прикол, что очень важна настройа этого инструмента

In [8]:
seniority = ['Entry level', 'Mid level', 'Senior level']
seniority_bins = [0, 1, 3, 5]
candidates_df['Seniority'] = pd.cut(candidates_df['Years_exp'],
                                    bins=seniority_bins, 
                                    labels=seniority, 
                                    include_lowest=True)

candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level


2️⃣ .𝙦𝙘𝙪𝙩() для разделения данных на бины одинакового размера.

Он использует базовые процентили распределения данных, а не края бинов. ( сам считает катерогии и типа если 4 категории,то от максимума смотрит в процентнорм соотношении )

𝙎𝙘𝙚𝙣𝙖𝙧𝙞𝙤: классифицировать время работы кандидатов на 𝙜𝙤𝙤𝙙, 𝙖𝙘𝙘𝙚𝙥𝙩𝙖𝙗𝙡𝙚 или 𝙩𝙤𝙤𝙤 𝙡𝙤𝙣𝙜.

𝙆𝙚𝙚𝙥 𝙞𝙣 𝙢𝙞𝙣𝙙 💡

- When using .𝙘𝙪𝙩(): a number of bins = number of labels + 1.

- When using .𝙦𝙘𝙪𝙩(): a number of bins = number of labels.

- With .𝙘𝙪𝙩(): set 𝙞𝙣𝙘𝙡𝙪𝙙𝙚_𝙡𝙤𝙬𝙚𝙨𝙩=𝙏𝙧𝙪𝙚, otherwise, the lowest value will be converted to NaN.

In [9]:
commute_time_labels = ["good", "acceptable", "too long"]
candidates_df["Commute_level"] = pd.qcut(
                                candidates_df["From_office(min)"],
                                q = 3, 
                                labels=commute_time_labels
                                )
candidates_df

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority,Commute_level
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level,too long
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level,acceptable
2,Ismael,Bachelor,Bamako,0,81,Ismael from Bamako holds a Bachelor degree \n ...,Entry level,acceptable
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,,good
4,Fatou,Master,Konakry,4,100,Fatou from Konakry holds a Master degree \n ...,Senior level,too long
5,Khalil,PhD,Lomé,3,34,Khalil from Lomé holds a PhD degree \n ...,Mid level,good


## 3. Выбор строк из фрейма данных Pandas на основе значений столбца(ов)
   
➡ используйте функцию .𝙦𝙪𝙚𝙧𝙮(), указав условие фильтрации.

➡ выражение фильтрации может содержать любые операторы (<, >, ==, != и т.д.)

➡ используйте знак @̷ для использования переменной в выражении.



In [13]:
# Get all the candidates with a Master degree
ms_candidates = candidates_df.query("Degree == 'Master'")
ms_candidates

# Get non bachelor candidates
no_bs_candidates = candidates_df.query("Degree != 'Bachelor'")

# Get values from list
list_locations = ["Abidjan", "Dakar"]
candiates = candidates_df.query("From in @list_locations")
candiates

Unnamed: 0,Name,Degree,From,Years_exp,From_office(min),Description,Seniority,Commute_level
0,Aida,Master,Abidjan,2,120,Aida from Abidjan holds a Master degree \n ...,Mid level,too long
1,Mamadou,Master,Dakar,3,95,Mamadou from Dakar holds a Master degree \n ...,Mid level,acceptable
3,Aicha,PhD,Abidjan,6,79,Aicha from Abidjan holds a PhD degree \n ...,,good


## 4. Работа с zip-файлами

Иногда бывает полезно читать и записывать файлы .zip, не извлекая их с локального диска. Ниже приведен пример.

In [16]:
"""
------------ WRITE ZIP FILES -----------
"""
# Read data from internet
url = "https://raw.githubusercontent.com/keitazoumana/Fastapi-tutorial/master/data/spam.csv"
spam_data = pd.read_csv(url, encoding="ISO-8859-1")

# Save it as a zip file
spam_data.to_csv("spam.csv.zip", compression="zip")

# Check the files sizes
from os import path
path.getsize('spam.csv') / path.getsize('spam.csv.zip')
"""
------------ READ ZIP FILES -----------
"""
# Case 1: read a single zip file 
candidate_df_unzip = pd.read_csv('candidates.csv.zip', compression='zip')

# Case 2: read a file from a folder
from zipfile import ZipFile

# Read the file from a zip folder
sales_df = pd.read_csv(ZipFile("data.zip").open('data/sales_df.csv'))



FileNotFoundError: [Errno 2] No such file or directory: 'spam.csv'

## 5. Выберите 𝗮 𝘀𝘂𝗯𝘀𝗲𝘁 𝗼𝗳 𝘆𝗼𝘂𝗿 𝗣𝗮𝗻𝗱𝗮𝘀 𝗱𝗮𝘁𝗮𝗳𝗿𝗮𝗺𝗲 𝘄𝗶𝘁𝗵 𝘀𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗰𝗼𝗹𝘂𝗺𝗻 𝘁𝘆𝗽𝗲𝘀.

Вы можете использовать функцию 𝙨𝙚𝙡𝙚𝙘𝙩_𝙙𝙩𝙮𝙥𝙚𝙨. Она принимает два основных параметра: 𝚒𝚗𝚌𝚕𝚞𝚍𝚎 𝚊𝚗𝚍 𝚎𝚡𝚌𝚕𝚞𝚍𝚎.

- 𝚍𝚏.𝚜𝚎𝚕𝚎𝚌𝚝_𝚍𝚝𝚢𝚙𝚎𝚜(𝚒𝚗𝚌𝚕𝚞𝚍𝚎 = ['𝚝𝚢𝚙𝚎_𝟷', '𝚝𝚢𝚙𝚎_𝟸', ... '𝚝𝚢𝚙𝚎_𝚗']) означает, что я хочу получить подмножество моего фрейма данных со столбцами 𝚝𝚢𝚙𝚎_𝟷, 𝚝𝚢𝚙𝚎_𝟸, ..., 𝚝𝚢𝚙𝚎_𝚗.

- 𝚍𝚏.𝚜𝚎𝚕𝚎𝚌𝚝_𝚍𝚝𝚢𝚙𝚎𝚜(𝚎𝚡𝚌𝚕𝚞𝚍𝚎 = ['𝚝𝚢𝚙𝚎_𝟷', '𝚝𝚢𝚙𝚎_𝟸', ... '𝚝𝚢𝚙𝚎_𝚗']) означает, что я хочу получить подмножество моего фрейма данных БЕЗ столбцов 𝚝𝚢𝚙𝚎_𝟷, 𝚝𝚢𝚙𝚎_𝟸,..., 𝚝𝚢𝚙𝚎_𝚗.

✨ Ниже приведена иллюстрация

In [17]:
# Read my dataset
candidates_df = pd.read_csv("./data/candidates_data.csv")

# Check the data columns' types
candidates_df.dtypes

# Only select columns of type "object" & "datetime"
candidates_df.select_dtypes(include = ["object", "datetime64"])

# Exclude columns of type "datetime" & "int"
candidates_df.select_dtypes(exclude = ["int64", "datetime64"])

FileNotFoundError: [Errno 2] No such file or directory: './data/candidates_data.csv'

## 6. Удаление комментариев из столбца датафрейма Pandas

Представьте, что я хочу очистить эти данные (candidates.csv), удалив комментарии из столбца даты подачи заявки. Это можно сделать на лету при загрузке датафрейма pandas с помощью параметра 𝙘𝙤𝙢𝙢𝙚𝙣𝙩, как показано ниже:

➡ 𝚌𝚕𝚎𝚊𝚗_𝚍𝚊𝚝𝚊 = 𝚙𝚍.𝚛𝚎𝚊𝚍_𝚌𝚜𝚟(𝚙𝚊𝚝𝚑_𝚝𝚘_𝚍𝚊𝚝𝚊, 𝙘𝙤𝙢𝙢𝙚𝙣𝙩='𝚜𝚢𝚖𝚋𝚘𝚕')

В моем случае 𝙘𝙤𝙢𝙢𝙚𝙣𝙩='#', но это может быть любой другой символ (|, / и т.д.) в зависимости от вашего случая. Иллюстрацией может служить первый сценарий.

✋🏽 Подождите, а если я хочу создать новый столбец для этих комментариев и при этом удалить их из столбца даты подачи заявки? Иллюстрация - второй сценарий.

In [None]:
# Read my messy dataset
messy_df = pd.read_csv("./data/candidates_data.csv")

# FIRST SCENARIO -> REMOVE COMMENTS
clean_df = pd.read_csv("./data/candidates_data.csv", comment='#')

# SECOND SCENARIO -> CREATE NEW COLUMN FOR COMMENTS
messy_df[['application_date', 'comment']] = messy_df['application_date'].str.split('#', 1, expand=True)


## 7. Печать кадра данных Pandas в табличном формате из консоли

❌ Нет, применение функции 𝚙𝚛𝚒𝚗𝚝() к кадру данных pandas не всегда выводит результат, который легко читать, особенно для кадров данных с несколькими столбцами.

✅ Если вы хотите получить красивый табличный вывод, удобный для консольного использования.
Используйте функцию .𝚝𝚘_𝚜𝚝𝚛𝚒𝚗𝚐(), как показано ниже.

In [19]:
data_URL = "https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/vgsales.csv" 

# Read your dataframe
video_game_data = pd.read_csv(data_URL)

"""
Printing without to_string() function
"""
print(video_game_data.head())

"""
Printing with to_string() function
"""
print(video_game_data.head().to_string())

   Rank                      Name Platform    Year         Genre Publisher  \
0     1                Wii Sports      Wii  2006.0        Sports  Nintendo   
1     2         Super Mario Bros.      NES  1985.0      Platform  Nintendo   
2     3            Mario Kart Wii      Wii  2008.0        Racing  Nintendo   
3     4         Wii Sports Resort      Wii  2009.0        Sports  Nintendo   
4     5  Pokemon Red/Pokemon Blue       GB  1996.0  Role-Playing  Nintendo   

   NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales  
0     41.49     29.02      3.77         8.46         82.74  
1     29.08      3.58      6.81         0.77         40.24  
2     15.85     12.88      3.79         3.31         35.82  
3     15.75     11.01      3.28         2.96         33.00  
4     11.27      8.89     10.22         1.00         31.37  
   Rank                      Name Platform    Year         Genre Publisher  NA_Sales  EU_Sales  JP_Sales  Other_Sales  Global_Sales
0     1                Wii Sports

## 8. Выделение точек данных в Pandas
Применение цветов к рамке данных pandas может быть хорошим способом выделения определенных точек данных для быстрого анализа.

✅ Здесь на помощь приходит модуль 𝚙𝚊𝚗𝚍𝚊𝚜.𝚜𝚝𝚢𝚕𝚎. Он имеет множество функций, но не ограничивается следующими:

✨ 𝚍𝚏.𝚜𝚝𝚢𝚕𝚎.𝚑𝚒𝚐𝚑𝚕𝚒𝚐𝚑𝚝_𝚖𝚊𝚡() для присвоения цвета максимальному значению каждого столбца.

✨ 𝚍𝚏.𝚜𝚝𝚢𝚕𝚎.𝚑𝚒𝚐𝚑𝚕𝚒𝚐𝚑𝚝_𝚖in() для присвоения цвета минимальному значению каждого столбца.

✨ 𝚍𝚏.𝚜𝚝𝚢𝚕𝚎.𝚊𝚙𝚙𝚕𝚢(𝚖𝚢_𝚌𝚞𝚜𝚝𝚘𝚖_𝚏𝚞𝚗𝚌𝚝𝚒𝚘𝚗) для применения вашей пользовательской функции к кадру данных.

In [20]:
my_info = {
    "Salary": [100000.2, 95000.9, 103000.2, 65984.1, 150987.08], 
    "Height": [6.5, 5.2, 5.59, 6.7, 6.92], 
    "weight": [185.23, 105.12, 110.3, 190.12, 200.59]      
}
my_data = pd.DataFrame(my_info)

"""
Function to highlight min and max
"""

def highlight_min_max(data_frame, min_color, max_color):

  # This first line create a styler object
  final_data = data_frame.style.highlight_max(color = max_color)

  # On this second line, no need to use ".style"
  final_data = final_data.highlight_min(color = min_color)

  return final_data
  
# Function to apply ORANGE to min and GREEN to max
highlight_min_max(my_data, min_color='orange', max_color='green')


"""
Custom function: apply RED or GREEN whether data is below or above the mean. 
"""
def highlight_values(data_row):
  low_value_color = "background-color:#C4606B  ; color: white;"
  high_value_color = "background-color: #C4DE6B; color: white;"   
  filter = data_row < data_row.mean()

  return [low_value_color if low_value else high_value_color for low_value in filter]
  
# Application of my custom function to only 'Height' & 'weight'
my_data.style.apply(highlight_values, subset=['Height', 'weight'])

Unnamed: 0,Salary,Height,weight
0,100000.2,6.5,185.23
1,95000.9,5.2,105.12
2,103000.2,5.59,110.3
3,65984.1,6.7,190.12
4,150987.08,6.92,200.59


## 9. Сократите количество десятичных знаков в данных
Иногда очень длинные десятичные значения в вашем наборе данных не дают существенной информации и могут быть болезненными 🤯 при просмотре.

Поэтому вы можете преобразовать данные до 2-3 знаков после запятой, чтобы облегчить анализ.

✅ Это можно сделать с помощью функции 𝚙𝚊𝚗𝚍𝚊𝚜.𝙳𝚊𝚝𝚊𝙵𝚛𝚊𝚖𝚎.𝚛𝚘𝚞𝚗𝚍(), как показано ниже.

In [18]:
long_decimals_info = {
    "Salary": [100000.23400000, 95000.900300, 103000.2300535, 65984.14000450, 150987.080345], 
    "Height": [6.501050, 5.270000, 5.5900001050, 6.730001050, 6.92100050], 
    "weight": [185.23000059, 105.1200099, 110.350003, 190.12000000, 200.59000000]      
}

long_decimals_df = pd.DataFrame(long_decimals_info)

"""
Format the data with 2 decimal places
"""
fewer_decimals_df = long_decimals_df.round(decimals=2)
fewer_decimals_df

Unnamed: 0,Salary,Height,weight
0,100000.23,6.5,185.23
1,95000.9,5.27,105.12
2,103000.23,5.59,110.35
3,65984.14,6.73,190.12
4,150987.08,6.92,200.59


## 10. Замена некоторых значений в кадре данных
Вам может понадобиться заменить некоторую информацию в вашей рамке данных, чтобы сохранить ее как можно более актуальной.

✅ Это можно сделать с помощью функции Pandas 𝚍𝚊𝚝𝚊𝚏𝚛𝚊𝚖𝚎.𝚛𝚎𝚙𝚕𝚊𝚌𝚎(), как показано ниже.

In [23]:
candidates_info = {
    'Full_Name':["Aida Kone","Mamadou Diop","Ismael Camara","Aicha Konate",
                 "Fanta Koumare", "Khalil Cisse"],
    'degree':['Master','MS','Bachelor', "PhD", "Masters", np.nan],
    'From':[np.nan,"Dakar","Bamako", "Abidjan","Konakry", "Lomé"],
    'Age':[23,26,19, np.nan,25, np.nan],
          }

candidates_df = pd.DataFrame(candidates_info) 

"""
Replace Masters, Master by MS
"""
degrees_to_replace = ["Master", "Masters"]
candidates_df.replace(to_replace = degrees_to_replace, value = "MS", inplace=True)

"""
Replace all the NaN by "Missing"
"""
candidates_df.replace(to_replace=np.nan, value = "Missing", inplace=True)

## 11. Сравнение двух фреймов данных и получение их различий
Иногда, сравнивая два фрейма данных pandas, вы хотите не только узнать, эквивалентны ли они, но и где находится разница, если они не эквивалентны.

✅ Здесь пригодится функция .𝚌𝚘𝚖𝚙𝚊𝚛𝚎().

✨ Она генерирует рамку данных, показывающую столбцы с различиями рядом друг с другом. Его форма отлична от (0, 0) только в том случае, если два сравниваемых данных одинаковы.

✨ Если вы хотите показать значения, которые равны, установите параметр 𝚔𝚎𝚎𝚙_𝚎𝚚𝚞𝚊𝚕 в 𝚃𝚛𝚞𝚎. В противном случае они отображаются как 𝙽𝚊𝙽.

In [24]:
from pandas.testing import assert_frame_equal

candidates_df = pd.read_csv("data/candidates.csv")

"""
Create a second dataframe by changing "Full_Name" & "Age" columns
"""
candidates_df_test = candidates_df.copy()
candidates_df_test.loc[0, 'Full_Name'] = 'Aida Traore'
candidates_df_test.loc[2, 'Age'] = 28

"""
Compare the two dataframes: candidates_df & candidates_df_test
"""
# 1. Comparison showing only unmatching values
candidates_df.compare(candidates_df_test)

# 2. Comparison including similar values
candidates_df.compare(candidates_df_test, keep_equal=True)

FileNotFoundError: [Errno 2] No such file or directory: 'data/candidates.csv'

## 12. Получение подмножества очень большого набора данных для быстрого анализа
Иногда нам просто нужно получить подмножество очень большого набора данных для быстрого анализа. Одним из подходов может быть чтение всех данных в памяти перед получением выборки.

Это может потребовать много памяти в зависимости от того, насколько велики ваши данные. Кроме того, чтение данных может занять значительное время.

✅ Вы можете использовать параметр 𝚗𝚛𝚘𝚠𝚜 в функции pandas 𝚛𝚎𝚊𝚍_𝚌𝚜𝚟(), указав нужное вам количество строк.



In [25]:
%load_ext autotime

# File to get sample from: Size: 261,6 MB
large_data = "diabetes_benchmark_data.csv"

# Sample size of interest
sample_size = 400

"""
Approach n°1: Read all the data in memory before getting the sample 
"""
read_whole_data = pd.read_csv(large_data)
sample_data = read_whole_data.head(sample_size)

"""
Approach n°2: Read the sample on the fly
"""
read_sample = pd.read_csv(large_data, nrows=sample_size)

ModuleNotFoundError: No module named 'autotime'

## 13. Преобразование рамки данных из широкого формата в длинный
Иногда бывает полезно 𝚝𝚛𝚊𝚗𝚜𝚏𝚘𝚛𝚖 𝚢𝚘𝚞𝚛 𝚍𝚊𝚝𝚊𝚏𝚛𝚊𝚖𝚎 𝚏𝚛𝚘𝚖 𝚊 𝚠𝚒𝚍𝚎 𝚝𝚘 𝚊 𝚕𝚘𝚗𝚐 𝚏𝚘𝚛𝚖𝚊𝚝, который является более гибким для лучшего анализа, особенно при работе с данными временных рядов.

𝙒𝙝𝙖𝙩 𝙙𝙤 𝙮𝙤𝙪 𝙢𝙚𝙖𝙣 𝙗𝙮 𝙬𝙞𝙙𝙚 & 𝙡𝙤𝙣𝙜?
✨ Широкий формат - это когда у вас много колонок.
✨ Длинный формат с другой стороны - это когда у вас много строк.

✅ 𝙿𝚊𝚗𝚍𝚊𝚜.𝚖𝚎𝚕𝚝() - идеальный кандидат для этой задачи.

Ниже приведена иллюстрация

In [26]:
candidates= {
    'Name':["Aida","Mamadou","Ismael","Aicha"],
    'ID': [1, 2, 3, 4],
    '2017':[85, 87, 89, 91],
    '2018':[96, 98, 100, 102],
    '2019':[100, 102, 106, 106],
    '2020':[89, 95, 98, 100],
    '2021':[94, 96, 98, 100],
    '2022':[100, 104, 104, 107],
          }
"""
Data in wide format
"""
salary_data = pd.DataFrame(candidates)

"""
Transformation into the long format
"""
long_format_data = salary_data.melt(id_vars=['Name', 'ID'], 
                                    var_name='Year', value_name='Salary(k$)')

## 14. Уменьшение размера кадра данных Pandas за счет игнорирования индекса
Знаете ли вы, что можно уменьшить размер фрейма данных Pandas, игнорируя индекс при его сохранении?

✅ Что-то вроде 𝚒𝚗𝚍𝚎𝚡 = 𝙵𝚊𝚕𝚜𝚎 при сохранении файла.

Ниже приведена иллюстрация.

In [27]:
URL = "https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/diabetes.csv"
data = pd.read_csv(URL)

# Create large data by repeating each row 10000 times
large_data = data.loc[data.index.repeat(10000)]

"""
SAVE WITH INDEX
"""
large_data.to_csv("large_data_with_index.csv")

# Check the size of the file 
!ls -GFlash large_data_with_index.csv

"""
SAVE WITHOUT INDEX
"""
large_data.to_csv("large_data_without_index.csv", index = False)

# Check the size of the file 
!ls -GFlash large_data_without_index.csv

525040 -rw-r--r--  1 nikitav  staff   249M Apr  4 15:50 large_data_with_index.csv
460208 -rw-r--r--  1 nikitav  staff   221M Apr  4 15:50 large_data_without_index.csv


## 15. Parquet вместо CSV
Очень часто я не просматриваю вручную 👀 содержимое CSV или Excel файла, который будет использоваться Pandas для дальнейшего анализа.

Если это ваш случай, возможно, вам не стоит больше использовать .CSV и подумать о лучшем варианте.

Особенно если вас волнует только

✨ Скорость обработки

✨ Скорость сохранения и загрузки

✨ Место на диске, занимаемое рамкой данных

✅ В этом случае формат .𝙥𝙖𝙧𝙦𝙪𝙚𝙩 является лучшим вариантом, как показано ниже.



In [28]:
URL = "https://raw.githubusercontent.com/keitazoumana/Experimentation-Data/main/diabetes.csv"
data = pd.read_csv(URL)

# Create large data for experimentation by repeating each row 20.000 times
exp_data = data.loc[data.index.repeat(20000)]

"""
EXPERIMENT WITH .CSV FORMAT
"""
# Write Time
%%time 
exp_data.to_csv("exp_data.csv", index=False)

# Read Time
%%time
csv_data = pd.read_csv("exp_data.csv")

# File Size
!ls -GFlash exp_data.csv

"""
EXPERIMENT WITH .PARQUET FORMAT
"""
# Write Time
%%time 
exp_data.to_parquet('exp_data.parquet')
# Read Time
%%time 
parquet_data = pd.read_parquet('exp_data.parquet')
# File Size
!ls -GFlash exp_data.parquet 

UsageError: Line magic function `%%time` not found.


## 16. Преобразование рамки данных в уценку
Всегда лучше вывести рамку данных в виде, облегчающем ее понимание.

✅ Один из способов сделать это - преобразовать ее в формат уценки с помощью функции .`𝚝𝚘_𝚖𝚊𝚛𝚔𝚍𝚘𝚠𝚗()`.

💡 Ниже приведена иллюстрация.

## 17. Форматирование столбца Дата-Время
При загрузке фреймов данных Pandas столбцы даты представляются как 𝗼𝗯𝗷𝗲𝗰𝘁 по умолчанию, что не является ❌ правильным форматом даты.

✅ Вы можете указать целевой столбец в аргументе 𝗽𝗮𝗿𝘀𝗲_𝗱𝗮𝘁𝗲𝘀, чтобы получить правильный тип столбца.