Activity Rank

Find the email activity rank for each user. Email activity rank is defined by the total number of emails sent. The user with the highest number of emails sent will have a rank of 1, and so on. Output the user, total emails, and their activity rank. Order records by the total emails in descending order. Sort users with the same number of emails in alphabetical order.
In your rankings, return a unique value (i.e., a unique rank) even if multiple users have the same number of emails. For tie breaker use alphabetical order of the user usernames.

In [1]:
import pandas as pd
import numpy as np

In [3]:
google_gmail_emails = pd.read_csv("../CSV/google_gmail_emails.csv")
columns_to_drop = ["Unnamed: 4", "Unnamed: 5", "Unnamed: 6"]
google_gmail_emails = google_gmail_emails.drop(columns=columns_to_drop)
google_gmail_emails.head(3)

Unnamed: 0,id,from_user,to_user,day
0,0,6edf0be4b2267df1fa,75d295377a46f83236,10
1,1,6edf0be4b2267df1fa,32ded68d89443e808,6
2,2,6edf0be4b2267df1fa,55e60cfcc9dc49c17e,10


In [5]:
result = google_gmail_emails.groupby(
    ['from_user']).size().to_frame('total_emails').reset_index()
result.head()

Unnamed: 0,from_user,total_emails
0,114bafadff2d882864,8
1,157e3e9278e32aba3e,10
2,2813e59cf6c1ff698e,11
3,32ded68d89443e808,19
4,406539987dd9b679c0,9


In [7]:
result['rank'] = result['total_emails'].rank(method='first', ascending=False)
result.head()

Unnamed: 0,from_user,total_emails,rank
0,114bafadff2d882864,8,23.0
1,157e3e9278e32aba3e,10,19.0
2,2813e59cf6c1ff698e,11,15.0
3,32ded68d89443e808,19,1.0
4,406539987dd9b679c0,9,21.0


Давайте разберем этот код по шагам:

1. `result['total_emails']`: Выбирает столбец 'total_emails' из DataFrame `result`.

2. `.rank(method='first', ascending=False)`: Применяет метод ранжирования к значениям столбца 'total_emails'. 

   - `method='first'`: Указывает, что должен использоваться метод "first". Это означает, что при одинаковых значениях, первому встреченному будет присвоен меньший ранг.
   
   - `ascending=False`: Указывает, что ранги должны быть присвоены в порядке убывания. То есть, чем больше значение в столбце 'total_emails', тем ниже будет ранг.

3. `result['rank'] = ...`: Создает новый столбец 'rank' в DataFrame `result` и присваивает ему значения рангов, рассчитанные с использованием метода `rank()`.

Таким образом, в результате выполнения этого кода, DataFrame `result` будет содержать новый столбец 'rank', который показывает ранг для каждого значения в столбце 'total_emails'. Значения с наибольшим количеством электронных писем будут иметь меньшие ранги.

In [9]:
result = result.sort_values(by=['total_emails', 'from_user'], ascending=[False, True])
# Этот код выполняет сортировку DataFrame `result` по двум столбцам: 
#'total_emails'  в порядке убывания (первичная сортировка) и 
# 'from_user' в порядке возрастания (вторичная сортировка для случая равных 'total_emails'). 

# Давайте разберем код по шагам:

# 1. `result.sort_values(by=['total_emails', 'from_user'], ascending=[False, True])`: 
# Вызывает метод `sort_values` для сортировки DataFrame `result`.

#    - `by=['total_emails', 'from_user']`: 
# Указывает столбцы, по которым нужно выполнить сортировку. 
# Сначала сортировка будет выполнена по 'total_emails', затем по 'from_user'.

#    - `ascending=[False, True]`: 
# Указывает направление сортировки для каждого столбца. 
# Для 'total_emails' установлено в убывающем порядке (от больших значений к меньшим), 
# а для 'from_user' в возрастающем порядке (в алфавитном порядке).

# 2. Результат сортировки применяется к DataFrame `result`, 
# но, поскольку код не возвращает новый DataFrame, то исходный DataFrame `result` изменяется на месте.

# Таким образом, после выполнения этого кода DataFrame `result` будет отсортирован сначала по 
# 'total_emails' в убывающем порядке, а при равных значениях по 'from_user' в возрастающем порядке.

In [10]:
result

Unnamed: 0,from_user,total_emails,rank
3,32ded68d89443e808,19,1.0
24,ef5fe98c6b9f313075,19,2.0
7,5b8754928306a18b68,18,3.0
6,55e60cfcc9dc49c17e,16,4.0
16,91f59516cb9dee1e88,16,5.0
11,6edf0be4b2267df1fa,15,6.0
13,7cfe354d9a64bf8173,15,7.0
19,cbc4bd40cd1687754,15,8.0
21,e0e0defbb9ec47f6f7,15,9.0
15,8bba390b53976da0cd,14,10.0


Solution Walkthrough
This walkthrough aims to explain the code provided and the tasks involved in finding the email activity rank for each user. The code snippet uses the pandas library to group the email data by user, calculate the total number of emails sent by each user, assign a rank based on the total number of emails, and sort the results in a specific order.

Understanding The Data
The data being manipulated in this code is email activity data. It is represented as a table with columns such as 'from_user' and possibly other columns related to the email content. Each row represents an individual email, with the 'from_user' column indicating the person who sent the email.

The Problem Statement
The problem asks us to find the email activity rank for each user based on the total number of emails sent. The user with the highest number of emails should have a rank of 1, and subsequent users will have ranks based on their email activity. If multiple users have the same number of emails, tie-breakers should be resolved by sorting the users in alphabetical order.

Breaking Down The Code
Let's break down the given code snippet step by step:

import pandas as pd and import numpy as np: These lines import the pandas and numpy libraries, which will be used for data manipulation and analysis.

result = google_gmail_emails.groupby(['from_user']).size().to_frame('total_emails').reset_index(): This line groups the email data by the 'from_user' column, calculates the total number of emails sent by each user, and stores the results in a DataFrame called 'result'. The 'to_frame' and 'reset_index' functions are used to convert the resulting Series into a DataFrame with appropriate column names.

result['rank'] = result['total_emails'].rank(method='first', ascending=False): This line assigns a rank to each user based on the total number of emails sent. The 'rank' function is used to calculate the ranks, and the 'method' parameter is set to 'first' so that ties are resolved by giving each user a unique rank. The 'ascending' parameter is set to 'False' to rank users in descending order.

result = result.sort_values(by=['total_emails', 'from_user'], ascending=[False, True]): This line sorts the 'result' DataFrame by the 'total_emails' column in descending order and then by the 'from_user' column in alphabetical order. The 'by' parameter accepts a list of column names to sort by, and the 'ascending' parameter determines the sorting order for each column.

Bringing It All Together
To summarize, the given code imports the necessary libraries, groups the email data by user, calculates the total number of emails sent by each user, assigns ranks based on the total number of emails, and sorts the results based on specified criteria.

Conclusion
In conclusion, the provided code snippet efficiently solves the problem of finding email activity ranks for each user. By using pandas, the code performs the necessary operations and manipulations on the data to generate the desired output.