In [1]:
import pandas as pd

## 1683. 无效的推文

查询所有无效推文的编号（ID）。当推文内容中的字符数严格大于 15 时，该推文是无效的。
以任意顺序返回结果表

In [2]:
data = [[1, 'Vote for Biden'], [2, 'Let us make America great again!']]
Tweets = pd.DataFrame(data, columns=['tweet_id', 'content']).astype({'tweet_id':'Int64', 'content':'object'})

在 content 列上应用 str.len() 方法。结果 is_valid 是一个布尔Series，其中表示每个推文是否有效（长度大于 15）

In [3]:
is_valid = Tweets['content'].str.len() > 15

In [4]:
print(is_valid)

0    False
1     True
Name: content, dtype: bool


In [5]:
df = Tweets[is_valid]

In [6]:
df

Unnamed: 0,tweet_id,content
1,2,Let us make America great again!


In [7]:
df = df[['tweet_id']]
df

Unnamed: 0,tweet_id
1,2


## 1873. 计算特殊奖金

编写解决方案，计算每个雇员的奖金。如果一个雇员的 id 是 奇数 并且他的名字不是以 'M' 开头，那么他的奖金是他资的 100% ，否则奖金为 0 。
返回的结果按照 employee_id 排序。

In [8]:
data = [[2, 'Meir', 3000], [3, 'Michael', 3800], [7, 'Addilyn', 7400], [8, 'Juan', 6100], [9, 'Kannon', 7700]]
Employees = pd.DataFrame(data, columns=['employee_id', 'name', 'salary']).astype({'employee_id':'int64', 'name':'object', 'salary':'int64'})

In [9]:
employees = Employees

bonus = salary if (id % 2 and not name.startwith('M')) else 0

我们如何将此表达式应用于 DataFrame employee 的每一行？

要完成此任务，我们可以使用循环逐一迭代 DataFrame 行。然而，Python 提供了一种更优雅且更高效的方法，称为"向量化"，它使用 apply() 方法。向量化利用 Pandas 中的底层优化，使我们能够一次对整个列或行应用操作，从而实现更快、更简洁的代码。

在这种情况下，使用 apply() 允许我们避免编写显式循环，并更简洁地处理操作。通过定义一个自定义函数来根据条件计算奖金，并利用带有 axis=1 参数的 apply()，我们可以轻松处理每一行并计算相应的奖金。自定义函数如下所示：
lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0


In [10]:
employees['bonus'] = employees.apply(
    lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0,
    axis=1
)
# axis = 1 ,循环处理每一行

In [11]:
df = employees[['employee_id','bonus']].sort_values('employee_id')
df

Unnamed: 0,employee_id,bonus
0,2,0
1,3,0
2,7,7400
3,8,0
4,9,7700


## 1667. 修复表中的名字

编写解决方案，修复名字，使得只有第一个字符是大写的，其余都是小写的。
返回按 user_id 排序的结果表

In [12]:
data = [[1, 'aLice'], [2, 'bOB']]
Users = pd.DataFrame(data, columns=['user_id', 'name']).astype({'user_id':'Int64', 'name':'object'})

使用 str 访问器中的 .title() 方法，而不是手动分隔第一个字符并将其大写，而将其余字符小写

In [13]:
Users["name"] = Users["name"].str.title()
Users

Unnamed: 0,user_id,name
0,1,Alice
1,2,Bob


## 1517. 查找拥有有效邮箱的用户

编写一个解决方案，以查找具有有效电子邮件的用户。
一个有效的电子邮件具有前缀名称和域，其中：
前缀 名称是一个字符串，可以包含字母（大写或小写），数字，下划线 '_' ，点 '.' 和/或破折号 '-' 。前缀名称 必须 以字母开头。
域 为 '@leetcode.com' 。
以任何顺序返回结果表。

In [14]:
data = [[1, 'Winston', 'winston@leetcode.com'], [2, 'Jonathan', 'jonathanisgreat'], [3, 'Annabelle', 'bella-@leetcode.com'], [4, 'Sally', 'sally.come@leetcode.com'], [5, 'Marwan', 'quarz#2020@leetcode.com'], [6, 'David', 'david69@gmail.com'], [7, 'Shapiro', '.shapo@leetcode.com']]
Users = pd.DataFrame(data, columns=['user_id', 'name', 'mail']).astype({'user_id':'int64', 'name':'object', 'mail':'object'})

In [15]:
Users = Users[Users["mail"].str.match(r"^[a-zA-Z][a-zA-Z0-9_.-]*\@leetcode\.com$")]
Users

Unnamed: 0,user_id,name,mail
0,1,Winston,winston@leetcode.com
2,3,Annabelle,bella-@leetcode.com
3,4,Sally,sally.come@leetcode.com


## 1527. 患某种疾病的患者
查询患有 I 类糖尿病的患者 ID （patient_id）、患者姓名（patient_name）以及其患有的所有疾病代码（conditions）。I 类糖尿病的代码总是包含前缀 DIAB1 。

按 任意顺序 返回结果表。

In [16]:
data = [[1, 'Daniel', 'YFEV COUGH'], [2, 'Alice', ''], [3, 'Bob', 'DIAB100 MYOP'], [4, 'George', 'ACNE DIAB100'], [5, 'Alain', 'DIAB201']]
Patients = pd.DataFrame(data, columns=['patient_id', 'patient_name', 'conditions']).astype({'patient_id':'int64', 'patient_name':'object', 'conditions':'object'})

正则表达式

In [18]:
Patients = Patients[Patients["conditions"].str.contains(r"\bDIAB1", regex=True)]
Patients

Unnamed: 0,patient_id,patient_name,conditions
2,3,Bob,DIAB100 MYOP
3,4,George,ACNE DIAB100


## 177. 第N高的薪水
查询 Employee 表中第 n 高的工资。如果没有第 n 个最高工资，查询结果应该为 null 。

In [3]:
data = [[1, 100], [2, 200], [3, 300], [4, 500], [5, 500]]
employee = pd.DataFrame(data, columns=['id', 'salary']).astype({'id':'int64', 'salary':'int64'})

In [6]:
df = employee[['salary']]
df

Unnamed: 0,salary
0,100
1,200
2,300
3,500
4,500


通过 .drop_duplicates() 去重后的表

In [8]:
N = 2
df = df.drop_duplicates()
df

Unnamed: 0,salary
0,100
1,200
2,300
3,500


通过 .sort_values("salary", ascending=False) 降序排序后的表。 请注意，我们必须设置 ascending=False 因为 sort_values() 方法的默认顺序是 ascending=True

In [9]:
df = df.sort_values("salary", ascending=False)
df

Unnamed: 0,salary
3,500
2,300
1,200
0,100


通过 .head(N) 并且 N = 2 获取最高 2 个后的表,通过 .tail(1) 获取最后一个后的表

In [10]:
res = df.head(N).tail(1)
res

Unnamed: 0,salary
2,300


## 176. 第二高的薪水
查询并返回 Employee 表中第二高的薪水 。如果不存在第二高的薪水，查询应该返回 null(Pandas 则返回 None) 。

In [11]:
data = [[1, 100], [2, 200], [3, 300]]
Employee = pd.DataFrame(data, columns=['id', 'salary']).astype({'id':'int64', 'salary':'int64'})

In [13]:
import pandas as pd
employee = Employee
# 1. 删除所有重复的薪水.
employee = employee.drop_duplicates(["salary"])

# 2. 如果少于 2 个不同的薪水，返回 `np.NaN`。
if len(employee["salary"].unique()) < 2:
    print("NULL")

# 3. 把表格按 `salary` 降序排序。
employee = employee.sort_values("salary", ascending=False)

# 4. 删除 `id` 列。
employee.drop("id", axis=1, inplace=True)

# 5. 重命名 `salary` 列。
employee.rename({"salary": "SecondHighestSalary"}, axis=1, inplace=True)

# 6, 7. 返回第 2 高的薪水
employee.head(2).tail(1)

Unnamed: 0,SecondHighestSalary
1,200


## 184. 部门工资最高的员工

查找出每个部门中薪资最高的员工。
按 任意顺序 返回结果表。

In [4]:
data = [[1, 'Joe', 70000, 1], [2, 'Jim', 90000, 1], [3, 'Henry', 80000, 2], [4, 'Sam', 60000, 2], [5, 'Max', 90000, 1]]
Employee = pd.DataFrame(data, columns=['id', 'name', 'salary', 'departmentId']).astype({'id':'Int64', 'name':'object', 'salary':'Int64', 'departmentId':'Int64'})
data = [[1, 'IT'], [2, 'Sales']]
Department = pd.DataFrame(data, columns=['id', 'name']).astype({'id':'Int64', 'name':'object'})

通过合并两个表来获取所有的部门名称、员工名称和薪水。

In [6]:
employee = Employee
department = Department
df = employee.merge(department, left_on='departmentId', right_on='id', how='left')
df

Unnamed: 0,id_x,name_x,salary,departmentId,id_y,name_y
0,1,Joe,70000,1,1,IT
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
3,4,Sam,60000,2,2,Sales
4,5,Max,90000,1,1,IT


In [8]:
df.rename(columns={'name_x': 'Employee', 'name_y': 'Department', 'salary': 'Salary'}, inplace=True)
df

Unnamed: 0,id_x,Employee,Salary,departmentId,id_y,Department
0,1,Joe,70000,1,1,IT
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
3,4,Sam,60000,2,2,Sales
4,5,Max,90000,1,1,IT


根据 Department 列对 df 进行分组，并对 Salary 列应用 transform('max') 函数，这将为每个部门计算最高薪水，并返回一个与原 DataFrame 长度相同的 Series，其中每个值都是对应部门的最高薪水（它不一定是对应员工的薪水）

In [10]:
max_salary = df.groupby('Department')['Salary'].transform('max')
max_salary

0    90000
1    90000
2    80000
3    80000
4    90000
Name: Salary, dtype: Int64

In [11]:
df = df[df['Salary'] == max_salary]
df

Unnamed: 0,id_x,Employee,Salary,departmentId,id_y,Department
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
4,5,Max,90000,1,1,IT


## 178. 分数排名

查询并对分数进行排序。排名按以下规则计算:

分数应按从高到低排列。
如果两个分数相等，那么两个分数的排名应该相同。
在排名相同的分数后，排名数应该是下一个连续的整数。换句话说，排名之间不应该有空缺的数字。
按 score 降序返回结果表。

In [12]:
data = [[1, 3.5], [2, 3.65], [3, 4.0], [4, 3.85], [5, 4.0], [6, 3.65]]
Scores = pd.DataFrame(data, columns=['id', 'score']).astype({'id':'Int64', 'score':'Float64'})

Pandas 提供了函数 rank() 来帮助计算沿轴的数值数据排名，我们可以将方法参数 method 设置为 dense 来分配密集排名。密集排名意味着当存在并列的值时，下一个排名不会跳过。相反，所有并列的分数都被分配相同的排名，并且下一个排名递增一。这确保排名没有间隙，并且每个分数获得唯一的排名，这也正是问题所需的。

In [13]:
scores = Scores
# 按照降序对 'score' 列进行密集排名。
scores['rank'] = scores['score'].rank(method='dense', ascending=False)
scores

Unnamed: 0,id,score,rank
0,1,3.5,4.0
1,2,3.65,3.0
2,3,4.0,1.0
3,4,3.85,2.0
4,5,4.0,1.0
5,6,3.65,3.0


In [16]:
scores = scores.sort_values('score',ascending=False)
scores

Unnamed: 0,id,score,rank
2,3,4.0,1.0
4,5,4.0,1.0
3,4,3.85,2.0
1,2,3.65,3.0
5,6,3.65,3.0
0,1,3.5,4.0


## 196. 删除重复的电子邮箱

编写解决方案 删除 所有重复的电子邮件，只保留一个具有最小 id 的唯一电子邮件。
（对于 SQL 用户，请注意你应该编写一个 DELETE 语句而不是 SELECT 语句。）
（对于 Pandas 用户，请注意你应该直接修改 Person 表。）
运行脚本后，显示的答案是 Person 表。驱动程序将首先编译并运行您的代码片段，然后再显示 Person 表。Person 表的最终顺序 无关紧要 。

In [17]:
data = [[1, 'john@example.com'], [2, 'bob@example.com'], [3, 'john@example.com']]
Person = pd.DataFrame(data, columns=['id', 'email']).astype({'id':'int64', 'email':'object'})

要求是保留每个唯一电子邮件地址对应的最小 id。自然地，我们可以考虑使用 groupby 方法来实现这一点。Person.groupby('email') 将根据 email 列中的唯一值对 Person 进行分组。我们根据 email 列中的唯一值将 Person 分成多个组。这种分组允许我们将具有相同 email 的行分组在一起，以便我们可以分别对每个组进行操作。

我们想要找到每个组内的最小 id 值，以保留具有最小 id 的行。为了实现这一点，我们使用transform('min') 方法为每个组生成一个新的Series，其中包含各自组内 id 列中的最小值。

In [19]:
person = Person
min_id = person.groupby('email')['id'].transform('min')
min_id

0    1
1    2
2    1
Name: id, dtype: int64

In [20]:
removed_person = person[person['id'] != min_id]
removed_person

Unnamed: 0,id,email
2,3,john@example.com


注意，我们被要求在原地修改 Person。因此，我们可以使用带有 inplace=True 的 drop 方法，根据 removed_person.index 提供的索引值来删除所有行。

In [21]:
person.drop(removed_person.index, inplace=True)
person

Unnamed: 0,id,email
0,1,john@example.com
1,2,bob@example.com


## 1795. 每个产品在不同商店的价格

请你重构 Products 表，查询每个产品在不同商店的价格，使得输出的格式变为(product_id, store, price) 。如果这一产品在商店里没有出售，则不输出这一行。
输出结果表中的 顺序不作要求 。

In [25]:
data = [[0, 95, 100, 105], [1, 70, None, 80]]
Products = pd.DataFrame(data, columns=['product_id', 'store1', 'store2', 'store3']).astype({'product_id':'int64', 'store1':'int64', 'store2':'int64', 'store3':'int64'})

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [26]:
products = Products
df = products.melt(
    id_vars='product_id',
    var_name='store',
    value_name='price'
)
df

NameError: name 'Products' is not defined

## 2082. 富有客户的数量

编写解决方案找出 至少有一个 订单的金额 严格大于 500 的客户的数量。

In [27]:
data = [[6, 1, 549], [8, 1, 834], [4, 2, 394], [11, 3, 657], [13, 3, 257]]
Store = pd.DataFrame(data, columns=['bill_id', 'customer_id', 'amount']).astype({'bill_id':'int64', 'customer_id':'int64', 'amount':'int64'})

金额超过 500 的票据将被过滤掉。随后，对生成的账单集进行处理以提取唯一的客户 ID。这是通过应用 Boolean Indexing 实现的，能够过滤满足条件 amount > 500 的行。

In [28]:
rich_customers = Store[Store['amount'] > 500]
rich_customers

Unnamed: 0,bill_id,customer_id,amount
0,6,1,549
1,8,1,834
3,11,3,657


In [29]:
count = rich_customers['customer_id'].nunique()
count 

2

## 1173. 即时食物配送 I

如果顾客期望的配送日期和下单日期相同，则该订单称为 「即时订单」，否则称为「计划订单」。

编写解决方案统计即时订单所占的百分比， 保留两位小数。

In [30]:
data = [[1, 1, '2019-08-01', '2019-08-02'], [2, 5, '2019-08-02', '2019-08-02'], [3, 1, '2019-08-11', '2019-08-11'], [4, 3, '2019-08-24', '2019-08-26'], [5, 4, '2019-08-21', '2019-08-22'], [6, 2, '2019-08-11', '2019-08-13']]
Delivery = pd.DataFrame(data, columns=['delivery_id', 'customer_id', 'order_date', 'customer_pref_delivery_date']).astype({'delivery_id':'Int64', 'customer_id':'Int64', 'order_date':'datetime64[ns]', 'customer_pref_delivery_date':'datetime64[ns]'})

In [32]:
df = Delivery[Delivery['order_date'] == Delivery['customer_pref_delivery_date']]
df

Unnamed: 0,delivery_id,customer_id,order_date,customer_pref_delivery_date
1,2,5,2019-08-02,2019-08-02
2,3,1,2019-08-11,2019-08-11


In [34]:
res = len(df)/len(Delivery)
res

0.3333333333333333

## 1907. 按分类统计薪水

查询每个工资类别的银行账户数量。 工资类别如下：

"Low Salary"：所有工资 严格低于 20000 美元。
"Average Salary"： 包含 范围内的所有工资 [$20000, $50000] 。
"High Salary"：所有工资 严格大于 50000 美元。

结果表 必须 包含所有三个类别。 如果某个类别中没有帐户，则报告 0 。

In [35]:
data = [[3, 108939], [2, 12747], [8, 87709], [6, 91796]]
Accounts = pd.DataFrame(data, columns=['account_id', 'income']).astype({'account_id':'Int64', 'income':'Int64'})

In [36]:
accounts = Accounts
low_count = (accounts['income'] < 20000).sum()
average_count = ((accounts['income'] >= 20000) & (accounts['income'] <= 50000)).sum()
high_count = (accounts['income'] > 50000).sum()

In [37]:
ans = pd.DataFrame({
    'category': ['Low Salary', 'Average Salary', 'High Salary'],
    'accounts_count': [low_count, average_count, high_count]
})

ans

Unnamed: 0,category,accounts_count
0,Low Salary,1
1,Average Salary,0
2,High Salary,3


## 1741. 查找每个员工花费的总时间

计算每位员工每天在办公室花费的总时间（以分钟为单位）。 请注意，在一天之内，同一员工是可以多次进入和离开办公室的。 在办公室里一次进出所花费的时间为out_time 减去 in_time。
返回结果表单的顺序无要求。

In [3]:
data = [['1', '2020-11-28', '4', '32'], ['1', '2020-11-28', '55', '200'], ['1', '2020-12-3', '1', '42'], ['2', '2020-11-28', '3', '33'], ['2', '2020-12-9', '47', '74']]
Employees = pd.DataFrame(data, columns=['emp_id', 'event_day', 'in_time', 'out_time']).astype({'emp_id':'Int64', 'event_day':'datetime64[ns]', 'in_time':'Int64', 'out_time':'Int64'})

In [4]:
employees = Employees
employees["total_time"] = employees["out_time"]-employees["in_time"]
employees

Unnamed: 0,emp_id,event_day,in_time,out_time,total_time
0,1,2020-11-28,4,32,28
1,1,2020-11-28,55,200,145
2,1,2020-12-03,1,42,41
3,2,2020-11-28,3,33,30
4,2,2020-12-09,47,74,27


In [5]:
employees = employees.groupby(['event_day','emp_id'])["total_time"].sum().reset_index()
employees

Unnamed: 0,event_day,emp_id,total_time
0,2020-11-28,1,173
1,2020-11-28,2,30
2,2020-12-03,1,41
3,2020-12-09,2,27


## 511. 游戏玩法分析 I
查询每位玩家 第一次登陆平台的日期。

In [19]:
data = [[1, 2, '2016-03-01', 5], [1, 2, '2016-05-02', 6], [2, 3, '2017-06-25', 1], [3, 1, '2016-03-02', 0], [3, 4, '2018-07-03', 5]]
Activity = pd.DataFrame(data, columns=['player_id', 'device_id', 'event_date', 'games_played']).astype({'player_id':'Int64', 'device_id':'Int64', 'event_date':'datetime64[ns]', 'games_played':'Int64'})

In [20]:
activity = Activity
activity = activity.sort_values("event_date")
activity

Unnamed: 0,player_id,device_id,event_date,games_played
0,1,2,2016-03-01,5
3,3,1,2016-03-02,0
1,1,2,2016-05-02,6
2,2,3,2017-06-25,1
4,3,4,2018-07-03,5


In [14]:
activity = activity.drop_duplicates("player_id")
activity

Unnamed: 0,player_id,device_id,event_date,games_played
0,1,2,2016-03-01,5
3,3,1,2016-03-02,0
2,2,3,2017-06-25,1


In [15]:
activity = activity.sort_values("player_id")
activity

Unnamed: 0,player_id,device_id,event_date,games_played
0,1,2,2016-03-01,5
2,2,3,2017-06-25,1
3,3,1,2016-03-02,0


我们可以使用 groupby() 函数来按 activity 中的 player_id 列分组数据，这使得我们可以根据唯一的玩家ID对数据进行分析。一旦按 player_id 分组数据，我们选择 event_date 列并对该列应用 min() 函数，从而找到每个 player_id 组内的最小（最早）日期。这将给我们每个玩家的第一个登录日期。


In [21]:
df = activity.groupby('player_id')['event_date'].min().reset_index()
df

Unnamed: 0,player_id,event_date
0,1,2016-03-01
1,2,2017-06-25
2,3,2016-03-02


In [22]:
df.rename(columns = {'event_date':'first_login'})

Unnamed: 0,player_id,first_login
0,1,2016-03-01
1,2,2017-06-25
2,3,2016-03-02


## 2356. 每位教师所教授的科目种类的数量

查询每位老师在大学里教授的科目种类的数量。
以 任意顺序 返回结果表。

In [23]:
data = [[1, 2, 3], [1, 2, 4], [1, 3, 3], [2, 1, 1], [2, 2, 1], [2, 3, 1], [2, 4, 1]]
Teacher = pd.DataFrame(data, columns=['teacher_id', 'subject_id', 'dept_id']).astype({'teacher_id':'Int64', 'subject_id':'Int64', 'dept_id':'Int64'})

In [33]:
teacher = Teacher
df = teacher.groupby("teacher_id")["subject_id"].nunique().reset_index()
df

Unnamed: 0,teacher_id,subject_id
0,1,2
1,2,4


In [34]:
df = df.rename(columns={"subject_id":"cnt"})
df

Unnamed: 0,teacher_id,cnt
0,1,2
1,2,4


## 596. 超过5名学生的课
查询 至少有5个学生 的所有班级。

以 任意顺序 返回结果表。

In [35]:
data = [['A', 'Math'], ['B', 'English'], ['C', 'Math'], ['D', 'Biology'], ['E', 'Math'], ['F', 'Computer'], ['G', 'Math'], ['H', 'Math'], ['I', 'Math']]
Courses = pd.DataFrame(data, columns=['student', 'class']).astype({'student':'object', 'class':'object'})

In [40]:
courses = Courses
res = courses.groupby("class")["student"].nunique().reset_index()
res

Unnamed: 0,class,student
0,Biology,1
1,Computer,1
2,English,1
3,Math,6


In [41]:
df = res[res["student"]>=5]
df

Unnamed: 0,class,student
3,Math,6


## 586. 订单最多的客户

查找下了 最多订单 的客户的 customer_number 。
测试用例生成后， 恰好有一个客户 比任何其他客户下了更多的订单。

In [22]:
data = [[1, 1], [2, 2], [3, 3], [4, 3]]
orders = pd.DataFrame(data, columns=['order_number', 'customer_number']).astype({'order_number':'Int64', 'customer_number':'Int64'})

In [23]:
orders = orders.groupby("customer_number")["order_number"].nunique().reset_index(name='count')
orders

Unnamed: 0,customer_number,count
0,1,1
1,2,1
2,3,2


一旦我们获得了每个客户的订单数量，我们可以按照 count 列进行降序排序

In [24]:
df = orders.sort_values(by='count',ascending=False,inplace=False)
df

Unnamed: 0,customer_number,count
2,3,2
0,1,1
1,2,1


接下来，我们返回第一行中的 customer_number，这表示下了最多订单的客户

In [25]:
df = df[["customer_number"]][0:1]
df

Unnamed: 0,customer_number
2,3


## 1484. 按日期分组销售产品

编写解决方案找出每个日期、销售的不同产品的数量及其名称。
每个日期的销售产品名称应按词典序排列。
返回按 sell_date 排序的结果表。

In [32]:
data = [['2020-05-30', 'Headphone'], ['2020-06-01', 'Pencil'], ['2020-06-02', 'Mask'], ['2020-05-30', 'Basketball'], ['2020-06-01', 'Bible'], ['2020-06-02', 'Mask'], ['2020-05-30', 'T-Shirt']]
Activities = pd.DataFrame(data, columns=['sell_date', 'product']).astype({'sell_date':'datetime64[ns]', 'product':'object'})

这个问题要求我们根据日期对数据进行分组和聚合。为此，我们首先需要使用 groupby 函数通过 groups = activities.groupby('sell_date') 将 DataFrame activities 按日期分组，这将创建一个新的 DataFrameGroupBy 对象。

然后我们使用 agg() 对这个 DataFrameGroupBy 对象中的每个组进行聚合操作，其中我们使用命名聚合指定了两个聚合任务：

num_sold=('product', 'nunique')：这将在输出 DataFrame 中创建一个新列 num_sold，表示在每个销售日期售出的唯一产品的数量。‘nunique’ 函数对每个组中 product 列中的不同元素进行计数。
products=('product', lambda x: ','.join(sorted(set(x))))：这一行有点复杂，我们被要求对每个组中的所有唯一名称进行排序和联接。然而，没有定义的函数可以处理此任务，但幸运的是，我们可以将其替换为自定义函数 lambda x: ','.join(sorted(set(x)))。其中，x 表示表示每个组中的列 product 的Series。我们将其转换为一个集合，以删除重复项，对唯一的产品名称进行排序，然后将它们连接成带有逗号的单个字符串。

In [33]:
activities = Activities
groups = activities.groupby('sell_date')
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C8B5FD8D90>

In [34]:
stats = groups.agg(
    num_sold=('product', 'nunique'),
    products=('product', lambda x: ','.join(sorted(set(x))))
).reset_index()
stats

Unnamed: 0,sell_date,num_sold,products
0,2020-05-30,3,"Basketball,Headphone,T-Shirt"
1,2020-06-01,2,"Bible,Pencil"
2,2020-06-02,1,Mask


In [35]:
stats.sort_values("sell_date", inplace=True)
stats

Unnamed: 0,sell_date,num_sold,products
0,2020-05-30,3,"Basketball,Headphone,T-Shirt"
1,2020-06-01,2,"Bible,Pencil"
2,2020-06-02,1,Mask


## 1693. 每天的领导和合伙人

对于每一个 date_id 和 make_name，找出 不同 的 lead_id 以及 不同 的 partner_id 的数量。

按 任意顺序 返回结果表。

In [49]:
data = [['2020-12-8', 'toyota', 0, 1], ['2020-12-8', 'toyota', 1, 0], ['2020-12-8', 'toyota', 1, 2], ['2020-12-7', 'toyota', 0, 2], ['2020-12-7', 'toyota', 0, 1], ['2020-12-8', 'honda', 1, 2], ['2020-12-8', 'honda', 2, 1], ['2020-12-7', 'honda', 0, 1], ['2020-12-7', 'honda', 1, 2], ['2020-12-7', 'honda', 2, 1]]
DailySales = pd.DataFrame(data, columns=['date_id', 'make_name', 'lead_id', 'partner_id']).astype({'date_id':'datetime64[ns]', 'make_name':'object', 'lead_id':'Int64', 'partner_id':'Int64'})

In [51]:
daily_sales = DailySales
# 让我们利用 .groupby() 方法，使用 'data_id' 和 'make_name'
# 作为分组标准并且使用 'nunique' 方法聚合 'lead_id' 和 'partner_id'
# 这会返回一组中不同的元素
df = daily_sales.groupby(['date_id', 'make_name']).agg({
    'lead_id': pd.Series.nunique,
    'partner_id': pd.Series.nunique
}).reset_index()

df

Unnamed: 0,date_id,make_name,lead_id,partner_id
0,2020-12-07,honda,3,2
1,2020-12-07,toyota,1,2
2,2020-12-08,honda,2,2
3,2020-12-08,toyota,2,3


In [52]:
# 重命名结果 DataFrame 并且 重命名列
df = df.rename(columns={
    'lead_id': 'unique_leads',
    'partner_id': 'unique_partners'
})

df

Unnamed: 0,date_id,make_name,unique_leads,unique_partners
0,2020-12-07,honda,3,2
1,2020-12-07,toyota,1,2
2,2020-12-08,honda,2,2
3,2020-12-08,toyota,2,3


## 1050. 合作过至少三次的演员和导演

编写解决方案找出合作过至少三次的演员和导演的 id 对 (actor_id, director_id)

In [53]:
data = [[1, 1, 0], [1, 1, 1], [1, 1, 2], [1, 2, 3], [1, 2, 4], [2, 1, 5], [2, 1, 6]]
ActorDirector = pd.DataFrame(data, columns=['actor_id', 'director_id', 'timestamp']).astype({'actor_id':'int64', 'director_id':'int64', 'timestamp':'int64'})

In [54]:
cnts = ActorDirector.groupby(["actor_id","director_id"]).size().reset_index(name="count")
cnts

Unnamed: 0,actor_id,director_id,count
0,1,1,3
1,1,2,2
2,2,1,2


In [57]:
cnts = cnts[cnts["count"]>=3][["actor_id","director_id"]]
cnts

Unnamed: 0,actor_id,director_id
0,1,1


## 1378. 使用唯一标识码替换员工ID

展示每位用户的 唯一标识码（unique ID ）；如果某位员工没有唯一标识码，使用 null 填充即可。
你可以以 任意 顺序返回结果表。


In [58]:
data = [[1, 'Alice'], [7, 'Bob'], [11, 'Meir'], [90, 'Winston'], [3, 'Jonathan']]
Employees = pd.DataFrame(data, columns=['id', 'name']).astype({'id':'int64', 'name':'object'})
data = [[3, 1], [11, 2], [90, 3]]
EmployeeUNI = pd.DataFrame(data, columns=['id', 'unique_id']).astype({'id':'int64', 'unique_id':'int64'})

我们可以根据共同的列 id 将 employees 和 employee_uni 进行合并，使员工姓名与其唯一 id 组合并获取来自两个 DataFrame 的相关数据。这可以使用 Pandas 中的 merge() 函数来实现。在此之前，请注意，我们需要在 merge 中设置一些参数：

employees 和 employee_uni：这是我们要合并的两个DataFrame。
on='id'，这指定了将执行合并操作的列。两个 DataFrame 都包含列id。
how='left'：这定义了要执行的合并类型。左连接意味着所有来自 employees DataFrame 的行将包含在结果中，并且任何与 employee_uni DataFrame中匹配的行也将包含在结果中。因此，没有唯一 id 的员工也将保留，但它们在 employee_uni 中对应的列将被填充为 NaN （非数字）值。

In [59]:
employees = Employees
employee_uni = EmployeeUNI
employee_name_uni = pd.merge(employees, employee_uni, on='id', how='left')
employee_name_uni

Unnamed: 0,id,name,unique_id
0,1,Alice,
1,7,Bob,
2,11,Meir,2.0
3,90,Winston,3.0
4,3,Jonathan,1.0


In [60]:
answer = employee_name_uni[['unique_id', 'name']]
answer

Unnamed: 0,unique_id,name
0,,Alice
1,,Bob
2,2.0,Meir
3,3.0,Winston
4,1.0,Jonathan


## 1280. 学生们参加各科测试的次数

查询出每个学生参加每一门科目测试的次数，结果按 student_id 和 subject_name 排序。

In [65]:
data = [[1, 'Alice'], [2, 'Bob'], [13, 'John'], [6, 'Alex']]
Students = pd.DataFrame(data, columns=['student_id', 'student_name']).astype({'student_id':'Int64', 'student_name':'object'})
data = [['Math'], ['Physics'], ['Programming']]
Subjects = pd.DataFrame(data, columns=['subject_name']).astype({'subject_name':'object'})
data = [[1, 'Math'], [1, 'Physics'], [1, 'Programming'], [2, 'Programming'], [1, 'Physics'], [1, 'Math'], [13, 'Math'], [13, 'Programming'], [13, 'Physics'], [2, 'Math'], [1, 'Math']]
Examinations = pd.DataFrame(data, columns=['student_id', 'subject_name']).astype({'student_id':'Int64', 'subject_name':'object'})

首先，这道题要求我们找出每个学生参加每门课的考试次数。我们可以通过对每个 (student_id,subject_name) 对使用 groupby 方法，然后计算每个组的出现次数来实现这一点。请注意，我们在 groupby 中添加了两列。根据要求，我们将该列的统计命名为 attended_exam。

In [68]:
grouped = Examinations.groupby(['student_id', 'subject_name']).size().reset_index(name='attended_exams')
grouped

Unnamed: 0,student_id,subject_name,attended_exams
0,1,Math,3
1,1,Physics,2
2,1,Programming,1
3,2,Math,1
4,2,Programming,1
5,13,Math,1
6,13,Physics,1
7,13,Programming,1


然而，这个 DataFrame 和预期的输出不同：

它缺少 student_name 列。
它只统计出现至少一次的 (student_id，subject_name) 的组合，但我们需要所有可能的组合。
让我们把这个 DataFrame 放在一边，考虑一下如何获得所有的组合：student DataFrame 包含所有的 ID，而 subjects DataFrame 包含所有的主题名称。因此，要获得 (student_id，subject_name) 的所有组合，需要进行交叉联接。

生成的 DataFrame all_id_subjects 现在包括所有可能的组合，但它不包含有关考试次数的信息。

In [69]:
all_id_subjects = pd.merge(Students, Subjects, how='cross')
all_id_subjects

Unnamed: 0,student_id,student_name,subject_name
0,1,Alice,Math
1,1,Alice,Physics
2,1,Alice,Programming
3,2,Bob,Math
4,2,Bob,Physics
5,2,Bob,Programming
6,13,John,Math
7,13,John,Physics
8,13,John,Programming
9,6,Alex,Math


当然，我们可以将 DataFrame all_id_subjects 与我们从第一步获得的 grouped 组合在一起，后者包含每个学生参加每门课程的考试次数。为此，我们可以在两个 DataFrame 上执行左连接，这将确保保留交叉连接中的 student_id 和 subject_name 的所有组合。 如果 DataFrame grouped 中不存在组合(即，没有计算该特定组合的考试)，则 attended_exam 列在那一行将保存值 NA ，表示没有参加任何考试。

In [70]:
id_subjects_count = pd.merge(all_id_subjects, grouped, on=['student_id', 'subject_name'], how='left')
id_subjects_count

Unnamed: 0,student_id,student_name,subject_name,attended_exams
0,1,Alice,Math,3.0
1,1,Alice,Physics,2.0
2,1,Alice,Programming,1.0
3,2,Bob,Math,1.0
4,2,Bob,Physics,
5,2,Bob,Programming,1.0
6,13,John,Math,1.0
7,13,John,Physics,1.0
8,13,John,Programming,1.0
9,6,Alex,Math,


请注意，attended_exams 列的数据类型从整型变为浮点型，这通常是由于 Pandas NaN (不是数字)的性质造成的。NaN 是一种特殊的浮点类型，在 Pandas 中，如果整型列包含 NaN 值，则整列的数据类型将被推断为 float。这是因为 DataFrame 中的整型列不能包含 NaN 值，因此整列被转换为 float 数据类型以容纳 NaN。为了解决这个问题，我们可以首先将该列中的 NaN 值填充为 0 ，然后通过以下方式将整列的数据类型转换为整数：

In [71]:
id_subjects_count['attended_exams'] = id_subjects_count['attended_exams'].fillna(0).astype(int)
id_subjects_count

Unnamed: 0,student_id,student_name,subject_name,attended_exams
0,1,Alice,Math,3
1,1,Alice,Physics,2
2,1,Alice,Programming,1
3,2,Bob,Math,1
4,2,Bob,Physics,0
5,2,Bob,Programming,1
6,13,John,Math,1
7,13,John,Physics,1
8,13,John,Programming,1
9,6,Alex,Math,0


最后，我们需要对id_subjects_count按照studend_id和subject_name列进行升序排序

In [72]:
# 根据'student_id'，'Subject_name'以升序对 DataFrame 进行排序。
id_subjects_count.sort_values(['student_id', 'subject_name'], inplace=True)
id_subjects_count

Unnamed: 0,student_id,student_name,subject_name,attended_exams
0,1,Alice,Math,3
1,1,Alice,Physics,2
2,1,Alice,Programming,1
3,2,Bob,Math,1
4,2,Bob,Physics,0
5,2,Bob,Programming,1
9,6,Alex,Math,0
10,6,Alex,Physics,0
11,6,Alex,Programming,0
6,13,John,Math,1


## 570. 至少有5名直接下属的经理

查询至少有5名直接下属的经理 。
以 任意顺序 返回结果表。

In [73]:
data = [[101, 'John', 'A', None], [102, 'Dan', 'A', 101], [103, 'James', 'A', 101], [104, 'Amy', 'A', 101], [105, 'Anne', 'A', 101], [106, 'Ron', 'B', 101]]
Employee = pd.DataFrame(data, columns=['id', 'name', 'department', 'managerId']).astype({'id':'Int64', 'name':'object', 'department':'object', 'managerId':'Int64'})

我们需要找到拥有超过 5 名直接下属的经理，这涉及到计算每个经理ID的下属人数。可以通过将员工表按照每个唯一的经理ID进行分组来实现。因此，我们将 DataFrame Employee 按列 managerId 进行分组，并应用 size() 方法来计算 managerId 中每个唯一值的出现次数，这表示每个经理手下的员工数量。

reset_index(name='count') 用于给结果列指定一个新名称 count，这一步确保结果 DataFrame df 有两列：managerId 和 count。

In [74]:
df = Employee.groupby('managerId').size().reset_index(name='count')
df

Unnamed: 0,managerId,count
0,101,5


接下来，我们筛选出 count 等于或多于 5 的行，这些行代表拥有 5 名或更多直接下属的经理。

In [75]:
df = df[df['count'] >= 5]

然后，我们可以通过将 df 与 employee 在共同的列（df 中的 managerId 和 employee 中的 id）上进行连接来获得这些经理的名字。请注意，我们将连接方法设置为 how='inner'，这将选择在两个 DataFrame 中都具有匹配值的经理。因此，我们不会选择一个不是有效经理的员工，也不会选择一个不在 employee 中的经理。

In [77]:
managers_info = pd.merge(df, Employee, left_on='managerId', right_on='id', how='inner')
managers_info[["name"]]

Unnamed: 0,name
0,John


## 607. 销售员

编写解决方案，找出没有任何与名为 “RED” 的公司相关的订单的所有销售人员的姓名。
以 任意顺序 返回结果表。

In [85]:
data = [[1, 'John', 100000, 6, '4/1/2006'], [2, 'Amy', 12000, 5, '5/1/2010'], [3, 'Mark', 65000, 12, '12/25/2008'], [4, 'Pam', 25000, 25, '1/1/2005'], [5, 'Alex', 5000, 10, '2/3/2007']]
SalesPerson = pd.DataFrame(data, columns=['sales_id', 'name', 'salary', 'commission_rate', 'hire_date']).astype({'sales_id':'Int64', 'name':'object', 'salary':'Int64', 'commission_rate':'Int64', 'hire_date':'datetime64[ns]'})
data = [[1, 'RED', 'Boston'], [2, 'ORANGE', 'New York'], [3, 'YELLOW', 'Boston'], [4, 'GREEN', 'Austin']]
Company = pd.DataFrame(data, columns=['com_id', 'name', 'city']).astype({'com_id':'Int64', 'name':'object', 'city':'object'})
data = [[1, '1/1/2014', 3, 4, 10000], [2, '2/1/2014', 4, 5, 5000], [3, '3/1/2014', 1, 1, 50000], [4, '4/1/2014', 1, 4, 25000]]
Orders = pd.DataFrame(data, columns=['order_id', 'order_date', 'com_id', 'sales_id', 'amount']).astype({'order_id':'Int64', 'order_date':'datetime64[ns]', 'com_id':'Int64', 'sales_id':'Int64', 'amount':'Int64'})

In [86]:
df = pd.merge(orders, Company, on="com_id")

red_orders = df[df['name'] == 'RED']
red_orders

KeyError: 'com_id'