In [2]:
import pandas as pd

## 1683. 无效的推文

查询所有无效推文的编号（ID）。当推文内容中的字符数严格大于 15 时，该推文是无效的。
以任意顺序返回结果表

In [2]:
data = [[1, 'Vote for Biden'], [2, 'Let us make America great again!']]
Tweets = pd.DataFrame(data, columns=['tweet_id', 'content']).astype({'tweet_id':'Int64', 'content':'object'})

在 content 列上应用 str.len() 方法。结果 is_valid 是一个布尔Series，其中表示每个推文是否有效（长度大于 15）

In [3]:
is_valid = Tweets['content'].str.len() > 15

In [4]:
print(is_valid)

0    False
1     True
Name: content, dtype: bool


In [5]:
df = Tweets[is_valid]

In [6]:
df

Unnamed: 0,tweet_id,content
1,2,Let us make America great again!


In [7]:
df = df[['tweet_id']]
df

Unnamed: 0,tweet_id
1,2


## 1873. 计算特殊奖金

编写解决方案，计算每个雇员的奖金。如果一个雇员的 id 是 奇数 并且他的名字不是以 'M' 开头，那么他的奖金是他资的 100% ，否则奖金为 0 。
返回的结果按照 employee_id 排序。

In [8]:
data = [[2, 'Meir', 3000], [3, 'Michael', 3800], [7, 'Addilyn', 7400], [8, 'Juan', 6100], [9, 'Kannon', 7700]]
Employees = pd.DataFrame(data, columns=['employee_id', 'name', 'salary']).astype({'employee_id':'int64', 'name':'object', 'salary':'int64'})

In [9]:
employees = Employees

bonus = salary if (id % 2 and not name.startwith('M')) else 0

我们如何将此表达式应用于 DataFrame employee 的每一行？

要完成此任务，我们可以使用循环逐一迭代 DataFrame 行。然而，Python 提供了一种更优雅且更高效的方法，称为"向量化"，它使用 apply() 方法。向量化利用 Pandas 中的底层优化，使我们能够一次对整个列或行应用操作，从而实现更快、更简洁的代码。

在这种情况下，使用 apply() 允许我们避免编写显式循环，并更简洁地处理操作。通过定义一个自定义函数来根据条件计算奖金，并利用带有 axis=1 参数的 apply()，我们可以轻松处理每一行并计算相应的奖金。自定义函数如下所示：
lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0


In [10]:
employees['bonus'] = employees.apply(
    lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0,
    axis=1
)
# axis = 1 ,循环处理每一行

In [11]:
df = employees[['employee_id','bonus']].sort_values('employee_id')
df

Unnamed: 0,employee_id,bonus
0,2,0
1,3,0
2,7,7400
3,8,0
4,9,7700


## 1667. 修复表中的名字

编写解决方案，修复名字，使得只有第一个字符是大写的，其余都是小写的。
返回按 user_id 排序的结果表

In [12]:
data = [[1, 'aLice'], [2, 'bOB']]
Users = pd.DataFrame(data, columns=['user_id', 'name']).astype({'user_id':'Int64', 'name':'object'})

使用 str 访问器中的 .title() 方法，而不是手动分隔第一个字符并将其大写，而将其余字符小写

In [13]:
Users["name"] = Users["name"].str.title()
Users

Unnamed: 0,user_id,name
0,1,Alice
1,2,Bob


## 1517. 查找拥有有效邮箱的用户

编写一个解决方案，以查找具有有效电子邮件的用户。
一个有效的电子邮件具有前缀名称和域，其中：
前缀 名称是一个字符串，可以包含字母（大写或小写），数字，下划线 '_' ，点 '.' 和/或破折号 '-' 。前缀名称 必须 以字母开头。
域 为 '@leetcode.com' 。
以任何顺序返回结果表。

In [14]:
data = [[1, 'Winston', 'winston@leetcode.com'], [2, 'Jonathan', 'jonathanisgreat'], [3, 'Annabelle', 'bella-@leetcode.com'], [4, 'Sally', 'sally.come@leetcode.com'], [5, 'Marwan', 'quarz#2020@leetcode.com'], [6, 'David', 'david69@gmail.com'], [7, 'Shapiro', '.shapo@leetcode.com']]
Users = pd.DataFrame(data, columns=['user_id', 'name', 'mail']).astype({'user_id':'int64', 'name':'object', 'mail':'object'})

In [15]:
Users = Users[Users["mail"].str.match(r"^[a-zA-Z][a-zA-Z0-9_.-]*\@leetcode\.com$")]
Users

Unnamed: 0,user_id,name,mail
0,1,Winston,winston@leetcode.com
2,3,Annabelle,bella-@leetcode.com
3,4,Sally,sally.come@leetcode.com


## 1527. 患某种疾病的患者
查询患有 I 类糖尿病的患者 ID （patient_id）、患者姓名（patient_name）以及其患有的所有疾病代码（conditions）。I 类糖尿病的代码总是包含前缀 DIAB1 。

按 任意顺序 返回结果表。

In [16]:
data = [[1, 'Daniel', 'YFEV COUGH'], [2, 'Alice', ''], [3, 'Bob', 'DIAB100 MYOP'], [4, 'George', 'ACNE DIAB100'], [5, 'Alain', 'DIAB201']]
Patients = pd.DataFrame(data, columns=['patient_id', 'patient_name', 'conditions']).astype({'patient_id':'int64', 'patient_name':'object', 'conditions':'object'})

正则表达式

In [18]:
Patients = Patients[Patients["conditions"].str.contains(r"\bDIAB1", regex=True)]
Patients

Unnamed: 0,patient_id,patient_name,conditions
2,3,Bob,DIAB100 MYOP
3,4,George,ACNE DIAB100


## 177. 第N高的薪水
查询 Employee 表中第 n 高的工资。如果没有第 n 个最高工资，查询结果应该为 null 。

In [3]:
data = [[1, 100], [2, 200], [3, 300], [4, 500], [5, 500]]
employee = pd.DataFrame(data, columns=['id', 'salary']).astype({'id':'int64', 'salary':'int64'})

In [6]:
df = employee[['salary']]
df

Unnamed: 0,salary
0,100
1,200
2,300
3,500
4,500


通过 .drop_duplicates() 去重后的表

In [8]:
N = 2
df = df.drop_duplicates()
df

Unnamed: 0,salary
0,100
1,200
2,300
3,500


通过 .sort_values("salary", ascending=False) 降序排序后的表。 请注意，我们必须设置 ascending=False 因为 sort_values() 方法的默认顺序是 ascending=True

In [9]:
df = df.sort_values("salary", ascending=False)
df

Unnamed: 0,salary
3,500
2,300
1,200
0,100


通过 .head(N) 并且 N = 2 获取最高 2 个后的表,通过 .tail(1) 获取最后一个后的表

In [10]:
res = df.head(N).tail(1)
res

Unnamed: 0,salary
2,300


## 176. 第二高的薪水
查询并返回 Employee 表中第二高的薪水 。如果不存在第二高的薪水，查询应该返回 null(Pandas 则返回 None) 。

In [11]:
data = [[1, 100], [2, 200], [3, 300]]
Employee = pd.DataFrame(data, columns=['id', 'salary']).astype({'id':'int64', 'salary':'int64'})

In [13]:
import pandas as pd
employee = Employee
# 1. 删除所有重复的薪水.
employee = employee.drop_duplicates(["salary"])

# 2. 如果少于 2 个不同的薪水，返回 `np.NaN`。
if len(employee["salary"].unique()) < 2:
    print("NULL")

# 3. 把表格按 `salary` 降序排序。
employee = employee.sort_values("salary", ascending=False)

# 4. 删除 `id` 列。
employee.drop("id", axis=1, inplace=True)

# 5. 重命名 `salary` 列。
employee.rename({"salary": "SecondHighestSalary"}, axis=1, inplace=True)

# 6, 7. 返回第 2 高的薪水
employee.head(2).tail(1)

Unnamed: 0,SecondHighestSalary
1,200


## 184. 部门工资最高的员工

查找出每个部门中薪资最高的员工。
按 任意顺序 返回结果表。

In [4]:
data = [[1, 'Joe', 70000, 1], [2, 'Jim', 90000, 1], [3, 'Henry', 80000, 2], [4, 'Sam', 60000, 2], [5, 'Max', 90000, 1]]
Employee = pd.DataFrame(data, columns=['id', 'name', 'salary', 'departmentId']).astype({'id':'Int64', 'name':'object', 'salary':'Int64', 'departmentId':'Int64'})
data = [[1, 'IT'], [2, 'Sales']]
Department = pd.DataFrame(data, columns=['id', 'name']).astype({'id':'Int64', 'name':'object'})

通过合并两个表来获取所有的部门名称、员工名称和薪水。

In [6]:
employee = Employee
department = Department
df = employee.merge(department, left_on='departmentId', right_on='id', how='left')
df

Unnamed: 0,id_x,name_x,salary,departmentId,id_y,name_y
0,1,Joe,70000,1,1,IT
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
3,4,Sam,60000,2,2,Sales
4,5,Max,90000,1,1,IT


In [8]:
df.rename(columns={'name_x': 'Employee', 'name_y': 'Department', 'salary': 'Salary'}, inplace=True)
df

Unnamed: 0,id_x,Employee,Salary,departmentId,id_y,Department
0,1,Joe,70000,1,1,IT
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
3,4,Sam,60000,2,2,Sales
4,5,Max,90000,1,1,IT


根据 Department 列对 df 进行分组，并对 Salary 列应用 transform('max') 函数，这将为每个部门计算最高薪水，并返回一个与原 DataFrame 长度相同的 Series，其中每个值都是对应部门的最高薪水（它不一定是对应员工的薪水）

In [10]:
max_salary = df.groupby('Department')['Salary'].transform('max')
max_salary

0    90000
1    90000
2    80000
3    80000
4    90000
Name: Salary, dtype: Int64

In [11]:
df = df[df['Salary'] == max_salary]
df

Unnamed: 0,id_x,Employee,Salary,departmentId,id_y,Department
1,2,Jim,90000,1,1,IT
2,3,Henry,80000,2,2,Sales
4,5,Max,90000,1,1,IT


## 178. 分数排名

查询并对分数进行排序。排名按以下规则计算:

分数应按从高到低排列。
如果两个分数相等，那么两个分数的排名应该相同。
在排名相同的分数后，排名数应该是下一个连续的整数。换句话说，排名之间不应该有空缺的数字。
按 score 降序返回结果表。

In [12]:
data = [[1, 3.5], [2, 3.65], [3, 4.0], [4, 3.85], [5, 4.0], [6, 3.65]]
Scores = pd.DataFrame(data, columns=['id', 'score']).astype({'id':'Int64', 'score':'Float64'})

Pandas 提供了函数 rank() 来帮助计算沿轴的数值数据排名，我们可以将方法参数 method 设置为 dense 来分配密集排名。密集排名意味着当存在并列的值时，下一个排名不会跳过。相反，所有并列的分数都被分配相同的排名，并且下一个排名递增一。这确保排名没有间隙，并且每个分数获得唯一的排名，这也正是问题所需的。

In [13]:
scores = Scores
# 按照降序对 'score' 列进行密集排名。
scores['rank'] = scores['score'].rank(method='dense', ascending=False)
scores

Unnamed: 0,id,score,rank
0,1,3.5,4.0
1,2,3.65,3.0
2,3,4.0,1.0
3,4,3.85,2.0
4,5,4.0,1.0
5,6,3.65,3.0


In [16]:
scores = scores.sort_values('score',ascending=False)
scores

Unnamed: 0,id,score,rank
2,3,4.0,1.0
4,5,4.0,1.0
3,4,3.85,2.0
1,2,3.65,3.0
5,6,3.65,3.0
0,1,3.5,4.0


## 196. 删除重复的电子邮箱

编写解决方案 删除 所有重复的电子邮件，只保留一个具有最小 id 的唯一电子邮件。
（对于 SQL 用户，请注意你应该编写一个 DELETE 语句而不是 SELECT 语句。）
（对于 Pandas 用户，请注意你应该直接修改 Person 表。）
运行脚本后，显示的答案是 Person 表。驱动程序将首先编译并运行您的代码片段，然后再显示 Person 表。Person 表的最终顺序 无关紧要 。

In [17]:
data = [[1, 'john@example.com'], [2, 'bob@example.com'], [3, 'john@example.com']]
Person = pd.DataFrame(data, columns=['id', 'email']).astype({'id':'int64', 'email':'object'})

要求是保留每个唯一电子邮件地址对应的最小 id。自然地，我们可以考虑使用 groupby 方法来实现这一点。Person.groupby('email') 将根据 email 列中的唯一值对 Person 进行分组。我们根据 email 列中的唯一值将 Person 分成多个组。这种分组允许我们将具有相同 email 的行分组在一起，以便我们可以分别对每个组进行操作。

我们想要找到每个组内的最小 id 值，以保留具有最小 id 的行。为了实现这一点，我们使用transform('min') 方法为每个组生成一个新的Series，其中包含各自组内 id 列中的最小值。

In [19]:
person = Person
min_id = person.groupby('email')['id'].transform('min')
min_id

0    1
1    2
2    1
Name: id, dtype: int64

In [20]:
removed_person = person[person['id'] != min_id]
removed_person

Unnamed: 0,id,email
2,3,john@example.com


注意，我们被要求在原地修改 Person。因此，我们可以使用带有 inplace=True 的 drop 方法，根据 removed_person.index 提供的索引值来删除所有行。

In [21]:
person.drop(removed_person.index, inplace=True)
person

Unnamed: 0,id,email
0,1,john@example.com
1,2,bob@example.com


## 1795. 每个产品在不同商店的价格

请你重构 Products 表，查询每个产品在不同商店的价格，使得输出的格式变为(product_id, store, price) 。如果这一产品在商店里没有出售，则不输出这一行。
输出结果表中的 顺序不作要求 。

In [25]:
data = [[0, 95, 100, 105], [1, 70, None, 80]]
Products = pd.DataFrame(data, columns=['product_id', 'store1', 'store2', 'store3']).astype({'product_id':'int64', 'store1':'int64', 'store2':'int64', 'store3':'int64'})

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

In [26]:
products = Products
df = products.melt(
    id_vars='product_id',
    var_name='store',
    value_name='price'
)
df

NameError: name 'Products' is not defined

## 2082. 富有客户的数量

编写解决方案找出 至少有一个 订单的金额 严格大于 500 的客户的数量。

In [27]:
data = [[6, 1, 549], [8, 1, 834], [4, 2, 394], [11, 3, 657], [13, 3, 257]]
Store = pd.DataFrame(data, columns=['bill_id', 'customer_id', 'amount']).astype({'bill_id':'int64', 'customer_id':'int64', 'amount':'int64'})

金额超过 500 的票据将被过滤掉。随后，对生成的账单集进行处理以提取唯一的客户 ID。这是通过应用 Boolean Indexing 实现的，能够过滤满足条件 amount > 500 的行。

In [28]:
rich_customers = Store[Store['amount'] > 500]
rich_customers

Unnamed: 0,bill_id,customer_id,amount
0,6,1,549
1,8,1,834
3,11,3,657


In [29]:
count = rich_customers['customer_id'].nunique()
count 

2

## 1173. 即时食物配送 I

如果顾客期望的配送日期和下单日期相同，则该订单称为 「即时订单」，否则称为「计划订单」。

编写解决方案统计即时订单所占的百分比， 保留两位小数。

In [30]:
data = [[1, 1, '2019-08-01', '2019-08-02'], [2, 5, '2019-08-02', '2019-08-02'], [3, 1, '2019-08-11', '2019-08-11'], [4, 3, '2019-08-24', '2019-08-26'], [5, 4, '2019-08-21', '2019-08-22'], [6, 2, '2019-08-11', '2019-08-13']]
Delivery = pd.DataFrame(data, columns=['delivery_id', 'customer_id', 'order_date', 'customer_pref_delivery_date']).astype({'delivery_id':'Int64', 'customer_id':'Int64', 'order_date':'datetime64[ns]', 'customer_pref_delivery_date':'datetime64[ns]'})

In [32]:
df = Delivery[Delivery['order_date'] == Delivery['customer_pref_delivery_date']]
df

Unnamed: 0,delivery_id,customer_id,order_date,customer_pref_delivery_date
1,2,5,2019-08-02,2019-08-02
2,3,1,2019-08-11,2019-08-11


In [34]:
res = len(df)/len(Delivery)
res

0.3333333333333333

## 1907. 按分类统计薪水

查询每个工资类别的银行账户数量。 工资类别如下：

"Low Salary"：所有工资 严格低于 20000 美元。
"Average Salary"： 包含 范围内的所有工资 [$20000, $50000] 。
"High Salary"：所有工资 严格大于 50000 美元。

结果表 必须 包含所有三个类别。 如果某个类别中没有帐户，则报告 0 。

In [35]:
data = [[3, 108939], [2, 12747], [8, 87709], [6, 91796]]
Accounts = pd.DataFrame(data, columns=['account_id', 'income']).astype({'account_id':'Int64', 'income':'Int64'})

In [36]:
accounts = Accounts
low_count = (accounts['income'] < 20000).sum()
average_count = ((accounts['income'] >= 20000) & (accounts['income'] <= 50000)).sum()
high_count = (accounts['income'] > 50000).sum()

In [37]:
ans = pd.DataFrame({
    'category': ['Low Salary', 'Average Salary', 'High Salary'],
    'accounts_count': [low_count, average_count, high_count]
})

ans

Unnamed: 0,category,accounts_count
0,Low Salary,1
1,Average Salary,0
2,High Salary,3
