In [1]:
import pandas as pd

## 1683. 无效的推文

查询所有无效推文的编号（ID）。当推文内容中的字符数严格大于 15 时，该推文是无效的。
以任意顺序返回结果表

In [2]:
data = [[1, 'Vote for Biden'], [2, 'Let us make America great again!']]
Tweets = pd.DataFrame(data, columns=['tweet_id', 'content']).astype({'tweet_id':'Int64', 'content':'object'})

在 content 列上应用 str.len() 方法。结果 is_valid 是一个布尔Series，其中表示每个推文是否有效（长度大于 15）

In [3]:
is_valid = Tweets['content'].str.len() > 15

In [4]:
print(is_valid)

0    False
1     True
Name: content, dtype: bool


In [5]:
df = Tweets[is_valid]

In [6]:
df

Unnamed: 0,tweet_id,content
1,2,Let us make America great again!


In [7]:
df = df[['tweet_id']]
df

Unnamed: 0,tweet_id
1,2


## 1873. 计算特殊奖金

编写解决方案，计算每个雇员的奖金。如果一个雇员的 id 是 奇数 并且他的名字不是以 'M' 开头，那么他的奖金是他资的 100% ，否则奖金为 0 。
返回的结果按照 employee_id 排序。

In [8]:
data = [[2, 'Meir', 3000], [3, 'Michael', 3800], [7, 'Addilyn', 7400], [8, 'Juan', 6100], [9, 'Kannon', 7700]]
Employees = pd.DataFrame(data, columns=['employee_id', 'name', 'salary']).astype({'employee_id':'int64', 'name':'object', 'salary':'int64'})

In [9]:
employees = Employees

bonus = salary if (id % 2 and not name.startwith('M')) else 0

我们如何将此表达式应用于 DataFrame employee 的每一行？

要完成此任务，我们可以使用循环逐一迭代 DataFrame 行。然而，Python 提供了一种更优雅且更高效的方法，称为"向量化"，它使用 apply() 方法。向量化利用 Pandas 中的底层优化，使我们能够一次对整个列或行应用操作，从而实现更快、更简洁的代码。

在这种情况下，使用 apply() 允许我们避免编写显式循环，并更简洁地处理操作。通过定义一个自定义函数来根据条件计算奖金，并利用带有 axis=1 参数的 apply()，我们可以轻松处理每一行并计算相应的奖金。自定义函数如下所示：
lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0


In [10]:
employees['bonus'] = employees.apply(
    lambda x: x['salary'] if x['employee_id'] % 2 and not x['name'].startswith('M') else 0,
    axis=1
)
# axis = 1 ,循环处理每一行

In [11]:
df = employees[['employee_id','bonus']].sort_values('employee_id')
df

Unnamed: 0,employee_id,bonus
0,2,0
1,3,0
2,7,7400
3,8,0
4,9,7700


## 1667. 修复表中的名字

编写解决方案，修复名字，使得只有第一个字符是大写的，其余都是小写的。
返回按 user_id 排序的结果表

In [12]:
data = [[1, 'aLice'], [2, 'bOB']]
Users = pd.DataFrame(data, columns=['user_id', 'name']).astype({'user_id':'Int64', 'name':'object'})

使用 str 访问器中的 .title() 方法，而不是手动分隔第一个字符并将其大写，而将其余字符小写

In [13]:
Users["name"] = Users["name"].str.title()
Users

Unnamed: 0,user_id,name
0,1,Alice
1,2,Bob


## 1517. 查找拥有有效邮箱的用户

编写一个解决方案，以查找具有有效电子邮件的用户。
一个有效的电子邮件具有前缀名称和域，其中：
前缀 名称是一个字符串，可以包含字母（大写或小写），数字，下划线 '_' ，点 '.' 和/或破折号 '-' 。前缀名称 必须 以字母开头。
域 为 '@leetcode.com' 。
以任何顺序返回结果表。

In [14]:
data = [[1, 'Winston', 'winston@leetcode.com'], [2, 'Jonathan', 'jonathanisgreat'], [3, 'Annabelle', 'bella-@leetcode.com'], [4, 'Sally', 'sally.come@leetcode.com'], [5, 'Marwan', 'quarz#2020@leetcode.com'], [6, 'David', 'david69@gmail.com'], [7, 'Shapiro', '.shapo@leetcode.com']]
Users = pd.DataFrame(data, columns=['user_id', 'name', 'mail']).astype({'user_id':'int64', 'name':'object', 'mail':'object'})

In [15]:
Users = Users[Users["mail"].str.match(r"^[a-zA-Z][a-zA-Z0-9_.-]*\@leetcode\.com$")]
Users

Unnamed: 0,user_id,name,mail
0,1,Winston,winston@leetcode.com
2,3,Annabelle,bella-@leetcode.com
3,4,Sally,sally.come@leetcode.com


## 1527. 患某种疾病的患者
查询患有 I 类糖尿病的患者 ID （patient_id）、患者姓名（patient_name）以及其患有的所有疾病代码（conditions）。I 类糖尿病的代码总是包含前缀 DIAB1 。

按 任意顺序 返回结果表。

In [16]:
data = [[1, 'Daniel', 'YFEV COUGH'], [2, 'Alice', ''], [3, 'Bob', 'DIAB100 MYOP'], [4, 'George', 'ACNE DIAB100'], [5, 'Alain', 'DIAB201']]
Patients = pd.DataFrame(data, columns=['patient_id', 'patient_name', 'conditions']).astype({'patient_id':'int64', 'patient_name':'object', 'conditions':'object'})

正则表达式

In [18]:
Patients = Patients[Patients["conditions"].str.contains(r"\bDIAB1", regex=True)]
Patients

Unnamed: 0,patient_id,patient_name,conditions
2,3,Bob,DIAB100 MYOP
3,4,George,ACNE DIAB100
