In [None]:
# ！=不能用于null数据
select name from customer
where ifnull(referee_id,0) != '2'

In [None]:
# char_length用来计算多少字符
select tweet_id from Tweets
where char_length(content) > 15

### 3. RFM解释

**RFM模型**是一种用于客户价值分析的工具，通过三个维度对客户进行分类和评分：
- **R（Recency）**：客户最近一次消费的时间间隔。时间间隔越短，客户价值越高。
- **F（Frequency）**：客户在某一时间段内的消费频率。频率越高，客户价值越高。
- **M（Monetary）**：客户在某一时间段内的消费金额。金额越高，客户价值越高。

**应用场景**：
- 客户细分：根据RFM评分将客户分为高价值客户、潜在客户、流失客户等。
- 精准营销：针对不同分组的客户制定差异化的营销策略。

---

### 4. 归一化是否了解

**归一化**是将数据按比例缩放到特定范围（如0到1）的过程，常用于消除量纲影响，使不同特征具有可比性。

**常见方法**：
1. **最小-最大归一化**：
   \[
   X_{\text{norm}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}}
   \]
   - 将数据缩放到[0, 1]范围。
2. **Z-score标准化**：
   \[
   X_{\text{norm}} = \frac{X - \mu}{\sigma}
   \]
   - 将数据转换为均值为0、标准差为1的分布。

**应用场景**：
- 机器学习模型训练：如KNN、SVM等对特征尺度敏感的模型。
- 数据可视化：使不同特征在同一尺度下进行比较。

---

### 5. 评分系统设计与分层

**评分系统设计**：
1. **确定评分维度**：如RFM模型中的R、F、M。
2. **评分规则**：为每个维度设定评分标准（如1-5分）。
3. **权重分配**：根据业务需求为不同维度分配权重。
4. **总分计算**：加权求和得到客户的总评分。
5. **分层**：根据总分将客户分为不同层级（如高价值、中价值、低价值）。

**示例**：
- R（最近消费）：1-5分
- F（消费频率）：1-5分
- M（消费金额）：1-5分
- 总分 = R * 0.4 + F * 0.3 + M * 0.3
- 分层：
  - 高价值客户：总分 ≥ 4
  - 中价值客户：2 ≤ 总分 < 4
  - 低价值客户：总分 < 2

---

### 6. SQL `COUNT()`、`COUNT(1)`和`COUNT(*)`区别

- **`COUNT(*)`**：统计所有行数，包括NULL值。
- **`COUNT(1)`**：统计所有行数，`1`是常量，效果与`COUNT(*)`相同。
- **`COUNT(列名)`**：统计指定列中非NULL值的行数。

**区别**：
- `COUNT(*)`和`COUNT(1)`性能几乎相同，通常推荐使用`COUNT(*)`。
- `COUNT(列名)`会忽略NULL值，统计结果可能小于`COUNT(*)`。

---

### 7. LEFT、RIGHT、INNER、FULL JOIN解释

- **INNER JOIN**：返回两个表中匹配的行。
- **LEFT JOIN**：返回左表的所有行，右表中匹配的行；右表无匹配时返回NULL。
- **RIGHT JOIN**：返回右表的所有行，左表中匹配的行；左表无匹配时返回NULL。
- **FULL JOIN**：返回两个表中所有行，无匹配的行用NULL填充。

**MySQL是否支持FULL JOIN**：
- MySQL不支持`FULL JOIN`，但可以通过`LEFT JOIN`和`RIGHT JOIN`的`UNION`实现。

---

### 8. 实现全连接和内连接

**全连接（FULL JOIN）**：
```sql
SELECT * FROM table1
LEFT JOIN table2 ON table1.id = table2.id
UNION
SELECT * FROM table1
RIGHT JOIN table2 ON table1.id = table2.id;
```

**内连接（INNER JOIN）**：
```sql
SELECT * FROM table1
INNER JOIN table2 ON table1.id = table2.id;
```

---

### 9. 力扣SQL题：自连接

**题目**：查找表中工资高于经理的员工。

**表结构**：
```sql
Employee (id, name, salary, manager_id)
```

**SQL语句**：
```sql
SELECT e1.name AS Employee
FROM Employee e1
JOIN Employee e2 ON e1.manager_id = e2.id
WHERE e1.salary > e2.salary;
```

---

### 10. 窗口函数 `DENSE_RANK()`和`RANK()`区别

- **`RANK()`**：相同值的行排名相同，但会跳过后续排名（如1, 2, 2, 4）。
- **`DENSE_RANK()`**：相同值的行排名相同，但不会跳过后续排名（如1, 2, 2, 3）。

---

### 11. Python列表与元组的区别

- **列表（List）**：
  - 可变：可以修改、添加、删除元素。
  - 使用方括号`[]`定义。
- **元组（Tuple）**：
  - 不可变：创建后不能修改。
  - 使用圆括号`()`定义。

---

### 12. Python Pandas知识

- **`replace()`**：替换数据中的值。
  ```python
  df.replace({'old_value': 'new_value'})
  ```
- **`fillna()`**：填充缺失值。
  ```python
  df.fillna(value)
  ```

---

### 13. 优惠券项目：缺失值处理

**缺失值处理**：
1. **删除**：删除缺失值较多的行或列。
2. **填充**：
   - 用均值、中位数、众数填充。
   - 用固定值填充（如0或“未知”）。
3. **插值**：使用插值法填充缺失值。

**设置优惠券**：
- 根据用户行为（如消费金额、频率）发放不同面额的优惠券。
- 设置有效期和使用条件（如满减、折扣）。

**示例**：
```python
df['discount'] = df['discount'].fillna(0)  # 缺失值填充为0
df['coupon'] = df['amount'].apply(lambda x: '10% off' if x > 100 else '5% off')
```

### 分析方法详解

以下是三种常见的分析方法：**A/B测试**、**漏斗分析**和**同期群分析**的详细解释。

---

### 1. **A/B测试**

**定义**：
A/B测试是一种通过对比两个或多个版本（A和B）来确定哪个版本效果更好的实验方法。通常用于测试产品设计、功能或营销策略的改进效果。

**步骤**：
1. **确定目标**：明确测试的目标，例如提高点击率、增加付费转化率等。
2. **设计实验**：
   - 创建两个或多个版本（A为对照组，B为实验组）。
   - 确保实验组和对照组在其他条件上保持一致。
3. **随机分组**：将用户随机分配到不同组中。
4. **运行实验**：在一定时间内收集数据。
5. **分析结果**：通过统计方法（如假设检验）判断实验组是否显著优于对照组。
6. **决策**：根据实验结果决定是否推广新版本。

**应用场景**：
- 游戏设计：测试不同UI布局对用户留存的影响。
- 营销活动：测试不同优惠券对用户付费转化的影响。

**优点**：
- 数据驱动，结果客观。
- 可以精确评估单一变量的影响。

**局限性**：
- 需要足够的样本量。
- 只能测试单一变量，多变量测试需要更复杂的设计（如多变量测试）。

---

### 2. **漏斗分析**

**定义**：
漏斗分析是一种通过分析用户在不同阶段的行为转化率，找出用户流失点的方法。通常用于分析用户从注册到付费的完整路径。

**步骤**：
1. **定义漏斗阶段**：根据业务流程划分关键阶段。例如：
   - 注册 → 下载游戏 → 完成新手教程 → 首次付费。
2. **收集数据**：记录每个阶段的用户数量。
3. **计算转化率**：计算相邻阶段之间的转化率。
   \[
   \text{转化率} = \frac{\text{下一阶段用户数}}{\text{当前阶段用户数}} \times 100\%
   \]
4. **分析流失点**：找出转化率显著下降的阶段。
5. **优化策略**：针对流失点制定优化措施。

**应用场景**：
- 用户注册流程：分析从注册到激活的转化率。
- 付费转化路径：分析从免费用户到付费用户的转化率。

**优点**：
- 直观展示用户行为路径。
- 帮助快速定位问题环节。

**局限性**：
- 只能分析已知的路径，无法发现用户的其他行为。
- 需要清晰的业务流程定义。

---

### 3. **同期群分析（Cohort Analysis）**

**定义**：
同期群分析是一种将用户按特定时间维度分组（如同一天、同一周注册的用户），并分析这些组在不同时间段的留存率、收入等指标的方法。

**步骤**：
1. **定义同期群**：根据用户的行为时间分组。例如：
   - 按注册时间分组：2023年1月注册的用户、2023年2月注册的用户等。
2. **选择分析指标**：如留存率、ARPU、LTV等。
3. **计算指标**：对每个同期群计算指标随时间的变化。
4. **可视化分析**：通常使用热力图或折线图展示结果。
5. **得出结论**：比较不同同期群的指标差异，找出趋势和问题。

**应用场景**：
- 用户留存分析：比较不同时间段注册用户的留存率。
- 收入分析：比较不同时间段注册用户的ARPU或LTV。

**优点**：
- 帮助识别用户行为的时间趋势。
- 可以评估产品改进或市场活动对用户行为的影响。

**局限性**：
- 需要较长时间的数据积累。
- 对数据质量要求较高。

---

### 三种方法的对比

| 方法         | 适用场景                           | 优点                                   | 局限性                               |
|--------------|------------------------------------|----------------------------------------|--------------------------------------|
| **A/B测试**  | 测试单一变量对用户行为的影响       | 结果客观，数据驱动                     | 需要大量样本，只能测试单一变量       |
| **漏斗分析** | 分析用户行为路径中的流失点         | 直观展示用户行为路径，快速定位问题     | 只能分析已知路径，无法发现其他行为   |
| **同期群分析** | 分析用户行为的时间趋势             | 识别时间趋势，评估长期影响             | 需要长时间数据积累，对数据质量要求高 |

---

### 示例

#### A/B测试示例：
- **目标**：测试新按钮颜色对点击率的影响。
- **实验组**：新按钮颜色（蓝色）。
- **对照组**：旧按钮颜色（绿色）。
- **结果**：实验组点击率提高10%，具有统计显著性。

#### 漏斗分析示例：
- **阶段**：注册 → 下载 → 新手教程 → 付费。
- **转化率**：
  - 注册到下载：80%
  - 下载到新手教程：50%
  - 新手教程到付费：10%
- **结论**：从下载到新手教程的转化率较低，需优化新手引导。

#### 同期群分析示例：
- **同期群**：2023年1月注册用户 vs 2023年2月注册用户。
- **指标**：30天留存率。
- **结果**：1月用户的30天留存率为40%，2月用户为50%，说明2月的改进措施有效。

---

通过这三种方法，可以全面分析用户行为、优化产品设计并提升业务表现。

### 从数据分析的维度讲解归一化

归一化（Normalization）是数据预处理中的一个重要步骤，主要用于将数据按比例缩放到特定的范围内（如 [0, 1] 或 [-1, 1]），以消除数据特征之间的量纲差异，使不同特征具有可比性。归一化在数据分析、机器学习和数据可视化中都有广泛应用。

---

### 1. **归一化的目的**

1. **消除量纲影响**：
   - 不同特征可能具有不同的量纲（单位）和取值范围。例如，身高（厘米）和体重（千克）的取值范围差异很大，如果不进行归一化，某些算法可能会更关注取值范围较大的特征。
   - 归一化后，所有特征都在同一尺度上，避免了量纲对模型的影响。

2. **加速模型收敛**：
   - 在机器学习中，许多算法（如梯度下降法）对特征的尺度敏感。归一化可以加速模型的收敛过程，提高训练效率。

3. **提高模型精度**：
   - 某些算法（如 KNN、SVM、K-Means）依赖于距离计算，如果特征尺度差异较大，距离计算会偏向取值范围较大的特征。归一化可以提高模型的精度。

4. **增强数据可比性**：
   - 在数据可视化中，归一化可以使不同特征在同一尺度下进行比较，便于分析。

---

### 2. **常见的归一化方法**

#### （1）**最小-最大归一化（Min-Max Normalization）**
将数据线性地缩放到 [0, 1] 范围内。

**公式**：
\[
X_{\text{norm}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}}
\]

**特点**：
- 适用于数据分布较均匀的情况。
- 对异常值敏感（如果数据中存在极端值，归一化后的数据可能会集中在某个小范围内）。

**示例**：
假设有一组数据：[10, 20, 30, 40, 50]
- 最小值 \(X_{\min} = 10\)
- 最大值 \(X_{\max} = 50\)
- 归一化后的结果：
  \[
  \frac{10-10}{50-10}=0, \quad \frac{20-10}{50-10}=0.25, \quad \frac{30-10}{50-10}=0.5, \quad \frac{40-10}{50-10}=0.75, \quad \frac{50-10}{50-10}=1
  \]

---

#### （2）**Z-score 标准化（Standardization）**
将数据转换为均值为 0、标准差为 1 的分布。

**公式**：
\[
X_{\text{norm}} = \frac{X - \mu}{\sigma}
\]
其中：
- \(\mu\) 是均值，
- \(\sigma\) 是标准差。

**特点**：
- 适用于数据分布未知或存在异常值的情况。
- 归一化后的数据范围不固定，可能超出 [0, 1]。

**示例**：
假设有一组数据：[10, 20, 30, 40, 50]
- 均值 \(\mu = 30\)
- 标准差 \(\sigma = 15.81\)
- 归一化后的结果：
  \[
  \frac{10-30}{15.81}=-1.26, \quad \frac{20-30}{15.81}=-0.63, \quad \frac{30-30}{15.81}=0, \quad \frac{40-30}{15.81}=0.63, \quad \frac{50-30}{15.81}=1.26
  \]

---

#### （3）**小数缩放归一化（Decimal Scaling）**
通过移动数据的小数点位置进行归一化。

**公式**：
\[
X_{\text{norm}} = \frac{X}{10^j}
\]
其中，\(j\) 是使 \(\max(|X_{\text{norm}}|) < 1\) 的最小整数。

**特点**：
- 简单易用，适用于数据范围已知的情况。
- 对异常值不敏感。

**示例**：
假设有一组数据：[100, 200, 300, 400, 500]
- 最大绝对值为 500，因此 \(j = 3\)（因为 \(10^3 = 1000\)）。
- 归一化后的结果：
  \[
  \frac{100}{1000}=0.1, \quad \frac{200}{1000}=0.2, \quad \frac{300}{1000}=0.3, \quad \frac{400}{1000}=0.4, \quad \frac{500}{1000}=0.5
  \]

---

### 3. **归一化的应用场景**

1. **机器学习**：
   - 在训练模型之前，对特征进行归一化可以提高模型的收敛速度和精度。
   - 适用于线性回归、逻辑回归、支持向量机（SVM）、KNN、K-Means 等算法。

2. **数据可视化**：
   - 归一化可以使不同特征在同一尺度下进行比较，便于绘制图表。

3. **距离计算**：
   - 在聚类分析（如 K-Means）和相似度计算中，归一化可以避免某些特征对距离计算的影响过大。

4. **深度学习**：
   - 在神经网络中，输入数据的归一化可以加速梯度下降的收敛过程。

---

### 4. **归一化的注意事项**

1. **训练集和测试集的归一化**：
   - 归一化的参数（如最小值、最大值、均值、标准差）应从训练集中计算，然后应用于测试集。
   - 不能直接对测试集单独进行归一化，否则会导致数据分布不一致。

2. **异常值的影响**：
   - 最小-最大归一化对异常值敏感，如果数据中存在极端值，可能会导致归一化后的数据集中在某个小范围内。
   - Z-score 标准化对异常值相对鲁棒。

3. **特征的可解释性**：
   - 归一化会改变原始数据的取值范围，可能降低特征的可解释性。

---

### 5. **总结**

| 方法                | 公式                                      | 特点                                   | 适用场景                             |
|---------------------|-------------------------------------------|----------------------------------------|--------------------------------------|
| **最小-最大归一化**  | \(X_{\text{norm}} = \frac{X - X_{\min}}{X_{\max} - X_{\min}}\) | 对异常值敏感，范围 [0, 1]              | 数据分布均匀，无极端值               |
| **Z-score 标准化**   | \(X_{\text{norm}} = \frac{X - \mu}{\sigma}\) | 对异常值鲁棒，范围不固定               | 数据分布未知或存在异常值             |
| **小数缩放归一化**   | \(X_{\text{norm}} = \frac{X}{10^j}\)       | 简单易用，对异常值不敏感               | 数据范围已知                         |

归一化是数据分析中的重要步骤，合理选择归一化方法可以提高模型的性能和数据的可解释性。