# Task2 正确解答 - 创建 state_type 列

要求：创建新列 `state_type`，值为：
- `'big'` 当 `density > 100`
- `'small'` 当 `density <= 100`

In [None]:
import numpy as np
import pandas as pd

# 重新创建数据（基于原文件）
state_dict = {'state':['California','Texas','New York','Florida', 'Illinois'],
              'pop':[38332521,26448193,19651127,19552860,12882135],
              'area':[423967,695662,141297,170312,149995]}

state_df = pd.DataFrame(data = state_dict)
state_df.set_index(keys='state', inplace=True)
state_df['density'] = state_df['pop'] / state_df['area']

print("原始数据:")
print(state_df)

## 方法1: 使用条件赋值 (推荐)

In [None]:
# 方法1: 分步条件赋值
state_df_method1 = state_df.copy()

# 首先给所有行分配默认值
state_df_method1['state_type'] = 'small'  # 默认为 'small'

# 然后修改满足条件的行
state_df_method1.loc[state_df_method1['density'] > 100, 'state_type'] = 'big'

print("方法1结果:")
print(state_df_method1)
print(f"\n各类型数量:")
print(state_df_method1['state_type'].value_counts())

## 方法2: 使用 np.where() (推荐)

In [None]:
# 方法2: 使用 np.where()
state_df_method2 = state_df.copy()

state_df_method2['state_type'] = np.where(
    state_df_method2['density'] > 100, 
    'big',    # 如果条件为真
    'small'   # 如果条件为假
)

print("方法2结果:")
print(state_df_method2)
print(f"\n各类型数量:")
print(state_df_method2['state_type'].value_counts())

## 方法3: 使用列表推导式

In [None]:
# 方法3: 使用列表推导式
state_df_method3 = state_df.copy()

state_df_method3['state_type'] = [
    'big' if density > 100 else 'small' 
    for density in state_df_method3['density']
]

print("方法3结果:")
print(state_df_method3)
print(f"\n各类型数量:")
print(state_df_method3['state_type'].value_counts())

## 方法4: 使用 pandas.cut() (适用于更复杂的分类)

In [None]:
# 方法4: 使用 pd.cut() - 适合复杂分类
state_df_method4 = state_df.copy()

state_df_method4['state_type'] = pd.cut(
    state_df_method4['density'],
    bins=[0, 100, float('inf')],  # 分割点: 0-100, 100-无穷
    labels=['small', 'big'],      # 对应的标签
    include_lowest=True
)

print("方法4结果:")
print(state_df_method4)
print(f"\n各类型数量:")
print(state_df_method4['state_type'].value_counts())

## 验证结果正确性

In [None]:
# 验证所有方法结果一致
print("=== 验证结果 ===")
print("各州密度和分类:")
result_df = state_df_method1[['density', 'state_type']].copy()
result_df['density_rounded'] = result_df['density'].round(2)
result_df['correct_logic'] = result_df.apply(
    lambda row: (row['state_type'] == 'big' and row['density'] > 100) or 
                (row['state_type'] == 'small' and row['density'] <= 100), 
    axis=1
)

print(result_df)
print(f"\n逻辑正确性: {result_df['correct_logic'].all()}")

# 检查哪些州被分类为 'big'
big_states = state_df_method1[state_df_method1['state_type'] == 'big'].index.tolist()
print(f"\n密度>100的州 (big): {big_states}")

small_states = state_df_method1[state_df_method1['state_type'] == 'small'].index.tolist()
print(f"密度<=100的州 (small): {small_states}")

## 你原始代码的问题解释

In [None]:
print("=== 你的原始代码问题分析 ===")
print()
print("❌ 错误代码:")
print("satet_df['state_type'] = state_df.loc[state_df['density']>100,['state_type', 'Big','Small']]")
print()
print("问题分析:")
print("1. 'satet_df' -> 应该是 'state_df' (拼写错误)")
print("2. ['state_type', 'Big','Small'] -> 这些列不存在")
print("3. 逻辑错误: 你试图用不存在的列来赋值")
print("4. 语法错误: 条件赋值的方式不对")
print()
print("✅ 正确思路:")
print("1. 先创建新列")
print("2. 根据条件赋值")
print("3. 使用正确的语法")

# 演示错误会发生什么
try:
    # 模拟你的错误代码
    test_df = state_df.copy()
    # 这会报错，因为列不存在
    result = test_df.loc[test_df['density']>100, ['state_type', 'Big', 'Small']]
except KeyError as e:
    print(f"\n❌ 运行你的代码会出错: {e}")
    print("原因: 试图访问不存在的列")

## 总结和建议

### 🎯 最佳实践推荐：

1. **方法1 (条件赋值)** - 最直观，适合初学者
2. **方法2 (np.where)** - 最简洁，适合简单的二元分类
3. **方法3 (列表推导式)** - Python风格，但对大数据效率较低
4. **方法4 (pd.cut)** - 适合复杂的多分类情况

### 📝 记忆要点：
- 先创建列，再赋值
- 使用 `.loc[]` 进行条件选择
- 检查列名拼写
- 验证逻辑正确性