# Loan Data Viewer - 文本变量分析
分析 loan.csv 中的文本类型变量，找出适合做语义分析的长文本字段

In [None]:
import pandas as pd

# 加载数据
df = pd.read_csv('../../data/loan.csv')

print(f"数据集总行数: {len(df):,}")
print(f"数据集总列数: {len(df.columns)}")

# 识别所有文本类型的变量（categorical variables）
categorical_columns = df.select_dtypes(include=['object']).columns.tolist()

print(f"\n找到 {len(categorical_columns)} 个文本类型的变量")

In [None]:
# ============================================================================
# 文本长度分析 - 找出适合做语义分析的长文本变量
# ============================================================================

print("=" * 80)
print("文本变量长度分析 - 找出适合做语义分析的变量")
print("=" * 80)

text_length_stats = []

for col in categorical_columns:
    # 计算非空文本的长度
    text_lengths = df[col].dropna().astype(str).str.len()
    
    if len(text_lengths) > 0:
        stats = {
            '变量名': col,
            '平均长度': round(text_lengths.mean(), 2),
            '最大长度': text_lengths.max(),
            '中位数长度': text_lengths.median(),
            '非空值数量': f"{len(text_lengths):,}"
        }
        text_length_stats.append(stats)

# 创建 DataFrame 并按平均长度排序
length_df = pd.DataFrame(text_length_stats)
length_df = length_df.sort_values('平均长度', ascending=False)

print("\n所有文本变量按平均长度排序:")
print(length_df.to_string(index=False))

# 找出平均长度超过 50 字符的变量（可能适合语义分析）
long_text_vars = length_df[length_df['平均长度'] > 50]
print(f"\n\n{'='*80}")
print(f"找到 {len(long_text_vars)} 个平均长度超过 50 字符的变量（适合做语义分析）:")
print("="*80)
if len(long_text_vars) > 0:
    print(long_text_vars.to_string(index=False))
else:
    print("没有找到平均长度超过 50 字符的变量")

In [None]:
# ============================================================================
# 显示长文本变量的样本内容
# ============================================================================

print("=" * 80)
print("长文本变量的样本内容")
print("=" * 80)

# 选择平均长度最长的前5个变量
top_long_vars = length_df.head(5)['变量名'].tolist()

for col in top_long_vars:
    print(f"\n\n{'='*80}")
    print(f"变量: {col}")
    avg_len = length_df[length_df['变量名'] == col]['平均长度'].values[0]
    print(f"平均长度: {avg_len} 字符")
    print("="*80)
    
    # 获取非空样本
    samples = df[col].dropna()
    
    if len(samples) > 0:
        # 显示前5个样本
        print(f"\n显示 5 个样本 (共有 {len(samples):,} 个非空值):\n")
        for i, sample in enumerate(samples.head(5), 1):
            sample_str = str(sample)
            print(f"样本 {i}:")
            # 如果文本太长，只显示前200字符
            if len(sample_str) > 200:
                print(f"{sample_str[:200]}...")
            else:
                print(f"{sample_str}")
            print(f"(长度: {len(sample_str)} 字符)")
            print("-" * 80)
    else:
        print("没有找到非空样本")

In [None]:
# ============================================================================
# 显示前 300 行的所有 categorical 变量数据
# ============================================================================

df_categorical = df[categorical_columns].head(300)

print(f"显示前 300 行的 {len(categorical_columns)} 个 categorical 变量")
print(f"数据形状: {df_categorical.shape}")
print()

df_categorical