# Taking Measure Of Data

“Taking Measure Of Data” 或 “数据集观测” 指的是在进行数据分析、建模或任何数据科学任务之前，对数据集进行初步探索和评估的过程。这个过程通常被称为 **数据探查 (Data Profiling)** 或 **探索性数据分析 (Exploratory Data Analysis, EDA)**。

其核心目标是理解数据的**结构、质量、内容和潜在问题**，为后续的数据清洗、特征工程和建模打下坚实的基础。

一个完整的数据集观测是一个从宏观到微观、从整体到局部、从静态描述到动态关系的系统性过程。

## 概述

一个全面的数据集观测通常包含以下内容：

1. 数据集整体概览 (Dataset Overview)

   *   **数据规模 (Size)**：
       *   **行数 (Rows)**：数据集包含多少个观测值或样本（例如，多少个用户、多少条交易记录）。
       *   **列数 (Columns)**：数据集包含多少个特征或变量。
       *   **内存占用 (Memory Usage)**：了解数据在内存中的大小，对于处理大型数据集至关重要。

   *   **基本结构 (Structure)**：
       *   **列名 (Column Names)**：查看所有字段的名称，理解它们的含义。
       *   **数据类型 (Data Types)**：检查每一列的数据类型（如 `int`, `float`, `object`/`string`, `datetime`, `boolean`）。错误的数据类型（如本应是数值的列被识别为字符串）是常见的问题。

   *   **查看数据样本 (Data Preview)**：
       *   使用 `head()`、`tail()` 或 `sample()` 查看数据的前几行、后几行或随机几行，对数据的原始形态有一个直观的认识。

2. 描述性统计 (Descriptive Statistics)

    这是对数值型数据进行量化分析的核心部分。

    *   **中心趋势 (Central Tendency)**：
        *   **均值 (Mean)**：所有数值的平均值。
        *   **中位数 (Median)**：将数据排序后位于中间的值，对异常值不敏感。
        *   **众数 (Mode)**：出现频率最高的值。

    *   **离散程度 (Dispersion)**：
        *   **标准差 (Standard Deviation)**：衡量数据点与均值的偏离程度。
        *   **方差 (Variance)**：标准差的平方。
        *   **极差 (Range)**：最大值与最小值之差。
        *   **四分位距 (Interquartile Range, IQR)**：第三四分位数（Q3）与第一四分位数（Q1）之差，衡量中间50%数据的离散程度，对异常值鲁棒。

    *   **分布形态 (Distribution Shape)**：
        *   **最小值 (Min)** 和 **最大值 (Max)**。
        *   **分位数 (Quantiles)**：如 25% (Q1), 50% (中位数), 75% (Q3)。
        *   **偏度 (Skewness)**：衡量数据分布的不对称性（左偏或右偏）。
        *   **峰度 (Kurtosis)**：衡量数据分布的“峰态”（是尖峰还是平峰）。

3. 数据质量评估 (Data Quality Assessment)

    这是发现数据中潜在问题的关键步骤。

    *   **缺失值 (Missing Values)**：
        *   统计每列缺失值的数量和百分比。缺失值过多的列可能需要被删除，少量缺失值则需要决定是删除、填充（均值、中位数、众数、模型预测等）还是保留。

    *   **唯一性与重复性 (Uniqueness & Duplicates)**：
        *   **唯一值数量 (Number of Unique Values)**：对于分类变量，查看其类别的数量。
        *   **重复行 (Duplicate Rows)**：检查是否存在完全相同的重复记录，这可能是因为数据采集或合并过程中的错误。

    *   **异常值 (Outliers)**：
        *   通过箱线图 (Box Plot)、Z-score 或 IQR 方法识别极端值。异常值可能是录入错误，也可能是重要的业务事件，需要仔细分析。

    *   **数据一致性 (Consistency)**：
        *   检查数据是否符合预期的逻辑和范围。例如，年龄列不应该有负数；日期列的格式是否统一；分类变量的取值是否在预定义的范围内。

4. 变量间关系探索 (Relationship Exploration)

    理解变量之间的相互关系对于特征选择和模型构建至关重要。

    *   **相关性分析 (Correlation Analysis)**：
        *   计算数值型变量之间的相关系数矩阵（如皮尔逊相关系数），并用热力图 (Heatmap) 可视化。高相关性的变量可能存在多重共线性问题。

    *   **交叉分析 (Cross-tabulation)**：
        *   对于两个或多个分类变量，使用列联表 (Contingency Table) 来查看它们的联合分布。

    *   **分组聚合 (Grouped Aggregation)**：
        *   按某个分类变量分组，然后对数值变量进行聚合（如求均值、总和），观察不同组之间的差异。

5. 可视化分析 (Visualization)

    “一图胜千言”，可视化是理解数据最直观的方式。

    *   **单变量分布 (Univariate)**：
        *   **直方图 (Histogram)**：展示数值变量的分布。
        *   **箱线图 (Box Plot)**：展示数值变量的分布、中位数、四分位数和异常值。
        *   **条形图 (Bar Chart)**：展示分类变量的频数或比例。

    *   **双变量关系 (Bivariate)**：
        *   **散点图 (Scatter Plot)**：展示两个数值变量之间的关系和相关性。
        *   **分组箱线图 (Grouped Box Plot)**：展示一个数值变量在不同分类变量下的分布。
        *   **热力图 (Heatmap)**：展示相关系数矩阵。

    *   **多变量关系 (Multivariate)**：
        *   使用 `pairplot` (成对图) 或更高级的可视化技术来探索多个变量间的复杂关系。

## 加载数据

In [None]:
import pandas as pd

# =============================================================================
# 设置 Pandas 显示选项
# -----------------------------------------------------------------------------
# 这些设置不会改变数据，只影响数据在终端或 Jupyter 中的显示方式。
# 目的是让输出更清晰、易读，避免信息过载。
# =============================================================================
pd.set_option('display.width', 80)           # 输出宽度
pd.set_option('display.max_columns', 5)      # 最多显示5列
pd.set_option('display.max_rows', 20)        # 最多显示20行
pd.set_option('display.float_format', '{:,.0f}'.format)  # 数值格式：千分位，无小数

# =============================================================================
# 示例1：加载并探查 NLS97 数据集（个人调查数据）
# NLS97：美国国家青年纵向调查数据集（National Longitudinal Survey of Youth 1997）
# 包含个人教育、就业、家庭背景等信息，常用于社会科学研究。
# 目标：了解数据结构、字段类型、缺失情况
# =============================================================================

# 读取数据，并将 'personid' 设为索引（唯一标识）
nls97 = pd.read_csv("data/nls97.csv").set_index("personid")

# 快速查看数据基本信息
print("=== NLS97 数据集概览 ===")
print("数据形状:", nls97.shape)                    # 行数 × 列数
print("索引唯一性:", nls97.index.nunique() == len(nls97))  # 检查索引的唯一性（确保没有重复 personid）
nls97.info()                                       # 字段类型与缺失值
print("\n前2行数据（转置后更易读）:")
print(nls97.head(2).T)                             # 转置显示字段详情

# =============================================================================
# 示例2：加载并探查 Covid 数据集（全球疫情数据）
# 特点：包含日期字段，需解析；国家代码为索引
# -----------------------------------------------------------------------------
# covidtotals：全球各国累计新冠病例数据
# 包含确诊、死亡、疫苗接种等指标，适合分析疫情趋势。
# 注意：'lastdate' 是日期字段，需在读取时解析为 datetime 类型
# =============================================================================

# 读取数据，自动解析日期列，并设置 iso_code 为索引
covidtotals = pd.read_csv(
    "data/covidtotals.csv",
    parse_dates=['lastdate']  # 将字符串转为 datetime 类型
).set_index("iso_code")

# 探查数据基本情况
print("\n=== Covid 数据集概览 ===")
print("数据形状:", covidtotals.shape)
print("索引唯一性:", covidtotals.index.nunique() == len(covidtotals)) # 检查索引是否唯一（国家代码应唯一）
covidtotals.info()                                 # 查看各列数据类型和缺失值

# 随机抽样2行（结果可复现），转置便于查看完整字段
print("\n随机样本2行（转置）:")
print(covidtotals.sample(2, random_state=1).T)

In [None]:
# -*- coding: utf-8 -*-

import pandas as pd
import os
from datetime import datetime

# =============================================================================
# 加载两个数据集
# =============================================================================

nls97 = pd.read_csv("data/nls97.csv").set_index("personid")

covidtotals = pd.read_csv("data/covidtotals.csv", parse_dates=['lastdate'])
covidtotals.set_index("iso_code", inplace=True)


def describe_dataset(df, name="数据集", export_html=False, output_dir="reports"):
    """
    对 DataFrame 进行全面探查，并可选导出为 HTML 报告。

    参数：
    df (pd.DataFrame): 要分析的数据框
    name (str): 数据集名称
    export_html (bool): 是否导出为 HTML
    output_dir (str): HTML 文件保存目录
    """
    # 局部显示设置（仅影响打印输出）
    with pd.option_context(
        'display.width', 70,
        'display.max_columns', 10,
        'display.max_rows', 100,
        'display.float_format', '{:,.0f}'.format
    ):
        print(f"{'='*60}")
        print(f"{name}")
        print(f"{'='*60}")

        # 基本信息
        shape = f"{df.shape[0]:,} 行 × {df.shape[1]} 列"
        index_name = df.index.name or df.index.dtype
        unique_index = df.index.nunique()
        total_missing = df.isna().sum().sum()
        memory_usage = df.memory_usage(deep=True).sum() / 1e6
        dtypes_count = df.dtypes.value_counts()

        print(f"{'数据形状':<20}: {shape}")
        print(f"{'索引名称':<20}: {index_name}")
        print(f"{'唯一索引数量':<20}: {unique_index}")
        print(f"{'总缺失值数':<20}: {total_missing:,}")
        print(f"{'内存占用':<20}: {memory_usage:.2f} MB")

        # 数据类型统计
        for dtype, count in dtypes_count.items():
            print(f"{'数据类型':<20}: {count} 列 {dtype}")

        # 缺失值 Top 5
        missing_top5 = df.isna().sum().sort_values(ascending=False).head(5)
        print(f"\n{'='*60}")
        print("缺失值最多的前5个字段")
        print(f"{'='*60}")
        if missing_top5.sum() > 0:
            for col, miss in missing_top5.items():
                print(f"{col:<25} : {miss:>8,} ({miss/len(df)*100:.1f}%)")
        else:
            print("没有缺失值。")

        # 数值型变量统计
        numeric_cols = df.select_dtypes(include='number').columns
        num_stats = None
        if len(numeric_cols) > 0:
            num_stats = df[numeric_cols].describe().round(0)
            num_missing = df[numeric_cols].isna().sum()
            num_stats.loc['缺失数量'] = num_missing
            print(f"\n{'='*60}")
            print("数值型变量 - 描述性统计（前5列）")
            print(f"{'='*60}")
            print(num_stats.head().to_string())

        # 分类变量示例
        cat_cols = df.select_dtypes(exclude='number').columns
        cat_example = {}
        if len(cat_cols) > 0:
            for col in cat_cols[:3]:
                top_val = df[col].value_counts(dropna=False).head(1)
                nan_count = df[col].isna().sum()
                cat_example[col] = {
                    'most': f"{list(top_val.index)[0]!r} ({top_val.iloc[0]:,})",
                    'missing': nan_count
                }
            print(f"\n{'='*60}")
            print("分类变量 - 最常见值（前3个）")
            print(f"{'='*60}")
            for col, info in cat_example.items():
                print(f"{col}: 最常见={info['most']}, 缺失={info['missing']:,}")

        # 样本预览
        sample_data = df.sample(2, random_state=1) if len(df) >= 2 else df
        sample_transposed = sample_data.T

        print(f"\n{'='*60}")
        print("样本数据（转置）")
        print(f"{'='*60}")
        print(sample_transposed)

        # ================================
        # 导出为 HTML 报告
        # ================================
        if export_html:
            # 创建输出目录
            os.makedirs(output_dir, exist_ok=True)
            timestamp = datetime.now().strftime("%Y%m%d_%H%M")
            filename = f"{output_dir}/{name.replace(' ', '_')}_{timestamp}.html"

            # 构建 HTML 内容
            html_template = f"""
            <!DOCTYPE html>
            <html lang="zh">
            <head>
                <meta charset="UTF-8">
                <title>{name} - 数据探查报告</title>
                <style>
                    body {{ font-family: "Microsoft YaHei", sans-serif; margin: 40px; background: #f9f9f9; color: #333; }}
                    h1, h2 {{ color: #0056b3; }}
                    table {{ border-collapse: collapse; width: 100%; margin: 20px 0; background: white; box-shadow: 0 0 10px rgba(0,0,0,0.1); }}
                    th, td {{ padding: 12px; text-align: left; border: 1px solid #ddd; }}
                    th {{ background-color: #007acc; color: white; }}
                    tr:nth-child(even) {{ background-color: #f2f2f2; }}
                    .section {{ margin: 30px 0; }}
                    .info {{ line-height: 1.8; background: #eef7ff; padding: 15px; border-radius: 8px; }}
                </style>
            </head>
            <body>
                <h1>📊 {name} - 数据探查报告</h1>
                <p><strong>生成时间：</strong> {datetime.now().strftime('%Y年%m月%d日 %H:%M')}</p>

                <div class="section">
                    <h2>📌 基本信息</h2>
                    <div class="info">
                        <strong>数据形状：</strong> {shape}<br>
                        <strong>索引名称：</strong> {index_name}<br>
                        <strong>唯一索引数量：</strong> {unique_index:,}<br>
                        <strong>总缺失值数：</strong> {total_missing:,}<br>
                        <strong>内存占用：</strong> {memory_usage:.2f} MB
                    </div>
                    <h3>数据类型分布</h3>
                    <ul>
            """

            for dtype, count in dtypes_count.items():
                html_template += f"<li>{count} 列 <code>{dtype}</code></li>\n"
            html_template += "</ul>"

            # 缺失值 Top 5 表格
            html_template += """
                    <h3>缺失值最多的前5个字段</h3>
                    <table>
                        <tr><th>字段名</th><th>缺失数量</th><th>缺失比例</th></tr>
            """
            for col, miss in missing_top5.items():
                ratio = miss / len(df) * 100
                html_template += f"<tr><td>{col}</td><td>{miss:,}</td><td>{ratio:.1f}%</td></tr>\n"
            html_template += "</table>"

            # 数值型统计表
            if num_stats is not None:
                html_template += f"""
                    <h2>🔢 数值型变量 - 描述性统计</h2>
                    {num_stats.to_html(classes='table', float_format='{:,.0f}'.format)}
                """

            # 分类变量示例
            if cat_example:
                html_template += """
                    <h2>🏷️ 分类变量 - 最常见值（前3个）</h2>
                    <table>
                        <tr><th>字段名</th><th>最常见值</th><th>缺失数量</th></tr>
                """
                for col, info in cat_example.items():
                    html_template += f"<tr><td>{col}</td><td>{info['most']}</td><td>{info['missing']:,}</td></tr>\n"
                html_template += "</table>"

            # 样本数据
            html_template += f"""
                    <h2>📋 样本数据预览（转置）</h2>
                    {sample_transposed.to_html(classes='table', float_format='{:,.0f}'.format)}
                </div>

                <footer style="margin-top: 50px; color: #777; text-align: center;">
                    生成工具：Python + Pandas | 数据探查报告
                </footer>
            </body>
            </html>
            """

            # 保存文件
            with open(filename, 'w', encoding='utf-8') as f:
                f.write(html_template)

            print(f"\n✅ HTML 报告已保存至：{filename}")

    # 函数结束


# =============================================================================
# 调用函数并导出 HTML 报告
# =============================================================================

# 探查 NLS97 并生成报告
describe_dataset(nls97, "NLS97 数据集", export_html=True)

# 探查 Covid 数据并生成报告
describe_dataset(covidtotals, "Covid 累计病例数据集", export_html=True)

## 选择列

In [None]:
# -*- coding: utf-8 -*-
"""
NLS97 数据分析演示：Pandas 列选择与数据整理
================================================
本脚本演示如何使用 Pandas 对 NLS97（国家纵向调查数据）进行：
1. 数据加载与基础设置
2. 单列与多列的选择方法
3. 使用列表、filter、数据类型等灵活筛选列
4. 按主题重新组织列顺序，提升数据可读性
"""

import pandas as pd

# -----------------------------
# 1. 数据加载与预处理
# -----------------------------
# 设置显示选项，便于查看数据
pd.set_option('display.width', 78)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 15)
pd.options.display.float_format = '{:,.0f}'.format  # 禁用科学计数法，整数格式显示

# 加载 NLS97 数据集并设置 personid 为索引
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)

# 将所有 object 类型列转换为 category 类型以节省内存和提升性能
nls97[nls97.select_dtypes(['object']).columns] = \
    nls97.select_dtypes(['object']).transform(lambda x: x.astype('category'))


# -----------------------------
# 2. 不同方式选择单列：对比 Series 与 DataFrame
# -----------------------------
print("=== 单列选择：返回类型对比 ===")

# 使用 [] 直接选择：返回 Series
analysisdemo = nls97['gender']
print(f"nls97['gender'] 类型: {type(analysisdemo).__name__}")  # Series

# 使用 [[]] 选择：返回 DataFrame
analysisdemo = nls97[['gender']]
print(f"nls97[['gender']] 类型: {type(analysisdemo).__name__}")  # DataFrame

# 使用 loc[:, []]：通过标签选择 DataFrame
analysisdemo = nls97.loc[:, ['gender']]
print(f"nls97.loc[:, ['gender']] 类型: {type(analysisdemo).__name__}")  # DataFrame

# 使用 iloc[:, []]：通过位置选择 DataFrame（第0列）
analysisdemo = nls97.iloc[:, [0]]
print(f"nls97.iloc[:, [0]] 类型: {type(analysisdemo).__name__}")  # DataFrame


# -----------------------------
# 3. 多列选择：多种方法演示
# -----------------------------
print("\n=== 多列选择方法演示 ===")

# 方法一：使用列名列表直接选择
keyvars = ['gender', 'maritalstatus', 'highestgradecompleted']
analysiskeys = nls97[keyvars]
print("关键变量信息：")
analysiskeys.info()

# 方法二：使用 loc 按标签选择（功能同上，更显式）
analysisdemo = nls97.loc[:, ['gender', 'maritalstatus', 'highestgradecompleted']]
print(f"\n使用 loc 选择三列，形状: {analysisdemo.shape}")
print(analysisdemo.head(3))

# 方法三：使用 filter() 模糊匹配列名（如包含 'weeksworked'）
analysiswork = nls97.filter(like="weeksworked")
print(f"\n包含 'weeksworked' 的列，形状: {analysiswork.shape}")
print("列名示例：", analysiswork.columns.tolist()[:5], "...")

# 方法四：根据数据类型选择（如所有 category 类型列）
analysiscats = nls97.select_dtypes(include=["category"])
print(f"\n类别型变量列数: {analysiscats.shape[1]}")
print("前几种类别变量：", analysiscats.dtypes.index.tolist()[:5], "...")


# -----------------------------
# 4. 按主题整理列顺序（提升数据可读性）
# -----------------------------
print("\n=== 按主题重新组织列顺序 ===")

# 定义各主题变量组
demo = ['gender', 'birthmonth', 'birthyear']  # 基本人口统计
highschoolrecord = [
    'satverbal', 'satmath', 'gpaoverall',
    'gpaenglish', 'gpamath', 'gpascience'
]  # 高中成绩
govresp = [  # 对政府责任的态度
    'govprovidejobs', 'govpricecontrols', 'govhealthcare',
    'govelderliving', 'govindhelp', 'govunemp',
    'govincomediff', 'govcollegefinance',
    'govdecenthousing', 'govprotectenvironment'
]
demoadult = [  # 成年后的社会经济状况
    'highestgradecompleted', 'maritalstatus',
    'childathome', 'childnotathome', 'wageincome',
    'weeklyhrscomputer', 'weeklyhrstv', 'nightlyhrssleep',
    'highestdegree'
]
weeksworked = [f"weeksworked{i:02d}" for i in range(0, 18)]  # 2000-2017 年工作周数
colenr = [f"colenr{suffix}{year}" 
          for year in range(97, 18) for suffix in ['feb', 'oct']]  # 1997-2017 入学记录

# 重新排列列顺序：按主题分组
new_column_order = (demoadult + demo + highschoolrecord + 
                    govresp + weeksworked + colenr)

# 仅保留存在于数据中的列（防止 KeyError）
valid_columns = [col for col in new_column_order if col in nls97.columns]
nls97 = nls97[valid_columns]

print(f"重新排序后总列数: {nls97.shape[1]}")


# -----------------------------
# 5. 数据检查与输出
# -----------------------------
print("\n=== 数据类型概览 ===")
print(nls97.dtypes.value_counts())

print("\n=== 非类别型变量信息（数值型）===")
nls97.select_dtypes(exclude=["category"]).info()

print("\n=== 包含 'income' 的列 ===")
income_cols = nls97.filter(regex='income')
print("发现列：", income_cols.columns.tolist())
print(income_cols.head(3))

In [None]:
# -*- coding: utf-8 -*-
"""
AI-NLS97 数据分析演示（函数化重构版）
==================================
通过函数封装实现：
- 数据加载与清洗
- 列选择策略
- 按主题重排列顺序
- 快速数据检查
适用于教学演示和可复用分析流程。
"""

import pandas as pd


# -----------------------------
# 1. 设置显示选项
# -----------------------------
def set_display_options():
    """设置 Pandas 显示选项，便于查看数据"""
    pd.set_option('display.width', 78)
    pd.set_option('display.max_columns', 8)
    pd.set_option('display.max_rows', 15)
    pd.options.display.float_format = '{:,.0f}'.format


# -----------------------------
# 2. 加载与基础预处理
# -----------------------------
def load_nls97(filepath="data/nls97.csv"):
    """加载 NLS97 数据并设置索引"""
    df = pd.read_csv(filepath)
    df.set_index("personid", inplace=True)
    return df


def convert_object_to_category(df):
    """将所有 object 类型列转换为 category"""
    df[df.select_dtypes(['object']).columns] = \
        df.select_dtypes(['object']).transform(lambda x: x.astype('category'))
    return df


# -----------------------------
# 3. 列选择工具函数
# -----------------------------
def select_columns(df, cols, method='direct'):
    """
    多种方式选择列（用于演示不同语法）
    """
    if method == 'direct':
        return df[cols]
    elif method == 'loc':
        return df.loc[:, cols]
    elif method == 'iloc':
        col_indices = [df.columns.get_loc(c) for c in cols]
        return df.iloc[:, col_indices]
    else:
        raise ValueError("method 必须是 'direct', 'loc', 或 'iloc'")


def filter_by_keyword(df, keyword):
    """使用 filter 模糊匹配列名"""
    return df.filter(like=keyword)


def select_by_dtypes(df, include=None, exclude=None):
    """根据数据类型选择列"""
    return df.select_dtypes(include=include, exclude=exclude)


# -----------------------------
# 4. 构建主题变量组
# -----------------------------
def get_variable_groups():
    """定义各主题的变量组"""
    return {
        'demoadult': [
            'highestgradecompleted', 'maritalstatus',
            'childathome', 'childnotathome', 'wageincome',
            'weeklyhrscomputer', 'weeklyhrstv', 'nightlyhrssleep',
            'highestdegree'
        ],
        'demo': ['gender', 'birthmonth', 'birthyear'],
        'highschoolrecord': [
            'satverbal', 'satmath', 'gpaoverall',
            'gpaenglish', 'gpamath', 'gpascience'
        ],
        'govresp': [
            'govprovidejobs', 'govpricecontrols', 'govhealthcare',
            'govelderliving', 'govindhelp', 'govunemp',
            'govincomediff', 'govcollegefinance',
            'govdecenthousing', 'govprotectenvironment'
        ],
        'weeksworked': [f"weeksworked{i:02d}" for i in range(0, 18)],
        'colenr': [f"colenr{suffix}{year:02d}"
                   for year in range(97, 18)  # 97 to 17
                   for suffix in ['feb', 'oct']]
    }


def reorder_columns(df, groups):
    """
    按照指定分组顺序重新排列列
    只保留原始数据中存在的列
    """
    new_order = []
    for group_name, columns in groups.items():
        valid_cols = [col for col in columns if col in df.columns]
        new_order.extend(valid_cols)
        print(f"✅ {group_name}: {len(valid_cols)} 列")
    return df[new_order]


# -----------------------------
# 5. 演示与检查函数
# -----------------------------
def show_selection_demo(df):
    """演示不同单列选择方式的返回类型"""
    print("=== 单列选择：返回类型对比 ===")
    examples = [
        ("直接索引", df['gender'], type(df['gender']).__name__),
        ("双括号", df[['gender']], type(df[['gender']]).__name__),
        ("loc", df.loc[:, ['gender']], type(df.loc[:, ['gender']]).__name__),
        ("iloc", df.iloc[:, [0]], type(df.iloc[:, [0]]).__name__)
    ]
    for desc, obj, typ in examples:
        print(f"{desc:8} → {typ}")


def quick_inspect(df):
    """快速查看数据状态"""
    print(f"\n📊 数据形状: {df.shape}")
    print(f"📝 非类别型变量:")
    num_df = select_by_dtypes(df, exclude=["category"])
    num_df.info(verbose=False, show_counts=True)

    print(f"\n🔍 包含 'income' 的列:")
    income_cols = filter_by_keyword(df, 'income')
    print(income_cols.columns.tolist())
    print(income_cols.head(3))


# -----------------------------
# 6. 主流程函数
# -----------------------------
def main():
    """主函数：执行完整的数据加载 → 清洗 → 重组 → 检查流程"""
    print("🚀 开始 NLS97 数据分析演示...\n")

    # 步骤 1: 设置显示
    set_display_options()

    # 步骤 2: 加载数据
    print("📁 正在加载数据...")
    df = load_nls97()
    print(f"原始列数: {len(df.columns)}\n")

    # 步骤 3: 类型转换
    print("🔧 转换文本列为 category...")
    df = convert_object_to_category(df)

    # 步骤 4: 演示列选择方法
    show_selection_demo(df)

    # 步骤 5: 构建变量组并重排序
    print("\n🔄 正在按主题整理列顺序...")
    var_groups = get_variable_groups()
    df = reorder_columns(df, var_groups)
    print(f"✅ 最终列数: {df.shape[1]}")

    # 步骤 6: 快速检查
    quick_inspect(df)

    # 可选：保存清洗后数据
    output_dir = "results"
    os.makedirs(output_dir, exist_ok=True)
    df.to_csv(os.path.join(output_dir, "nls97_cleaned.csv"), index=True)
    print(f"\n🎉 数据处理完成，并已保存至 '{output_dir}/nls97_cleaned.csv'")


# -----------------------------
# 运行主程序
# -----------------------------
if __name__ == "__main__":
    main()

In [None]:
# -*- coding: utf-8 -*-

import pandas as pd
pd.set_option('display.max_columns', 8); pd.set_option('display.width', 78)
pd.options.display.float_format = '{:,.0f}'.format

# 加载数据 + 设置索引 + object → category
nls97 = pd.read_csv("data/nls97.csv").set_index("personid")
nls97[nls97.select_dtypes('O').columns] = nls97.select_dtypes('O').apply(lambda x: x.astype('category'))

# 定义变量组（压缩成一行）
groups = (
    ['highestgradecompleted','maritalstatus','childathome','childnotathome','wageincome',
     'weeklyhrscomputer','weeklyhrstv','nightlyhrssleep','highestdegree'] +  # demoadult
    ['gender','birthmonth','birthyear'] +  # demo
    ['satverbal','satmath','gpaoverall','gpaenglish','gpamath','gpascience'] +  # highschool
    [f'gov{x}' for x in ['providejobs','pricecontrols','healthcare','elderliving',
     'indhelp','unemp','incomediff','collegefinance','decenthousing','protectenvironment']] +
    [f'weeksworked{i:02d}' for i in range(18)] +
    [f'colenr{suffix}{y:02d}' for y in range(97,18) for suffix in ['feb','oct']]
)

# 重排列顺序（仅保留存在的列）
nls97 = nls97[[col for col in groups if col in nls97.columns]]

# 输出检查
print(f"列数: {nls97.shape[1]}")
nls97.select_dtypes(exclude=['category']).info(verbose=False)
print("含 'income' 的列:", nls97.filter(regex='income').columns.tolist())

## 选择行

In [21]:
import pandas as pd
pd.set_option('display.width', 75)
pd.set_option('display.max_columns', 5)
pd.set_option('display.max_rows', 20)
pd.options.display.float_format = '{:,.2f}'.format
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)

# 使用切分法选择几行
nls97[1000:1004].T
nls97[1000:1004:2].T

# 使用 Python 切片法选择前 3 行
nls97[:3].T

# 使用 tail() 和 Python 分片法选择最后 3 行
nls97[-3:].T

# 使用 loc 和 iloc 选择几行
nls97.loc[[195884,195891,195970]].T
nls97.loc[195884:195970].T
nls97.iloc[[0]].T
nls97.iloc[[0,1,2]].T
nls97.iloc[[-3,-2,-1]].T

# 有条件地选择多行
nls97.nightlyhrssleep.quantile(0.05)
nls97.nightlyhrssleep.count()
sleepcheckbool = nls97.nightlyhrssleep<=4
sleepcheckbool
lowsleep = nls97.loc[sleepcheckbool]
lowsleep = nls97.loc[nls97.nightlyhrssleep<=4]
lowsleep.shape

# 根据多个条件选择行
lowsleep.childathome.describe()
lowsleep3pluschildren = nls97.loc[(nls97.nightlyhrssleep<=4) & (nls97.childathome>=3)]
lowsleep3pluschildren.shape

# 根据多个条件选择行，并选择列
lowsleep3pluschildren = nls97.loc[(nls97.nightlyhrssleep<=4) & (nls97.childathome>=3), ['nightlyhrssleep','childathome']]
lowsleep3pluschildren


Unnamed: 0_level_0,nightlyhrssleep,childathome
personid,Unnamed: 1_level_1,Unnamed: 2_level_1
119754,4.00,4.00
141531,4.00,5.00
152706,4.00,4.00
156823,1.00,3.00
158355,4.00,4.00
...,...,...
905774,4.00,3.00
907315,4.00,3.00
955166,3.00,3.00
956100,4.00,6.00


In [24]:
# -*- coding: utf-8 -*-
"""
Pandas 行选择操作演示：NLS97 数据集
==================================
演示如何使用 Pandas 的多种方式选择数据行：
1. 切片（Slice）
2. loc / iloc 标签与位置索引
3. 布尔索引（单条件 & 多条件）
4. 结合行与列的选择
"""

import pandas as pd

# 设置显示选项
pd.set_option('display.width', 75)
pd.set_option('display.max_columns', 5)
pd.set_option('display.max_rows', 20)
pd.options.display.float_format = '{:,.2f}'.format

# 加载数据并设置索引
nls97 = pd.read_csv("data/nls97.csv").set_index("personid")

print("✅ 数据已加载，索引设为 personid")


# =============================================================================
# 1. 使用切片选择行（基于位置）
# =============================================================================
print("\n" + "="*60)
print("1. 使用切片选择行（基于位置）")
print("="*60)

print("\n🔹 nls97[1000:1004].T → 查看第1000-1003行（转置显示）")
print(nls97[1000:1004].T)

print("\n🔹 nls97[1000:1004:2].T → 每隔一行")
print(nls97[1000:1004:2].T)

print("\n🔹 nls97[:3].T → 前3行")
print(nls97[:3].T)

print("\n🔹 nls97[-3:].T → 最后3行")
print(nls97[-3:].T)


# =============================================================================
# 2. 使用 loc 和 iloc 精确选择行
# =============================================================================
print("\n" + "="*60)
print("2. 使用 loc（标签）和 iloc（位置）选择行")
print("="*60)

# loc: 按索引标签选择
print("\n🔹 loc[[195884, 195891, 195970]].T → 指定 personid")
print(nls97.loc[[195884, 195891, 195970]].T)

print("\n🔹 loc[195884:195970].T → 标签范围（包含端点）")
print(nls97.loc[195884:195970].T)

# iloc: 按整数位置选择
print("\n🔹 iloc[[0]].T → 第0行")
print(nls97.iloc[[0]].T)

print("\n🔹 iloc[[0, 1, 2]].T → 前3行（位置）")
print(nls97.iloc[[0, 1, 2]].T)

print("\n🔹 iloc[[-3,-2,-1]].T → 最后3行（位置）")
print(nls97.iloc[[-3,-2,-1]].T)


# =============================================================================
# 3. 布尔索引：按条件选择行
# =============================================================================
print("\n" + "="*60)
print("3. 布尔索引：选择睡眠 ≤4 小时的个体")
print("="*60)

# 创建布尔条件
sleepcheckbool = nls97.nightlyhrssleep <= 4

print(f"🔹 满足条件的记录数: {sleepcheckbool.sum()} 人")
print(f"🔹 全体睡眠时长5%分位数: {nls97.nightlyhrssleep.quantile(0.05):.2f} 小时")

# 应用条件
lowsleep = nls97.loc[sleepcheckbool]
print(f"🔹 低睡眠人群形状: {lowsleep.shape}")


# =============================================================================
# 4. 多条件选择行
# =============================================================================
print("\n" + "="*60)
print("4. 多条件选择：睡眠 ≤4 小时 且 有 ≥3 个孩子在家")
print("="*60)

lowsleep3pluschildren = nls97.loc[
    (nls97.nightlyhrssleep <= 4) & (nls97.childathome >= 3),
    ['nightlyhrssleep', 'childathome']  # 同时选择列
]

print(f"🔹 满足条件人数: {lowsleep3pluschildren.shape[0]}")
print("🔹 结果预览：")
print(lowsleep3pluschildren)

print("\n🎉 演示完成！")

✅ 数据已加载，索引设为 personid

1. 使用切片选择行（基于位置）

🔹 nls97[1000:1004].T → 查看第1000-1003行（转置显示）
personid              195884           195891           195970  195996
gender                  Male             Male           Female  Female
birthmonth                12                9                3       9
birthyear               1981             1980             1982    1980
highestgradecompleted    NaN            12.00            17.00     NaN
maritalstatus            NaN    Never-married    Never-married     NaN
...                      ...              ...              ...     ...
colenroct15              NaN  1. Not enrolled  1. Not enrolled     NaN
colenrfeb16              NaN  1. Not enrolled  1. Not enrolled     NaN
colenroct16              NaN  1. Not enrolled  1. Not enrolled     NaN
colenrfeb17              NaN  1. Not enrolled  1. Not enrolled     NaN
colenroct17              NaN  1. Not enrolled  1. Not enrolled     NaN

[88 rows x 4 columns]

🔹 nls97[1000:1004:2].T → 每隔一行
personid  

# 分类计数

In [None]:
import pandas as pd
pd.set_option('display.width', 53)
pd.set_option('display.max_columns', 5)
pd.set_option('display.max_rows', 20)
pd.options.display.float_format = '{:,.2f}'.format
nls97 = pd.read_csv("data/nls97.csv")
nls97.set_index("personid", inplace=True)

nls97[nls97.select_dtypes(['object']).columns] = \
  nls97.select_dtypes(['object']). \
  transform(lambda x: x.astype('category'))

# 显示类别数据类型的列名，并检查缺失的数量
catcols = nls97.select_dtypes(include=["category"]).columns
print(nls97[catcols].isnull().sum())

# 显示婚姻状况的频率
nls97.maritalstatus.value_counts()

# 关闭按频率排序
nls97.maritalstatus.value_counts(sort=False)

# 用百分比代替计数
nls97.maritalstatus.value_counts(sort=False, normalize=True)

# 为所有政府责任变量显示百分比
nls97.filter(like="gov").apply(pd.Series.value_counts, normalize=True)

# 对已婚者的所有政府责任变量进行百分比计算
nls97[nls97.maritalstatus=="Married"].\
  filter(like="gov").\
  apply(pd.Series.value_counts, normalize=True)

# 计算数据框中所有类别变量的频率和百分比
freqout = open('views/frequencies.txt', 'w') 
for col in nls97.\
  select_dtypes(include=["category"]):
    print(col, "----------------------",
      "frequencies",
    nls97[col].value_counts(sort=False),
      "percentages",
    nls97[col].value_counts(normalize=True,
      sort=False),
    sep="\n\n", end="\n\n\n", file=freqout)

freqout.close()



# 连续统计

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('display.width', 53)
pd.set_option('display.max_columns', 5)
pd.set_option('display.max_rows', 20)
pd.options.display.float_format = '{:,.1f}'.format
covidtotals = pd.read_csv("data/covidtotals.csv",
  parse_dates=['lastdate'])
covidtotals.set_index("iso_code", inplace=True)

# 查看几行 covid 病例数据
covidtotals.shape
covidtotals.sample(1, random_state=1).T
covidtotals.dtypes

# 获取累积值的描述性统计信息
totvars = ['total_cases',
  'total_deaths','total_cases_pm',
  'total_deaths_pm']
covidtotals[totvars].describe()
covidtotals[totvars].\
  quantile(np.arange(0.0, 1.1, 0.1))

# 查看病例总数的分布情况
plt.hist(covidtotals['total_cases']/1000, bins=12)
plt.title("Total Covid Cases (in thousands)")
plt.xlabel('Cases')
plt.ylabel("Number of Countries")
plt.show()

# OpenAI

In [None]:
import pandas as pd
from pandasai.llm.openai import OpenAI
from pandasai import SmartDataframe

pd.set_option('display.width', 70)
pd.set_option('display.max_columns', 7)
pd.set_option('display.max_rows', 20)
pd.options.display.float_format = '{:,.0f}'.format

covidtotals = pd.read_csv("data/covidtotals.csv",
  parse_dates=['lastdate'])
covidtotals.set_index("iso_code", inplace=True)

llm = OpenAI(api_token="Your API key")
type(llm)

covidtotalssdf = SmartDataframe(covidtotals, config={"llm": llm})
type(covidtotalssdf)

covidtotalssdf.chat("Show me some information about the data")
covidtotalssdf.chat("Show first five rows.")
covidtotalssdf.chat("Show total cases for locations with the five most total cases.")
covidtotalssdf.chat("Show total cases pm, total deaths pm, and location for locations with the 10 highest total cases pm.")

covidtotalsabb = covidtotalssdf.chat("Select total cases pm, total deaths pm, and location.")
covidtotalsabb

type(covidtotalsabb)

covidtotalsabb = covidtotalssdf.chat("Grab total cases pm, total deaths pm, and location.")
covidtotalsabb

covidtotalssdf.chat("Show total cases pm and location where total cases pm greater than 95th percentile.")
covidtotalssdf.chat("Summarize values for total cases pm and total deaths pm.").T
covidtotalssdf.chat("Show sum of total cases and total deaths by region.")
covidtotalssdf.chat("Plot the total_cases_pm column data distribution")
covidtotalssdf.chat("Plot the total_cases_pm data distribution")
covidtotalssdf.chat("Plot total cases pm values against total deaths pm values")
covidtotalssdf.chat("Plot total cases pm values against total deaths pm values with line")
covidtotalssdf.chat("Plot total cases pm values against total deaths pm values with lmplot without extreme values")
covidtotalssdf.chat("Use regplot to show total deaths pm against total cases pm")
covidtotalssdf.chat("Use regplot to show total deaths pm against total cases pm without extreme values")