In [16]:
import pandas as pd    #注意pandas全小写  Series首字母大写 Pandas 是处理结构化数据（如表格）的核心库。
import numpy as np    #NumPy 提供了强大的 N维数组对象和数学函数，是 Pandas 的底层依赖

s=pd.Series(['python',3.13,90,[1,2,'a'],(2,9,0),{'key':999}])  #一维数组，多类型均可以，python会统一为最通用的类型，通常是 object
print(f"Series创建的一维数组是:\n{s}")

dates=pd.date_range("20260101", periods=10) #使用 pd.date_range() 函数创建一系列连续的日期时间索引。
print(f"使用 pd.date_range() 函数创建一系列连续的日期时间索引是:\n{dates}")

df = pd.DataFrame(np.random.randn(10, 5), index=dates, columns=list("ABCDE")) #创建一个名为 df 的 Pandas DataFrame
print(f"DataFrame创建的二维数组是:\n{df}")




Series创建的一维数组是:
0          python
1            3.13
2              90
3       [1, 2, a]
4       (2, 9, 0)
5    {'key': 999}
dtype: object
date_range创建的日期数组是:
DatetimeIndex(['2026-01-01', '2026-01-02', '2026-01-03', '2026-01-04',
               '2026-01-05', '2026-01-06', '2026-01-07', '2026-01-08',
               '2026-01-09', '2026-01-10'],
              dtype='datetime64[ns]', freq='D')
DataFrame创建的二维数组是:
                   A         B         C         D         E
2026-01-01  0.968383  0.950798 -1.572561  0.694118  1.287946
2026-01-02 -0.214653  0.749815  0.773798 -1.124696  0.657849
2026-01-03  1.985578  0.856518  2.278863  1.334484  1.474561
2026-01-04 -0.825386 -2.349669 -0.503183  0.818732  1.187352
2026-01-05 -0.418815 -0.278967 -0.540659  1.005128 -0.228012
2026-01-06 -1.662714 -0.048673  0.274827 -0.518754  0.172085
2026-01-07 -0.021341  1.565239 -0.139327 -1.059187 -0.770391
2026-01-08  1.110216 -0.659212  0.033415  0.355417 -1.133044
2026-01-09  0.891664 -0.654317  0.799551

In [24]:
df2 = pd.DataFrame(
    {
        "A": 1.0, #标量值 (Scalar)。Pandas 会自动将这个单一值广播 (Broadcast) 到所有 6 行
        "B": pd.Timestamp("20251128"),  #时间戳 (Timestamp)。这也是一个标量值，被广播到 6 行
        "C": pd.Series(2,index=list(range(6)), dtype="float32"), #创建了一个长度为 6 的 Series，所有值都是 2，并显式指定了数据类型
        "D": np.array([9] * 6, dtype="int32"),#创建了一个包含 6 个 9 的 NumPy 数组，并显式指定了数据类型 
        "E": pd.Categorical(["test", "train", "test", "train","test", "train"]), #分类类型 (Categorical)。创建了一个特殊的 Pandas 类型，用于存储有限的重复字符串值，可以节省内存并加速某些操作
        "F": "foo",
    }
)
print(f"DataFrame创建的二维数组是:\n{df2}")

DataFrame创建的二维数组是:
     A          B    C  D      E    F
0  1.0 2025-11-28  2.0  9   test  foo
1  1.0 2025-11-28  2.0  9  train  foo
2  1.0 2025-11-28  2.0  9   test  foo
3  1.0 2025-11-28  2.0  9  train  foo
4  1.0 2025-11-28  2.0  9   test  foo
5  1.0 2025-11-28  2.0  9  train  foo


In [39]:
# 1. 从字典创建 DataFrame
data_dict = {
    '城市': ['北京', '上海', '广州', '深圳'],
    '人口 (百万)': [21.5, 24.2, 14.9, 13.0],
    'GDP (万亿)': [3.5, 3.8, 2.5, 2.8]
}
df_from_dict = pd.DataFrame(data_dict)
print("--- 示例 1: 从字典创建 ---")
print(df_from_dict)
print("---------------------------\n")
# 2. 从列表的列表创建 DataFrame  data_list 的每个内层 list 是一整行数据，按顺序填入 columns 指定的列中；
#index 则给每一行命名
data_list = [
    [101, '张三', 85, '男'],
    [102, '李四', 92, '女'],
    [103, '王五', 78, '男']
]
columns_list = ['ID', '姓名', '分数', '性别']

df_from_list = pd.DataFrame(data_list, columns=columns_list, index=['a', 'b', 'c'])
print("--- 示例 2: 从列表创建 (自定义索引) ---")
print(df_from_list)
print("---------------------------------------\n")
# 3. 从 CSV 文件创建 (需要实际文件，这里为演示)



print("--- 2.A: .loc (基于标签) ---")
# 选择 'b' 行的所有数据
print("选择索引 'b' 的行:\n", df.loc['b'])
print("-" * 20)

# 选择 'a' 到 'c' 行，以及 '姓名' 到 '分数' 的列（注意：loc 包含结束标签 'c' 和 '分数'）
print("选择 'a'到'c'行，'姓名'到'分数'列:\n", df.loc['a':'c', '姓名':'分数'])
print("-----------------------------\n")

--- 示例 1: 从字典创建 ---
   城市  人口 (百万)  GDP (万亿)
0  北京     21.5       3.5
1  上海     24.2       3.8
2  广州     14.9       2.5
3  深圳     13.0       2.8
---------------------------

--- 示例 2: 从列表创建 (自定义索引) ---
    ID  姓名  分数 性别
a  101  张三  85  男
b  102  李四  92  女
c  103  王五  78  男
---------------------------------------

--- 2.A: .loc (基于标签) ---
选择索引 'b' 的行:
 ID    102
姓名     李四
分数     92
性别      女
Name: b, dtype: object
--------------------
选择 'a'到'c'行，'姓名'到'分数'列:
    姓名  分数
a  张三  85
b  李四  92
c  王五  78
-----------------------------



In [1]:
import os
print(os.getcwd())

C:\Users\Administrator\JupyterNotebook


In [26]:
import pandas as pd
import numpy as np
index=pd.date_range("2025/12/1", periods=8)
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["A", "B", "C"]) #随机生成一个8行3列的数，行列分别被指定
print(f"df数据帧是：\n{df}")
print(f"df数据帧前两行是：\n{df.head(2)}")
print(f"df数据帧最后一行是：\n{df.tail(1)}")
print("***********************************************")
print(f"df数据帧第A列是：\n{df['A']}")
print(f"df数据帧第2025-12-1和2025-12-2行是：\n{df['2025-12-1':'2025-12-2']}")  #对于数据帧 ，传递片 ： 选择匹配的行：
print(f"df数据帧第2025-12-1和2025-12-2行是：\n{df['2025-12-1':]}") #2025-12-1 以后的所有行
print("*******************df.loc**********按标签的选拔#******************")
print(f"df数据帧是：\n{df}")
print(f"df.loc[index[1]数据帧是：\n{df.loc[index[1]]}")
print(f"df.loc[index[0]:index[2]数据帧是：\n{df.loc[index[0]:index[2],['B','C']]}")
print("*******************df.iloc********按位置的选拔#********************")
print(f"df第三行数据帧是：\n{df.iloc[3]}")
print(f"df数据帧是：\n{df.iloc[1:2,0:1]}")
print(f"df数据帧是：\n{df.iloc[[1,2],[0,1]]}")
print(df.iloc[1, 1])
print(df.iat[1, 1]) #快速获取标量
print("*******************df.isin********布尔判断#********************")
print(df[df["A"] > 0]) #输出A列大于零的数据
df = pd.DataFrame(np.random.randn(8, 3), index=index, columns=["A", "B", "C"]) #随机生成一个8行3列的数，行列分别被指定
df2 = df.copy()
df2["D"] = ["one", "two", "three", "four", "five", "one", "two", "three"]
print(f"df2数据帧是：\n{df2}")
print(f"df2---D列中有two的行数据是：\n{df2[df2["D"].isin(["two"])]}")


df数据帧是：
                   A         B         C
2025-12-01  1.481286  1.746908  0.081620
2025-12-02  0.915737 -0.559603 -1.249923
2025-12-03  1.205484 -0.376507  0.953899
2025-12-04  2.929162 -1.488646 -0.063246
2025-12-05  1.948214  0.868852  0.650251
2025-12-06  1.353899 -0.290074  0.458236
2025-12-07  0.795448  0.351743 -0.514474
2025-12-08 -0.727969 -1.744145 -0.703405
df数据帧前两行是：
                   A         B         C
2025-12-01  1.481286  1.746908  0.081620
2025-12-02  0.915737 -0.559603 -1.249923
df数据帧最后一行是：
                   A         B         C
2025-12-08 -0.727969 -1.744145 -0.703405
***********************************************
df数据帧第A列是：
2025-12-01    1.481286
2025-12-02    0.915737
2025-12-03    1.205484
2025-12-04    2.929162
2025-12-05    1.948214
2025-12-06    1.353899
2025-12-07    0.795448
2025-12-08   -0.727969
Freq: D, Name: A, dtype: float64
df数据帧第2025-12-1和2025-12-2行是：
                   A         B         C
2025-12-01  1.481286  1.746908  0.081620
2025-12-