# python 基础

In [1]:
# 变量与基本类型
a = 10
b = 3.5
name = "张三"
is_student = True

# 算术与字符串格式化
total = a + b
print(f"姓名: {name}, total = {total:.2f}")

# 列表与列表推导式
nums = [1, 2, 3, 4, 5]
squares = [x * x for x in nums]
print("squares:", squares)

# 循环与枚举
for idx, val in enumerate(squares, start=1):
    print(idx, val)

# 字典的使用
person = {"name": name, "age": a}
print("person:", person)

# 函数与异常处理
def divide(x, y):
    try:
        return x / y
    except ZeroDivisionError:
        return None

print("10 / 2 =", divide(10, 2))
print("10 / 0 =", divide(10, 0))

# lambda 与排序示例
pairs = [("a", 3), ("b", 1), ("c", 2)]
pairs_sorted = sorted(pairs, key=lambda p: p[1])
print("sorted pairs:", pairs_sorted)

姓名: 张三, total = 13.50
squares: [1, 4, 9, 16, 25]
1 1
2 4
3 9
4 16
5 25
person: {'name': '张三', 'age': 10}
10 / 2 = 5.0
10 / 0 = None
sorted pairs: [('b', 1), ('c', 2), ('a', 3)]


In [3]:
# print() 函数用于将内容输出到控制台。
# 它可以输出字符串、变量、表达式等，多个内容用逗号分隔会自动加空格。
# 例如：
print("Hello, world!")           # 输出字符串
print("a =", a)                  # 输出变量
print("a + b =", a + b)          # 输出表达式结果
print("姓名:", name, "总分:", total)  # 同时输出多个内容

# print() 默认参数：sep=" "（空格），end="\n"（换行）
print("Hello", "world")  # 默认以空格分隔，结尾换行
print("a =", a, "b =", b)
print("A", "B", "C", sep="-", end="!\n")  # 输出：A-B-C!

Hello, world!
a = 10
a + b = 13.5
姓名: 张三 总分: 13.5
Hello world
a = 10 b = 3.5
A-B-C!


In [4]:
import pandas as pd

# 通过列表创建 Series
s = pd.Series(nums)
print("Series from list:\n", s)

# 通过字典创建 Series
s_dict = pd.Series(person)
print("\nSeries from dict:\n", s_dict)

# Series 的基本属性
print("\nSeries values:", s.values)
print("Series index:", s.index)
print("Series dtype:", s.dtype)

# Series 支持索引和切片
print("\nFirst element:", s[0])
print("First three elements:\n", s[:3])

Series from list:
 0    1
1    2
2    3
3    4
4    5
dtype: int64

Series from dict:
 name    张三
age     10
dtype: object

Series values: [1 2 3 4 5]
Series index: RangeIndex(start=0, stop=5, step=1)
Series dtype: int64

First element: 1
First three elements:
 0    1
1    2
2    3
dtype: int64


In [5]:
import numpy as np

# Series 高阶操作示例

# 统计描述
print("s 的描述性统计：\n", s.describe())

# 条件筛选
print("\ns > 2 的元素：\n", s[s > 2])

# 应用函数
print("\ns 每个元素平方：\n", s.apply(lambda x: x ** 2))

# 缺失值处理
s_nan = s.copy()
s_nan[2] = np.nan
print("\n含缺失值的 Series：\n", s_nan)
print("缺失值填充为 0：\n", s_nan.fillna(0))

# Series 对齐运算
s2 = pd.Series([10, 20, 30, 40, 50], index=[0, 1, 2, 3, 4])
print("\ns + s2：\n", s + s2)

s 的描述性统计：
 count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

s > 2 的元素：
 2    3
3    4
4    5
dtype: int64

s 每个元素平方：
 0     1
1     4
2     9
3    16
4    25
dtype: int64

含缺失值的 Series：
 0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
dtype: float64
缺失值填充为 0：
 0    1.0
1    2.0
2    0.0
3    4.0
4    5.0
dtype: float64

s + s2：
 0    11
1    22
2    33
3    44
4    55
dtype: int64


In [6]:
# Pandas Series 常用知识补充

# 1. 索引与重建索引
s_reindexed = s.reindex([4, 3, 2, 1, 0])
print("重建索引后的 Series:\n", s_reindexed)

# 2. Series 与标量/数组运算
print("s * 10:\n", s * 10)
print("s + [10, 20, 30, 40, 50]:\n", s + [10, 20, 30, 40, 50])

# 3. 判断缺失值
print("s_nan 是否缺失:\n", s_nan.isna())

# 4. Series 排序
print("按值排序:\n", s.sort_values())
print("按索引排序:\n", s.sort_index(ascending=False))

# 5. 唯一值与计数
print("唯一值:", s.unique())
print("各值出现次数:\n", s.value_counts())

# 6. 取最大/最小值及其索引
print("最大值:", s.max(), "索引:", s.idxmax())
print("最小值:", s.min(), "索引:", s.idxmin())

# 7. 转为字典、列表、numpy 数组
print("转为字典:", s.to_dict())
print("转为列表:", s.tolist())
print("转为 numpy 数组:", s.values)

重建索引后的 Series:
 4    5
3    4
2    3
1    2
0    1
dtype: int64
s * 10:
 0    10
1    20
2    30
3    40
4    50
dtype: int64
s + [10, 20, 30, 40, 50]:
 0    11
1    22
2    33
3    44
4    55
dtype: int64
s_nan 是否缺失:
 0    False
1    False
2     True
3    False
4    False
dtype: bool
按值排序:
 0    1
1    2
2    3
3    4
4    5
dtype: int64
按索引排序:
 4    5
3    4
2    3
1    2
0    1
dtype: int64
唯一值: [1 2 3 4 5]
各值出现次数:
 1    1
2    1
3    1
4    1
5    1
Name: count, dtype: int64
最大值: 5 索引: 4
最小值: 1 索引: 0
转为字典: {0: 1, 1: 2, 2: 3, 3: 4, 4: 5}
转为列表: [1, 2, 3, 4, 5]
转为 numpy 数组: [1 2 3 4 5]


In [7]:
# Pandas DataFrame 基础知识

# 1. 创建 DataFrame
df = pd.DataFrame({
    '姓名': ['张三', '李四', '王五'],
    '年龄': [20, 21, 19],
    '成绩': [88, 92, 85]
})
print("DataFrame:\n", df)

# 2. 查看基本信息
print("\nshape:", df.shape)         # 行数和列数
print("columns:", df.columns)       # 列名
print("index:", df.index)           # 索引
print("dtypes:\n", df.dtypes)       # 每列数据类型

# 3. 访问数据
print("\n第一行:\n", df.iloc[0])    # 按位置
print("姓名列:\n", df['姓名'])      # 按列名
print("前两行:\n", df.head(2))      # 多行

# 4. 条件筛选
print("\n筛选成绩大于 85:\n", df[df['成绩'] > 85])

# 5. 描述性统计
print("\n描述性统计:\n", df.describe())

# 6. 新增/修改列
df['及格'] = df['成绩'] >= 60
print("\n新增及格列:\n", df)

# 7. 缺失值处理
df.loc[1, '成绩'] = None
print("\n含缺失值:\n", df)
print("缺失值填充为 0:\n", df.fillna(0))

DataFrame:
    姓名  年龄  成绩
0  张三  20  88
1  李四  21  92
2  王五  19  85

shape: (3, 3)
columns: Index(['姓名', '年龄', '成绩'], dtype='object')
index: RangeIndex(start=0, stop=3, step=1)
dtypes:
 姓名    object
年龄     int64
成绩     int64
dtype: object

第一行:
 姓名    张三
年龄    20
成绩    88
Name: 0, dtype: object
姓名列:
 0    张三
1    李四
2    王五
Name: 姓名, dtype: object
前两行:
    姓名  年龄  成绩
0  张三  20  88
1  李四  21  92

筛选成绩大于 85:
    姓名  年龄  成绩
0  张三  20  88
1  李四  21  92

描述性统计:
          年龄         成绩
count   3.0   3.000000
mean   20.0  88.333333
std     1.0   3.511885
min    19.0  85.000000
25%    19.5  86.500000
50%    20.0  88.000000
75%    20.5  90.000000
max    21.0  92.000000

新增及格列:
    姓名  年龄  成绩    及格
0  张三  20  88  True
1  李四  21  92  True
2  王五  19  85  True

含缺失值:
    姓名  年龄    成绩    及格
0  张三  20  88.0  True
1  李四  21   NaN  True
2  王五  19  85.0  True
缺失值填充为 0:
    姓名  年龄    成绩    及格
0  张三  20  88.0  True
1  李四  21   0.0  True
2  王五  19  85.0  True


In [10]:
# Pandas DataFrame 常用知识补充

# 1. 选取多列
print("选取姓名和成绩两列:\n", df[['姓名', '成绩']])

# 2. 新增行
new_row = {'姓名': '赵六', '年龄': 22, '成绩': 90, '及格': True}
df_appended = pd.concat([df, pd.DataFrame([new_row])], ignore_index=True)
print("\n新增一行:\n", df_appended)

# 3. 删除行或列
print("\n删除第 0 行:\n", df.drop(index=0))
print("删除 '及格' 列:\n", df.drop(columns='及格'))

# 4. 缺失值检测与删除
print("\n检测缺失值:\n", df.isnull())
print("删除含缺失值的行:\n", df.dropna())

# 5. 分组与聚合
print("\n按及格分组统计平均成绩:\n", df.groupby('及格')['成绩'].mean())

# 6. 排序
print("\n按成绩降序排序:\n", df.sort_values(by='成绩', ascending=False))

# 7. 重命名列
print("\n重命名列:\n", df.rename(columns={'姓名': 'Name', '成绩': 'Score'}))

# 8. 设置索引
print("\n以姓名为索引:\n", df.set_index('姓名'))

# 9. 透视表
print("\n透视表示例:\n", pd.pivot_table(df, values='成绩', index='及格', aggfunc='mean'))

选取姓名和成绩两列:
    姓名    成绩
0  张三  88.0
1  李四   NaN
2  王五  85.0

新增一行:
    姓名  年龄    成绩    及格
0  张三  20  88.0  True
1  李四  21   NaN  True
2  王五  19  85.0  True
3  赵六  22  90.0  True

删除第 0 行:
    姓名  年龄    成绩    及格
1  李四  21   NaN  True
2  王五  19  85.0  True
删除 '及格' 列:
    姓名  年龄    成绩
0  张三  20  88.0
1  李四  21   NaN
2  王五  19  85.0

检测缺失值:
       姓名     年龄     成绩     及格
0  False  False  False  False
1  False  False   True  False
2  False  False  False  False
删除含缺失值的行:
    姓名  年龄    成绩    及格
0  张三  20  88.0  True
2  王五  19  85.0  True

按及格分组统计平均成绩:
 及格
True    86.5
Name: 成绩, dtype: float64

按成绩降序排序:
    姓名  年龄    成绩    及格
0  张三  20  88.0  True
2  王五  19  85.0  True
1  李四  21   NaN  True

重命名列:
   Name  年龄  Score    及格
0   张三  20   88.0  True
1   李四  21    NaN  True
2   王五  19   85.0  True

以姓名为索引:
     年龄    成绩    及格
姓名                
张三  20  88.0  True
李四  21   NaN  True
王五  19  85.0  True

透视表示例:
         成绩
及格        
True  86.5


In [11]:
# NumPy 基础知识

# 1. 创建数组
arr = np.array([1, 2, 3, 4, 5])
print("一维数组:", arr)

arr2d = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组:\n", arr2d)

# 2. 常用数组生成函数
zeros = np.zeros((2, 3))
ones = np.ones((2, 3))
arange = np.arange(0, 10, 2)
linspace = np.linspace(0, 1, 5)
print("全零数组:\n", zeros)
print("全一数组:\n", ones)
print("arange:", arange)
print("linspace:", linspace)

# 3. 数组属性
print("形状:", arr2d.shape)
print("维度:", arr2d.ndim)
print("数据类型:", arr2d.dtype)

# 4. 基本运算
print("加法:", arr + 10)
print("乘法:", arr * 2)
print("数组求和:", arr.sum())
print("最大值:", arr.max())
print("均值:", arr.mean())

# 5. 索引与切片
print("第 2 个元素:", arr[1])
print("前 3 个元素:", arr[:3])
print("二维数组第 1 行:", arr2d[0])
print("二维数组第 2 列:", arr2d[:, 1])

# 6. 布尔索引与条件筛选
print("大于 2 的元素:", arr[arr > 2])

# 7. 常用函数
print("平方根:", np.sqrt(arr))
print("正弦:", np.sin(arr))
print("矩阵转置:\n", arr2d.T)

一维数组: [1 2 3 4 5]
二维数组:
 [[1 2 3]
 [4 5 6]]
全零数组:
 [[0. 0. 0.]
 [0. 0. 0.]]
全一数组:
 [[1. 1. 1.]
 [1. 1. 1.]]
arange: [0 2 4 6 8]
linspace: [0.   0.25 0.5  0.75 1.  ]
形状: (2, 3)
维度: 2
数据类型: int64
加法: [11 12 13 14 15]
乘法: [ 2  4  6  8 10]
数组求和: 15
最大值: 5
均值: 3.0
第 2 个元素: 2
前 3 个元素: [1 2 3]
二维数组第 1 行: [1 2 3]
二维数组第 2 列: [2 5]
大于 2 的元素: [3 4 5]
平方根: [1.         1.41421356 1.73205081 2.         2.23606798]
正弦: [ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427]
矩阵转置:
 [[1 4]
 [2 5]
 [3 6]]


In [12]:
# NumPy 进阶常用知识补充

# 1. 数组形状变换
arr_reshape = arr.reshape((1, 5))  # 改变形状
print("reshape 后:", arr_reshape)

# 2. 数组拼接与分割
arr_concat = np.concatenate([arr, arr])  # 拼接
print("拼接:", arr_concat)
arr_split = np.split(arr, 5)  # 分割
print("分割:", arr_split)

# 3. 广播机制
arr_broadcast = arr + np.array([10])  # 自动扩展
print("广播加法:", arr_broadcast)

# 4. 随机数生成
rand_arr = np.random.rand(3, 3)  # 0-1 之间随机数
print("随机数组:\n", rand_arr)

# 5. 排序与唯一值
arr_sorted = np.sort(arr)
print("排序:", arr_sorted)
arr_unique = np.unique(arr_concat)
print("唯一值:", arr_unique)

# 6. 统计函数
print("标准差:", arr.std())
print("中位数:", np.median(arr))

# 7. 条件替换
arr_where = np.where(arr > 3, 100, arr)
print("条件替换:", arr_where)

# 8. 矩阵乘法
matmul = arr2d @ arr2d.T
print("矩阵乘法:\n", matmul)

reshape 后: [[1 2 3 4 5]]
拼接: [1 2 3 4 5 1 2 3 4 5]
分割: [array([1]), array([2]), array([3]), array([4]), array([5])]
广播加法: [11 12 13 14 15]
随机数组:
 [[0.48490294 0.90194804 0.90929341]
 [0.60658976 0.14464025 0.30105074]
 [0.30001978 0.17377231 0.43461852]]
排序: [1 2 3 4 5]
唯一值: [1 2 3 4 5]
标准差: 1.4142135623730951
中位数: 3.0
条件替换: [  1   2   3 100 100]
矩阵乘法:
 [[14 32]
 [32 77]]


In [None]:
# 一、查看数据类型
# 使用 type() 函数可以查看变量或值的数据类型：

# python
# 运行
# 基本数据类型
a = 10
print(type(a))  # <class 'int'>（整数）

<class 'int'>


In [1]:
b = 3.14
print(type(b))  # <class 'float'>（浮点数）

<class 'float'>


In [2]:
c = "hello"
print(type(c))  # <class 'str'>（字符串）

<class 'str'>


In [3]:
d = True
print(type(d))  # <class 'bool'>（布尔值）

<class 'bool'>


In [4]:
# 容器类型
e = [1, 2, 3]
print(type(e))  # <class 'list'>（列表）

<class 'list'>


In [5]:
f = (1, 2, 3)
print(type(f))  # <class 'tuple'>（元组）

<class 'tuple'>


In [6]:
g = {"name": "Alice"}
print(type(g))  # <class 'dict'>（字典）

<class 'dict'>


In [7]:
# pandas 数据类型
import pandas as pd
s = pd.Series([1, 2, 3])
print(type(s))  # <class 'pandas.core.series.Series'>（Series）

<class 'pandas.core.series.Series'>


In [8]:
df = pd.DataFrame({"A": [1, 2]})
print(type(df))  # <class 'pandas.core.frame.DataFrame'>（DataFrame）

<class 'pandas.core.frame.DataFrame'>


In [9]:
# 查看 pandas 列的数据类型
print(df.dtypes)  # A    int64（查看DataFrame各列类型）
print(s.dtype)    # int64（查看Series元素类型）

A    int64
dtype: object
int64


In [12]:
# 二、转换数据类型
# 使用 Python 内置的类型转换函数，或 pandas 提供的方法进行类型转换：
# 1. 基本数据类型转换
# python
# 运行
# 字符串转整数/浮点数
num_str = "123"
num_int = int(num_str)       # 转换为整数：123
num_float = float(num_str)   # 转换为浮点数：123.0

# 整数/浮点数转字符串
num = 456
num_to_str = str(num)        # 转换为字符串："456"

# 数值转布尔值（0/0.0 转为 False，其他为 True）
print(bool(0))       # False
print(bool(1))       # True
print(bool(3.14))    # True

# 布尔值转数值（True=1，False=0）
print(int(True))     # 1
print(float(False))  # 0.0


False
True
True
1
0.0


In [11]:
# 2. 容器类型转换
# python
# 运行
# 列表与元组互转
my_list = [1, 2, 3]
my_tuple = tuple(my_list)  # 列表转元组：(1, 2, 3)
my_list2 = list(my_tuple)  # 元组转列表：[1, 2, 3]

# 列表/元组转集合（去重且无序）
my_set = set(my_list)      # 列表转集合：{1, 2, 3}

# 字典相关转换（获取键/值列表）
my_dict = {"a": 1, "b": 2}
keys_list = list(my_dict.keys())    # 键转列表：['a', 'b']
values_list = list(my_dict.values())# 值转列表：[1, 2]


In [10]:
# 3. pandas 数据类型转换
# 在 pandas 中，常用 astype() 方法转换 Series 或 DataFrame 列的类型：

# python
# 运行
import pandas as pd

# 创建示例 DataFrame
df = pd.DataFrame({
    "A": ["1", "2", "3"],       # 字符串类型
    "B": [1.5, 2.5, 3.5],       # 浮点数类型
    "C": [True, False, True]    # 布尔类型
})

# 查看原始类型
print(df.dtypes)
# A    object（字符串在pandas中显示为object）
# B    float64
# C      bool
# dtype: object

# 转换列的类型
df["A"] = df["A"].astype(int)          # 字符串列转整数
df["B"] = df["B"].astype(int)          # 浮点数转整数（截断小数）
df["C"] = df["C"].astype(str)          # 布尔值转字符串

# 转换后的数据类型
print(df.dtypes)
# A      int64
# B      int64
# C     object
# dtype: object

# 特殊转换：字符串转日期（使用to_datetime）
df["date_str"] = ["2023-01-01", "2023-01-02", "2023-01-03"]
df["date"] = pd.to_datetime(df["date_str"])  # 字符串转日期类型
print(df["date"].dtype)  # datetime64[ns]

A     object
B    float64
C       bool
dtype: object
A     int64
B     int64
C    object
dtype: object
datetime64[ns]
