In [76]:
import pandas as pd

data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]

# 创建DataFrame(使用列表)
df = pd.DataFrame(data, columns=['Site', 'Age']) # 注意是如何对应的

# 使用astype方法设置每列的数据类型
df['Site'] = df['Site'].astype(str)
df['Age'] = df['Age'].astype(float)

print(df)

# 使用字典创建DataFrame（更常用）
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
df = pd.DataFrame(data) # 可使用index=自定义索引
print (df)
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
print(df)

# 返回第一行(Series)
print(df.loc[0])
# 返回第二行
print(df.loc[1])
# 返回第一行和第二行
print(df.loc[[0, 1]])

     Site   Age
0  Google  10.0
1  Runoob  12.0
2    Wiki  13.0
     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
   a   b     c
0  1   2   NaN
1  5  10  20.0
a    1.0
b    2.0
c    NaN
Name: 0, dtype: float64
a     5.0
b    10.0
c    20.0
Name: 1, dtype: float64
   a   b     c
0  1   2   NaN
1  5  10  20.0


In [None]:
import pandas as pd

# 创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

# 查看前两行数据
print(df.head(2), end="\n=")

# 查看列名
print("列名：\n",df.columns)

# 查看 DataFrame 的基本信息
print("信息：\n",df.info(), end="\n=")

# 获取描述统计信息(只对数字列操作)
print(df.describe(), end="\n=")

# 按年龄排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted, end="\n=")

# 选择指定列
print(df[['Name', 'Age']], end="\n=")

# 按索引选择行
print(df.iloc[1:3], end="\n=")  # 选择第二到第三行（按位置）

# 按标签选择行
print(df.loc[1:2], end="\n=")  # 选择第二到第三行（按标签）
"""
iloc严格按照位置的数字索引获取数据（索引从0开始且不选末位）；
loc按照标签选取数据，标签可以是列名、索引/自定义索引，并且包含末位
[]索引主要选择列，常用于布尔索引
# 布尔索引筛选
df[df['Age'>18]]
"""

# 计算分组统计（按城市分组，计算平均年龄）
print("分组：\n", df.groupby('City')['Age'].mean(), end="=")

# 处理缺失值（填充缺失值）
df['Age'] = df['Age'].fillna(30)

# 导出为 CSV 文件
df.to_csv('output.csv', index=False)

"""
其他常用
df.apply(func) # 对每个元素运用函数
df.merge(df2) # 合并DataFrame(pd.concat([df1,df2,df3])按列或者行连接两/多个Df)
df.duplicated # 寻找重复值，返回布尔DF
df.drop_duplicates # 去重
df.to_sql('filename.sql') # 导出为sql文件
df['Column1'] = df['Column1'].astype('float64') # 转换列数据类型
df['Column1'].sum()
"""

    Name  Age         City
0  Alice   25     New York
1    Bob   30  Los Angeles
=列名：
 Index(['Name', 'Age', 'City'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
信息：
 None
=             Age
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000
=      Name  Age         City
3    David   40      Houston
2  Charlie   35      Chicago
1      Bob   30  Los Angeles
0    Alice   25     New York
=      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40
=      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
=      Name  Age         City
1      Bob   30  Los A

"\n其他常用\ndf.apply(func) # 对每个元素运用函数\ndf.merge(df2) # 合并DataFrame(pd.concat([df1,df2,df3])按列或者行连接两/多个Df)\ndf.duplicated # 寻找重复值，返回布尔DF\ndf.drop_duplicates # 去重\ndf.to_sql('filename.sql') # 导出为sql文件\n"

In [78]:
# DataFrame 的属性和方法
print(df.shape)     # 形状
print(df.columns)   # 列名
print(df.index)     # 索引
print(df.head())    # 前几行数据，默认是前 5 行
print(df.tail())    # 后几行数据，默认是后 5 行
print(df.info())    # 数据信息
print(df.describe(include="all"))# 描述统计信息
print(df.mean(numeric_only=True))    # 求平均值
print(df.sum())     # 求和, 对字符串则是直接连接

(4, 3)
Index(['Name', 'Age', 'City'], dtype='object')
RangeIndex(start=0, stop=4, step=1)
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None
         Name        Age      City
count       4   4.000000         4
unique      4        NaN         4
top     Alice        NaN  New York
freq        1        NaN         1
mean      NaN  32.500000       NaN
std       NaN   6.454972       NaN
min       NaN  25.000000       NaN


In [None]:
# 增删改
print(df)

# 增加列
df["new_column"] = [1,2,3,4]
print(df)

# 增加行
# 使用 loc 为特定索引添加新行
df.loc[4] = [13, 14, 15, 16]
print(df)
df = df.drop(4)
# 使用 concat 添加新行到末尾
new_row = pd.DataFrame([['Wes', 21, 'Shenzhen', 16]], columns=['Name', 'Age', 'City', 'new_column'])  # 创建一个只包含新行的DataFrame
print(new_row)
df = pd.concat([df, new_row], ignore_index=True)
print(df)

# 修改列
df['new_column'] = [5,4,3,2,1]
print(df)

# 修改行
df.loc[4] = ['WWes', 31, 'Los', 9]
print(df)

# 删除列
drop_df = df.drop('new_column', axis=1)
# 删除行
drop_df = drop_df.drop(0) # 会连带索引一起删（其他索引不发生改变）
print(drop_df)


      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
      Name  Age         City  new_column
0    Alice   25     New York           1
1      Bob   30  Los Angeles           2
2  Charlie   35      Chicago           3
3    David   40      Houston           4
      Name  Age         City  new_column
0    Alice   25     New York           1
1      Bob   30  Los Angeles           2
2  Charlie   35      Chicago           3
3    David   40      Houston           4
4       13   14           15          16
  Name  Age      City  new_column
0  Wes   21  Shenzhen          16
      Name  Age         City  new_column
0    Alice   25     New York           1
1      Bob   30  Los Angeles           2
2  Charlie   35      Chicago           3
3    David   40      Houston           4
4      Wes   21     Shenzhen          16
      Name  Age         City  new_column
0    Alice   25     New York           5
1      B