In [7]:
import pandas as pd
import numpy as np

# DataFrame 是 Pandas 中的另一个核心数据结构，类似于一个二维的表格或数据库中的数据表。
# 特点：
# 列的数据类型： 不同的列可以包含不同的数据类型，例如整数、浮点数、字符串或 Python 对象等。
# 索引：DataFrame 可以拥有行索引和列索引，类似于 Excel 中的行号和列标。
# 大小可变：可以添加和删除列，类似于 Python 中的字典。
# 自动对齐：在进行算术运算或数据对齐操作时，DataFrame 会自动对齐索引。
# 处理缺失数据：DataFrame 可以包含缺失数据，Pandas 使用 NaN（Not a Number）来表示。
# 数据操作：支持数据切片、索引、子集分割等操作。
# 时间序列支持：DataFrame 对时间序列数据有特别的支持，可以轻松地进行时间数据的切片、索引和操作。
# 灵活数据处理和高效数据统计

In [8]:
# 使用列表创建
data = [['Google', 10], ['Runoob', 12], ['Wiki', 13]]
print(pd.DataFrame(data, columns=['Site', 'Age']))
print('=============')
# 使用字典创建
data = {'Site':['Google', 'Runoob', 'Wiki'], 'Age':[10, 12, 13]}
df = pd.DataFrame(data)
print (df)
print('=============')
# 使用ndarray创建
# 创建一个包含网站和年龄的二维ndarray
ndarray_data = np.array([
    ['Google', 10],
    ['Runoob', 12],
    ['Wiki', 13]
])
df = pd.DataFrame(ndarray_data, columns=['Site', 'Age'])
# 打印数据帧
print(df)


     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
     Site  Age
0  Google   10
1  Runoob   12
2    Wiki   13
     Site Age
0  Google  10
1  Runoob  12
2    Wiki  13


In [13]:
# dataframe的常用方法

print('=============')
# 返回行数据
print(df.loc[[1,2]])
print('=============')
# 创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)

# 查看前两行数据
print(df.head(2))

# 查看 DataFrame 的基本信息
print(df.info())

# 获取描述统计信息
print(df.describe())

# 按年龄排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)

# 选择指定列
print(df[['Name', 'Age']])

# 按索引选择行
print('=======')
print(df.iloc[1:3])  # 选择第二到第三行（按位置）

# 按标签选择行
print('=======')
print(df.loc[1:2])  # 选择第二到第三行（按标签）

# 计算分组统计（按城市分组，计算平均年龄）
print(df.groupby('City')['Age'].mean())

# 处理缺失值（填充缺失值）
df['Age'] = df['Age'].fillna(30)

# 导出为 CSV 文件
df.to_csv('output.csv', index=False)

      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
    Name  Age         City
0  Alice   25     New York
1    Bob   30  Los Angeles
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    4 non-null      object
 1   Age     4 non-null      int64 
 2   City    4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None
             Age
count   4.000000
mean   32.500000
std     6.454972
min    25.000000
25%    28.750000
50%    32.500000
75%    36.250000
max    40.000000
      Name  Age         City
3    David   40      Houston
2  Charlie   35      Chicago
1      Bob   30  Los Angeles
0    Alice   25     New York
      Name  Age
0    Alice   25
1      Bob   30
2  Charlie   35
3    David   40
      Name  Age         City
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
      Name  Age         Cit

In [17]:
# loc和iloc的区别
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)
print(df)
print('=============')
# 使用loc选择行标签为1和2，列标签为'Name'和'City'的数据
selected_data_loc = df.loc[[1, 2], ['Name', 'City']]
print(selected_data_loc)
print('=============')
# 使用iloc选择第2和第3行（索引从0开始），第0和第2列的数据
selected_data_iloc = df.iloc[1:3, [0, 2]]
print(selected_data_iloc)
print('=============')
# 使用iloc选择第2和第3行（索引从0开始），第0和第2列的数据，前闭后开
selected_data_iloc = df.iloc[1:3, [0, 2]]
print(selected_data_iloc)


      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston
      Name         City
1      Bob  Los Angeles
2  Charlie      Chicago
      Name         City
1      Bob  Los Angeles
2  Charlie      Chicago
      Name         City
1      Bob  Los Angeles
2  Charlie      Chicago
