# 常用函数
## 读取数据

In [None]:
import pandas as pd

# 从 CSV 文件中读取数据
df = pd.read_csv('data.csv')

# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)

# 从 JSON 字符串中读取数据
json_string = '{"name": "John", "age": 30, "city": "New York"}'
df = pd.read_json(json_string)

# 从 HTML 页面中读取数据
url = 'https://www.runoob.com'
dfs = pd.read_html(url)
df = dfs[0] # 选择第一个数据框

## 查看数据

In [None]:
# 显示前五行数据
df.head()

# 显示后五行数据
df.tail()

# 显示数据信息
df.info()

# 显示基本统计信息
df.describe() # 显示数据的基本统计信息，包括均值、方差、最大值、最小值等；

# 显示数据的行数和列数
df.shape

实例

In [7]:
import pandas as pd

data = [
    {"name": "Google", "likes": 25, "url": "https://www.google.com"},
    {"name": "Runoob", "likes": 30, "url": "https://www.runoob.com"},
    {"name": "Taobao", "likes": 35, "url": "https://www.taobao.com"}
]

df = pd.DataFrame(data)
# 显示前两行数据
print(df.head(2))
# 显示前最后一行数据
print(df.tail(1))
print(df.describe())

     name  likes                     url
0  Google     25  https://www.google.com
1  Runoob     30  https://www.runoob.com
     name  likes                     url
2  Taobao     35  https://www.taobao.com
       likes
count    3.0
mean    30.0
std      5.0
min     25.0
25%     27.5
50%     30.0
75%     32.5
max     35.0


## 数据清洗

In [None]:
# 删除包含缺失值的行或列
df.dropna()

# 将缺失值替换为指定的值
df.fillna(0)

# 将指定值替换为新值
df.replace('old_value', 'new_value')

# 检查是否有重复的数据
df.duplicated()

# 删除重复的数据
df.drop_duplicates()

## 数据选择切片 https://www.runoob.com/pandas/pandas-functions.html

In [None]:
# 选择指定的列
df['column_name']

# 通过标签选择数据
df.loc[row_index, column_name]

# 通过位置选择数据
df.iloc[row_index, column_index]

# 通过标签或位置选择数据
df.ix[row_index, column_name]

# 选择指定的列
df.filter(items=['column_name1', 'column_name2'])

# 选择列名匹配正则表达式的列
df.filter(regex='regex')

# 随机选择 n 行数据
df.sample(n=5)

## 数据排序

In [None]:
# 按照指定列的值排序
df.sort_values('column_name')

# 按照多个列的值排序
df.sort_values(['column_name1', 'column_name2'], ascending=[True, False])

# 按照索引排序
df.sort_index()

## 数据分组与聚合

In [None]:
# 按照指定列进行分组
df.groupby('column_name')

# 对分组后的数据进行聚合操作
df.aggregate('function_name')

# 生成透视表
df.pivot_table(values='value', index='index_column', columns='column_name', aggfunc='function_name')

## 数据合并

In [None]:
# 将多个数据框按照行或列进行合并
df = pd.concat([df1, df2])

# 按照指定列将两个数据框进行合并
df = pd.merge(df1, df2, on='column_name')

## 数据统计和描述
```
df.describe()	计算基本统计信息，如均值、标准差、最小值、最大值等。
df.mean()	计算每列的平均值。
df.median()	计算每列的中位数。
df.mode()	计算每列的众数。
df.count()	计算每列非缺失值的数量。
```


## 实例

In [100]:
import pandas as pd

# 读取 JSON 数据
df = pd.read_json('data.json')
print(df)

# 删除缺失值
# df = df.dropna()
# print(df)

# 用指定的值填充缺失值
df = df.fillna({'age':0, 'score':0})
print("用指定的值填充缺失值\n", df)

# 重命名列名
df = df.rename(columns={'name':'姓名', 'age':'年龄', 'gender': '性别', 'score':'成绩'})
print("重命名列名\n", df)

# 按成绩排序
df = df.sort_values(by='成绩', ascending=False)
print("按成绩排序\n", df)

# 按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({'年龄':'mean', '成绩':'mean'})
print("按性别分组并计算平均年龄和成绩\n", grouped)

# 选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名', '成绩']]
print("选择成绩大于等于90的行，并只保留姓名和成绩两列\n", df)

# 计算每列的基本统计信息
stats = df.describe()

# 计算每列的平均值
means = df['成绩'].mean()

# 计算每列的中位数
medians = df['成绩'].median()

# 计算每列的众数
modes = df.mode()

# 计算每列非缺失值的数量
counts = df.count()
print('统计数据')
print(f'stats:\n{stats}\n')
print(f'mean:{means}\n')
print(f'median:{medians}\n')
print(f'mode:\n{modes}\n')
print(f'count:\n{counts}')

      name   age  gender  score
0    Alice  25.0  female   80.0
1      Bob   NaN    male   90.0
2  Charlie  30.0    male    NaN
3    David  35.0    male   70.0
用指定的值填充缺失值
       name   age  gender  score
0    Alice  25.0  female   80.0
1      Bob   0.0    male   90.0
2  Charlie  30.0    male    0.0
3    David  35.0    male   70.0
重命名列名
         姓名    年龄      性别    成绩
0    Alice  25.0  female  80.0
1      Bob   0.0    male  90.0
2  Charlie  30.0    male   0.0
3    David  35.0    male  70.0
按成绩排序
         姓名    年龄      性别    成绩
1      Bob   0.0    male  90.0
0    Alice  25.0  female  80.0
3    David  35.0    male  70.0
2  Charlie  30.0    male   0.0
按性别分组并计算平均年龄和成绩
                年龄         成绩
性别                          
female  25.000000  80.000000
male    21.666667  53.333333
选择成绩大于等于90的行，并只保留姓名和成绩两列
     姓名    成绩
1  Bob  90.0
统计数据
stats:
         成绩
count   1.0
mean   90.0
std     NaN
min    90.0
25%    90.0
50%    90.0
75%    90.0
max    90.0

mean:90.0

median:90.0

mode:
    姓名  