### 读取数据
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            pd.read_csv(filename)
        </td>
        <td>
           读取CSV文件
        </td>
    </tr>
        <td>
            pd.read_excel(filename)
        </td>
        <td>
           读取Excel文件
        </td>
    </tr>
        <td>
            pd.read_sql(query, connection_object)
        </td>
        <td>
           从SQL数据库读取数据
        </td>
    </tr>
        <td>
            pd.read_json(json_string)
        </td>
        <td>
           从JSON字符串中读取数据
        </td>
    </tr>
        <td>
            pd.read_html(url)
        </td>
        <td>
           从HTML页面中读取数据
        </td>
    </tr>

</table>

In [5]:
import pandas as pd

# 从 CSV 文件中读取数据
df = pd.read_csv('nba.csv')

# 从 Excel 文件中读取数据
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库中读取数据
import sqlite3
conn = sqlite3.connect('D:/desktop/pandas_study/dataset.db')
# df = pd.read_sql('SELECT * FROM table_name', conn)

# 从 JSON 字符串中读取数据
json_string = [
                {
                "id": "A001",
                "name": "菜鸟教程",
                "url": "www.runoob.com",
                "likes": 61
                }
            ]
df = pd.DataFrame(json_string)

# 从 HTML 页面中读取数据
# url = 'https://static.runoob.com/'
# dfs = pd.read_html(url)
# df = dfs[0] # 选择第一个数据框

### 查看数据
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.head(n)
        </td>
        <td>
           显示前n行数据
        </td>
    </tr>
        <td>
            df.tail(n)
        </td>
        <td>
           显示后n行数据
        </td>
    </tr>
        <td>
            df.info()
        </td>
        <td>
           显示数据的信息，包括列名，数据类型，缺失值等
        </td>
    </tr>
        <td>
            df.describe()
        </td>
        <td>
           显示数据的基本统计信息，包括均值，方差，最大值，最小值等
        </td>
    </tr>
        <td>
            df.shape
        </td>
        <td>
           显示数据的行数和列数
        </td>
    </tr>

</table>

In [6]:
data = [
    {"name": "Google", "likes": 25, "url": "https://www.google.com"},
    {"name": "Runoob", "likes": 30, "url": "https://www.runoob.com"},
    {"name": "Taobao", "likes": 35, "url": "https://www.taobao.com"}
]

df = pd.DataFrame(data)
print(df.head(2))
print(df.tail(1))

     name  likes                     url
0  Google     25  https://www.google.com
1  Runoob     30  https://www.runoob.com
     name  likes                     url
2  Taobao     35  https://www.taobao.com


### 数据清洗
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.dropna()
        </td>
        <td>
           删除包含缺失值的行或列
        </td>
    </tr>
        <td>
            df.fillna(value)
        </td>
        <td>
           将缺失值替换为指定的值
        </td>
    </tr>
        <td>
            df.replace(old_value, new_value)
        </td>
        <td>
           将指定值替换为新值
        </td>
    </tr>
        <td>
            df.duplicated()
        </td>
        <td>
           检查是否有重复的数据
        </td>
    </tr>
        <td>
            df.drop_duplicates()
        </td>
        <td>
           删除重复的数据
        </td>
    </tr>

</table>

### 数据选择和切片
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df[column_name]
        </td>
        <td>
           选择指定的列
        </td>
    </tr>
        <td>
            df.loc[row_index, column_name]
        </td>
        <td>
           通过标签选择数据
        </td>
    </tr>
        <td>
            df.iloc[row_index, column_index]
        </td>
        <td>
           通过位置选择数据
        </td>
    </tr>
        <td>
            df.ix(row_index, column_name)
        </td>
        <td>
           通过标签或位置选择数据
        </td>
    </tr>
        <td>
            df.filter(items=[column_name1, column_name2])
        </td>
        <td>
           选择指定的列
        </td>
    </tr>
        <td>
            df.filter(regex='regex')
        </td>
        <td>
           选择列名匹配正则表达式的列
        </td>
    </tr>
        <td>
            df.sample(n)
        </td>
        <td>
           随机选择 n 行数据
        </td>
    </tr>

</table>

### 数据排序
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.sort_values(column_name)
        </td>
        <td>
           按照指定列的值排序
        </td>
    </tr>
        <td>
            df.sort_values([column_name1, column_name2], ascending = [True, False])
        </td>
        <td>
           按照多个列的值排序
        </td>
    </tr>
        <td>
            df.sort_index()
        </td>
        <td>
           按照索引排序
        </td>
    </tr>
        
</table>

### 数据分组和聚合
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.groupby(column_name)
        </td>
        <td>
           按照指定列进行分组
        </td>
    </tr>
        <td>
            df.aggregate(function_name)
        </td>
        <td>
           对分组后的数据进行聚合操作
        </td>
    </tr>
        <td>
            df.pivot_table(values, index, columns, aggfunc)
        </td>
        <td>
           生成透视表
        </td>
    </tr>
        
</table>

### 数据合并
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            pd.concat([df1, df2])
        </td>
        <td>
           将多个数据框按照行或列进行合并
        </td>
    </tr>
        <td>
            pd.merge(df1, df2, on=column_name)
        </td>
        <td>
           按照指定列将两个数据框进行合并
        </td>
    </tr>
        
</table>

### 数据选择和过滤
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.loc[row_indexer, column_indexer]
        </td>
        <td>
           按标签选择行和列
        </td>
    </tr>
        <td>
            df.iloc[row_indexer, column_indexer]
        </td>
        <td>
           按位置选择行和列
        </td>
    </tr>
        <td>
            df[df['column_name'] > value]
        </td>
        <td>
           选择列中满足条件的行
        </td>
    </tr>
        <td>
            df.query('column_name > value')
        </td>
        <td>
           	使用字符串表达式选择列中满足条件的行
        </td>
    </tr>

### 数据选统计和描述
<table>
    <tr>
        <td>
            函数
        </td>
        <td>
           说明
        </td>
    </tr>
        <td>
            df.describe()
        </td>
        <td>
           计算基本统计信息，如均值、标准差、最小值、最大值等
        </td>
    </tr>
        <td>
            df.mean()
        </td>
        <td>
           计算每列的平均值
        </td>
    </tr>
        <td>
            df.median()
        </td>
        <td>
           计算每列的中位数
        </td>
    </tr>
        <td>
            df.mode()
        </td>
        <td>
           	计算每列的众数
        </td>
    </tr>
        <td>
            df.count()
        </td>
        <td>
           	计算每列非缺失值的数量
        </td>
    </tr>

In [13]:
df = pd.read_json('data.json')
#删除缺失值
# df = df.dropna()
print(df)
#用指定的值填充缺失的值
df = df.fillna({'age': 0, 'score': 0})
print(df)
#重命名列名
df = df.rename(columns={'name':'姓名', 'age':'年龄', 'gender':'性别', 'score':'成绩'})
print(df)
#按成绩排序
df = df.sort_values(by='成绩', ascending=False)
print(df)
#按性别分组并计算平均年龄和成绩
grouped = df.groupby('性别').agg({'年龄':'mean', '成绩':'mean'})
print(grouped)
#选择成绩大于等于90的行，并只保留姓名和成绩两列
df = df.loc[df['成绩'] >= 90, ['姓名','成绩']]
print(df)
#计算每列的基本统计信息
df = pd.read_json('data.json')
stats = df.describe()
#计算平均值，中位数，众数缺失值
mean = df.mean()
print(mean)
median = df.median()
print(median)
mode = df.mode()
print(mode)
count = df.count()
print(count)

      name   age  gender  score
0    Alice  25.0  female   80.0
1      Bob   NaN    male   90.0
2  Charlie  30.0    male    NaN
3    David  35.0    male   70.0
      name   age  gender  score
0    Alice  25.0  female   80.0
1      Bob   0.0    male   90.0
2  Charlie  30.0    male    0.0
3    David  35.0    male   70.0
        姓名    年龄      性别    成绩
0    Alice  25.0  female  80.0
1      Bob   0.0    male  90.0
2  Charlie  30.0    male   0.0
3    David  35.0    male  70.0
        姓名    年龄      性别    成绩
1      Bob   0.0    male  90.0
0    Alice  25.0  female  80.0
3    David  35.0    male  70.0
2  Charlie  30.0    male   0.0
               年龄         成绩
性别                          
female  25.000000  80.000000
male    21.666667  53.333333
    姓名    成绩
1  Bob  90.0
age      30.0
score    80.0
dtype: float64
age      30.0
score    80.0
dtype: float64
      name   age gender  score
0    Alice  25.0   male   70.0
1      Bob  30.0    NaN   80.0
2  Charlie  35.0    NaN   90.0
3    David   NaN  