# 设定系统环境

In [2]:
import pandas as pd
import numpy as np
import math
pd.options.display.max_rows = 10 # 设定自由列表输出最多10行
pd.__version__ # 显示当前pandas版本号

'0.24.2'

# 获取数据

## 新建数据框

In [None]:
df1 = pd.DataFrame(
{
    'var1': 1.0,
    'var2': [1,2,3,4],
    'var3': ["test", "train", "test","train"],
    'var4': 'cons'
}
)
df1

## 读入文本格式数据文件

In [None]:
df2 = pd.DataFrame(data = [[1,"test"], [2,"train"], [3,"test"], [4,"train"]], columns = ['var2', 'var3'])
df2

## 读入EXCEL文件

##  读入统计软件数据集
### 读入SAS/Stata数据文件

In [None]:
file_dir =  "..\\04 data\\"
filename = "university.csv"

In [None]:
df_university = pd.read_csv(file_dir + filename)
df_university

In [None]:
df_university2 = pd.read_table(file_dir + filename,sep=',',encoding='utf-8')
df_university2

In [None]:
df3 = pd.read_excel(file_dir + "大学排行榜.xlsx", sheet_name = 'full')

## 读入统计软件数据集
### 读入SAS/Stata数据文件
### 读入SPSS数据文件

## 读入数据库文件
### 配置所需的程序包和驱动
* 所需程序包
    * SQLAchemy engine:几乎可以使用任何常见的DB格式和操作命令
    * DBAPI2 connection:只对sqlite3有较完整的支持
* 驱动配置：QLAAcheemy docs

### 读入数据表
```
pd.read_sql(
    sql:需要执行的SQL语句、要读入的表名称
    con: SQLALchemy连接引擎名称
    index_col = None: 将被用作索引的列名称
    colums = None: 当提供名称时，需要读入的列名称list
)
read_sql_quera()
read_sql_table()
```

# 保存数据
## 保存数据至外部文件
```
df.to_csv(
    filepath_or_buffer: 要保存的文件路径
    sep = ',' ：分隔符
    columns: 需要导出的变量列表
    header = True: 指定导出数据的新变量名，可直接提供list
    index = True: 是否导出索引
    mode = 'w': 其他读写模式r r+ w w+ a a+
    encoding = 'utf-8' :默认导出的文件编码格式
)
```

```
df.to_excel(
    filepath_or_buffer ：要读入的文件路径
    sheet_name = 'sheet1' : 要保存的表单名称
)
```

In [None]:
df_university.to_csv(file_dir+ 'tmp.csv', header = True)

In [None]:
df4 = pd.read_csv(file_dir + 'tmp.csv')

In [None]:
df4

## 保存数据到数据库
```
df.to_sql(
    name: 将要存储数据的表名称
    con: SQLAlchemy引擎/DBAPI2连接引擎名称
    if_exists = 'fail': 指定表已经存在时除了方式
        fail : 不做处理
        replace： 删除原表并重建新表
        append: 在原表后插入新数据
    index = True: 是否导出索引
)
```

# 变量列的基本操作
## 对数据做简单浏览

In [None]:
file_path_in = "..\\04 data\\PythonData\\"
file_name_in = "高校信息.csv"

In [None]:
df1 = pd.read_csv(file_path_in + file_name_in, encoding='gb2312')

In [None]:
print(df1)

In [None]:
# 数据框的基本信息
df1.info()

In [None]:
# 浏览前N条记录
df1.head(2)

In [None]:
# 浏览后N条记录
df1.tail(3)

## 重命名列
* 直接修改columns属性
```
df.columns = 新的名称list
```
* 只修改指定列名

```
df.rename(
    columns = 新旧名称字典：{'旧名称': '新名称'}
    inplace = False: 是否直接替代原始数据
)
```

In [None]:
# 给出变量名、列名
df1.columns

In [None]:
df1.columns = ['名次', '学校名称', '总分', '类型', '所在省份', '所在城市', '办学方向', '主管部门']

In [None]:
df2 = df1.rename(columns={'名次':'名次2'},inplace=False)

In [None]:
df2

## 筛选变量列
df.var
    * 只适合已经存在的列
    * 智能筛选单列，结果为Series

In [None]:
df2.名次2

df['var']
    单列的筛选结果为Series，如果希望为df，需要使用列表形式
    
df[ ['var1','var2'] ]
    多列时，列名需要使用列表形式提供
    多列的筛选结果为DF

In [None]:
df2[[ '名次2','总分']]

## 删除变量列
```
df.drop(
    index/columns = 准备删除的行/列标签，多个时用列表形式提供
    inplace = False 是否直接更改原始数据
)
```

In [None]:
df2.drop(columns= ['名次2', '所在城市'])

## 变量类型的变换
### Pandas支持的数据类型
具体类型是Python，Numpy各种类型的混合
* float
* int
* string
* bool
* datetime64[ns],datetime64[ns,tz],timedalta[ns]
* category
* object
df.dtypes:查看各列的数据类型

In [None]:
df2.dtypes

### 在不同数据类型间转换
```
df.astype(
    dtype:指定希望转换的数据类型
    copye = True: 是否生成新的副本，而不是替换数据框
    errors = 'raise':转换出错是否抛出错误，'raise/ignore'
)
```

In [None]:
df2.astype('str').dtypes

In [None]:
df2.astype('int',errors = 'ignore').dtypes

In [None]:
df2[['名次2','总分']].astype('str').dtypes

## 实战；对PM数据做简单清理
要求
    * 在数据中删除对后续分析无用的Parameter、Duration、QC Name等变量列
    * 尝试对Date(Lst)、Value等变量进行重命名
    * 尝试对数据做各种类型转换

# Padas索引
索引的用途
* 用于分析、可视化、数据展示、数据操作中标记数据行
* 提供数据汇总、合并、筛选时关键依据
* 提供数据重构时的关键依据

注意事项
* 索引是不可以直接修改，智能增、删、替换
* 逻辑上索引不应当出现重复值，Pandas对这种情况不好报错，但显然有潜在风险

## 建立索引
### 新建数据框时建立索引
所有的数据框默认都已经拥有流水号格式的索引，因此这里的“建立”索引值的时自定义索引

In [None]:
df1 = pd.DataFrame(
{'var1':1.0, 'var2':[1,2,3,5], 'var3':["test","train","test","train"], 'var4': 'cons'}, index = ['a','b','c','d']
)
df1

### 读数据时建立索引
数据列直接提供索引值，因此指明相应的数据列即可

In [None]:
df2 = pd.read_csv(file_path_in + file_name_in, encoding='gbk',index_col="学校名称")
df2

In [None]:
# 生成复合索引
df3 = pd.read_csv(file_path_in + file_name_in, encoding='gbk',index_col=["学校名称","类型"])
df3

### 指定某列为索引列
```
df.set_index(
    keys: 被指定为索引的列名，复合索引用list格式提供
    drop = True: 建立索引后是否删除该列
    append = False: 是否在原索引上添加索引，默认是直接替换原索引
    inplace = False: 是否直接修改原始数据
)
```

In [None]:
df4 = pd.read_csv(file_path_in + file_name_in,encoding='gbk')
df4

In [None]:
df5 = df4.set_index('名次')
df5

In [None]:
# 生成复合索引
df5 = df4.set_index('名次', append = True, drop = False)
df5

## 将索引还原为变量列
df.reset_index(
    drop = False: 是否将索引直接删除，而不是还原为变量列
    inplace = False:是否直接修改数据框
    level = None:对于多重索引，确定转为哪个级别变量
)

In [None]:
df6 = df4.copy() # 真正生成副本，而不是指定另外别名
df6.set_index('所在省份', inplace = True, append = True)
df6

In [None]:
df6.reset_index(inplace = True)
df6

## 引用和修改索引
### 引用索引

In [None]:
df4.index

In [None]:
df5.index

## 修改索引
### 修改索引名
本质上和变量列名的修改方式相同

In [None]:
df4.index.names

In [None]:
df5.index.names

In [None]:
df4.index.names = ['idx']
df4.index.names

### 修改索引值
这里的修改本质上是全部替换

In [None]:
df6 = pd.DataFrame(
{
    'var1': 1.0,
    'var2': [1,2,3,4],
    'var3': ["test", "train", "test","train"],
    'var4': 'cons'
}
)
df6

In [None]:
df6.index = ['a','b','c','d']
df6

### 强行更新索引
reindex则可以使用数据框中不存在的数值建立索引，并据此扩充新索引值对应的索引行/列，同时进行缺失值填充操作
```
df.reindex(
    labels:类数组结构的数值，将按此数值重建索引，非必须
    axis:针对哪个轴进行重建
            ('index','columns') or number(0,1)
    copy=True: 建立新对象而不是直接更改
    level:考虑被重建的索引级别
    
    缺失数据的处理方式
        method :针对已经拍下的索引，确定数据单元格无数据时的填充方法，非必须
            pad/ffill:用前面的有效数值填充
            backfill/bfill:用后面的有效数值填充
            nearest: 使用最接近的数值进行填充
        fill_value = np.NaN: 将缺失值用什么数代替
        limit = None :向前/向后填充时的最大步长
)
```

In [None]:
df4.set_index('名次')

In [None]:
df4.reindex()

In [None]:
df4.reindex([1,2,99,101])

In [None]:
df4.reindex([1,2,99,101], method = 'ffill')

In [None]:
df4.reindex([1,2,99,101], fill_value = '不知道')

In [None]:
df4.reindex([1,2,99,101], fill_value = '不知道').dtypes

## 实战：为PM2.5数据建立索引
要求：
* 尝试在读入文件时直接建立索引
* 尝试使用Date(LST)建立单一索引
    为了便于操作，最好重命名
* 尝试使用Year,Month,Day,Hour建立复合索引
* 尝试修改索引名

# 案例行的基本操作

## 案例排序
### 用索引排序
```
df.sort_index(
    level:(多重索引)指定用于排序的级别序号、名称
    ascending = True:是否为升序拍了
    inplace = False
    na_position = 'last':缺失值的排列顺序，'first' 'last'
)
```

In [None]:
file_path_in = "..\\04 data\\PythonData\\"
file_name_in = "高校信息.xlsx"
df2 = pd.read_excel(file_path_in+file_name_in,sheet_name=0)
df2.set_index(['类型','学校名称'],inplace = True)
df2

In [None]:
df2.sort_index()

In [None]:
df2.sort_index(ascending = [True,False])

In [None]:
df2

### 用变量值排序
```
df.sort_values(
    by:指定用于排序的变量名，多列时以列表形式提供
    ascending = True:是否升序排序
    inplace = False
    na_position = 'last':缺失值的排列顺序，'first' 'last'
)
```

In [None]:
df2.sort_values(['所在省份','所在城市'])

## 案例筛选
筛选的本质：基于T/F进行筛选

In [None]:
sellist = [True, False, True]
df2.iloc[sellist]

### 按照绝对位置进行筛选
df.iloc
    意为integer-location，即按照行序号进行检索
    可以同时指定行列，指定列时，需先用","表面列序号

In [None]:
df2.iloc[0:3] #不包括右侧界值

In [None]:
df2.iloc[[0,3]]

In [None]:
df2.iloc[:,0:3]#指定列范围,不包括右侧边界值

In [None]:
df2.iloc[1:4, [0,3]] # 同时指定行列

### 按照索引值进行筛选

```
df.loc
    按照给出的索引值进行筛选
    筛选范围包括上下界值
    出现未知索引值会报错
df.xs(key, axis=0, level=None, drop_level=True)
    指定具体检索用的多重索引级别
```

In [None]:
df3 = pd.read_excel(file_path_in+file_name_in,sheet_name=0,index_col='名次')
df3

In [None]:
df3 = pd.read_excel(file_path_in+file_name_in,sheet_name=0,index_col='学校名称')
df3

In [None]:
df3.loc[['北京大学','复旦大学'],['所在省份','名次','总分'] ]

In [None]:
df2.xs('北京大学',level = 1)

### 使用混合模式进行筛选

```
df.ix
    不建议使用
```

使用loc命令进行筛选，即可

### 列表筛选

df[筛选条件]

#### 按照数据范围进行筛选

In [None]:
df3[df3.名次>10]
#df3[df3['名次']>10]

#### 按照列表筛选

`
df.isin(values)
    返回结果为相应的位置是否匹配给出的values
    values为序列：对应每个具体值
    values为字典：对应每个变量名次
    values为数据框：同时对应数值和变量名称
`

In [None]:
df3[df3['名次'].isin([1,3,5])]

### 条件筛选

In [None]:
df3[df3.所在省份.isin(['北京','上海'])]

#### 多重条件的联合筛选

In [None]:
df4 = df3[df3['名次'] >10]
df4[df4['名次'] < 90]

### 用类SQL语句进行筛选
`
df.query(
    expr: 类SQL语句表达式
    可以使用前缀'@'引用环境变量
    不支持like语句
    inplace = False
)
`

In [None]:
df3.query("名次 > 10 and 名次 < 90 and 所在省份 not in ('北京','上海')")

## 实战：筛选数据中所需的案例

```
高校信息数据：
    分别使用索引、非索引和类SQL方式，筛选出 教育部主管的总分低于70分的大学
    只将主管部门设定为索引，重新实现上述需求
北京PM2.5数据:
    筛选出 PM2.5 > 200 的案例
    筛选出 2016年10月，PM2.5 > 100的案例
    筛选出 2016年10月上班时间（9:00AM-5:00PM）,PM2.5>100的案例
```

In [None]:
file_path_high_school = "..\\04 data\\PythonData\\"
file_name_high_school = "高校信息.csv"
file_path_pm2p5 =  "..\\04 data\\PythonData\\PM25\\"
file_name_pm2p5 = 'Beijing_2016_HourlyPM25_created20170201.csv'

In [None]:
df_high_school = pd.read_csv(file_path_high_school+file_name_high_school,engine='python')
df_pm2p5 = pd.read_csv(file_path_pm2p5+file_name_pm2p5,engine='python',encoding='utf8')

In [None]:
# 索引
df_high_school1 = df_high_school.set_index(['主管部门'])
df_high_school2 = df_high_school1.loc[ ['教育部'], ]
df_high_school3 = df_high_school2[ df_high_school2['总分'] < 70 ]
df_high_school3

In [None]:
#非索引
df_high_school1 = df_high_school[ df_high_school['主管部门'] == '教育部' ]
df_high_school2 = df_high_school1[ df_high_school1['总分'] < 70  ]
df_high_school2

In [None]:
# SQL
df_high_school.query("主管部门 in ('教育部') and 总分 < 70")

# 变量变换
## 计算新变量
### 新变量为常数

```
df[ 'varname' ] = value
```

In [3]:
file_path_high_school = "..\\04 data\\PythonData\\"
file_name_high_school = "高校信息.csv"
df_high_school = pd.read_csv(file_path_high_school+file_name_high_school,engine='python')

In [4]:
df_high_school.head()

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门
0,1,北京大学,100.0,综合,北京,北京市,中国研究型,教育部
1,2,清华大学,98.5,理工,北京,北京市,中国研究型,教育部
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部


In [5]:
df_high_school['cons'] = 1
df_high_school

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons
0,1,北京大学,100.00,综合,北京,北京市,中国研究型,教育部,1
1,2,清华大学,98.50,理工,北京,北京市,中国研究型,教育部,1
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1
...,...,...,...,...,...,...,...,...,...
95,96,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1
96,97,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1
97,98,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1
98,99,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1


###  新变量基于一个/多个原变量做简单四则运算
```
df['varname'] = df['oldvar'] * 100
df['varname'] = df.oldvar *100
```

In [6]:
df_high_school['new'] = df_high_school['总分'] + df_high_school['名次'] + 1
df_high_school

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new
0,1,北京大学,100.00,综合,北京,北京市,中国研究型,教育部,1,102.00
1,2,清华大学,98.50,理工,北京,北京市,中国研究型,教育部,1,101.50
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,86.79
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1,87.43
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1,88.38
...,...,...,...,...,...,...,...,...,...,...
95,96,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,160.37
96,97,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,161.34
97,98,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,162.32
98,99,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,163.31


In [7]:
df_high_school['new'] = np.sqrt(df_high_school['总分'])
df_high_school

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new
0,1,北京大学,100.00,综合,北京,北京市,中国研究型,教育部,1,10.000000
1,2,清华大学,98.50,理工,北京,北京市,中国研究型,教育部,1,9.924717
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,9.098901
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1,9.079097
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1,9.076343
...,...,...,...,...,...,...,...,...,...,...
95,96,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528
96,97,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643
97,98,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387
98,99,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758


### 新变量基于一个原变量
```
df.apply(
    func:希望对行、列执行的函数表达式
    axis = 0：针对行还是列进行计算？
        0/'index':针对每列进行计算
        1/'columns':针对每行进行计算，
    )
简化用法
    df['varname']  = df.oldvar.apply(函数表达式)
```

In [14]:
df_high_school['new3'] = df_high_school['总分'].apply(np.sqrt)
df_high_school

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,北京大学,100.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,清华大学,98.50,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...
95,96,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


```
特殊运算的实现方式，截取变量的第1个字符
def m_head(tmpstr):
    return tmpstr[:1]
对所有单元格进行相同对函数运输
    dfnew = df.applymap(函数表达式) #是以cell为单位进行操作
```，

In [17]:
df_high_school[ ['名次','总分']].applymap(math.sqrt)

Unnamed: 0,名次,总分
0,1.000000,10.000000
1,1.414214,9.924717
2,1.732051,9.098901
3,2.000000,9.079097
4,2.236068,9.076343
...,...,...
95,9.797959,7.960528
96,9.848858,7.958643
97,9.899495,7.957387
98,9.949874,7.956758


## 在指定位置插入心变量列
```
df.insert(
    loc:插入位置的索引值，0<=loc<=len(columns)
    column:插入对新列名称
    value:Series或者类数据结构的变量值
    allow_duplicates = False:是否允许新列重名
    )
#该方法会直接修改原df
```

In [18]:
df_high_school.insert(1,'newvar','cons')
df_high_school

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,100.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,cons,清华大学,98.50,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,cons,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,cons,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,cons,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


## 修改，替换变量值
本质上是如何直接指定到单元格的问题，只要能够准确的定位在那个地址，就能够做到准确的替换

In [23]:
df_high_school[df_high_school['所在城市'].isin(['上海'])]

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
70,71,cons,第二军医大学,64.74,医药,上海,上海,行业特色研究型,,1,8.046117,8.046117


### 对于数值对替换
```
df.replace(
   to_replace = None:将被替换的原数值，所有严格匹配对数值将被用value替换
    value = Nome:希望填充的新数值
    inplace = False
    )
```

In [24]:
df_high_school['所在城市'].replace('北京市','帝都')

0      帝都
1      帝都
2     上海市
3     武汉市
4     杭州市
     ... 
95    金华市
96    合肥市
97     帝都
98    无锡市
99    太原市
Name: 所在城市, Length: 100, dtype: object

In [28]:
df_high_school['所在城市'].replace(['北京市','上海市'],['帝都','魔都'])

0      帝都
1      帝都
2      魔都
3     武汉市
4     杭州市
     ... 
95    金华市
96    合肥市
97     帝都
98    无锡市
99    太原市
Name: 所在城市, Length: 100, dtype: object

In [29]:
#字典批量映射替换
df_high_school['所在城市'].replace({'北京市':'帝都','上海市':'魔都'})

0      帝都
1      帝都
2      魔都
3     武汉市
4     杭州市
     ... 
95    金华市
96    合肥市
97     帝都
98    无锡市
99    太原市
Name: 所在城市, Length: 100, dtype: object

### 指定数值范围对替换
```
方法一：使用正则表达式
df.replace(regex,newvalue)
方法二：使用行筛选
    用行筛选方式得到索引，然后用loc命令定位替换
    目前也支持直接筛选出单元格进行数值替换
```

In [32]:
df_high_school['总分'].iloc[0:2] = 10
df_high_school

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,10.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,cons,清华大学,10.00,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,cons,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,cons,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,cons,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


In [33]:
df_high_school.loc[3:5, '总分']  = 20#3，4，5都会被替换，需要注意
df_high_school

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,10.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,cons,清华大学,10.00,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,20.00,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,20.00,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,cons,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,cons,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,cons,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


In [35]:
# 用loc命令完成替换
#df_high_school.loc[df_high_school[df_high_school['名次']< 10].index,'总分'] = 200
df_high_school.loc[df_high_school['名次']< 10,'总分'] = 200
df_high_school

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,200.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,cons,清华大学,200.00,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,200.00,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,200.00,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,200.00,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,cons,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,cons,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,cons,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


In [37]:
# 直接进行定位和替换
df_high_school['总分'][df_high_school['名次'] < 10 ] =25
df_high_school

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,25.00,综合,北京,北京市,中国研究型,教育部,1,10.000000,10.000000
1,2,cons,清华大学,25.00,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,25.00,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,25.00,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,25.00,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343
...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528
96,97,cons,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643
97,98,cons,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387
98,99,cons,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758


## 哑变量变换
```
pd.get_dummies(
    data:希望转换对数据框/变量列
    prefix = None:哑变量名称前缀
    prefix_step = '_':前缀和序号之间对连接字符，设定有prefix或列名时有效
    dummy_na = False:是否为NaNs专门设定一个哑变量列
    columns = None:希望转换对原始列名，如果不设定，则转换所有符合条件对列
    drop_first = False:是否饭后k-1呀变量，而不是k个哑变量
)# 返回值为数据框
```

In [39]:
df_high_school.head()

Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3
0,1,cons,北京大学,25.0,综合,北京,北京市,中国研究型,教育部,1,10.0,10.0
1,2,cons,清华大学,25.0,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717
2,3,cons,复旦大学,25.0,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901
3,4,cons,武汉大学,25.0,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097
4,5,cons,浙江大学,25.0,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343


In [40]:
pd.get_dummies(df_high_school['类型'],prefix = "pre")

Unnamed: 0,pre_农林,pre_医药,pre_师范,pre_政法,pre_民族,pre_理工,pre_综合,pre_财经
0,0,0,0,0,0,0,1,0
1,0,0,0,0,0,1,0,0
2,0,0,0,0,0,0,1,0
3,0,0,0,0,0,0,1,0
4,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...
95,0,0,1,0,0,0,0,0
96,0,0,0,0,0,0,1,0
97,0,1,0,0,0,0,0,0
98,0,0,0,0,0,0,1,0


In [41]:
pd.get_dummies(df_high_school,columns=['类型'])

Unnamed: 0,名次,newvar,学校名称,总分,所在省份,所在城市,办学方向,主管部门,cons,new,new3,类型_农林,类型_医药,类型_师范,类型_政法,类型_民族,类型_理工,类型_综合,类型_财经
0,1,cons,北京大学,25.00,北京,北京市,中国研究型,教育部,1,10.000000,10.000000,0,0,0,0,0,0,1,0
1,2,cons,清华大学,25.00,北京,北京市,中国研究型,教育部,1,9.924717,9.924717,0,0,0,0,0,1,0,0
2,3,cons,复旦大学,25.00,上海,上海市,中国研究型,教育部,1,9.098901,9.098901,0,0,0,0,0,0,1,0
3,4,cons,武汉大学,25.00,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097,0,0,0,0,0,0,1,0
4,5,cons,浙江大学,25.00,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,cons,浙江师范大学,63.37,浙江,金华市,区域特色研究型,浙江省,1,7.960528,7.960528,0,0,1,0,0,0,0,0
96,97,cons,安徽大学,63.34,安徽,合肥市,区域研究型,安徽省,1,7.958643,7.958643,0,0,0,0,0,0,1,0
97,98,cons,首都医科大学,63.32,北京,北京市,区域特色研究型,北京市,1,7.957387,7.957387,0,1,0,0,0,0,0,0
98,99,cons,江南大学,63.31,江苏,无锡市,区域特色研究型,教育部,1,7.956758,7.956758,0,0,0,0,0,0,1,0


## 数值变量分段
```
pd.cut(
    x:希望进行分段的变量名称
    bins:具体分段设定
        int:被等距等分的段数
        sequence of scalars:具体的每一个分段起点，必须包括最值，可以不等距
    right = True：每段是否包括右侧界值
    labels = None:为每个分段提供自定义标签
    include_lowest = False:第一段是否包括最左侧界值，需要和right参数配合
)#分段结果是数值类型为Categories
pd.qcut()#按照频数，而不是按照取值范围进行等分
```

In [45]:
print(df_high_school.head())
df_high_school['cls'] = pd.cut(df_high_school['名次'],bins=[1,3,7],right = False)
df_high_school.head(10)

   名次 newvar  学校名称    总分  类型 所在省份 所在城市   办学方向 主管部门  cons        new  \
0   1   cons  北京大学  25.0  综合   北京  北京市  中国研究型  教育部     1  10.000000   
1   2   cons  清华大学  25.0  理工   北京  北京市  中国研究型  教育部     1   9.924717   
2   3   cons  复旦大学  25.0  综合   上海  上海市  中国研究型  教育部     1   9.098901   
3   4   cons  武汉大学  25.0  综合   湖北  武汉市  中国研究型  教育部     1   9.079097   
4   5   cons  浙江大学  25.0  综合   浙江  杭州市  中国研究型  教育部     1   9.076343   

        new3     cls  
0  10.000000  [1, 3)  
1   9.924717  [1, 3)  
2   9.098901  [3, 7)  
3   9.079097  [3, 7)  
4   9.076343  [3, 7)  


Unnamed: 0,名次,newvar,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门,cons,new,new3,cls
0,1,cons,北京大学,25.0,综合,北京,北京市,中国研究型,教育部,1,10.0,10.0,"[1.0, 3.0)"
1,2,cons,清华大学,25.0,理工,北京,北京市,中国研究型,教育部,1,9.924717,9.924717,"[1.0, 3.0)"
2,3,cons,复旦大学,25.0,综合,上海,上海市,中国研究型,教育部,1,9.098901,9.098901,"[3.0, 7.0)"
3,4,cons,武汉大学,25.0,综合,湖北,武汉市,中国研究型,教育部,1,9.079097,9.079097,"[3.0, 7.0)"
4,5,cons,浙江大学,25.0,综合,浙江,杭州市,中国研究型,教育部,1,9.076343,9.076343,"[3.0, 7.0)"
5,6,cons,中国人民大学,25.0,综合,北京,北京市,中国研究型,教育部,1,9.054281,9.054281,"[3.0, 7.0)"
6,7,cons,上海交通大学,25.0,综合,上海,上海市,中国研究型,教育部,1,9.042124,9.042124,
7,8,cons,南京大学,25.0,综合,江苏,南京市,中国研究型,教育部,1,8.968277,8.968277,
8,9,cons,国防科学技术大学,25.0,理工,湖南,长沙市,中国研究型,中央军委,1,8.961585,8.961585,
9,10,cons,中山大学,76.46,综合,广东,广州市,中国研究型,教育部,1,8.744141,8.744141,


## 实战：进一步整理PM2.5数据
```
    要求：
    在数据中剔除PM2.5为-900的案例
    建立一个新变量high，当PM2.5 >= 200 时为1，否则为0
    建立一个新变量high2，按照PM2.5在100，200，500分为4段，分别取值0，1，2，3
    将high2转换成哑变量组
    按照50一个组段，将PM2.5数值转换为分段变量high3
```

# 文件界别的数据管理

## 数据拆分

### 标记数据拆分组

```
df.groupby(
    by:用于分组对变量名/函数
    axis = 0:
    level = None
    as_index = True
    sort = True
)
在数据分组之后，许多数据处理分析绘图命令都可以在各组间单独执行
```

In [3]:
file_path_high_school = "..\\04 data\\PythonData\\"
file_name_high_school = "高校信息.csv"
df = pd.read_csv(file_path_high_school+file_name_high_school,engine='python')

In [4]:
df

Unnamed: 0,名次,学校名称,总分,类型,所在省份,所在城市,办学方向,主管部门
0,1,北京大学,100.00,综合,北京,北京市,中国研究型,教育部
1,2,清华大学,98.50,理工,北京,北京市,中国研究型,教育部
2,3,复旦大学,82.79,综合,上海,上海市,中国研究型,教育部
3,4,武汉大学,82.43,综合,湖北,武汉市,中国研究型,教育部
4,5,浙江大学,82.38,综合,浙江,杭州市,中国研究型,教育部
...,...,...,...,...,...,...,...,...
95,96,浙江师范大学,63.37,师范,浙江,金华市,区域特色研究型,浙江省
96,97,安徽大学,63.34,综合,安徽,合肥市,区域研究型,安徽省
97,98,首都医科大学,63.32,医药,北京,北京市,区域特色研究型,北京市
98,99,江南大学,63.31,综合,江苏,无锡市,区域特色研究型,教育部


In [6]:
dfg=df.groupby('类型')
dfg

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000167D2F1CBA8>

In [8]:
dfg.groups

{'农林': Int64Index([31, 45, 48, 64, 87, 94], dtype='int64'),
 '医药': Int64Index([44, 69, 70, 72, 97], dtype='int64'),
 '师范': Int64Index([14, 27, 33, 39, 49, 51, 71, 73, 85, 91, 95], dtype='int64'),
 '政法': Int64Index([65], dtype='int64'),
 '民族': Int64Index([88], dtype='int64'),
 '理工': Int64Index([ 1,  8, 11, 12, 18, 19, 20, 24, 25, 28, 29, 30, 34, 36, 37, 38, 40,
             41, 42, 43, 47, 50, 53, 54, 55, 56, 59, 60, 66, 67, 68, 77, 78, 80,
             82, 83, 90, 92, 93],
            dtype='int64'),
 '综合': Int64Index([ 0,  2,  3,  4,  5,  6,  7,  9, 10, 13, 15, 16, 17, 21, 22, 23, 26,
             32, 35, 46, 52, 57, 58, 61, 62, 74, 79, 84, 86, 96, 98, 99],
            dtype='int64'),
 '财经': Int64Index([63, 75, 76, 81, 89], dtype='int64')}

In [10]:
df.describe()

Unnamed: 0,名次,总分
count,100.0,100.0
mean,50.41,68.5061
std,28.965704,6.766652
min,1.0,63.29
25%,25.75,64.3875
50%,50.5,65.69
75%,75.25,69.8075
max,100.0,100.0


In [12]:
dfg.describe()

Unnamed: 0_level_0,名次,名次,名次,名次,名次,名次,名次,名次,总分,总分,总分,总分,总分,总分,总分,总分
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
类型,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
农林,6.0,62.5,24.889757,32.0,46.75,57.0,82.25,95.0,6.0,65.345,1.631646,63.64,64.0725,65.345,65.8675,68.05
医药,5.0,71.4,18.769656,45.0,70.0,71.0,73.0,98.0,5.0,64.682,0.964557,63.32,64.51,64.74,64.81,66.03
师范,11.0,58.090909,27.540714,15.0,37.0,52.0,80.0,96.0,11.0,66.371818,3.353586,63.37,64.15,65.64,67.21,74.75
政法,1.0,66.0,,66.0,66.0,66.0,66.0,66.0,1.0,64.9,,64.9,64.9,64.9,64.9,64.9
民族,1.0,89.0,,89.0,89.0,89.0,89.0,89.0,1.0,63.78,,63.78,63.78,63.78,63.78,63.78
理工,39.0,48.179487,25.180268,2.0,29.5,42.0,67.5,93.0,39.0,68.092051,6.276458,63.66,64.87,66.08,68.78,98.5
综合,32.0,38.96875,32.587831,1.0,10.75,25.5,62.25,100.0,32.0,71.858125,8.48314,63.29,65.005,70.445,76.1225,100.0
财经,5.0,77.8,9.497368,64.0,76.0,77.0,82.0,90.0,5.0,64.262,0.449077,63.77,63.99,64.27,64.32,64.96


### 给予拆分进行筛选
```
筛选出其中的一组
dfgroup.get_group()
```

In [13]:
dfg.get_group('农林').mean()

名次    62.500
总分    65.345
dtype: float64

In [14]:
dfg.mean()

Unnamed: 0_level_0,名次,总分
类型,Unnamed: 1_level_1,Unnamed: 2_level_1
农林,62.5,65.345
医药,71.4,64.682
师范,58.090909,66.371818
政法,66.0,64.9
民族,89.0,63.78
理工,48.179487,68.092051
综合,38.96875,71.858125
财经,77.8,64.262


## 分组汇总

### 使用agg函数进行汇总

In [16]:
dfg.agg(['mean','median'])

Unnamed: 0_level_0,名次,名次,总分,总分
Unnamed: 0_level_1,mean,median,mean,median
类型,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
农林,62.5,57.0,65.345,65.345
医药,71.4,71.0,64.682,64.74
师范,58.090909,52.0,66.371818,65.64
政法,66.0,66.0,64.9,64.9
民族,89.0,89.0,63.78,63.78
理工,48.179487,42.0,68.092051,66.08
综合,38.96875,25.5,71.858125,70.445
财经,77.8,77.0,64.262,64.27


In [17]:
#引用非内置函数
print(df['总分'].agg(np.sum))
dfg['总分'].agg(np.sum)

6850.61


类型
农林     392.07
医药     323.41
师范     730.09
政法      64.90
民族      63.78
理工    2655.59
综合    2299.46
财经     321.31
Name: 总分, dtype: float64

### 其他分组汇总方法
在生成交叉表的同时对单元格指定具体对汇总指标和汇总函数，类似透视功能
```
df.pivot_table()
pd.crosstable()
```

In [23]:
pd.crosstab(df['办学方向'],df['类型'])

类型,农林,医药,师范,政法,民族,理工,综合,财经
办学方向,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
中国研究型,0,0,3,0,0,13,19,0
区域特色研究型,1,1,5,0,0,2,1,3
区域研究型,0,0,2,0,0,3,11,0
行业特色研究型,5,4,1,1,1,21,1,2


In [36]:
pd.pivot_table(df, index = ['办学方向','类型'],aggfunc=[np.sum,len])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,len,len,len,len,len,len
Unnamed: 0_level_1,Unnamed: 1_level_1,名次,总分,主管部门,名次,学校名称,总分,所在城市,所在省份
办学方向,类型,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
中国研究型,师范,77,212.19,3,3,3,3.0,3,3
中国研究型,理工,272,961.38,13,13,13,13.0,13,13
中国研究型,综合,284,1461.46,19,19,19,19.0,19,19
区域特色研究型,农林,95,63.64,1,1,1,1.0,1,1
区域特色研究型,医药,98,63.32,1,1,1,1.0,1,1
...,...,...,...,...,...,...,...,...,...
行业特色研究型,政法,66,64.90,1,1,1,1.0,1,1
行业特色研究型,民族,89,63.78,1,1,1,1.0,1,1
行业特色研究型,理工,1165,1375.34,21,21,21,21.0,21,21
行业特色研究型,综合,53,65.56,1,1,1,1.0,1,1


## 重复测量数据格式的转换
### 转换为最简格式
df.stack(
    level=-1:需要处理的索引级别，默认为全部
    dropna = True:是否删除缺失值对行
)#转换后的结果可能为Series
```
重复测量数据的长型格式
重复测量数据对宽行格式
```

In [45]:
file_path = "..\\04 data\\PythonData\\"
file_name_children = "儿童生长研究.xlsx"
df_children = pd.read_excel(file_path+file_name_children,index_col=[0,2])

In [46]:
df_children

Unnamed: 0_level_0,Unnamed: 1_level_0,性别,测量值
个体ID,年龄,Unnamed: 2_level_1,Unnamed: 3_level_1
1,8,F,21.0
1,10,F,20.0
1,12,F,21.5
1,14,F,23.0
2,8,F,21.0
...,...,...,...
26,14,M,30.0
27,8,M,22.0
27,10,M,21.5
27,12,M,23.5


In [47]:
dfs = df_children.stack()
dfs

个体ID  年龄     
1     8   性别        F
          测量值      21
      10  性别        F
          测量值      20
      12  性别        F
                 ... 
27    10  测量值    21.5
      12  性别        M
          测量值    23.5
      14  性别        M
          测量值      25
Length: 216, dtype: object

### 长宽格式对自由转换
```
df.unstack(
    level = -1
    fill_value:用于填充缺失的数值
)
```

In [51]:
dfs.unstack(1)

Unnamed: 0_level_0,年龄,8,10,12,14
个体ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,性别,F,F,F,F
1,测量值,21,20,21.5,23
2,性别,F,F,F,F
2,测量值,21,21.5,24,25.5
3,性别,F,F,F,F
...,...,...,...,...,...
25,测量值,22.5,25.5,25.5,26
26,性别,M,M,M,M
26,测量值,23,24.5,26,30
27,性别,M,M,M,M


In [52]:
dfs.unstack([1,2])

年龄,8,8,10,10,12,12,14,14
Unnamed: 0_level_1,性别,测量值,性别,测量值,性别,测量值,性别,测量值
个体ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,F,21,F,20,F,21.5,F,23
2,F,21,F,21.5,F,24,F,25.5
3,F,20.5,F,24,F,24.5,F,26
4,F,23.5,F,24.5,F,25,F,26.5
5,F,21.5,F,23,F,22.5,F,23.5
...,...,...,...,...,...,...,...,...
23,M,21.5,M,23.5,M,24,M,28
24,M,17,M,24.5,M,26,M,29.5
25,M,22.5,M,25.5,M,25.5,M,26
26,M,23,M,24.5,M,26,M,30


In [55]:
df.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
名次,1,2,3,4,5,6,7,8,9,10,...,90,92,93,93,95,96,97,98,99,100
学校名称,北京大学,清华大学,复旦大学,武汉大学,浙江大学,中国人民大学,上海交通大学,南京大学,国防科学技术大学,中山大学,...,燕山大学,首都师范大学,华北电力大学,浙江工业大学,华南农业大学,浙江师范大学,安徽大学,首都医科大学,江南大学,山西大学
总分,100,98.5,82.79,82.43,82.38,81.98,81.76,80.43,80.31,76.46,...,63.77,63.73,63.66,63.66,63.64,63.37,63.34,63.32,63.31,63.29
类型,综合,理工,综合,综合,综合,综合,综合,综合,理工,综合,...,理工,师范,理工,理工,农林,师范,综合,医药,综合,综合
所在省份,北京,北京,上海,湖北,浙江,北京,上海,江苏,湖南,广东,...,河北,北京,北京,浙江,广东,浙江,安徽,北京,江苏,山西
所在城市,北京市,北京市,上海市,武汉市,杭州市,北京市,上海市,南京市,长沙市,广州市,...,秦皇岛市,北京市,北京市,杭州市,广州市,金华市,合肥市,北京市,无锡市,太原市
办学方向,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,中国研究型,...,区域研究型,区域特色研究型,区域特色研究型,区域特色研究型,区域特色研究型,区域特色研究型,区域研究型,区域特色研究型,区域特色研究型,区域研究型
主管部门,教育部,教育部,教育部,教育部,教育部,教育部,教育部,教育部,中央军委,教育部,...,河北省,北京市,教育部,浙江省,广东省,浙江省,安徽省,北京市,教育部,山西省


### 其他命令
```
df.melt()
df.pivot()
df.pivot_table()