# Testing Notebook
This notebook is used for reading data from csv files.

## Read Chinese Universities

In [1]:
import pandas as pd
path0 = 'data/chinese_university_list.csv'

In [2]:
df = pd.read_csv(path0, header=None, delimiter=",", skiprows=4, names=["rank", "name", "code", "department", "city", "level", "notes"])
print(df.head())

  rank    name          code department city level notes
0    1    北京大学  4.111010e+09        教育部  北京市    本科   NaN
1    2  中国人民大学  4.111010e+09        教育部  北京市    本科   NaN
2    3    清华大学  4.111010e+09        教育部  北京市    本科   NaN
3    4  北京交通大学  4.111010e+09        教育部  北京市    本科   NaN
4    5  北京工业大学  4.111010e+09        北京市  北京市    本科   NaN


In [5]:
df = pd.DataFrame(df, columns=['rank', 'name'])
print(df.head())
print(df.shape)

  rank    name
0    1    北京大学
1    2  中国人民大学
2    3    清华大学
3    4  北京交通大学
4    5  北京工业大学
(2718, 2)


## Read Global Universities

In [1]:
import pandas as pd
path1 = 'data/all_university.csv'

In [36]:
df = pd.read_csv(path1, header=None, delimiter=",", skiprows=1, names=['Name_en', 'Name_ch', 'rank', 'score', 'location'])
print(df.head())

                                       Name_en Name_ch rank score  \
0                                           原名    中文名称   名次    总分   
1  Massachusetts Institute of Technology (MIT)  麻省理工学院    1   100   
2                          Stanford University   斯坦福大学    2  98.4   
3                           Harvard University    哈佛大学    3  97.4   
4                         University of Oxford    牛津大学    4  97.2   

         location  
0             所在地  
1   United States  
2   United States  
3   United States  
4  United Kingdom  


In [37]:
df = pd.DataFrame(df, columns=['rank', 'Name_ch', 'location'])
print(df.head())
print(df.shape)

  rank Name_ch        location
0   名次    中文名称             所在地
1    1  麻省理工学院   United States
2    2   斯坦福大学   United States
3    3    哈佛大学   United States
4    4    牛津大学  United Kingdom
(952, 3)


## Read All Universities

In [2]:
import pandas as pd
path0 = 'data/chinese_university_list.csv'
df1 = pd.read_csv(path0, header=None, delimiter=",", skiprows=4, names=["rank", "name", "code", "department", "city", "level", "notes"])
df1 = pd.DataFrame(df1, columns=['name'])
print(df1.shape[0])

path1 = 'data/all_university.csv'
df2 = pd.read_csv(path1, header=None, delimiter=",", skiprows=1, names=['Name_en', 'Name_ch', 'rank', 'score', 'location'])
df2 = pd.DataFrame(df2, columns=['Name_ch'])
print(df2.shape[0])

df1 = pd.concat([df1, df2], axis=0, ignore_index=True)
print(df1.shape[0])

2718
952
3670


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  if sys.path[0] == '':


## Read Companies

In [38]:
import pandas as pd
path2 = 'data/company_list.csv'

In [48]:
df = pd.read_csv(path2, header=None, delimiter=",", skiprows=1, names=['rank', 'rank_last', 'Name_ch', 'Name_en', 'Income', 'Profits', 'Location'])
print(df.head())

   rank rank_last      Name_ch                     Name_en       Income  \
0     1       1\n          沃爾瑪                  Walmart）\n    500,343\n   
1     2       2\n       国家电网公司                State Grid\n  348,903.1\n   
2     3       3\n   中国石油化工集团公司             SINOPEC Group\n    326,953\n   
3     4       4\n  中国石油天然气集团公司  China National Petroleum\n  326,007.6\n   
4     5       7\n   荷兰皇家壳牌石油公司         Royal Dutch Shell\n    311,870\n   

     Profits  Location  
0    9,862\n      美国\n  
1  9,533.4\n    中国大陸\n  
2  1,537.8\n    中国大陸\n  
3   -690.5\n    中国大陸\n  
4   12,977\n   荷兰/英国\n  


In [49]:
df = pd.DataFrame(df, columns=['rank', 'Name_ch', 'Location'])
print(df.head())
print(df.shape)

   rank      Name_ch  Location
0     1          沃爾瑪      美国\n
1     2       国家电网公司    中国大陸\n
2     3   中国石油化工集团公司    中国大陸\n
3     4  中国石油天然气集团公司    中国大陸\n
4     5   荷兰皇家壳牌石油公司   荷兰/英国\n
(500, 3)


## Read Member Data

In [1]:
import pandas as pd
path3 = 'data/member-data.csv'

In [2]:
df = pd.read_csv(path3, header=None, delimiter=",", skiprows=1, names=['Company', 'No.', 'Resume', 'Position'])
df = pd.DataFrame(df, columns=['Resume'])
print(df.head())

                                              Resume
0  __团队成员#1__先生是公司创始人,也是中国最有影响力的商界领袖之一。1982年,__团队...
1  __团队成员#2__先生,现任TCL集团股份有限公司执行董事、总裁(COO)。1963年4月...
2  __团队成员#3__女士:1972年7月出生,中山大学法学博士,高级经济师。1993年6月至...
3  __团队成员#4__先生,1965年7月出生,东方电气集团党组副书记、副总经理,兼任东方电气...
4  __团队成员#5__女士,现任TCL多媒体集团有限公司非执行独立董事、A8新媒体集团非执行独...


In [3]:
df.iloc[0,:]

Resume    __团队成员#1__先生是公司创始人,也是中国最有影响力的商界领袖之一。1982年,__团队...
Name: 0, dtype: object

In [7]:
import pandas as pd
path4 = 'data/company_list_ch.csv'

In [9]:
df = pd.read_csv(path4, header=None, delimiter=",", skiprows=1, names=['rank', 'Name', 'Location', 'Income'])
print(df.head())

   rank             Name Location        Income
0  名次\n           企业名称\n     地区\n  营业收入\n(亿元)\n
1   1\n   中国石油化工集团有限公司\n     北京\n    27427.80\n
2   2\n  中国石油天然气集团有限公司\n     北京\n    25994.17\n
3   3\n       国家电网有限公司\n     北京\n    25602.54\n
4   4\n     中国建筑股份有限公司\n     北京\n    11993.25\n


## Read Position Data

In [1]:
import pandas as pd
path5 = 'data/position.csv'

In [3]:
df = pd.read_csv(path5, header=None, delimiter=",", skiprows=1, names=['position'])
print(df.head())

  position
0    首席执行官
1    首席运营官
2    首席财务官
3    首席信息官
4   人力资源总监
