In [15]:
import numpy
import os
import pandas as pd

## 目录说明

1. **raw_data 文件夹**：包含处理成矩阵之前的原始数据。文件夹内有编号从128到378的子文件夹，这些编号按日期由旧至新排列（128号最旧，378号最新，没有间断）。
   - **big.csv**：记录两位选手之间的胜利次数的大比分信息。
   - **small.csv**：详细记录了选手在每场比赛中的胜负情况。
   - **rank.txt**：此文件包括两列，第一列是选手ID，第二列显示选手排名；如果排名为-1，则表示该选手可能因为是新人而无法查到排名。
   - **raw_data.csv**：存放着最原始的数据。还有一个未经时间分割、体积较大的原始文件（2GB+）未提供。

2. **data 文件夹**：包含已经处理好的数据。
   - 包含编号从128到378的一系列 `.npy` 文件，每个文件代表一个特定时期的对决矩阵，其中128号是最旧的数据，378号是最新的数据。

## 2. data文件夹（对决矩阵）

In [5]:
files = os.listdir('./data/')

文件是从旧到新排列的，每个文件统计的都是1个月时间段的数据。

例如：
> 128.npy

In [None]:
files[:5]

['128.npy', '130.npy', '132.npy', '134.npy', '136.npy']

In [2]:
data = numpy.load('./data/128.npy')

In [10]:
print(data.shape)

(101, 101)


In [11]:
data

array([[0., 0., 0., ..., 0., 0., 0.],
       [2., 0., 3., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 2.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 4.]])

In [13]:
print(data[1, 2])
print(data[2, 1])

3.0
1.0


这个矩阵的shape是$(101, 101)$， 矩阵当中的值就是选手的交手情况例如 data[1, 2] = 3， data[2, 1] = 1, 表示排名第2的选手打赢了排名第3的选手2局，排名第3的选手打赢了排名第2的选手1局

In [14]:
print(data.shape)

(101, 101)


## 3. 原始数据说明（选用）

### 3.1 big.csv

In [17]:
df1 = pd.read_csv('./raw_data/128/big.csv', encoding='utf-8')

In [18]:
df1.head()

Unnamed: 0,pla_id,plb_id,total_score
0,1,29,2
1,1,45,0
2,1,105,2
3,1,109,0
4,1,110,1


1. pla_id: 选手A的id
2. plb_id: 选手B的id
3. total_score: 选手A对选手B的胜利次数


### 3.2 small.csv

In [19]:
df2 = pd.read_csv('./raw_data/128/small.csv', encoding='utf-8')

In [20]:
df2.head()

Unnamed: 0,pla_id,plb_id,total_score
0,1,29,1
1,1,45,0
2,1,105,1
3,1,109,0
4,1,110,1


1. pla_id和plb_id的含义同上
2. total_score: 是整体的胜利情况. 如果选手A对选手B的胜利次数高于选手B对选手A的胜利次数，那么这个值就记为1

### 3.3 rank.txt

In [23]:
rank = pd.read_csv('./raw_data/128/rank.txt', names=['player_id', 'rank'])
rank.head()

Unnamed: 0,player_id,rank
0,10,-1
1,47,-1
2,4495,-1
3,34,1
4,3,2


* 第一列是选手的id
* 第二列是选手在这个月的排名，-1表示这个选手查不到排名(可能是新选手)

### 3.4 raw_data.csv

In [27]:
df3 = pd.read_csv('./raw_data/128/raw_data.csv', encoding='utf-8', index_col=0)

In [28]:
df3.head()

Unnamed: 0_level_0,id,period_id,date,pla_id,plb_id,sca,scb,rca,rcb,eventobj_id,game,offline,position_a,position_a_vp,position_a_vt,position_a_vz,position_b,position_b_vp,position_b_vt,position_b_vz
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,135844,128,2015-01-09,146,747,2,0,Z,Z,39652,HotS,f,44,46,48,33,64,59,64,67
1,135833,128,2015-01-09,111,146,1,2,Z,Z,39651,HotS,f,33,21,53,32,44,46,48,33
2,135749,128,2015-01-09,4452,1171,2,0,T,P,39648,HotS,f,194,195,198,194,304,266,331,319
3,135827,128,2015-01-09,2170,485,1,2,P,Z,39650,HotS,f,65,65,78,56,140,145,128,146
4,135558,128,2015-01-09,54,51,2,1,T,P,39583,HotS,t,25,30,31,19,16,37,28,4


In [29]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 259 entries, 0 to 120
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             259 non-null    int64 
 1   period_id      259 non-null    int64 
 2   date           259 non-null    object
 3   pla_id         259 non-null    int64 
 4   plb_id         259 non-null    int64 
 5   sca            259 non-null    int64 
 6   scb            259 non-null    int64 
 7   rca            259 non-null    object
 8   rcb            259 non-null    object
 9   eventobj_id    259 non-null    int64 
 10  game           259 non-null    object
 11  offline        259 non-null    object
 12  position_a     259 non-null    int64 
 13  position_a_vp  259 non-null    int64 
 14  position_a_vt  259 non-null    int64 
 15  position_a_vz  259 non-null    int64 
 16  position_b     259 non-null    int64 
 17  position_b_vp  259 non-null    int64 
 18  position_b_vt  259 non-null    int6

### 数据字段说明

在提供的数据中，`raw_data.csv` 或者类似的文件包含了详细的对决信息。以下是各个字段的简要说明：

- **id**：每场对决的唯一标识符。
- **period_id**：这场比赛所属的时间段（周期）ID，是一个外键，用于关联到特定的时间段或赛季。
- **date**：比赛的具体日期。
- **pla_id**：选手A的ID，可以通过这个ID查询该选手的详细信息，如所属战队、昵称等。
- **plb_id**：选手B的ID，与`pla_id`类似，用来识别另一位参赛选手。
- **sca**：选手A获得的分数，实际上代表的是赢得的比赛场数。
- **scb**：选手B获得的分数，同`sca`。
- **rca**：选手A选择的比赛种族，共有4种选项：T（人族）、P（神族）、Z（虫族）、R（随机种族）。
- **rcb**：选手B选择的比赛种族，同`rca`。
- **event_id**：这场比赛所属赛事的ID，是一个外键，指向具体的赛事详情。
- **game**：比赛使用的游戏版本，可能包括自由之翼、虫群之心、虚空之遗等。游戏版本是向下兼容的。
- **offline**：指示这场比赛是否为线下赛。
- **position_a, position_a_vp, position_a_vt, position_a_vz**：分别表示选手A的综合排名、神族排名、人族排名以及虫族排名。
- **position_b, position_b_vp, position_b_vt, position_b_vz**：分别表示选手B的相应排名。

> 注意：部分表格由于体积较大，未包含在当前数据集内。