In [1]:
# ▶ Warnings 제거
import warnings
warnings.filterwarnings('ignore')

In [2]:
import pandas as pd
import time

# 데이터 로드
import os
os.chdir("C:/Users/oh/Desktop/project")
os.getcwd()
df = pd.read_csv('game_data.csv', sep=",")

# Pickle로 저장
start_pickle_save = time.time()
df.to_pickle('game_data.pkl')
end_pickle_save = time.time()
pickle_save_time = end_pickle_save - start_pickle_save

# Parquet로 저장
start_parquet_save = time.time()
df.to_parquet('game_data.parquet')
end_parquet_save = time.time()
parquet_save_time = end_parquet_save - start_parquet_save

# Pickle에서 로드
start_pickle_load = time.time()
df_pickle = pd.read_pickle('game_data.pkl')
end_pickle_load = time.time()
pickle_load_time = end_pickle_load - start_pickle_load

# Parquet에서 로드
start_parquet_load = time.time()
df_parquet = pd.read_parquet('game_data.parquet')
end_parquet_load = time.time()
parquet_load_time = end_parquet_load - start_parquet_load

# 결과 비교
time_comparison = pd.DataFrame({
    'Operation': ['Save', 'Load'],
    'Pickle (seconds)': [pickle_save_time, pickle_load_time],
    'Parquet (seconds)': [parquet_save_time, parquet_load_time]
})

print(time_comparison)


  Operation  Pickle (seconds)  Parquet (seconds)
0      Save          4.508411           7.441989
1      Load          0.937759           1.791542


### Pickle

- 형식: Python 고유의 바이너리 직렬화 형식.
- 속도: 데이터의 구조와 크기에 따라 다르지만, 일반적으로 빠르게 저장하고 로드할 수 있습니다.
- 유연성: Python 객체를 포함한 다양한 데이터 타입을 저장할 수 있습니다.
- 호환성: Python 환경에서만 사용 가능합니다. 다른 언어와의 호환성이 부족합니다.
- 용량: 압축 기능이 없어서 데이터 크기가 클 수 있습니다.
### Parquet
- 형식: 열 지향(columnar) 저장 형식으로 Apache Arrow 프로젝트의 일부입니다.
- 속도: 대용량 데이터를 다룰 때 특히 효율적이며, 열 지향 특성 덕분에 특정 열을 빠르게 읽을 수 있습니다.
- 유연성: 주로 데이터 프레임과 같은 구조화된 데이터를 저장합니다.
- 호환성: 다양한 언어와 도구(R, Python, Spark 등)에서 사용할 수 있어 호환성이 뛰어납니다.
- 용량: 기본적으로 데이터를 압축해서 저장하므로, 저장 용량이 줄어듭니다.
#### 차이점 요약
- 저장 형식: Pickle은 Python 고유의 바이너리 형식, Parquet은 열 지향 저장 형식.
- 호환성: Pickle은 Python에 특화, Parquet은 다양한 언어와 도구에서 사용 가능.
- 압축: Pickle은 압축 기능이 없고, Parquet은 기본적으로 데이터를 압축해서 저장.
- 읽기 성능: Parquet은 특정 열을 빠르게 읽을 수 있어서 대용량 데이터에서 효율적.
- 데이터 유형: Pickle은 Python 객체를 포함한 모든 데이터 타입을 저장할 수 있지만, Parquet은 구조화된 데이터에 적합.

이 차이점들을 고려하여, 데이터의 특성과 사용 목적에 따라 적합한 형식을 선택하면 됩니다. 예를 들어, 대용량 데이터를 다양한 언어와 도구에서 사용하려면 Parquet을 선택하는 것이 좋고, Python 환경에서만 사용할 데이터라면 Pickle을 사용하는 것이 더 간편할 수 있습니다.

In [3]:
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 폰트 경로 설정
font_path = 'c:/USERS/OH/APPDATA/LOCAL/MICROSOFT/WINDOWS/FONTS/D2CODING-VER1.3.2-20180524-ALL_0.TTC'

# 폰트 이름 가져오기
font_name = fm.FontProperties(fname=font_path).get_name()

# Matplotlib의 폰트를 설정
plt.rc('font', family=font_name)

# 폰트 설정
plt.rcParams['font.family'] = font_name

# 마이너스 기호도 정상적으로 표시되도록 설정
plt.rcParams['axes.unicode_minus'] = False

## **[게임]**
---

* 데이터 명세 ⬇

|Column|Description|
|:---|:---|
|ID |ID|
|groupId |매치 내에서 그룹을 식별하는 ID|
|matchId |매치를 식별하는 ID|
|assists |이 플레이어가 공격하여 팀원이 죽인 적 플레이어의 수|
|boosts |사용한 부스트 아이템의 수|
|damageDealt |총 가한 피해량|
|DBNOs |적 플레이어를 다운시킨 횟수|
|headshotKills |헤드샷킬수|
|heals |heal 아이템 사용횟수|
|killPlace |매치 내 순위(적 플레이어를 죽인 횟수에 따른)|
|killPoints |적제압포인트|
|kills |적 제압횟수|
|killStreaks |짧은 시간 내에 적 플레이어를 죽인 최대 횟수|
|longestKill |적을 죽은시점에서 나와 죽은적의 거리(다운 시킨 후 차량으로 이동한 경우 큰 데이터가 발생할 수 있음|
|maxPlace |최악의 순위|
|numGroups |그룹넘버|
|revives |팀원을 부활시킨 횟수|
|rideDistance |이동수단 타고 이동거리|
|roadKills |차량 내에서 이루어진 적 제압횟수|
|swimDistance|수영한거리|
|teamKills |같은 팀원을 제압한 횟수|
|vehicleDestroys|자동차 파괴횟수|
|walkDistance|도보이동거리|
|weaponsAcquired|무기 획득횟수|
|winPoints|승점|
|winPlacePerc|승률|


데이터 명세를 보다보니 배틀그라운드라는 게임의 데이터와 비슷해보임

In [4]:
df.head()

Unnamed: 0.1,Unnamed: 0,Id,groupId,matchId,assists,boosts,damageDealt,DBNOs,headshotKills,heals,...,revives,rideDistance,roadKills,swimDistance,teamKills,vehicleDestroys,walkDistance,weaponsAcquired,winPoints,winPlacePerc
0,0,0,24,0,0,5,247.3,2,0,4,...,1,591.3,0,0.0,0,0,782.4,4,1458,0.8571
1,1,1,440875,1,1,0,37.65,1,1,0,...,0,0.0,0,0.0,0,0,119.6,3,1511,0.04
2,2,2,878242,2,0,1,93.73,1,0,2,...,1,0.0,0,0.0,0,0,3248.0,5,1583,0.7407
3,3,3,1319841,3,0,0,95.88,0,0,0,...,0,0.0,0,0.0,0,0,21.49,1,1489,0.1146
4,4,4,1757883,4,0,1,0.0,0,0,1,...,0,0.0,0,0.0,0,0,640.8,4,1475,0.5217


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6225249 entries, 0 to 6225248
Data columns (total 27 columns):
 #   Column           Dtype  
---  ------           -----  
 0   Unnamed: 0       int64  
 1   Id               int64  
 2   groupId          int64  
 3   matchId          int64  
 4   assists          int64  
 5   boosts           int64  
 6   damageDealt      float64
 7   DBNOs            int64  
 8   headshotKills    int64  
 9   heals            int64  
 10  killPlace        int64  
 11  killPoints       int64  
 12  kills            int64  
 13  killStreaks      int64  
 14  longestKill      float64
 15  maxPlace         int64  
 16  numGroups        int64  
 17  revives          int64  
 18  rideDistance     float64
 19  roadKills        int64  
 20  swimDistance     float64
 21  teamKills        int64  
 22  vehicleDestroys  int64  
 23  walkDistance     float64
 24  weaponsAcquired  int64  
 25  winPoints        int64  
 26  winPlacePerc     float64
dtypes: float64(6

In [6]:
df['numGroups'].max()

100

In [17]:
df.columns

Index(['Unnamed: 0', 'Id', 'groupId', 'matchId', 'assists', 'boosts',
       'damageDealt', 'DBNOs', 'headshotKills', 'heals', 'killPlace',
       'killPoints', 'kills', 'killStreaks', 'longestKill', 'maxPlace',
       'numGroups', 'revives', 'rideDistance', 'roadKills', 'swimDistance',
       'teamKills', 'vehicleDestroys', 'walkDistance', 'weaponsAcquired',
       'winPoints', 'winPlacePerc', '_totalDistance'],
      dtype='object')

경기는 그룹끼리의 대결도 존재하고 혼자서 대결하는 게임도 존재

최대 인원은 100명

### 데이터 살펴보기

In [7]:
df.shape

(6225249, 27)

총 6225249만 개의 데이터

In [8]:
df.dtypes

Unnamed: 0           int64
Id                   int64
groupId              int64
matchId              int64
assists              int64
boosts               int64
damageDealt        float64
DBNOs                int64
headshotKills        int64
heals                int64
killPlace            int64
killPoints           int64
kills                int64
killStreaks          int64
longestKill        float64
maxPlace             int64
numGroups            int64
revives              int64
rideDistance       float64
roadKills            int64
swimDistance       float64
teamKills            int64
vehicleDestroys      int64
walkDistance       float64
weaponsAcquired      int64
winPoints            int64
winPlacePerc       float64
dtype: object

In [9]:
df.isna().sum()

Unnamed: 0               0
Id                       0
groupId                  0
matchId                  0
assists                  0
boosts                   0
damageDealt              0
DBNOs                    0
headshotKills            0
heals                    0
killPlace                0
killPoints               0
kills                    0
killStreaks              0
longestKill              0
maxPlace                 0
numGroups                0
revives                  0
rideDistance             0
roadKills                0
swimDistance             0
teamKills                0
vehicleDestroys          0
walkDistance             0
weaponsAcquired          0
winPoints                0
winPlacePerc       1867913
dtype: int64

csv파일에는 결측치가 존재하지 않는걸 확인하였으며 데이터셋 용량이커서 데이터를 불러오는 도중에 데이터가 누락되는 경우로 보임


In [10]:
per_0 = df[df['winPlacePerc']==0]
null_winPlacePerc = df[df['winPlacePerc'].isnull()]
null_winPlacePerc.head()


Unnamed: 0.1,Unnamed: 0,Id,groupId,matchId,assists,boosts,damageDealt,DBNOs,headshotKills,heals,...,revives,rideDistance,roadKills,swimDistance,teamKills,vehicleDestroys,walkDistance,weaponsAcquired,winPoints,winPlacePerc
4357336,0,47734,1659463,47734,0,0,100.0,1,0,0,...,0,0.0,0,0.0,1,0,421.5,7,1500,
4357337,1,47735,1659508,47735,0,1,400.0,2,0,3,...,1,0.0,0,0.0,0,0,655.8,4,1526,
4357338,2,47736,1659555,47736,0,0,0.0,0,0,0,...,0,0.0,0,0.0,0,0,74.58,1,1475,
4357339,3,47737,1659621,47737,0,0,68.6,0,0,0,...,0,0.0,0,0.0,0,0,167.2,2,1464,
4357340,4,47738,1659675,47738,0,1,370.5,3,0,1,...,0,0.0,0,0.0,0,0,146.7,3,1505,


### 이동 없이 무기를 획득한 버그 유저가 존재할까?


In [11]:
import numpy as np
# 총 거리 데이터 만들기
df['_totalDistance'] = df['rideDistance'] + df['walkDistance'] + df['swimDistance']
# 총 거리 하위 10%의 데이터 따오기
per_10 = np.percentile(df['_totalDistance'], 10)
# 총 거리 하위 10%의 데이터셋 만들기
low_10 = df[df['_totalDistance']<=per_10]
# 여기서 weaponsAcquired가 상위 1%인 데이터 따오기
weap_1 = np.percentile(df['weaponsAcquired'], 99)
# 여기서 weaponsAcquired가 상위 1%인 버그 의심 유저 추출
low_10_weap_1 = low_10[low_10['weaponsAcquired'] >= weap_1]
print('총 거리가 하위 10%이면서 무기 획득량이 상위 1%인 버그 의심 유저 수 = ', len(low_10_weap_1))

총 거리가 하위 10%이면서 무기 획득량이 상위 1%인 버그 의심 유저 수 =  2514


### 버그 유저 탐색

가설
1. 이동수단으로 이동하지 않았는데 적을 이동수단으로 제압한 경우

In [12]:
# 이동수단으로 사람을 제압한적이있는 유저
road_df = df[df['roadKills'] != 0 ]
road_bug = road_df[road_df['rideDistance'] == 0]
print('이동 수단 버그 의심 유저 수 =', len(road_bug))

이동 수단 버그 의심 유저 수 = 529


가설
2. 헤드샷 고정 버그로 인한 기절횟수=헤드샷킬수

In [13]:
# 헤드샷 = 상대 기절횟수면서 기절시킨 적이 있는 유저 제외한 필터
head_bug = df[(df['kills']==df['headshotKills']) & (df['DBNOs']!=0)]
len(head_bug)

688949

1킬한 인원도 많아 기절횟수 상위 20%센트로 줄여서 확인

In [14]:
# 죽인  횟수 상위 2%의 데이터 따오기
per_2 = np.percentile(df['kills'], 98)
print('상위 2% 죽인  횟수 =', int(per_2))
# 죽인  횟수 상위 2%의 데이터셋 만들기
high_2 = head_bug[head_bug['kills']>=per_2]
print(f'{int(per_2)}킬 이상하고 죽인 횟수가 헤드샷 횟수랑 같은 헤드샷 버그 의심 유저 수 =',len(high_2))

상위 2% 죽인  횟수 = 6
6킬 이상하고 죽인 횟수가 헤드샷 횟수랑 같은 헤드샷 버그 의심 유저 수 = 138


가설
3. 적이 보이지 않는데 죽이는 버그가 존재하지 않을까?
    - 적을 죽은시점에서 나와 죽은적의 거리가 이동수단의 거리의 평균보다 긴경우

In [15]:
# 평균 이동 수단 거리 구하기
mean_ride = df['rideDistance'].mean()
# 평균 이동수단 거리보다 먼 거리에서 적을 죽인 경우 필터
long_bug = df[df['longestKill']>= mean_ride]
print(f'평균 이동수단 거리인 {int(mean_ride)} 보다 먼 거리에서 적을 죽인 유저의 수 = {len(long_bug)}')

평균 이동수단 거리인 424 보다 먼 거리에서 적을 죽인 유저의 수 = 3324
