In [2]:
import json
import requests
import pandas as pd
import numpy as np

from tqdm import tqdm_notebook
from pandas import DataFrame

### 선수당 가능한 포지션의 수 알고리즘

기준을 <b>선수</b>로 하여, 선수 1명당 가질 수 있는 포지션의 경우를 모두 계산해 데이터프레임으로 저장한다. 

#### 방법 1

In [5]:
a = ['a', 'b', 'c', 'd', 'e']
b = [1,2,3]

df = pd.DataFrame(columns = ['선수id', '포지션'])
for i in a :
    for j in b :
        df = df.append(pd.DataFrame([[i, j]], columns = ['선수id', '포지션']))

        
df.reset_index(inplace=True)
df.drop(['index'], axis = 1, inplace = True)

df

Unnamed: 0,선수id,포지션
0,a,1
1,a,2
2,a,3
3,b,1
4,b,2
5,b,3
6,c,1
7,c,2
8,c,3
9,d,1


일반화해서 모든 선수들이 가질 수 있는 포지션의 경우의 수를 모두 데이터 프레임에 추가하려고 했는데, 실행 시간이 너무 오래 걸린다.

#### 방법 2

선수들의 수를 10명씩 나누어서 데이터 프레임을 만든다.

In [93]:
def divide_list(l, n):
    for i in range(0, len(l), n) :
        yield l[i:i+n]

n = 10

spid_list = list(divide_list(spid['id'], n))

In [94]:
len(spid_list)

3410

In [91]:
def df_maker(l) :
    df = pd.DataFrame(columns = ['id', 'po'])
    for i in spid_list[l] :
        for j in spposition['spposition'] :
            df = df.append(pd.DataFrame([[i, j]], columns = ['id', 'po']))

결국 실행해야 하는 반복문의 수가 너무 많다!

#### 해결법

In [10]:
position = list(spposition['spposition'])
player = list(spid['id'])

list_with_tuple = [(x,y) for x in position for y in player]

In [11]:
list_with_dic = [{"id": x, "po":y} for x in player for y in position]

### API 조회 알고리즘

#### 방법 1

빈 데이터프레임을 만든 다음 json 값을 채워넣는다. 한번에 너무 많은 목록을 입력할 때 생기는 오류를 방지하기 위해 ```list_with_dic[i:28+i]``` 선수 1명씩 호출한다. ```list_with_dic```에는 선수 1명과 가능한 29개의 포지션이 선수 ```id``` 순서대로 저장되어 있다.

In [None]:
headers = {'Authorization' : api_key}
ranker = pd.DataFrame(columns=['createDate', 'spId', 'spPosition', 'status'])


for i in range(int(math.ceil(len(list_with_dic)/29))) :
    r = requests.get("https://api.nexon.co.kr/fifaonline4/v1.0/rankers/status?matchtype=50&players="+str(list_with_dic[i:28+i]), headers = headers)
    ranker = pd.DataFrame(r.json())

결과는 나오지만 실행 시간이 너무 오래 걸리고, 비효율적이다.

#### 방법 2

데이터를 데이터프레임 형태 말고 csv 파일 형태로 저장해 보자.

In [None]:
open('ranker_output.csv', 'w', newline ='')
f = open('ranker_output.csv', 'a', newline = '')
writer = csv.writer(f)

headers = {'Authorization' : api_key}
try :
    for i in range(int(math.ceil(len(list_with_dic)/29))) :
        r = requests.get("https://api.nexon.co.kr/fifaonline4/v1.0/rankers/status?matchtype=50&players="+str(list_with_dic[i:29+i]), headers = headers)
        writer.writerow(r)
    f.close()
    
except :
    print("ERROR")

그래도 실행 시간이 너무 길다. csv 파일의 문제가 아닌 걸까.

#### 방법 3

In [None]:
headers = {'Authorization' : api_key}
ranker = pd.DataFrame(columns=['createDate', 'spId', 'spPosition', 'status'])

term = 29*6

try :
    for i in tqdm_notebook(range(1, len(list_with_dic), term)):
        r = requests.get("https://api.nexon.co.kr/fifaonline4/v1.0/rankers/status?matchtype=50&players="+str(list_with_dic[i:i+term]), headers = headers)
        #print("term: {}, get: {}".format(term, len(pd.DataFrame(r.json()))))
        ranker = ranker.append(pd.DataFrame(r.json()))

except Exception as e :
    print("Error message: ", e)
    

ranker.reset_index( inplace = True )

반복문의 횟수 자체를 줄였다. 그런데 9~10%까지 진행하다 ```r.status_code```에 404 에러 메시지가 떴다. 랭커 유저들이 사용하지 않는 선수의 경우 데이터가 존재하지 않아 에러가 발생한다. 

따라서 404 메시지가 떴을 때를 대비해 ```continue```로 적절히 흐름제어를 해야 한다.

http://hleecaster.com/python-how-to-split-a-list-into-chunks/    
https://programmers.co.kr/learn/courses/4008/lessons/12738     
https://specialmylife.tistory.com/entry/pandas-DataFrame-%EC%82%AC%EC%9A%A9%EB%B2%95-%EC%A0%95%EB%A6%AC%EC%9E%91%EC%97%85%EC%A4%91     
https://da-nika.tistory.com/14    
https://devpouch.tistory.com/55    