# 웹서버 로그 분석

## 문제 개요

웹서버 로그 데이터를 바탕으로 간단한 분석을 해보자. 주어진 로그 파일에는 총 백만개의 레코드가 들어 있으며 이를 바탕으로 요청을 가장 많이 보낸 5개의 IP 주소와 5개의 브라우저 에이전트를 찾는 것이 이번 문제입니다. 이 로그 파일은 흔히 이야기하는 반구조화된 (Semi-structured) 데이터인데 이를 잘 파싱하여 구조화된 형태로 바꾸는 것이 이번 문제를 해결하는데 핵심입니다.

## 데이터 셋 설명

### **access.log 파일은 data 폴더 속에 있습니다.**

access.log 파일에서 3개의 레코드를 예제로 보이면 아래와 같습니다:

| |
|:-|
|31.56.96.51 - - [22/Jan/2019:03:56:16 +0330] "GET /image/60844/productModel/200x200 HTTP/1.1" 200 5667 "https://www.zanbil.ir/m/filter/b113" "Mozilla/5.0 (Linux; Android 6.0; ALE-L21 Build/HuaweiALE-L21) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.158 Mobile Safari/537.36" "-"|
|40.77.167.129 - - [22/Jan/2019:03:56:17 +0330] "GET /image/23488/productModel/150x150 HTTP/1.1" 200 2654 "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" "-"|
|91.99.72.15 - - [22/Jan/2019:03:56:34 +0330] "GET /product/29080?model=58289 HTTP/1.1" 200 41308 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.92 Safari/537.36" "-"|

이 레코드의 구조는 다음과 같이 반구조화된 형태로 존재합니다. 

`
IP주소 - - [요청시간] "요청웹페이지" HTTP응답코드 응답바이트수 "리퍼러URL" "브라우저에이전트" "-"
`

위의 포맷을 보면 7개의 필드가 존재하는데 아래 테이블에 부연설명을 했습니다:

|필드이름|	타입|	설명|	예|
|:-|:-|:-|:-|
|IP주소|	문자열|	요청을 한 브라우저의 IP주소|	31.56.96.51|
|요청시간|	문자열|	이를 파싱하면 요청이 만들어진 날짜와 시간을 알 수 있습니다.|	22/Jan/2019:03:56:16 +0330|
|요청웹페이지|	문자열|	클라이언트단에서 요청한 HTTP 메소드와 웹페이지의 URL과 HTTP 버전|	GET /image/60844/productModel/200x200 HTTP/1.1|
|HTTP응답코드|	정수|	HTTP 응답코드로 200대라면 요청이 성공적으로 처리되었음을 나타내고 400대라면 존재하지 않는 웹페이지가 요청되었음을 나타냅니다. 500대라면 무언가 에러가 났음을 나타냅니다.| 	200|
|응답바이트수|	정수| 	클라이언트에게 보내진 응답의 크기를 바이트수로 표시합니다.|	5667
|리퍼러URL|	문자열|	만일 이 요청이 다른 웹페이지에 존재하는 링크를 통해 이뤄진 경우 그 웹페이지의 URL이 여기 지정됩니다.|	https://www.zanbil.ir/m/filter/b113|
|브라우저 에이전트|	문자열|	요청을 만든 브라우저의 종류와 버전이 여기 지정됩니다.|Mozilla/5.0 (Linux; Android 6.0; ALE-L21 Build/HuaweiALE-L21) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.158 Mobile Safari/537.36|

access.log에 있는 레코드들을 파싱하여 IP주소와 브라우저 에이전트의 값을 추출한 다음 가장 많이 사용된 5개의 IP 주소와 5개의 브라우저 에이전트를 찾아서 아래와 같은 형태로 제출합니다.

## 코드 선택

Python, R 중 본인의 선호 언어에 따라 코드를 선택하세요.
Python을 선호한다면 Python 코드를, R을 선호한다면 R 코드로만 작성하면 됩니다.

## 최종 제출 파일들

최종 제출 파일은 두 개입니다.

**1. 가장 많이 사용된 5개의 IP 주소**

    아래의 예시처럼 각 라인마다 IP주소를 지정한 형태 제출 파일의 내용을 만듭니다. 헤더의 이름은 answer_top_ip5 이어야 합니다.

|answer_top_ip5|
|:-|
|31.56.96.51|
|2.181.160.157|
|46.224.89.237|
|66.249.66.194|
|91.99.72.15|

**2. 가장 많이 사용된 5개의 브라우저 에이전트**

    아래의 예시처럼 각 라인마다 브라우저 에이전트를 지정한 형태 제출 파일의 내용을 만듭니다. 헤더의 이름은 answer_top_agent5 이어야 합니다.
    **채점을 위해 브라우저 에이전트의 양 끝에 "을 달아주세요.**

|answer_top_agent5|
|:-|
|"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"|
|"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"|
|"Mozilla/5.0 (Linux; Android 6.0; ALE-L21 Build/HuaweiALE-L21) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.158 Mobile Safari/537.36"|
|"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.92 Safari/537.36"|
|"Mozilla/5.0 (Android 7.1.1; Mobile; rv:64.0) Gecko/64.0 Firefox/64.0"|


In [1]:
with open('access.log', newline='\n') as f:
    size = len(f.readlines())
    print(size)

1000000


In [2]:
with open('access.log', newline='\n') as f:
    print(list(f)[100].split(' -')[0])

91.99.72.15


In [3]:
with open('access.log', newline='\n') as f:
    print('"'+list(f)[1].split('"')[5]+'"')

"Mozilla/5.0 (Linux; Android 6.0; ALE-L21 Build/HuaweiALE-L21) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.158 Mobile Safari/537.36"


In [15]:
ip_list = []
agent_list = []
f = open('access.log', 'r')
lines = f.readlines()
# print(len(lines))
# print(list(lines)[0].split(' -')[0])
# print('"'+(list(lines)[0].split('"')[5])+'"')
for line in lines:
    ip_list.append(line.split(' -')[0])
    agent_list.append('"'+line.split('"')[5]+'"')
f.close()

In [9]:
print(ip_list)
print(agent_list)

['54.36.149.41', '31.56.96.51']
['"Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)"', '"Mozilla/5.0 (Linux; Android 6.0; ALE-L21 Build/HuaweiALE-L21) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.158 Mobile Safari/537.36"']


In [41]:
from collections import Counter
ip = []
for i in Counter(ip_list).most_common(5):
    ip.append(i[0])
    
top_ip = {'answer_top_ip5':ip}
top_ip

{'top_ip5': ['66.249.66.194',
  '66.249.66.91',
  '151.239.241.163',
  '91.99.30.32',
  '66.249.66.92']}

In [42]:
agent = []
for i in Counter(agent_list).most_common(5):
    agent.append(i[0])
top_agent = {'answer_top_agent5':agent}
top_agent

{'answer_top_agent5': ['"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"',
  '"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"',
  '"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"',
  '"Mozilla/5.0 (Windows NT 6.1; rv:64.0) Gecko/20100101 Firefox/64.0"',
  '"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0"']}

In [43]:
import pandas as pd
top_ip5 = pd.DataFrame(top_ip)
top_ip5

Unnamed: 0,top_ip5
0,66.249.66.194
1,66.249.66.91
2,151.239.241.163
3,91.99.30.32
4,66.249.66.92


In [44]:
top_agent5 = pd.DataFrame(top_agent)
top_agent5

Unnamed: 0,answer_top_agent5
0,"""Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537...."
1,"""Mozilla/5.0 (Windows NT 6.1; Win64; x64) Appl..."
2,"""Mozilla/5.0 (Windows NT 10.0; Win64; x64) App..."
3,"""Mozilla/5.0 (Windows NT 6.1; rv:64.0) Gecko/2..."
4,"""Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:..."


## 결과 저장

채점을 위해, 위에서 구한 데이터를 현재 파일과 같은 디렉토리(.ipynb 파일이 있는 디렉토리)에 `answer_top_ip5.csv`과 `answer_top_agent5.csv`이라는 이름으로 저장해야 합니다.

In [45]:
# csv 파일 저장 예시 - python
import csv
top_ip5.to_csv('answer_top_ip5.csv')
top_agent5.to_csv('answer_top_agent5.csv', quoting=csv.QUOTE_NONNUMERIC)