# Web scraping setup
## Importing request and BeautifulSoup

In [39]:
import requests
from bs4 import BeautifulSoup
import csv

## Send HTTP request & get response from server

In [40]:
url='http://www.kobis.or.kr/kobis/business/mast/thea/findTheaterInfoList.do'
r=requests.post(url)

## Parse html code using BeautifulSoup module

In [41]:
soup=BeautifulSoup(r.text, "html.parser")
#print(soup)

## find_all & find
### - 테이블 전체에 대한 html tag 구하기
### - 테이블 안의 모든 행에 대한 html tag 찾기
### - 'rows'는 각 행에 대한 html 코드를  리스트 형태로 담고 있음

In [42]:
table=soup.find('table')
rows=table.find('tbody').find_all('tr')

# print(table)
# print(rows)
# print(rows[0])
print(len(rows))

10


### In-Class Exercise #1 - 행별로 열을 파싱하기
### - 'col' 은 첫 번째 행의 각 열에 대한 정보를 담고 있음
### - 'col'의 길이는 행별 열의 개수를 의미함
### - 'result'는 첫 행의 각 열의 값을 담는 리스트

In [43]:
columns=rows[0].find_all('td')
text_columns=[]
for i in columns:
    text_columns.append(i.get_text())
print(text_columns)

['서울시', '강서구', '001228', '메가박스 화곡', '5', '851', '상설', '가입', '메가박스(주)', '2015-05-29', '영업']


### 반복문을 통하여 전체 행의 정보 가져오기
### - nested loop (이중 반복문)을 응용하여 리스트로 전체 테이블의 행을 출력하기

In [48]:


for i in range(len(rows)):
    text_columns_2=[]
    columns=rows[i].find_all('td')
    for j in columns:
        text_columns_2.append(j.get_text())
    print(text_columns_2)

['경상남도', '양산시', '007078', '메가박스 양산', '6', '528', '상설', '가입', '메가박스(주)', '2017-05-01', '영업']
['서울시', '동작구', '001290', '롯데시네마 신대방', '6', '533', '상설', '가입', '롯데컬처웍스(주)롯데시네마', '2022-07-29', '영업']
['서울시', '양천구', '001291', '메가박스 더 부티크 목동현대백화점', '8', '883', '상설', '가입', '메가박스(주)', '2022-12-13', '영업']
['전라북도', '완주군', '008223', '완주 휴 시네마', '2', '90', '상설', '가입', '(주)디트릭스 ', '2014-09-18', '영업']
['강원도', '횡성군', '003211', '횡성시네마', '2', '136', '상설', '가입', '(주)디트릭스 ', '2018-02-14', '영업']
['경기도', '평택시', '002042', '메가박스 평택비전', '5', '333', '상설', '가입', '메가박스(주)', '2024-01-18', '영업']
['서울시', '영등포구', '001158', 'CGV 영등포', '12', '2,712', '상설', '가입', 'CJ올리브네트웍스(주)', '2009-09-15', '영업']
['경상남도', '김해시', '007077', 'CGV 김해장유', '6', '742', '상설', '가입', 'CJ올리브네트웍스(주)', '2017-01-25', '영업']
['서울시', '중랑구', '001236', 'CGV 상봉', '7', '1,155', '상설', '가입', 'CJ올리브네트웍스(주)', '2016-02-25', '영업']
['서울시', '강북구', '001124', 'CGV 미아', '6', '691', '상설', '가입', 'CJ올리브네트웍스(주)', '2007-04-01', '영업']


# Editing page parameters

In [45]:
page=1
payload={'pageIndex':page}
r=requests.post(url, params=payload)
soup=BeautifulSoup(r.text, "html.parser")

# print(soup)

# In-Class Exercise #1 - Editing page parameters
- 10페이지 첫 번째 영화관 정보를 출력해 보자

In [46]:
page=10
payload={'pageIndex':page}
r=requests.post(url, params=payload)
soup=BeautifulSoup(r.text, "html.parser")
table=soup.find('table')
rows=table.find('tbody').find_all('tr')
columns=rows[0].find_all('td')

for i in columns:
    text_columns_3=[]
    text_columns.append(i.get_text())
print(text_columns)


['서울시', '강서구', '001228', '메가박스 화곡', '5', '851', '상설', '가입', '메가박스(주)', '2015-05-29', '영업', '부산시', '부산진구', '001286', 'CGV 서면상상마당', '6', '658', '상설', '가입', 'CJ올리브네트웍스(주)', '2021-12-22', '영업']


# In-Class Exercise #2 - Parameter를 수정하여 10페이지까지의 데이터 수집

In [55]:
for i in range(10):

    page=i
    payload={'pageIndex':page}
    r=requests.post(url, params=payload)
    soup=BeautifulSoup(r.text, "html.parser")
    table=soup.find('table')
    rows=table.find('tbody').find_all('tr')

    
    for j in range(len(rows)):
        text_columns_4=[]
        columns=rows[j].find_all('td')
        for k in columns:
            text_columns_4.append(k.get_text())

11


# In-Class Exercise #3- CSV file 로 저장

In [56]:
with open('theater.csv', 'a', newline='') as out:
    store=csv.writer(out)
    for i in range(10):
        page=i
        payload={'pageIndex':page}
        r=requests.post(url, params=payload)
        soup=BeautifulSoup(r.text, "html.parser")
        table=soup.find('table')
        rows=table.find('tbody').find_all('tr')
        for j in range(len(rows)):
            text_columns_5=[]
            columns=rows[j].find_all('td')
            for k in columns:
                text_columns_5.append(k.get_text())
            store.writerow(text_columns_5)