## chapter 11 : 웹 크롤링을 통한 데이터 분석

### 11.3 강력한 크롤링 함수인 read_html를 알아보자

In [None]:
import pandas as pd

url = 'https://www.ncdinos.com/record/majorRank.do?year=2023&tabId=tab1'
kbo_tb = pd.read_html(url)
kbo_tb

In [None]:
len(kbo_tb)    # kbo_tb에 포함된 표의 수를 출력하자

In [None]:
type(kbo_tb)   # kbo_tb의 자료형을 출력하자

In [None]:
kbo_tb[0]          # 첫 번째 표만 출력하자

In [None]:
kbo_tb[1]          # 두 번째 표만 출력하자

### 11.4 여러 해에 걸친 경기 정보를 가져오자

In [None]:
url = 'https://www.ncdinos.com/record/majorRank.do?year=2021&tabId=tab1'
kbo_tb_2021 = pd.read_html(url)
kbo_tb_2021[0]      # 2021년도의 순위를 출력하자

In [None]:
url = '...&year='
years = [2019, 2020, 2021, 2022]
for y in years:
    print(url + str(y))

In [None]:
url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2019, 2020, 2021, 2022]
df = pd.DataFrame()
for y in years:
    kbo_df = pd.read_html(url + str(y))[0]
    df = pd.concat([df, kbo_df])

df  # 2019 부터 2022년 KBO의 최종 팀 순위

In [None]:
url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2019, 2020, 2021, 2022]
df = pd.DataFrame()
for y in years:
    kbo_df = pd.read_html(url + str(y))[0]
    kbo_df['year'] = y    # year 열을 추가하자
    df = pd.concat([df, kbo_df])

df  # 2019 부터 2022년 KBO의 최종 팀 순위

### 11.5 경기 정보 분석하기

In [None]:
df[df['순위'] == 1]

In [None]:
contents_col = ['순위', '팀명', '승', '패', '무', '승률', 'year']
winner_df = df[contents_col][df['순위'] == 1].set_index('팀명')
winner_df

In [None]:
import matplotlib.pyplot as plt

plt.rc('font', family='NanumBarunGothic') # 한글 글꼴 설정

In [None]:
winner_df['승률'].plot(kind='bar', label='승률')

In [None]:
rank_df = df.pivot(values='순위', index='year', columns='팀명')
rank_df

In [None]:
rank_df = rank_df.astype('int8')
rank_df

#### LAB 11-1 : 프로야구 기록의 승수를 표로 나타내자

In [None]:
import numpy as np
import pandas as pd

url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2018, 2019, 2020, 2021, 2022, 2023]
df = pd.DataFrame()
for y in years:
    kbo_df = pd.read_html(url + str(y))[0]
    kbo_df['year'] = y    # year 열을 추가하자
    df = pd.concat([df, kbo_df])

win_df = df.pivot(values='승', index='year', columns='팀명')
win_df = win_df.fillna(0).astype('Int8')
win_df

#### LAB 11-2 : 프로야구 1위 팀을 출력하자

In [None]:
import numpy as np
import pandas as pd

url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2018, 2019, 2020, 2021, 2022, 2023]
df = pd.DataFrame()
for y in years:
    kbo_df = pd.read_html(url + str(y))[0]
    kbo_df['year'] = y    # year 열을 추가하자
    df = pd.concat([df, kbo_df])

df = df[df['순위'] == 1]
df

### 11.6 판다스 데이터프레임 저장하기

In [None]:
import numpy as np
import pandas as pd

url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2018, 2019, 2020]
df = pd.DataFrame()
for y in years:
    kbo_df = pd.read_html(url + str(y))[0]
    kbo_df['year'] = y    # year 열을 추가하자
    df = pd.concat([df, kbo_df])

df = df[df['순위'] == 1]
df.to_csv('out.csv')

In [None]:
!cat out.csv

In [None]:
import sys

df.to_csv(sys.stdout, sep='|')   # sys.stdout을 통해 결과를 콘솔에 출력

In [None]:
import csv

f = open('out.csv')            # CSV 파일을 열어서 f에 저장한다.
data = csv.reader(f)           # reader() 함수를 이용하여 읽는다.
for row in data:
    print(row)
f.close()

In [None]:
import csv

f = open('out.csv')              # CSV 파일을 열어서 f에 저장한다.
data = csv.reader(f)             # csv의 reader() 함수를 이용하여 읽는다.
header = next(data)              # 헤더를 제거한다. (다음행으로 이동)
for row in data:                 # 반복 루프를 사용하여 데이터를 읽는다.
    print(row)
f.close()                        # 파일을 닫는다.

#### LAB 11-3 : 미국 프로야구 동부리그 기록을 살펴보자

In [None]:
import pandas as pd

# 2024년 내셔널 리그 기록 읽어오기
domain = 'https://sports.news.naver.com/'
url = domain + 'wbaseball/record/index?category=mlb&league=NL&year=2024'
nl_tb = pd.read_html(url)
nl_tb

In [None]:
# 2024년 내셔널 리그 기록 읽어오기
domain = 'https://sports.news.naver.com/'
url = domain + 'wbaseball/record/index?category=mlb&league=NL&year=2024'
nl_tb = pd.read_html(url)
nl_tb[0]   # 동부지구 팀의 순위 출력하기

In [None]:
nl_tb[1]

In [None]:
nl_tb[2]

In [None]:
nl_tb[3]

### LAB 11-4: 미국 내셔널 리그 1위 팀을 출력하자

In [None]:
df = nl_tb[0]     # 동부지구 팀의 순위 구하기
d1 = df.iloc[0]   # 동부지구 팀 중에서 1위 팀
d1 = d1.rename(index={'동부지구.1': '1위팀' })
d1.drop(index='동부지구')

In [None]:
df = nl_tb[1]     # 중부지구 팀의 순위 구하기
d2 = df.iloc[0]   # 중부지구 팀 중에서 1위 팀
d2 = d2.rename(index={'중부지구.1': '1위팀' })
d2.drop(index='중부지구')

In [None]:
df = nl_tb[2]     # 서부지구 팀의 순위 구하기
d3 = df.iloc[0]   # 서부지구 팀 중에서 1위 팀
d3 = d3.rename(index={'서부지구.1': '1위팀' })
d3.drop(index='서부지구')

In [None]:
df = pd.concat([d1, d2, d3], axis=1)
df.columns = ['동부', '중부', '서부']
df.dropna(axis=0)

### 11.7 데이터프레임을 파일로 저장하는 고급 기법

In [None]:
url = 'https://www.ncdinos.com/record/majorRank.do?tabId=tab1&year='
years = [2018, 2019, 2020]
df = pd.DataFrame()
for y in years:
   kbo_df = pd.read_html(url + str(y))[0]
   kbo_df['year'] = y    # year 열을 추가하자
   df = pd.concat([df, kbo_df])

df = df[df['순위'] == 1]
df

In [None]:
# 열의 일부만을 출력하자
columns = ['year', '순위', '팀명', '승률', '승차']
df.to_csv(sys.stdout, columns=columns)

In [None]:
# 인덱스를 출력하지 않는다
columns = ['year', '순위', '팀명', '승률', '승차']
df.to_csv(sys.stdout, index=False, columns=columns)

In [None]:
import numpy as np

columns = ['year', '순위', '팀명', '승률', '승차']
df['승률'] = np.NaN
#df['승률'] = np.nan
df.to_csv(sys.stdout, index=False, na_rep='####', columns=columns)

In [None]:
df.to_csv(sys.stdout, encoding='utf-8', sep='\t', columns=columns)

In [None]:
df.to_csv(sys.stdout, sep='\t', header=False, columns=columns)

### 11.8 텍스트 데이터 시각화를 위한 워드 클라우드

In [None]:
import wordcloud

wc = wordcloud.WordCloud()
text = '''According to The Economist,
data is the most valuable asset in the world, more valuable than oil.
This is due to the increasing importance of data
in driving innovation, productivity, and economic growth.'''
wc.generate(text)

In [None]:
import matplotlib.pyplot as plt

plt.imshow(wc)

In [None]:
import numpy as np
from PIL import Image

# 마스크 이미지를 이용한 워드 클라우드 생성
mask = np.array(Image.open("12주차_cloud.png")) # 마스크 이미지 파일
# 워드 클라우드 생성을 위한 키워드 인자들 설정
wc = wordcloud.WordCloud(background_color="white", mask=mask,\
               contour_width=2, contour_color='gray')
wc.generate(text)         # 주어진 텍스트를 이용하여 워드 클라우드 생성
plt.imshow(wc)
plt.axis("off")           # x, y 축 눈금을 그리지 않음

### 11.9 워드 클라우드의 세부 기능

In [None]:
import numpy as np
from PIL import Image
from wordcloud import WordCloud

mask = np.array(Image.open("12주차_cloud.png")) # 마스크 이미지 파일
# 워드 클라우드 생성을 위한 키워드 인자들 설정
wc = WordCloud(background_color="gray", mask=mask,\
               contour_width=4, contour_color='blue',\
               max_font_size=100, max_words=10)
wc.generate(text)         # 주어진 텍스트를 이용하여 워드 클라우드 생성
plt.imshow(wc)
plt.axis("off")           # x, y 축 눈금을 그리지 않음

In [None]:
from PIL import Image
import requests
from io import BytesIO
from wordcloud import WordCloud

path = 'https://github.com/dongupak/BigDataAnalysis/blob/main/data/img/'
url = path+'cloud.png?raw=true'
response = requests.get(url)
img = Image.open(BytesIO(response.content))
mask = np.array(img) # 마스크 이미지 파일
# 워드 클라우드 생성을 위한 키워드 인자들 설정
wc = WordCloud(background_color="white", mask=mask,\
               contour_width=2, contour_color='gray')
wc.generate(text)         # 주어진 텍스트를 이용하여 워드 클라우드 생성
plt.imshow(wc)
plt.axis("off")           # x, y 축 눈금을 그리지 않음

In [None]:
import urllib

# 웹 페이지 열기
with urllib.request.urlopen('http://naver.com') as response:
    # 데이터 읽기
    html = response.read()

# 데이터 처리 : 읽어온 데이터 출력
print(html)

In [None]:
import wordcloud
import urllib
import matplotlib.pyplot as plt

# 텍스트 파일 읽기
url = 'https://raw.githubusercontent.com/dongupak/DataSciPy/main/data/text/UNDHR.txt'
with urllib.request.urlopen(url) as response:
    text = response.read().decode('utf-8')

wc = wordcloud.WordCloud(background_color="white")
wc.generate(text)

plt.figure(figsize=(7, 7))			# 이미지 크기
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')    # 가로 세로 축의 눈금 제거

In [None]:
wc.to_file("un_human_rights.png")  # 워드 클라우드 이미지 저장
# 워드 클라우드 이미지 출력

#### LAB 11-5 : 위키피디아 워드 클라우드

In [None]:
import wikipedia
# 위키백과 사전의 컨텐츠 제목을 명시해 준다
wiki = wikipedia.page('Artificial intelligence')
# 이 페이지의 텍스트 컨텐츠를 추출하도록 한다
text = wiki.content

from wordcloud import WordCloud
wordcloud = WordCloud(width = 2000, height = 1500).generate(text)

import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

In [None]:
from wordcloud import WordCloud, STOPWORDS
# 불용어가 제외된 워드 클라우드를 만들자
s_words = STOPWORDS.union( {'one', 'using', 'first', 'two', 'make', 'use'} )
wordcloud = WordCloud(width = 2000, height = 1500,
                      stopwords = s_words).generate(text)

import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()