## 3.웹 데이터를 이용하여 데이터 분석하기
### requests와 bs4 사용 예시 코드

In [1]:
#requests 모듈은 브라우저의 서버로 요청을 보낼수 있게함
#bs4 모듈은 requests로 가져온 HTML 코드의 태그에 접근할 수 있게 함
import requests
import bs4

naver_url='https://www.naver.com/'
naver_response=requests.get(naver_url) # 주소창에 url입력 후 서버로 요청받아서 응답 받는 과정을 구현
# naver_response는 응답객체

naver_bs=bs4.BeautifulSoup(naver_response.text,'lxml') # 뷰티풀스프형 데이터로 변환/ 옵션은 lxml (markdown언어로 속도가 빨라서 주로 사용)
#뷰티풀스프는 html코드의 성질을 이용하여 이용자가 원하는 정보를 찾아줌

#하지만 태그만으로 정보를 가져오기엔 태그도 많으며 같은 태그를 가지는 정보도 많음
#그러므로 속성값과 같은 것이 필요 ex)class
result=naver_bs.find('div',class_ = 'logo_area') # class값이 'logo_area'인 데이터만 가져옴 
print(result.text)



네이버




## 구현하기

### 모듈 import

In [2]:
#requests 모듈은 브라우저의 서버로 요청을 보낼수 있게함
#bs4 모듈은 requests로 가져온 HTML 코드의 태그에 접근할 수 있게 함
import requests
import bs4
import pandas as pd

### 데이터 불러오기

In [5]:
fs_url='https://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A005380&cID=&MenuYn=Y&ReportGB=D&NewMenuID=103&stkGb=701' # 연간 테이블을 가져오기 위해 ReportGB를 D로 설정한 주소를 가져옴
fs_page=requests.get(fs_url) # fs_url의 정보를 서버에게 요청해 응답받아 fs_page에 저장
fs_tables=pd.read_html(fs_page.text) # html 코드에서 필요한 데이터만 찾아내어 데이터프레임으로 형성

### 포괄손익계산서

In [7]:
temp_df=fs_tables[0]
temp_df=temp_df.set_index('IFRS(연결)') # 'IFRS(연결)'이 해당하는 열을 index로 설정
temp_df=temp_df[['2018/12','2019/12','2020/12','2021/09']] # 해당 열만 가져옴
temp_df=temp_df.loc[['매출액','영업이익','당기순이익']] # loc로 원하는 행을 추출

### 재무상태표

In [9]:
temp_df2=fs_tables[2]
temp_df2=temp_df2.set_index('IFRS(연결)')
temp_df2=temp_df2.loc[['자산','부채','자본']]

### 현금흐름표

In [11]:
temp_df3=fs_tables[4]
temp_df3=temp_df3.set_index('IFRS(연결)')
temp_df3=temp_df3.loc[['영업활동으로인한현금흐름']]

### 표 합치기

In [13]:
fs_df=pd.concat([temp_df,temp_df2,temp_df3]) # 표 붙이기 - 열이나 행이 동일해야 합쳐질 수 있음


### 함수화하기

In [16]:
def make_fs_dataframe(firm_code): # 기업코드에 따라 다른 데이터프레임 생성
    fs_url='https://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&cID=&MenuYn=Y&ReportGB=D&NewMenuID=103&stkGb=701&gicode='+firm_code # 주소에서 &끼리 연결된 값은 순서가 바뀌어도 상관없음
    fs_page=requests.get(fs_url)

    fs_tables=pd.read_html(fs_page.text)

    temp_df=fs_tables[0]
    temp_df=temp_df.set_index(temp_df.columns[0]) # IFRS뿐만아니라 GAAP도 있기때문에 첫번째 column에 어떤 값이 와도 수용 가능
    temp_df=temp_df[temp_df.columns[:4]] # 날짜가 바뀔수도 있음
    temp_df=temp_df.loc[['매출액','영업이익','당기순이익']]

    temp_df2=fs_tables[2]
    temp_df2=temp_df2.set_index('IFRS(연결)')
    temp_df2=temp_df2.loc[['자산','부채','자본']]


    temp_df3=fs_tables[4]
    temp_df3=temp_df3.set_index('IFRS(연결)')
    temp_df3=temp_df3.loc[['영업활동으로인한현금흐름']]
    fs_df=pd.concat([temp_df,temp_df2,temp_df3])

    return fs_df

### 데이터 병합

In [18]:
# 데이터 병합에 대해 생각해보자
# 회사코드가 단독으로 인덱스나 칼럼에 들어가는 것이 비교하기에 좋다.

# 2018/12칼럼 하나만 길게 변경시키기

code = 'A005930'
fs_df=make_fs_dataframe(code)
temp_df=pd.DataFrame({code:fs_df['2018/12']})
temp_df=temp_df.T # 전치
temp_df.columns=[['2018/12']*len(fs_df),temp_df.columns]

# 전부 바꾸기
code = 'A005930'
fs_df=make_fs_dataframe(code)

for num,col in enumerate(fs_df.columns): # num은 0부터 시작해서 +1씩 늘어남, col은 fs_df.columns의 0번째 data부터 n번째 data까지

    temp_df=pd.DataFrame({code:fs_df[col]})
    temp_df=temp_df.T
    temp_df.columns=[['2018/12']*len(fs_df),temp_df.columns]
    if num==0:
        total_df=temp_df
    else:
        total_df=pd.merge(total_df,temp_df,how='outer',left_index=True,right_index=True) # outer : 합집합 / merge : 표 옆으로 붙이기

### 함수화하기

In [21]:
def change_df(firm_code,dataframe):
    for num,col in enumerate(fs_df.columns):

        temp_df=pd.DataFrame({firm_code:dataframe[col]})
        temp_df=temp_df.T
        temp_df.columns=[[col]*len(dataframe),temp_df.columns]
        if num==0:
            total_df=temp_df
        else:
            total_df=pd.merge(total_df,temp_df,how='outer',left_index=True,right_index=True)
    return total_df

### 만들어진 함수들을 이용해 데이터 정렬

In [23]:
#지금까지의 함수를 이용하면 웹에서 데이터를 가져와 데이터프레임을 만들고
#원하는 형태로 바꾸어 회사코드가 인덱스인 데이터프레임을 갖게된다.

firmcode_list=['A005930','A005380','A035420']
for num,code in enumerate(firmcode_list):
    fs_df=make_fs_dataframe(code)
    fs_df_changed=change_df(code,fs_df) # chage_df함수를 통해 해당 코드를 가진 기업의 데이터를 배열로 정렬
    if num==0:
        total_fs=fs_df_changed 
    else:
        total_fs=pd.concat([total_fs,fs_df_changed]) # concat함수로 배열로 정렬한 데이터를 밑에 붙이기
total_fs

Unnamed: 0_level_0,2018/12,2018/12,2018/12,2018/12,2018/12,2018/12,2018/12,2019/12,2019/12,2019/12,...,2020/12,2020/12,2020/12,2021/09,2021/09,2021/09,2021/09,2021/09,2021/09,2021/09
IFRS(연결),매출액,영업이익,당기순이익,자산,부채,자본,영업활동으로인한현금흐름,매출액,영업이익,당기순이익,...,부채,자본,영업활동으로인한현금흐름,매출액,영업이익,당기순이익,자산,부채,자본,영업활동으로인한현금흐름
A005930,2437714.0,588867.0,443449.0,3393572.0,916041.0,2477532.0,670319.0,2304009.0,277685.0,217389.0,...,1022877.0,2759480.0,652870.0,2030393.0,377671.0,290695.0,4104207.0,1136546.0,2967661.0,444710.0
A005380,968126.0,24222.0,16450.0,1806558.0,1067597.0,738960.0,37643.0,1057464.0,36055.0,31856.0,...,1330032.0,763410.0,-4098.0,865842.0,51493.0,49917.0,2311100.0,1487985.0,823114.0,-33864.0
A035420,55869.0,9425.0,6279.0,98812.0,39321.0,59491.0,9735.0,43562.0,11550.0,3968.0,...,87591.0,82551.0,14472.0,48899.0,9742.0,161778.0,329609.0,87551.0,242058.0,8697.0
