# 제조/공정에서 문제해결을 위한 데이터 분석

- 초기 대부분의 데이터 분석 기법 / 데이터 마이닝 기법이 제조업에서 적용
- 제조/공정 : QCD 관점에서 데이터 분석
    - Q (품질 Quality) : 제품의 품질 (서비스의 품질)을 높이기 위해 데이터 분석
    - C (비용 Cost) : 제품(또는 서비스)를 생산/제작/관리 소요되는 모든 비용을 낮추기 위해 분석
    - D (납기 Delivery) : 제품을 납품(서비스의 수요)에 대한 데이터 분석
    
- Q 품질 (제품/서비스)을 관리하기 위한 데이터 분석기법 7가지
    - 1. 히스토그램 (Histogram)
    - 2. 산점도 (Scatter)
    - 3. 관리 차트 (Check Sheet)
    - 4. 파레토도 (Pareto Plot)
    - 5. 관리도 (Control Chart, SPC)
    - 6. 층별화 (Stratification)
    - 7. **특성요인도 (Fish Bone Chart)** : 데이터를 수집하는 단계에서 사용

- **특성요인도** : 문제의 원인을 시각적으로 분해하여 이해하고, 그 원인을 찾아 분석하는 기법
     - 제조공정 (4M) : Man 사람 / Machine 설비 / Material 재료 / Method 방법
     - 서비스 산업 (6P) : Process 과정 / Place 장소 / People 사람 / Plant 시설 / Policy 정책 / Product 제품 서비스
     
- 데이터 수집하는 단계에서 어떤 데이터를 가져와 분석하는 것이 유의미한지 파악하고 찾을 때 주로 사용

# 데이터 크롤링

- 데이터를 웹 사이트에서 자동으로 수집하는 과정
- **Crawling** : 웹페이지의 하이퍼링크를 돌아다니며, 웹페이지를 다운로드하는 작업
- **Scraping** : 다운로드 한 웹 페이지에서 필요한 정보를 추출하는 작업
-
- **데이터 크롤링 과정**
    - 1. 시작 URL 설정: 크롤링을 시작할 때 웹페이지 URL(Uniform Resouce Locator/ 인터넷 상의 리소스가 위치한 주소를 가리키는 문자열)을 결정
    - 2. 웹 페이지 요청 및 다운로드 : 설정된 URL로 HTTP 요청을 보내 해당 페이지의 내용을 다운로드
        - HTTP (Hypertext Transfer Protocol) : 월드 와이드 웹에서 하이퍼 텍스트 요청과 정보를 전송하기 위해 사용되는 프로토콜
        - 서버와 유저의 요청(Request) - 응답(Response)를 주고받는 규칙
    - 3. 데이터 파싱 : 다운로드 된 웹 페이지의 HTML 코드를 분석하여 필요한 데이터를 추출 /HTML 태그를 기반으로 데이터를 식별
    - 4. 데이터를 저장 : 추출된 데이터를 DB, CSV, 정형데이터 형태로 저장
    - 5. 링크 추출 및 순회 : 현재페이지에서 다른 페이지로 링크를 추출하고, 해당 링크를 따라가며, 위의 과정을 반복
    
- **주의사항**
    - 서버 부하 관리 : 너무 빠른 속도로 크롤링을 수행하거나, 과도한 량의 데이터 크롤링을 수행할 경우, 서버에 부하
    - 웹 페이지의 규칙과 정책 준수

# requests
- requests 파이썬에 HTTP 요청을 보내기 위해 사용되는 라이브러리

In [1]:
import requests

In [2]:
url = requests.get('https://search.naver.com/search.naver?where=nexearch&sm=top_sug.pre&fbm=0&acr=1&acq=197%ED%9A%8C+%EC%97%B0%EA%B8%88&qdt=0&ie=utf8&query=197%ED%9A%8C+%EC%97%B0%EA%B8%88%EB%B3%B5%EA%B6%8C%EB%8B%B9%EC%B2%A8%EB%B2%88%ED%98%B8')

In [3]:
url
# .get() : 특정 URL에 대한 HTTP요청 응답
# 200 : 성공 / 404 : 페이지를 찾을 수 없음 / 500 : 서버 에러

<Response [200]>

In [4]:
url.text
# .text : 응답된 url의 본문을 유니코드 형태로 출력

'<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:title" content="197회 연금복권당첨번호 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="\'197회 연금복권당첨번호\'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="\'197회 연금복권당첨번호\'의 네이버 통합검색 결과입니다."> <title>197회 연금복권당첨번호 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><script> if (top.frames.length!=0 || window!=top) window.open(location, "_top"); </script><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_240228.css"> <l

- **robots.txt**

- 검색 엔진 (Search Engine) : 사용자가 원하는 정보를 입력하면, 그에 맞는 웹 페이지나 정보를 찾아주는 크롤링 프로그램
- 3가지 단계로 작동
    1. 크롤링 : 검색 엔진은 웹 크롤러라고 불리는 프로그램을 사용하여, 수많은 웹페이지를 탐색
    2. 인덱싱 : 수집한 웹페이지의 내용을 분석하여 색인화
    3. 검색 : 사용자가 검색창에 검색어나 질의를 입력하면, 검색엔진은 색인화된 데이터를 기반으로 해당 검색어와 관련된 웹페이즈를 찾아 제공
    
- 검색엔진들이 크롤링 과정에서 다양한 사이트를 접속하게 되는데, 해당 사이트에서 제공하고 싶지 않은 정보들을 사전에 차단할 수 있음
- robots.txt 파일이 웹사이트가 웹 크롤러에게 자신의 사이트를 어떻게 크롤링해야하는지를 정해주는 역할 
- 이 파일을 검색엔진의 웹 크롤러가 사이트의 어느 부분을 인덱싱하거나 크롤링 해야하는지 또는 하지 말아야하는 부분을 지정
    - User-agent : 크롤러의 이름을 지정
        - '''*''' 는 해당 페이지를 접속하는 모든 유저들에게 적용
    - Disallow : 크롤러가 접근하지 못하게 차단된 경로
        - / : 모든 웹 크롤러에 대해 사이트 전체를 크롤링하지 말라는 지시
    - Allow : Disallow로 금지된 경로 중에서도 접근을 허용하는 예외 경로
    - Sitemap : 사이트 맵 파일의 URL 지정
        - '사이트 맵' : 웹사이트(웹 서버)의 모든 URL을 포함하는 파일
        - 검색엔진이 사이트의 구조를 더 잘 이해하는데 도움을 주는 역할

In [5]:
url1 = requests.get('https://finance.naver.com/robots.txt')
print(url1.text)

User-agent: *
Disallow: /
User-agent: yeti
Disallow: /
Allow: /sise/
Allow: /research/
Allow: /marketindex/
Allow: /fund/
Allow: /template/head_js.naver
Disallow : /fund/news/
Disallow : /marketindex/news/



# BeautifulSoup

- 파이썬을 이용하여 웹 페이지를 긁어오는(스크래핑)작어을 쉽게 수행할 수 있게 도와주는 라이브러
- HTML과 XML 파일을 파싱하여, 복잡한 정보에서 원하는 데이터를 쉽게 접근하고, 수정하여 검색할 수 있도록 도움
    - HTML (Hypertext Markup Language) : 웹 페이지를 생성하기 위한 마크업 언어
        - 웹 페이지의 구조를 정의하고 웹 브라우저에 표시되는 콘텐츠를 서술하는데 사용
    - XML (Extensible Markup Language) : 데이터를 저장하고 전송하기 위한 마크업 언어
        - 데이터의 구조를 정의하고 표현하기 위한 목적으로 사용되는 웹 언어
    - XML에서는 사용자가 필요에 따라 직접 태그를 정의할 수 있음
    - HTML에서는 미리 사전에 정의된 태그를 사용

In [6]:
from bs4 import BeautifulSoup

In [7]:
# 앞서 추출한 URL 내 HTML에 있는 속성(태그)을 인식
html = BeautifulSoup(url.text)

- Parser : 특정한 형식의 데이터나 문서를 읽어 해당 데이터의 구조를 분석하고 이해하는 데에 사용되는 도구

In [8]:
# find() : HTML 태그 중 첫 번째 태그만 찾아서 반환
# 'a' : anchor 하이퍼링크를 생성하는 데 사용되는 태그
html.find('a', attrs={'class':'text _select_trigger _text'}).text
# 이 태그를 이용하면, 사용자가 클릭을 이용해 다른 웹페이지로 이동하거나,
# 동일한 웹 페이지내에 있는 특정 위치로 스크롤할 수 있음

'197회차 (2024.02.08.)'

In [9]:
#방법 1
number_tag = html.find('div', attrs={'class':'winning_number'}).find_all('span')
number_tag[3].get_text()

'6'

In [10]:
# 방법 2
# 리스트 컴프리헨션 활용
[x.get_text() for x in number_tag]

['4', '조', '9', '6', '6', '6', '1', '6']

In [11]:
import pandas as pd

In [12]:
pd.DataFrame([[x.get_text() for x in number_tag]])

Unnamed: 0,0,1,2,3,4,5,6,7
0,4,조,9,6,6,6,1,6


In [13]:
import time

In [14]:
number_all_list = []

# 190회차부터 200회차까지 당첨 번호를 모두 수집
for i in range(199,200) : 
    time.sleep(1)
    url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_sug.pre&fbm=0&acr=1&acq='+str(i)+'%ED%9A%8C+%EC%97%B0%EA%B8%88&qdt=0&ie=utf8&query=197%ED%9A%8C+%EC%97%B0%EA%B8%88%EB%B3%B5%EA%B6%8C%EB%8B%B9%EC%B2%A8%EB%B2%88%ED%98%B8'
    url_text = requests.get(url).text
    html_n = BeautifulSoup(url_text)
    print(requests.get(url))
    number_tag = html_n.find('div',
                             attrs={'class':'winning_number'}).find_all('span')
    number_list = [x.get_text() for x in number_tag] + [str(i)+'회']
    number_all_list.append(number_list)

<Response [200]>


In [15]:
number_all_list

[['4', '조', '9', '6', '6', '6', '1', '6', '199회']]

In [16]:
pd.DataFrame(number_all_list)

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,4,조,9,6,6,6,1,6,199회


# Web Table 데이터 수집

- 네이버 코스피 데이터를 가져와 분석
- read_html() 함수 : Pandas 내의 함수, HTML 문서 내의 특정 태그를 찾아, 해당 태그의 데이터를 DataFrame으로 변환하는 기능

In [17]:
url = requests.get('https://finance.naver.com/sise/sise_market_sum.naver')
url

<Response [200]>

In [18]:
url_table = pd.read_html(url.text)

In [19]:
url_table[0]

Unnamed: 0,0,1,2,3,4,5
0,거래량,매수호가,거래대금(백만),시가총액(억),영업이익(억),PER(배)
1,시가,매도호가,전일거래량,자산총계(억),영업이익증가율,ROE(%)
2,고가,매수총잔량,외국인비율,부채총계(억),당기순이익(억),ROA(%)
3,저가,매도총잔량,상장주식수(천주),매출액(억),주당순이익(원),PBR(배)
4,,,,매출액증가율,보통주배당금(원),유보율(%)


In [20]:
url_table[1] # 얘만 필요

Unnamed: 0,N,종목명,현재가,전일비,등락률,액면가,시가총액,상장주식수,외국인비율,거래량,PER,ROE,토론실
0,,,,,,,,,,,,,
1,1.0,삼성전자,73700.0,1200.0,-1.60%,100.0,4399730.0,5969783.0,54.66,18391216.0,34.58,4.15,
2,2.0,SK하이닉스,165800.0,700.0,-0.42%,5000.0,1207028.0,728002.0,54.29,3557672.0,-10.51,3.56,
3,3.0,LG에너지솔루션,387500.0,11000.0,-2.76%,500.0,906750.0,234000.0,4.91,239369.0,59.60,5.75,
4,4.0,삼성바이오로직스,780000.0,6000.0,+0.78%,2500.0,555157.0,71174.0,11.78,53322.0,64.72,9.12,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
76,49.0,KODEX CD금리액티브(합성),1028735.0,100.0,+0.01%,0.0,79509.0,7729.0,0.01,399044.0,,,
77,50.0,하이브,188600.0,4100.0,-2.13%,500.0,78556.0,41652.0,20.83,357350.0,101.89,1.87,
78,,,,,,,,,,,,,
79,,,,,,,,,,,,,


In [21]:
url_table[2]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
0,1,2,3,4,5,6,7,8,9,10,다음,맨뒤


In [22]:
# 속성 인덱싱 : 특정 태그(td "table data")에 있는 인덱스 정보를 확인
html = BeautifulSoup(url.text)

In [23]:
last_page = html.find('td', class_='pgRR').find('a')
last_page['href']
#페이지의 규칙을 봄

'/sise/sise_market_sum.naver?&page=44'

- BS4 Parser의 종류 (데이터를 호출하는 Parser의 종류)
    - htm5lib : HTML5에 있는 자료들(테이블, 문자, 사진)을 효과적으로 가져오는 라이브러리 (웹브라우저가 매우 복잡한 구성을 하고 있을 때에도 데이터를 호출)

In [24]:
#!pip install beautifulsoup4 html5lib
#!pip install html5lib

In [25]:
from bs4 import BeautifulSoup

In [30]:
df1 = pd.DataFrame()
# 여러 페이지의 코스피 데이터를 수집
for i in [1,2,3]:
    url_n = requests.get('https://finance.naver.com/sise/sise_market_sum.naver?&page='+str(i))
    table_n = pd.read_html(url_n.text)
    df1 = pd.concat([df1, table_n[1]])

In [31]:
df1

Unnamed: 0,N,종목명,현재가,전일비,등락률,액면가,시가총액,상장주식수,외국인비율,거래량,PER,ROE,토론실
0,,,,,,,,,,,,,
1,1.0,삼성전자,73700.0,1200.0,-1.60%,100.0,4399730.0,5969783.0,54.66,18391216.0,34.58,4.15,
2,2.0,SK하이닉스,165800.0,700.0,-0.42%,5000.0,1207028.0,728002.0,54.29,3557672.0,-10.51,3.56,
3,3.0,LG에너지솔루션,387500.0,11000.0,-2.76%,500.0,906750.0,234000.0,4.91,239369.0,59.60,5.75,
4,4.0,삼성바이오로직스,780000.0,6000.0,+0.78%,2500.0,555157.0,71174.0,11.78,53322.0,64.72,9.12,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
76,149.0,TIGER 미국필라델피아반도체나스닥,17485.0,75.0,+0.43%,0.0,20501.0,117250.0,0.98,3554268.0,,,
77,150.0,KODEX 200TR,12390.0,95.0,-0.76%,0.0,20128.0,162450.0,0.00,49545.0,,,
78,,,,,,,,,,,,,
79,,,,,,,,,,,,,
