# HTML 의 정의와 기본 실습
- \<!DOCTYPE html>: 이 문서가 HTML5를 사용한다고 선언하는 선언부입니다.
- \<html>: HTML 문서의 시작을 나타내는 태그로, 모든 HTML 요소들을 감싸는 최상위 요소입니다.
- \<head>: 문서의 메타 정보를 정의하는 부분으로, 웹 브라우저에 표시되지 않습니다. 문서 제목과 같은 정보가 여기에 위치합니다.
- \<title>: 웹 브라우저의 탭에 표시될 문서의 제목을 정의하는 태그입니다.
- \<body>: 실제 웹 페이지의 내용이 위치하는 부분으로, 사용자에게 보여집니다.
- \<h1>: 큰 제목을 정의하는 태그입니다. (h1부터 h6까지 사용 가능)
- \<p>: 단락을 정의하는 태그입니다.
- \<a>: 링크를 생성하는 태그로, href 속성을 사용하여 링크의 대상 URL을 지정합니다.
- \<img>: 이미지를 삽입하는 태그로, src 속성을 사용하여 이미지 파일의 경로를 지정하고, alt 속성은 이미지에 대한 설명을 제공합니다. 이미지 파일이 없을 경우에도 이 속성을 사용해야 합니다.

### 태그와 속성 개념 이해하기 

##  HTML 파일 직접 만들어보기 
- HTML 문법을 작성한다. 
- .html 로 저장한다. 
- 실행한다(브라우져로 연다). 
- [명언사이트](http://quotes.toscrape.com/)를 통해 실습

## 가장 먼저 할 일 
- beautifulsoup 설치하기 
- requests로 기본명령어 수행하기 
- a 태그 안 주소 추출

In [3]:
import requests 
from bs4 import BeautifulSoup
headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
url = 'http://quotes.toscrape.com/' 
soup = BeautifulSoup(requests.get(url, verify=False, headers = headers).text, 'html.parser')

soup.find_all('a')
#for i in soup.find_all('div',{"class":"quote"}):
 #   print(i.find('a').get('href')) # a 찾기 


[<a href="/" style="text-decoration: none">Quotes to Scrape</a>,
 <a href="/login">Login</a>,
 <a href="/author/Albert-Einstein">(about)</a>,
 <a class="tag" href="/tag/change/page/1/">change</a>,
 <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>,
 <a class="tag" href="/tag/thinking/page/1/">thinking</a>,
 <a class="tag" href="/tag/world/page/1/">world</a>,
 <a href="/author/J-K-Rowling">(about)</a>,
 <a class="tag" href="/tag/abilities/page/1/">abilities</a>,
 <a class="tag" href="/tag/choices/page/1/">choices</a>,
 <a href="/author/Albert-Einstein">(about)</a>,
 <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>,
 <a class="tag" href="/tag/life/page/1/">life</a>,
 <a class="tag" href="/tag/live/page/1/">live</a>,
 <a class="tag" href="/tag/miracle/page/1/">miracle</a>,
 <a class="tag" href="/tag/miracles/page/1/">miracles</a>,
 <a href="/author/Jane-Austen">(about)</a>,
 <a class="tag" href="/tag/aliteracy/page/1/">aliteracy</a>,
 <a class="tag" href

# URL은 어떻게 생겼나 확인
- 브라우저에서 url 정보 확인하기 
- 어떤 부분을 바꿀 수 있는지 확인

In [9]:
#명언만 추출하기 
for i in soup.find_all('div',{"class":"quote"}):
    try:
        print(i.find('span',{'class':'text'}).text)
    except UnicodeEncodeError as e:
        print(f"Error encoding character: {e}")
        # 유니코드 인코드 에러는 챗GPT로 해결 

“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
“It is our choices, Harry, that show what we truly are, far more than our abilities.”
“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
“Try not to become a man of success. Rather become a man of value.”
“It is better to be hated for what you are than to be loved for what you are not.”
“I have not failed. I've just found 10,000 ways that won't work.”
“A woman is like a tea bag; you never know how strong it is until it's in hot water.”
“A day without sunshine is like, you know, night.”


# 다음 사전에서 life의 뜻과 예문 찾기 
- 사이트 살펴보기
- url 조사하기 

In [16]:
url = 'https://dic.daum.net/search.do?q=life&dic=eng' 
soup = BeautifulSoup(requests.get(url, verify=False, headers = headers).text, 'html.parser')

# 뜻 찾기 
for i in soup.find_all('span',{"class":"txt_search"}):
    print(i.text)
     
#예문 찾기 
for i in soup.find_all('ul',{"class":"list_example sound_example"}):
    print(i.text)



삶
생활
생명
인생
수명
생명
(단수형) 생존 기간
인생
일생의
생명의
라이프
라이프 해크(특히 개인의 일상생활에서 문제 해결, 과제 단순화, 좌절감 축소 등을 위해 하는 모든 행동 또는 조처)
(한정적) 실제인
현실 그대로의
실제로 있었던
(사회적) 지위
계급
직업
생활 양식
사는 보람
life
the life
the soul
life
one's life
life
existence
livelihood
living
subsistence
life
wear
man's life span
durability
the span of life
life
vitality
vigor
animation
spirit




This exhibition will give you an opportunity to explore the life of Gauguin.
(Junior Edu times) 

이번 전시회는 당신에게 고갱의 삶을 탐험할 수 있는 기회를 제공할 것이다.



소리듣기





Scientists want to know if life ever lived on Mars.
(Kids Edu times) 

과학자들은 화성에 생물이 존재한 적이 있었는지를 알고 싶어한다.



소리듣기





With their recent success, many observers are hoping that the talented sibling duo will breathe new life into the K-Pop industry.
(Junior Edu times) 

최근 그들의 성공을 통해 많은 대중들은 재능 있는 남매 2인조가 한국 가요계의 새로운 바람을 불어 넣길 희망 하고 있다



소리듣기





While healing their bodies distressed from daily life, people also enjoy charcoal-cooked foods.
(Junior Edu times) 

일상생활에서 지친 몸을 치유하는 동안, 사람들은 숯으로 요리한 음식들

## 네이버에서 경제

In [2]:
url='https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=101'
# 기본 세 줄을 붙여 넣으면 soup가 생성됩니다. 
headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
res = requests.get(url, headers = headers)
soup = BeautifulSoup(res.text, 'lxml')  

#def로 url을 입력하면 soup를 생성하는 함수 만들기 
def soupMaker(url):
    headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
    res = requests.get(url, headers = headers)
    return BeautifulSoup(res.text, 'lxml') 
    
soup = soupMaker(url)

# 특정 클래스 속성을 출력하기
for i in soup.find_all('div', {"class" : "sh_text"})[:10]:
    # 링크로 연결된 a태그의 텍스트 찾기
    url2 = i.find('a').get('href') #링크 주소 찾기 
    print(i.find('a').text, url2) 
    # 주소 얻기 
    soup2 = soupMaker(url2)
    for j in soup2.find_all('div', {"id" : "dic_area"}):
        try:
            print(j.text)
        except UnicodeEncodeError as e:
            print(f"Error encoding character: {e}")
        # 유니코드 인코드 에러는 챗GPT로 해결 

NameError: name 'requests' is not defined

# 공공데이터에서 데이터 찾기 
- 찾은 다음에 크롤링
- 주식손익계산서 찾기(feat. 법인등록번호)
https://apis.data.go.kr/1160100/service/GetFinaStatInfoService_V2/getIncoStat_V2?serviceKey=7JlKxM7fEbOErQRa32MtR3%2Fg%2FBxi3JTPbwPfCw781Ma4uvwql5x2r2wM0Zh051RRUK%2Bw7YSwijxr0Tklej3cOg%3D%3D&numOfRows=1&pageNo=1&resultType=xml&bizYear=2022&crno=1350110034038



In [21]:
import re 
num = '1350110034038'
#국회도서관 api 키를 공공데이터서비스에서 받아서 사용 중(아직까지 트래픽 이슈는 없음)
# url 법인등록번호 빼고
url = 'https://apis.data.go.kr/1160100/service/GetFinaStatInfoService_V2/getIncoStat_V2?serviceKey=7JlKxM7fEbOErQRa32MtR3%2Fg%2FBxi3JTPbwPfCw781Ma4uvwql5x2r2wM0Zh051RRUK%2Bw7YSwijxr0Tklej3cOg%3D%3D&numOfRows=1&pageNo=1&resultType=xml&bizYear=2022&crno='
url = url + num
#def로 url을 입력하면 soup를 생성하는 함수 만들기 
def soupMaker(url):
    headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
    res = requests.get(url, headers = headers)
    return BeautifulSoup(res.text, 'lxml') 
    
soup = soupMaker(url)
#### 주의: 변수는 모두 소문자여야 함!!!!!!!!!!!!!!!!!!
# 영업이익 여부
print(soup.find('acitnm').text)
# 당기
print(soup.find('bpvtracitamt').text)
# 전기 
print(soup.find('pvtracitamt').text)

영업이익
722339893641
744176850301


In [25]:
import re 
Name = '김동관'
#국회도서관 api 키를 공공데이터서비스에서 받아서 사용 중(아직까지 트래픽 이슈는 없음)
url = 'https://apis.data.go.kr/9720000/searchservice/basic?serviceKey=7JlKxM7fEbOErQRa32MtR3%2Fg%2FBxi3JTPbwPfCw781Ma4uvwql5x2r2wM0Zh051RRUK%2Bw7YSwijxr0Tklej3cOg%3D%3D&pageno=1&displaylines=10&search=저자,'+Name 
#def로 url을 입력하면 soup를 생성하는 함수 만들기 
def soupMaker(url):
    headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}
    res = requests.get(url, headers = headers)
    return BeautifulSoup(res.text, 'lxml') 
    
soup = soupMaker(url)
 
dataset = [i.find('value').text for i in soup.find_all("item") ] 

for i in dataset[:10]:
    if re.search('[각-힣]+ [각-힣]+', i):
        print (i)
    else:
        pass

 

초고속 인터커넥트 기술 선도, 유니콘 도약 장밋빛 : (주)퀄리타스반도체 / 신용사회. 신용사회.
초고속 인터커넥트 기술 선도, 유니콘 도약 장밋빛 : (주)퀄리타스반도체 / 퀄리타스반도체 인터커넥트IP 반도체공정 제품설계 금융경제
