# 문자열 인코딩/디코딩
> 컴퓨터는 문자를 인식할 수 없기 때문에 숫자로 변환되어 저장됩니다. 변환해주기 위해서는 기준이 있어야하는데 이것을 무자 코드라고 하며 대표적으로 ASCII코드 또는 유니코드가 있습니다.  
> 이렇게 문자 코드를 기준으로 문자를 코드로 변환하는 것을 문자 인코딩 이라하고 코드를 문자로 변환하는 것을 문자 디코딩 이라고 합니다.
- [문자열 인코딩/디코딩 종류]((https://it-eldorado.tistory.com/61))

### [URL 인코딩/디코딩](https://it-eldorado.tistory.com/143)
> url 인코딩이란 url에서 url로 사용할 수 없는 문자 혹은 url로 사용할 수 있지만 의미가 왜곡될 수 있는 문자들을 '%XX'의 형태로 변환하는 것을 말합니다. 여기서 XX는 16진수 값입니다. 

# [URL 구조](https://developer.mozilla.org/ko/docs/Web/HTTP/Basics_of_HTTP/Identifying_resources_on_the_Web)
> https://news.naver.com:443/main/main.naver?mode=LSD&mid=shm&sid1=100
- 프로토콜: https
> 프로토콜은 컴퓨터끼리 네트워크 통신을 할 때 규격이다. HTTP, HTTPS, SMTP(이메일), SSH(원격 통신) 등이 있다.
- 호스트 주소: news.naver.com
> 호스트 주소는 도메인 네임 또는 IP 주소이다. 즉, 서버(서버 컴퓨터)의 고유 주소를 표시하는 영역이다.  
> 도에인은 식별하기 어려운 IP 주소를 쉽게 이해할 수 있는 문자로 표시한 주소이다.
- 포트 번호: 443
> 서버(서버 컴퓨터)에서 네트워크 서비스나 특정 프로세스를 식별하는 논리 단위이다.    
> - http는 80 포트  
> - https는 443 포트   
- 경로: main/main.naver
> 서버(서버 컴퓨터)에서 서비스 별로 정의한 주소 경로이다.
- 쿼리: mode=LSD&mid=shm&sid1=100
> `?`를 기점으로 `key=value` 형태로 데이터를 표현하며, 서버(서버 컴퓨터)에 특정 요청을 할 때 사용한다.

In [1]:
import requests 
from bs4 import BeautifulSoup

In [3]:
search_key = "삼성전자"
response = requests.get("https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query="+search_key)
response.status_code

200

In [9]:
soup = BeautifulSoup(response.text, 'html.parser')

elements = soup.select("ul.list_news > li .news_tit")
len(elements)

10

In [10]:
elements[0]

<a class="news_tit" href="https://www.yna.co.kr/view/AKR20220828053300003?input=1195m" onclick="return goOtherCR(this, 'a=nws*h.tit&amp;r=1&amp;i=880000D8_000000000000000013402999&amp;g=001.0013402999&amp;u='+urlencode(this.href));" target="_blank" title="삼성전자, '작업자 유해물질에 노출' 보도에 &quot;사실과 달라&quot; 반박"><mark>삼성전자</mark>, '작업자 유해물질에 노출' 보도에 "사실과 달라" 반박</a>

In [11]:
elements[0].text, elements[0].attrs['href']

('삼성전자, \'작업자 유해물질에 노출\' 보도에 "사실과 달라" 반박',
 'https://www.yna.co.kr/view/AKR20220828053300003?input=1195m')

In [12]:
elements[1].text, elements[1].attrs['href']

("삼성전자, 미세 플라스틱 저감 세탁기 'IFA 2022'서 공개",
 'https://zdnet.co.kr/view/?no=20220828092704')

In [16]:
for i, element in enumerate(elements):
    print(f'{i} 번째, 제목: {element.text} / 링크: {element.attrs["href"]}')

0 번째, 제목: 삼성전자, '작업자 유해물질에 노출' 보도에 "사실과 달라" 반박 / 링크: https://www.yna.co.kr/view/AKR20220828053300003?input=1195m
1 번째, 제목: 삼성전자, 미세 플라스틱 저감 세탁기 'IFA 2022'서 공개 / 링크: https://zdnet.co.kr/view/?no=20220828092704
2 번째, 제목: 삼성전자, 한-피지 비즈니스 포럼 기조연설…부산엑스포 유치 지원 / 링크: http://www.newsis.com/view/?id=NISX20220828_0001992963&cID=13001&pID=13000
3 번째, 제목: 삼성전자, 'IFA 2022'서 미세 플라스틱 저감 세탁기 공개한다 / 링크: https://www.news1.kr/articles/4785479
4 번째, 제목: 삼성전자, 도쿄서 '갤럭시 X BTS' 특별 체험 이벤트 / 링크: http://www.fnnews.com/news/202208281159290279
5 번째, 제목: 폴더블 힘 싣는 삼성전자…도쿄서 '갤럭시 X BTS' 체험 이벤트 / 링크: http://www.inews24.com/view/1514250
6 번째, 제목: 삼성 vs LG, '스마트홈 플랫폼' 왕좌 주인공은? / 링크: http://www.etnews.com/20220826000108
7 번째, 제목: ‘문과생도 이해하기 쉽게’…삼성 출신 전문가, 반도체 입문서 출간 / 링크: http://news.heraldcorp.com/view.php?ud=20220826000588
8 번째, 제목: 이재용 부회장, 복권 후 사업장 돌며 뉴삼성 시동 / 링크: https://view.asiae.co.kr/article/2022082810410305406
9 번째, 제목: [단독] 삼성전자 세트부문 상시 희망퇴직...이재용 '뉴삼성' 전환 박차 / 링크: http://www.fnnews.com/news/202208281017045664

함수 만들기

In [17]:
def select_articles(search_key):
    articles = []
    response = requests.get("https://search.naver.com/search.naver?where=news&ie=utf8&sm=nws_hty&query="+search_key)
    if response.ok:
        soup = BeautifulSoup(response.text, 'html.parser')
        elements = soup.select("ul.list_news > li .news_tit")
        for i, element in enumerate(elements):
            articles.append(
                f'{i} 번째, 제목: {element.text} / 링크: {element.attrs["href"]}'
            )
    return articles 

In [18]:
select_articles('카카오')

['0 번째, 제목: 이병선 전 카카오 부사장, 제주창조경제혁신센터장 취임 / 링크: http://www.edaily.co.kr/news/newspath.asp?newsid=01807286632431912',
 "1 번째, 제목: '카톡 말고 프로젝트' 나선 카카오…바람 잠재울 수 있을까 [홍키자의 빅테크... / 링크: https://premium.mk.co.kr/view.php?no=32380",
 '2 번째, 제목: ‘카카오 창작재단’ 본격 운영 돌입 / 링크: http://www.segye.com/content/html/2022/08/26/20220826509013.html?OutUrl=naver',
 '3 번째, 제목: 카카오, 모바일 \'다음\' 뉴스 개편…"언론사 편집뉴스 골라본다" / 링크: http://www.newsis.com/view/?id=NISX20220825_0001989869&cID=13006&pID=13100',
 "4 번째, 제목: 카카오뱅크 '마이너스 통장' 대출 재개…금리 내려 / 링크: http://www.wowtv.co.kr/NewsCenter/News/Read?articleId=A202208260006&t=NN",
 '5 번째, 제목: 조폐공사, 카카오엔터프라이즈 벤치마킹 나서 / 링크: http://www.breaknews.com/919448',
 '6 번째, 제목: 카카오엔터, 제1회 키워드 공모전 개최 / 링크: https://zdnet.co.kr/view/?no=20220826094619',
 "7 번째, 제목: 달라진 '카카오 뉴스'…포털의 '정치적 편향' 논란 벗을까 / 링크: http://news.mt.co.kr/mtview.php?no=2022082618304634473",
 '8 번째, 제목: 조폐공사, 카카오엔터프라이즈 벤치마킹한다 / 링크: http://www.chungnamilbo.co.kr/news/articleView.html?idxno=676276',
 '9 번째, 제목: "카카오T바이크, 대기