# 2.1 pandas 맛보기

## 2.1.1 pandas란?
- 테이블 형태(엑셀)의 데이터를 쉽게 다룰 수 있는 파이썬 라이브러리이다.

## 2.1.2 데이터 불러오기(read_excel)

In [1]:
import pandas as pd

In [10]:
sample_1 = pd.read_excel('sample_1.xlsx', # 파일 경로
                         header = 1, # 칼럼명 위치 # 인덱스 1은 두 번째 줄
                         skipfooter = 2, # 마지막 로우에서 두 줄 생략
                         usecols = 'A:C')# 사용할 칼럼

sample_1.head(3) # 처음부터 3번째 로우까지 보여준다.

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,106320
1,A01,여성,191436
2,A31,남성,319


In [12]:
sample_1.tail(3) # 마지막부터 3개의 로우까지 보여준다.

Unnamed: 0,국적코드,성별,입국객수
3,A31,여성,42
4,A18,남성,158912
5,A18,여성,232943


* 위의 head()와 tail()을 이용하여 정보를 제대로 받아왔는지 확인

* sample_1의 정보 확인

In [16]:
sample_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   국적코드    6 non-null      object
 1   성별      6 non-null      object
 2   입국객수    6 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 272.0+ bytes


* sample_1 데이터의 기초통계량 확인

In [18]:
sample_1.describe() # 숫자 형 변수에 대한 여러 가지 통계량을 출력하는 함수

Unnamed: 0,입국객수
count,6.0
mean,114995.333333
std,98105.752006
min,42.0
25%,26819.25
50%,132616.0
75%,183305.0
max,232943.0


## 2.1.3 데이터 선택 1) - 칼럼 기준

In [19]:
# 한 개의 칼럼 선택

In [20]:
sample_1['입국객수']

0    106320
1    191436
2       319
3        42
4    158912
5    232943
Name: 입국객수, dtype: int64

In [21]:
# 두 가지의 칼럼 선택

In [22]:
sample_1[['국적코드', '입국객수']]

Unnamed: 0,국적코드,입국객수
0,A01,106320
1,A01,191436
2,A31,319
3,A31,42
4,A18,158912
5,A18,232943


In [24]:
# 칼럼 생성

In [25]:
sample_1['기준년월'] = '2019-11'
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


## * 데이터 선택 2) - 로우 기준

In [26]:
# 특정 조건에 맞는 데이터를 필터링한 결과를 찾을 때

In [28]:
condition = (sample_1['성별'] == '남성')
condition

0     True
1    False
2     True
3    False
4     True
5    False
Name: 성별, dtype: bool

In [29]:
# sample_1에 condition적용

In [30]:
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11


In [31]:
condition = sample_1['입국객수'] >= 150000
condition

0    False
1     True
2    False
3    False
4     True
5     True
Name: 입국객수, dtype: bool

In [42]:
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


* &, | 연산자 사용하기

In [37]:
condition = (sample_1['성별'] == '남성') & (sample_1['입국객수'] >= 150000)
condition

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool

In [38]:
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
4,A18,남성,158912,2019-11


In [39]:
# 가독성 높게 표현하기

In [40]:
condition = (sample_1['성별'] == '남성') \
& (sample_1['입국객수'] >= 150000)
condition

0    False
1    False
2    False
3    False
4     True
5    False
dtype: bool

In [41]:
condition = (sample_1['성별'] == '남성') \
| (sample_1['입국객수'] >= 150000)
condition

0     True
1     True
2     True
3    False
4     True
5     True
dtype: bool

* 하나의 컬럼에 대해 여러 조건으로 필터링하기

In [43]:
condition = sample_1['국적코드'].isin(['A01', 'A18'])
condition

0     True
1     True
2    False
3    False
4     True
5     True
Name: 국적코드, dtype: bool

In [44]:
sample_1[condition]

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


* 필터링 값이 False인 경우만 출력

In [45]:
sample_1[condition == False]

Unnamed: 0,국적코드,성별,입국객수,기준년월
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11


## 2.1.5 데이터 통합 1) - 옆으로 통합(merge)

In [46]:
sample_1

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,106320,2019-11
1,A01,여성,191436,2019-11
2,A31,남성,319,2019-11
3,A31,여성,42,2019-11
4,A18,남성,158912,2019-11
5,A18,여성,232943,2019-11


In [47]:
# 국적코드에 대한 국가명 매핑을 위한 통합

In [48]:
# 국적코드와 국적명을 매핑한 국적코드표 불러오기

In [49]:
code_master = pd.read_excel('sample_codemaster.xlsx')
code_master

Unnamed: 0,국적코드,국적명
0,A01,일본
1,A02,대만
2,A03,홍콩
3,A18,중국
4,A19,이란
5,A22,우즈베키스탄
6,A23,카자흐스탄
7,A99,아시아 기타


* merge를 이용한 통합

In [52]:
sample_1_code = pd.merge(left = sample_1, # 왼쪽 테이블은 sample_1
        right = code_master, # 오른쪽 테이블은 code_master
        how = 'left', # 왼쪽 테이블을 기준으로 결합
        left_on = '국적코드', # 왼족 테이블의 기준 칼럼은 국적코드
        right_on = '국적코드') # 오른쪽 테이블의 기준 칼럼은 국적코드

sample_1_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국


* 양쪽 테이블에서 공통으로 존재하는 경우에 대해 출력

In [53]:
sample_1_code_inner = pd.merge(left = sample_1,
                              right = code_master,
                              how = 'inner', # 두 기준 칼럼의 값이 서로 일치할 경우만
                              left_on = '국적코드',
                              right_on = '국적코드')
sample_1_code_inner

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A18,남성,158912,2019-11,중국
3,A18,여성,232943,2019-11,중국


## 2.1.6 데이터 통합 2) - 아래로 통합(append)

* 2019년 12월 데이터 불러와 기준년월 칼럼 만들어 통합

In [54]:
sample_2 = pd.read_excel('sample_2.xlsx',
                        header = 1,
                        skipfooter = 2,
                        usecols = 'A:C')
sample_2

Unnamed: 0,국적코드,성별,입국객수
0,A01,남성,92556
1,A01,여성,163737
2,A18,남성,155540
3,A18,여성,249023


In [55]:
sample_2['기준년월'] = '2019-12'

In [56]:
sample_2

Unnamed: 0,국적코드,성별,입국객수,기준년월
0,A01,남성,92556,2019-12
1,A01,여성,163737,2019-12
2,A18,남성,155540,2019-12
3,A18,여성,249023,2019-12


In [58]:
sample_2_code = pd.merge(left = sample_2,
                        right = code_master,
                        how = 'left',
                        left_on = '국적코드',
                        right_on = '국적코드')
sample_2_code

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,92556,2019-12,일본
1,A01,여성,163737,2019-12,일본
2,A18,남성,155540,2019-12,중국
3,A18,여성,249023,2019-12,중국


* append를 이용한 통합

In [61]:
sample = sample_1_code.append(sample_2_code, ignore_index = True)
sample

Unnamed: 0,국적코드,성별,입국객수,기준년월,국적명
0,A01,남성,106320,2019-11,일본
1,A01,여성,191436,2019-11,일본
2,A31,남성,319,2019-11,
3,A31,여성,42,2019-11,
4,A18,남성,158912,2019-11,중국
5,A18,여성,232943,2019-11,중국
6,A01,남성,92556,2019-12,일본
7,A01,여성,163737,2019-12,일본
8,A18,남성,155540,2019-12,중국
9,A18,여성,249023,2019-12,중국


## 2.1.7 데이터 저장(to_excel)

In [63]:
sample.to_excel('sample.xlsx')

* 인덱스 번호를 제외하고 저장하고 싶다면

In [64]:
sample.to_excel('sample_index_no.xlsx', index=False)

## 2.1.8 데이터 집계(pivot_table)
- '00별로 데이터를 집계'할 때 사용하는 기능'

In [65]:
sample_pivot = sample.pivot_table(values = '입국객수',
                                 index = '국적명',
                                 columns = '기준년월',
                                 aggfunc = 'mean')
sample_pivot

기준년월,2019-11,2019-12
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,148878.0,128146.5
중국,195927.5,202281.5


### * aggfunc
- mean: 평균
- sum: 합계
- min: 최솟값
- max: 최댓값
- median: 중앙값
- count: 갯수
- nunique: 중복을 제거한 후 개수

In [67]:
#index, column이 항상 있어야하는 것은 아니다.

In [68]:
sample_pivot_2 = sample.pivot_table(values = '입국객수',
                                 index = '국적명',
                                 aggfunc = 'mean')
sample_pivot_2

Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,138512.25
중국,199104.5


In [70]:
sample_pivot_3 = sample.pivot_table(values = '입국객수',
                                 columns = '기준년월',
                                 aggfunc = 'mean')
sample_pivot_3

기준년월,2019-11,2019-12
입국객수,114995.333333,165214.0


# 2.2 웹 크롤링 맛보기

## 2.2.1 selenium과 크롬드라이버 설치

In [72]:
from selenium import webdriver

## 2.2.2 크롬드라이버 활용하기

In [77]:
driver = webdriver.Chrome('C:\\Users\\YHI\\chromedriver.exe')

## 2.2.3 웹 페이지 접속

In [78]:
url = 'https://www.naver.com/'
driver.get(url)

## 2.2.4 웹 페이지(HTML) 다운로드

In [79]:
html = driver.page_source

## 2.2.5 HTML 구조 살펴보기

In [80]:
# 태그명, class 이름, id 값 등등 확인

## 2.2.6 크롬 브라우저에서 웹 페이지의 HTML 살펴보기

In [81]:
# 특정 사이트에 접속한 후 F12를 이용하여 개발자 도구를 접속

In [82]:
# 원하는 요소의 정보를 위해 오른쪽 버튼 -> 검사를 선택하면
# 특정 요소의 태그명, 속성 등등의 정보를 알 수 있다.

## 2.2.7 BeautifulSoup을 이용한 정보 찾기

In [86]:
html = '''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>
'''

In [88]:
from bs4 import BeautifulSoup

In [89]:
# html 안에 문자열을 HTML 형식에 맞게 해석해서 원하는 정보를 찾을 수 있다.
soup = BeautifulSoup(html, 'html.parser') 

## 2.2.8 HTML 정보 찾기 1) - 태그 속성 활용

* 태그명으로 태그 찾기

In [90]:
tags_span = soup.select('span') # span 태그를 모두 찾아 저장
tags_p = soup.select('p') # p 태그를 모두 찾아 저장

In [91]:
ids_fruits1 = soup.select('#fruits1')
class_price = soup.select('.price')
tags_span_class_price = soup.select('span.price')

## 2.2.9 HTML 정보 찾기 2) - 상위 구조 활용
- 한 단계: '>'로 표시
- 여러 단계: ' '로 표시

* 태그 구조로 위치 찾기1)

In [92]:
tags_name = soup.select('span.name')
tags_name

[<span class="name"> 바나나 </span>, <span class="name"> 파인애플 </span>]

* 태그 구조로 위치 찾기2)

In [97]:
tags_banana1 = soup.select('#fruits1 > span.name')
tags_banana1

[<span class="name"> 바나나 </span>]

* 태그 구조로 위치 찾기3)

In [101]:
tags_banana2 = soup.select('div.sale > #fruits1 > span.name')
tags_banana3 = soup.select('div.sale span.name')

In [102]:
tags_banana2

[<span class="name"> 바나나 </span>]

In [103]:
tags_banana3

[<span class="name"> 바나나 </span>]

## 2.2.10 정보 가져오기1) - 태그 그룹에서 하나의 태그 선택

In [104]:
tags = soup.select('span.name')
tags

[<span class="name"> 바나나 </span>, <span class="name"> 파인애플 </span>]

In [105]:
tags[0]

<span class="name"> 바나나 </span>

* 태그 그룹에서 반복문으로 태그 하나씩 선택하기

In [106]:
for tag in tags:
    print(tag)

<span class="name"> 바나나 </span>
<span class="name"> 파인애플 </span>


## 2.2.11 정보 가져오기2) - 선택한 태그에서 정보 가져오기
- content = TAG.text: 태그에서 화면에 보이는 텍스트 부분만 가져오기
- attribute = TAG['속성명']: 태그 내 속성값 가져오기

In [107]:
tags_a = soup.select('a')
tag = tags_a[0]
content = tag.text
link = tag['href']
print(content)
print(link)

 홈페이지 
http://bit.ly/forPlaywithData


## 2.2.12 멜론 노래 순위 정보 크롤링1)

In [109]:
from selenium import webdriver
driver = webdriver.Chrome('C:/Users/YHI/chromedriver.exe')

In [110]:
url = 'https://www.melon.com/chart/index.htm'
driver.get(url)

In [112]:
html = driver.page_source

In [113]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'html.parser')

In [121]:
top_list100 = soup.select('#tb_list tbody tr')

In [122]:
print(top_list100[0])

<tr data-song-no="33077590">
<td><div class="wrap t_right"><input class="input_check" name="input_check" title="VVS (Feat. JUSTHIS) (Prod. GroovyRoom) 곡 선택" type="checkbox" value="33077590"/></div></td>
<td><div class="wrap">
<a class="image_typeAll" href="javascript:melon.link.goAlbumDetail('10521601');" title="쇼미더머니 9 Episode 1">
<img alt="쇼미더머니 9 Episode 1 - 페이지 이동" height="60" onerror="WEBPOCIMG.defaultAlbumImg(this);" src="https://cdnimg.melon.co.kr/cm2/album/images/105/21/601/10521601_20201120125511_500.jpg/melon/resize/120/quality/80/optimize" width="60"/>
<span class="bg_album_frame"></span>
</a>
</div></td>
<td><div class="wrap">
<a class="btn button_icons type03 song_info" href="javascript:melon.link.goSongDetail('33077590');" title="VVS (Feat. JUSTHIS) (Prod. GroovyRoom) 곡정보"><span class="none">곡정보</span></a>
</div></td>
<td><div class="wrap">
<div class="wrap_song_info">
<div class="ellipsis rank01"><span>
<a href="javascript:melon.play.playSong('19030101',33077590);" title

In [125]:
len(top_list100), type(top_list100)

(100, bs4.element.ResultSet)

* 한 개의 곡 정보 지정하기

In [124]:
song = top_list100[0]

In [127]:
# 곡 제목 찾기 1
title = song.select('a')
len(title)

16

In [129]:
# 곡 제목 찾기 2
title = song.select('span > a')
len(title)

5

In [136]:
# 곡 제목 찾기 3
title = song.select('div.ellipsis.rank01 > span > a')
len(title)

1

In [139]:
title = song.select('div.ellipsis.rank01 > span > a')

In [140]:
# 곡 제목 가져오기
title = title[0].text
title

'VVS (Feat. JUSTHIS) (Prod. GroovyRoom)'

In [148]:
# 가수 찾기
singers = song.select('div.ellipsis.rank02 > a')
singer = []
for sing in singers:
    singer.append(sing.text)
    
singer

['미란이', '먼치맨', 'Khundi Panda', '머쉬베놈 (MUSHVENOM)']

In [151]:
# 상위 100곡 제목과 가수정보

for song in top_list100:
    singers = []
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer_a_tag = song.select('div.ellipsis.rank02 > a')
    for singer in singer_a_tag:
        singers.append(singer.text)
    print(title, singers, sep = '|')

VVS (Feat. JUSTHIS) (Prod. GroovyRoom)|['미란이', '먼치맨', 'Khundi Panda', '머쉬베놈 (MUSHVENOM)']
Dynamite|['방탄소년단']
힘든 건 사랑이 아니다|['임창정']
잠이 오질 않네요|['장범준']
Lovesick Girls|['BLACKPINK']
취기를 빌려 (취향저격 그녀 X 산들)|['산들']
Life Goes On|['방탄소년단']
Freak (Prod. Slom)|['릴보이 (lIlBOI)', '원슈타인', 'Chillin Homie', '스카이민혁 (Skyminhyuk)']
DON'T TOUCH ME|['환불원정대']
Savage Love (Laxed - Siren Beat) (BTS Remix)|['Jawsh 685', 'Jason Derulo', '방탄소년단']
오래된 노래|['스탠딩 에그']
밤하늘의 별을(2020)|['경서']
딩가딩가 (Dingga)|['마마무 (Mamamoo)']
내 마음이 움찔했던 순간 (취향저격 그녀 X 규현)|['규현 (KYUHYUN)']
When We Disco (Duet with 선미)|['박진영']
뻔한남자|['이승기']
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지|['AKMU (악동뮤지션)']
원해 (Feat. 팔로알토) (Prod. 코드 쿤스트)|['스윙스', '맥대디 (Mckdaddy)', 'Khakii (카키)', '래원 (Layone)']
가을밤에 든 생각|['잔나비']
I CAN’T STOP ME|['TWICE (트와이스)']
흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야|['장범준']
에잇(Prod.&Feat. SUGA of BTS)|['아이유']
How You Like That|['BLACKPINK']
어떻게 지내 (Prod. By VAN.C)|['오반']
늦은 밤 너의 집 앞 골목길에서|['노을']
눈누난나 (NUNU NANA)|['제시 (Jessi)']
마리아 (Maria)|['화사 (Hwa Sa)']
Dolphin|['오마이걸

## 멜론 인기차트 상위 100곡 크롤링(정리)

In [None]:
from selenium import webdriver
driver = webdriver.Chrome('C:/Users/YHI/chromedriver.exe')

url = 'https://www.melon.com/chart/index.htm'
driver.get(url)

from bs4 import BeautifulSoup

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

top_list100 = soup.select('#tb_list tbody tr')

for song in top_list100:
    singers = []
    title = song.select('div.ellipsis.rank01 > span > a')[0].text
    singer_a_tag = song.select('div.ellipsis.rank02 > a')
    for singer in singer_a_tag:
        singers.append(singer.text)
    print(title, singers, sep = '|')

## 2.2.13 selenium을 활용한 크롤링
- BeautifulSoup없이 html에서 필요한 정보를 찾아올 수 있다.
- driver.find_elements_by_css_selector('조건')

In [154]:
driver = webdriver.Chrome('C:/Users/YHI/chromedriver.exe')

url = 'https://www.melon.com/chart/index.htm'
driver.get(url)

songs = driver.find_elements_by_css_selector('#tb_list tbody tr')

for song in songs:
    singers = []
    title = song.find_elements_by_css_selector('div.ellipsis.rank01 > span > a')[0].text
    singer_a_tag = song.find_elements_by_css_selector('div.ellipsis.rank02 > a')
    for singer in singer_a_tag:
        singers.append(singer.text)
    print(title, singers, sep = '|')

VVS (Feat. JUSTHIS) (Prod. GroovyRoom)|['미란이', '먼치맨', 'Khundi Panda', '머쉬베놈 (MUSHVENOM)']
Dynamite|['방탄소년단']
힘든 건 사랑이 아니다|['임창정']
잠이 오질 않네요|['장범준']
Lovesick Girls|['BLACKPINK']
취기를 빌려 (취향저격 그녀 X 산들)|['산들']
Life Goes On|['방탄소년단']
Freak (Prod. Slom)|['릴보이 (lIlBOI)', '원슈타인', 'Chillin Homie', '스카이민혁 (Skyminhyuk)']
DON'T TOUCH ME|['환불원정대']
Savage Love (Laxed - Siren Beat) (BTS Remix)|['Jawsh 685', 'Jason Derulo', '방탄소년단']
오래된 노래|['스탠딩 에그']
밤하늘의 별을(2020)|['경서']
딩가딩가 (Dingga)|['마마무 (Mamamoo)']
내 마음이 움찔했던 순간 (취향저격 그녀 X 규현)|['규현 (KYUHYUN)']
When We Disco (Duet with 선미)|['박진영']
뻔한남자|['이승기']
어떻게 이별까지 사랑하겠어, 널 사랑하는 거지|['AKMU (악동뮤지션)']
원해 (Feat. 팔로알토) (Prod. 코드 쿤스트)|['스윙스', '맥대디 (Mckdaddy)', 'Khakii (카키)', '래원 (Layone)']
가을밤에 든 생각|['잔나비']
흔들리는 꽃들 속에서 네 샴푸향이 느껴진거야|['장범준']
I CAN’T STOP ME|['TWICE (트와이스)']
에잇(Prod.&Feat. SUGA of BTS)|['아이유']
How You Like That|['BLACKPINK']
어떻게 지내 (Prod. By VAN.C)|['오반']
늦은 밤 너의 집 앞 골목길에서|['노을']
눈누난나 (NUNU NANA)|['제시 (Jessi)']
마리아 (Maria)|['화사 (Hwa Sa)']
Dolphin|['오마이걸

### 크롤링 방식 장단점 비교
- BeautifulSoup는 웹 페이지의 HTML 정보를 다운로드 한 뒤에는 브라우저에서 정보를 가져오지 않는다. 때문에 속도가 빠르다.
- selenium만 이용할 경우는 웹 페이지에 계속 접속하고 있어 정보 탐색 시간이 오래 걸린다. 하지만 접속 상태이므로 특정 위치를 선택한 뒤 클릭하거나 값을 입력하고 삭제하는 등의 브라우저 조작이 가능하다.

#### 따라서 selenium을 이용하여 웹 페이지에 접속하고, 값을 입력하거나 클릭하는 등의 작업을 진행하고, 필요한 정보가 화면에 나타났을 때 HTML을 다운로드 한 뒤, 필요한 정보를 추출하는 방식 진행을 권장