# Pandas

In [3]:
import pandas as pd
import numpy as np
import os

# Series

## 생성

In [12]:
#생성
series1 = pd.Series([10,20,30,40]) #index 없이 0,1,2,3으로 접근 하도록 생성
series2 = pd.Series([10,20,30,40], index = ['one','two','three','four']) 
#dict를 이용해서 key는 index가 되고 value는 value가 되도록 설정
series3 = pd.Series({'태연':'소녀시대','수지':'MissA','카리나':'aespa'})

print(series1)
print(series2)
print(series3)

0    10
1    20
2    30
3    40
dtype: int64
one      10
two      20
three    30
four     40
dtype: int64
태연      소녀시대
수지     MissA
카리나    aespa
dtype: object


## indexing

In [9]:
#인덱싱
print(series3[0]) #일련 번호를 가지고 접근
print(series3['태연']) #인덱스를 가지고 접근
print(series3[0:2]) #일련 번호는 종료 위치가 포함되지 않음
print(series3['태연':'카리나']) #인덱스는 종료 위치가 포함됨

소녀시대
소녀시대
태연     소녀시대
수지    MissA
dtype: object
태연      소녀시대
수지     MissA
카리나    aespa
dtype: object


In [11]:
print(series1.values) #값들만 추출
print(series1 + 100) #연산은 ndarray와 동일하게 수행되는데 values 속성의 멤버를 가지고 연산
print(np.sum(series1))

[10 20 30 40]
0    110
1    120
2    130
3    140
dtype: int64
100


In [13]:
#series와 series의 계산
s1 = pd.Series({'태연':81,'수지':99,'카리나':88, '혜린':78})
s2 = pd.Series({'태연':np.nan,'카리나':77,'수지':98, '채원': 89})
print(s1 + s2) #dataframe 이나 series는 index를 가지고 연산함

수지     197.0
채원       NaN
카리나    165.0
태연       NaN
혜린       NaN
dtype: float64


# DataFrame

## 생성

In [15]:
#DataFrame을 만들기 위한 dict 생성
items = {
    'code':[1,2,3,4],
    'name':['수박','키위','복숭아','자두'],
    'price':[3000,2200,4000,2500]
}

df = pd.DataFrame(items)
print(df)

   code name  price
0     1   수박   3000
1     2   키위   2200
2     3  복숭아   4000
3     4   자두   2500


In [18]:
print(df.index) 
print(df.columns)

df.index = range(1,5)
df.columns = ['code','이름','가격']
print(df)

RangeIndex(start=1, stop=5, step=1)
Index(['code', '이름', '가격'], dtype='object')
   code   이름    가격
1     1   수박  3000
2     2   키위  2200
3     3  복숭아  4000
4     4   자두  2500


## 탐색 관련 함수 / 속성

In [25]:
#head나 tail 함수는 데이터가 제대로 불러져 왔는지 확인 할 때 사용
print(df.head())
#이 데이터로 ML을 하고자 하면 ML은 numpy의 ndarray로만 가능
print(type(df.values))
#데이터 분석을 하기 전에 데이터를 가져왔으면 데이터에 대한 정보 확인
print(df.info())

   code   이름    가격
1     1   수박  3000
2     2   키위  2200
3     3  복숭아  4000
4     4   자두  2500
<class 'numpy.ndarray'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 1 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   code    4 non-null      int64 
 1   이름      4 non-null      object
 2   가격      4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes
None


# 텍스트 파일 읽기

## CSV

In [26]:
#현재 작업 디렉토리 확인
import os
os.getcwd()

'C:\\Users\\USER\\Documents\\LGhv_practice\\ETL'

In [27]:
items = pd.read_csv('../resource/data/data/item.csv', index_col  = 'code')
print(items)

      manufacture            name  price
code                                    
1           korea           apple   1500
2           korea      watermelon  15000
3           korea  oriental melon   1000
4     philippines          banana    500
5           korea           lemon   1500
6           korea           mango    700


In [28]:
#good.csv는 첫 번째 행도 일반 데이터이므로 첫 번째 행이 header가 아니라고 설정하고 names를 이용해서 header이름 설정
good = pd.read_csv('../resource/data/data/good.csv', header =None, names = ['과일','개수','가격'])
good

Unnamed: 0,과일,개수,가격
0,apple,10,1500
1,banana,5,15000
2,melon,7,1000
3,kiwi,20,500
4,mango,30,1500
5,orange,4,700


In [29]:
#3개 씩 읽어오도록설정
goods = pd.read_csv('../resource/data/data/good.csv', header =None, chunksize = 3)
for piece in goods:
    print(type(piece))
    print(piece)

<class 'pandas.core.frame.DataFrame'>
        0   1      2
0   apple  10   1500
1  banana   5  15000
2   melon   7   1000
<class 'pandas.core.frame.DataFrame'>
        0   1     2
3    kiwi  20   500
4   mango  30  1500
5  orange   4   700


In [31]:
gapminder = pd.read_csv('../resource/data/data/gapminder.tsv', sep = '\t')
gapminder

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


-----

0809

# csv 저장

In [2]:
items = {
    'code': [1,2,3],
    'fruit':['apple','pear','watermelon'],
    'price': [1000,2000,3000]
}

df = pd.DataFrame(items)
df

Unnamed: 0,code,fruit,price
0,1,apple,1000
1,2,pear,2000
2,3,watermelon,3000


In [4]:
os.getcwd()

'C:\\Users\\USER\\Documents\\LGhv_practice\\ETL'

In [8]:
datadir_path = '../resource/data/data/'

In [6]:
df.to_csv(datadir_path+'items.csv')

# excel 저장

In [9]:
#첫 번째 열을 index로 활용하도록 읽기
df = pd.read_excel(datadir_path+'excel.xlsx', index_col = 0, sheet_name = 'Sheet1')
df

Unnamed: 0_level_0,이름,1과목,2과목,3과목
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,이효준,40.0,,45.0
2,김성희,42.0,55.0,50.0
3,이연숙,,60.0,55.0
4,노화현,50.0,70.0,60.0
5,최희순,55.0,75.0,
6,정원주,60.0,80.0,70.0


In [10]:
writer = pd.ExcelWriter(datadir_path+'excelwriter.xlsx')
df.to_excel(writer)
writer.save()

  writer.save()


# html table 읽기

In [None]:
#li = pd.read_html()

# web 데이터 읽기

## python기본 library 사용

In [13]:
import urllib.request

In [25]:
#data 읽어오기
response = urllib.request.urlopen('https://www.kakao.com')
#url에 한글 -> 읽어오기 실패 
#response = urllib.request.urlopen('https://www.google.com/search?q=%EC%A0%90%EB%A9%94%EC%B6%94&oq=%EC%A0%90%EB%A9%94%EC%B6%94&gs_lcrp=EgZjaHJvbWUyBggAEEUYOTIHCAEQABiABDIHCAIQABiABDIHCAMQABiABDIHCAQQABiABDIHCAUQABiABDIHCAYQABiABDIHCAcQABiABDIJCAgQABgKGIAEMgkICRAAGAoYgATSAQgyNjMwajBqN6gCALACAA&sourceid=chrome&ie=UTF-8')
#읽은 정보를 저장
data = response.read()
#print(data) #바로 출력했더니 인코딩 문제가 발생

#data의 인코딩을 확인해서 인코딩 설정해서 읽기
encoding = response.info().get_content_charset()
html = data.decode(encoding)
#print(html)

In [24]:
from urllib.parse import quote

#url에 한글이 있는 경우 data 읽어오기
keyword = quote('점메추')
#url에 한글
response = urllib.request.urlopen('https://www.bing.com/search?pglt=2081&q='+keyword+'&cvid=339edec3fe73452ca847b5fb46e488a2&aqs=edge..69i57j0l7.1852j0j1&FORM=ANAB01&PC=U531')
#읽은 정보를 저장
data = response.read()
#print(data) #바로 출력했더니 인코딩 문제가 발생

#data의 인코딩을 확인해서 인코딩 설정해서 읽기
encoding = response.info().get_content_charset()
html = data.decode(encoding)
#print(html)

## requests 모듈 - python의 기본 모듈 아님

In [20]:
import requests

#get 방식 요청
response = requests.get('http://httpbin.org/get')
response.text

'{\n  "args": {}, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate, br", \n    "Host": "httpbin.org", \n    "User-Agent": "python-requests/2.28.1", \n    "X-Amzn-Trace-Id": "Root=1-64d2f016-5618c4d0372886ae1531ed0b"\n  }, \n  "origin": "1.220.201.110", \n  "url": "http://httpbin.org/get"\n}\n'

In [21]:
#전송할 parameter 만들기
dic = {'id':'itstudy', 'name':'grace','alias':'김은혜'}
#요청하고 응답 받기
response = requests.post('http://httpbin.org/post',data = dic)
response.text

'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "alias": "\\uae40\\uc740\\ud61c", \n    "id": "itstudy", \n    "name": "grace"\n  }, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate, br", \n    "Content-Length": "55", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "python-requests/2.28.1", \n    "X-Amzn-Trace-Id": "Root=1-64d2f0a1-77eb45a638ccb98b2a0ded4a"\n  }, \n  "json": null, \n  "origin": "1.220.201.110", \n  "url": "http://httpbin.org/post"\n}\n'

## HTML parsing

In [27]:
import requests, bs4

In [31]:
try:
    #url이 잘못 되었거나 network 연결이 안되면 예외
    response = requests.get('http://finance.daum.net')
    #parsing 가능 확인 -> parsing이 불가능 하면 예외
    bs = bs4.BeautifulSoup(response.text,'html.parser')
except Exception as e:
    print('예외 발생:',e)
else:
    print(bs.get_text())
    #tag 가지고 실행
    #print(bs.body.strong.get_text())

관련서비스


In [34]:
#네이버 팟 캐스트에서 원하는 데이터 가져오기
try:
    response = requests.get('https://tv.naver.com/r/category/drama')
    html = response.text
    #print(html)
    bs = bs4.BeautifulSoup(html, 'html.parser')
    #print(bs)
    tags = bs.select('a > strong > span')
    
    for tag in tags:
        print(tag.getText())
except Exception as e:
    print('예외 발생:', e)

[스페셜] '이대호 4연타석 홈런 모음집' 단언컨대, 이 경기의 주인공은 이대호입니다. | JTBC 230807 방송
뉴욕 지하철서 10대 소녀, 아시아계 가족 모욕·폭행
'같은 맥주 다른 맛' 역대 최다 8점 차에서 취소된 어제 경기 [7AM]


In [35]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.11.2-py3-none-any.whl (7.2 MB)
     ---------------------------------------- 7.2/7.2 MB 17.0 MB/s eta 0:00:00
Collecting trio-websocket~=0.9
  Downloading trio_websocket-0.10.3-py3-none-any.whl (17 kB)
Collecting trio~=0.17
  Downloading trio-0.22.2-py3-none-any.whl (400 kB)
     ------------------------------------- 400.2/400.2 kB 26.0 MB/s eta 0:00:00
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.1.2-py3-none-any.whl (14 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Installing collected packages: wsproto, outcome, exceptiongroup, trio, trio-websocket, selenium
Successfully installed exceptiongroup-1.1.2 outcome-1.2.0 selenium-4.11.2 trio-0.22.2 trio-websocket-0.10.3 wsproto-1.2.0


In [50]:
#chrome browser 실행
from selenium import webdriver
import os
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import bs4

os.environ['webdrier.chrome.driver'] = 'C:\\Users\\USER\Downloads\\chromedriver-win64\\chromedriver-win64\\chromedriver.exe'
driver = webdriver.Chrome()
driver.get('https://www.youtube.com/')
#3초 대기
time.sleep(3)

#driver.find_element(By.XPATH, '//*[@id="search"]').send_keys('지브리')
#driver.find_element(By.XPATH, '//*[@id="search-icon-legacy"]').click()

#scroll 할 개수
num_of_pagedowns = 2

while num_of_pagedowns:
    #body tag에 PAGE_DOWN을 전송해서 하단으로 drag
    driver.find_element(By.TAG_NAME, 'body').send_keys(Keys.PAGE_DOWN)
    time.sleep(3)
    num_of_pagedowns -= 1

#10번 scroll 한 결과를 읽어오기
html = bs4.BeautifulSoup(driver.page_source, 'html.parser')
print(html)

while(True):
    pass

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



KeyboardInterrupt: 

# xml - df 생성

In [51]:
import xml.etree.ElementTree as et #XML 파싱을 위한 import
import urllib.request #웹에서 문자열 다운로드 받기 위해서 import

In [55]:
#data 다운
url = 'http://www.hani.co.kr/rss/sports/'
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
#response.read()

In [56]:
#root를 찾기
tree = et.parse(response)
xroot = tree.getroot()
#print(xroot)

In [57]:
#찾고자 하는 태그의 내용을 가져오기 
channel = xroot.findall('channel')
#print(channel)

[<Element 'channel' at 0x0000019089DEA7F0>]


In [59]:
#channel의 0번 데이터에서  item 태그의 내용 찾아오기
items = channel[0].findall('item')
#print(items)

In [61]:
rows = []
for node in items:
    s_title = node.find('title').text
    s_link = node.find('link').text
    rows.append({'title':s_title, 'link':s_link})
    
df = pd.DataFrame(rows, columns = ['title','link'])
df

Unnamed: 0,title,link
0,"홈런 1위 노시환, 한화 선수 5년 만의 월간 MVP",http://www.hani.co.kr/arti/sports/baseball/110...
1,"장현석, 다저스와 90만달러 입단 계약…“명문 구단 입단 영광”",http://www.hani.co.kr/arti/sports/baseball/110...
2,"리빌딩 나선 PSG, 메시·음바페 이어 네이마르도 ‘헤어질 결심’",http://www.hani.co.kr/arti/sports/soccer/11034...
3,강습 타구 맞은 류현진 “무릎에 멍들었지만 괜찮다”,http://www.hani.co.kr/arti/sports/baseball/110...
4,김하성 15경기 연속 멀티 출루…이치로와 타이 기록,http://www.hani.co.kr/arti/sports/baseball/110...
5,"클리블랜드전 무피안타 류현진, 강습 타구에 무릎 맞고 교체",http://www.hani.co.kr/arti/sports/baseball/110...
6,수원FC 공격수 라스 음주운전 적발…“징계·후속 조치할 것”,http://www.hani.co.kr/arti/sports/soccer/11033...
7,"류현진, 시즌 첫 승 노린다…8일 클리블랜드전 등판",http://www.hani.co.kr/arti/sports/baseball/110...
8,"조규성, 덴마크 데뷔 뒤 3경기 연속골…팀 열세 속 빛난 만회포",http://www.hani.co.kr/arti/sports/soccer/11032...
9,"‘부상 투혼’ 김효주, LPGA 스코틀랜드 여자오픈 준우승",http://www.hani.co.kr/arti/sports/golf/1103254...


## Json data -> DataFrame

In [71]:
#help(pd.read_json)

In [70]:
df = pd.read_json('http://swiftapi.rubypaper.co.kr:2029/hoppin/movies?version=1&page=1&count=30&genreId=&order=releasedateasc')
df
hoppin = df['hoppin']
movies = hoppin['movies']
movie = movies['movie']

for temp in movie:
    print(temp['title'])

인포먼트
엣지 오브 다크니스
베이비 돌
황야의 역마차
전원 교향곡
아버지의 깃발
여덟번의감정
레드
영광의 탈출
크로싱
맨 인 블랙
차형사
에이지 오브 드래곤
로드 오브 워리어
[메이킹 다큐] 도둑들 영화를 만들다!
괜찮아요 수달씨
파파
이케맨 뱅크
다중인격소녀 ISOLA
위조지폐
카인과 아벨
돌핀 블루
더 코드
철권 블러드 벤전스
블루 엘리펀트 (우리말 더빙)
해결사 (2010)
하나오니 2: 사랑의 시작
하나오니 3: 복수의 시간
아테나 전쟁의 여신 극장판
아이스 프린세스


In [73]:
#최신 라이브러리를 사용하면 이런 경우에도 데이터 프레임으로 잘 변환이 되지만
#column에 객체가 존재하는 경우 제대로 파싱이 수행되지 않는 경우가 있음
#컬럼 이름에 객체가 존재하는 경우는 orient 옵션에 columns를 설정하면 됨

#df = pd.read_json('https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/data.json')
df = pd.read_json('https://tinyurl.com/simulated-json')
df

Unnamed: 0,integer,datetime,category
0,5,2015-01-01 00:00:00,0
1,5,2015-01-01 00:00:01,0
2,9,2015-01-01 00:00:02,0
3,6,2015-01-01 00:00:03,0
4,6,2015-01-01 00:00:04,0
...,...,...,...
95,9,2015-01-01 00:01:35,0
96,8,2015-01-01 00:01:36,0
97,6,2015-01-01 00:01:37,0
98,8,2015-01-01 00:01:38,0


## kakao open API 가져오기

In [79]:
#REST API key
# d3d36d92fe9d09b60e0cdd6d1223afb3
import requests
import json

url = 'https://dapi.kakao.com/v2/local/search/category.json?category_group_code=PM9&rect=126.95.37.55.127.0.0.37.60'


#전송할 헤더 만들기
headers = {'Authorization': 'KakaoAK d3d36d92fe9d09b60e0cdd6d1223afb3'}

data = requests.post(url, headers = headers)
#print(data)
result = json.loads(data.text)

for data in result['documents']:
    print(data['place_name'], end = '\t')
    print(data['address_name'])


보령약국	서울 종로구 종로5가 103
온유약국	서울 종로구 종로5가 102
신림4번출구약국	서울 관악구 신림동 1640-6
남시약국	서울 중구 남대문로3가 30-15
오거리약국	부산 사하구 하단동 619-1
세명약국	부산 중구 창선동2가 21-6
종로약국	경기 안양시 만안구 안양동 676-143
진정주약국	경기 안산시 단원구 고잔동 681-6
강남약국	대구 동구 신암동 1196-2
부전약국	부산 부산진구 부전동 267-18
부부온누리약국	제주특별자치도 제주시 연동 283-12
방약국	서울 중랑구 면목동 367-6
큰사랑약국	충북 청주시 상당구 용암동 1595
종로백제약국	서울 종로구 종로5가 36-1
고은약국	인천 남동구 만수동 898-7
