# 4장

## 데이터 불러오기

### CSV 파일
- CSV란 Comma-separated values의 약자로서 CSV 파일은 각 라인의 컬럼들이 콤마로 분리된 텍스트 파일 포맷입니다.
- CSV 파일 읽기 명령 : pd.read_csv('파일경로/이름')

In [13]:
# 판다스 라이브러리 불러오기
import pandas as pd

# 파일경로를 찾고 변수 file_path에 저장
file_path = 'data/diabetes.csv'

# read csv()함수로 데이터프레임 변환
df1 = pd.read_csv(file_path)
df1

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


알아두면 도움되는 방법

    1) TSV
    TSV는 TAB으로 분리된 형식의 text 파일을 의미합니다. 해당 내용만을 다루기 위한 모듈이 파이썬에는 준비되어 있지는 않기 때문에 CSV 모듈을 사용합니다.
    
    2) 판다스 한글 처리
    판다스에서는 다양한 파일을 읽어서 데이터를 변환하는 일이 많습니다. 특히 실습과 같이 CVS 파일을 읽어 데이터 프레임으로 변환하여 처리하는 방법이 자주 사용됩니다. 파일 안의 문자열이 한글일 때 파이썬은 utf-8로 인코딩을 처리한 후에 데이터 프레임으로 전환해야 합니다. 인코딩은 방식에 따라 utf-8, euc-kr, cp949을 사용합니다. 다음과 같이 데이터프레임을 구성합니다.
    데이터프레임 = pd.read_csv('newfile1.csv', encoding='utf-8')

### EXCEL 파일
- Excel 파일(확장자 .xlsx) 행과 열은 데이터프레임의 행, 열로 일대일 대응됩니다.
- Excel 파일 읽기 명령 : pd.read_excel('파일경로/이름')

In [1]:
# 라이브러리 불러오기
import pandas as pd

# 파일경로를 찾고 변수 file_path에 저장
file_path = 'data/diabetes.xlsx'

# read_excel()함수로 데이터프레임 변환
df2 = pd.read_excel(file_path, engine='openpyxl')

#데이터프레임 출력
df2

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


### JSON 
- JSON(확장자 .jsoin)은 JavaScript Object Notation의 약자로서 JavaScript 문법에 영향을 받아 개발된 가벼운 데이터 표현 방식
- JSON 파일 읽기 명령 : pd.read_json('파일경로/이름')

In [1]:
# 라이브러리 불러오기
import pandas as pd

# # 파일경로를 찾고 변수 file_path에 저장
# file_path = 'data/read.json'

# # read_json()함수로 데이터프레임 변환
# df3 = pd.read_json(file_path)

# # 데이터프레임 출력
# df3

## 데이터 저장하기

### CSV 파일 저장
- 판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 CSV 파일로 변환할 수 있습니다.
- CSV 파일 저장 명령 : df.to_csv('파일경로/이름')

In [29]:
# 라이브러리 불러오기
import pandas as pd

#파일경로를 찾고 변수 file_path에 저장
file_path = 'data/diabetes.csv'

# read csv()함수로 데이터프레임 변환
df4 = pd.read_csv(file_path, encoding='CP949')

# to_csv 함수를 사용 csv파일로 내보내기
# :\data폴더에 sample_data.csv 저장
df4.to_csv('data/sample_data.csv')

# 저장 파일 확인
file_path = 'data/sample_data.csv'
df5 = pd.read_csv(file_path)
print(df5)

     Unnamed: 0  Pregnancies  Glucose  BloodPressure  ...   BMI  DiabetesPedigreeFunction  Age  Outcome
0             0            6      148             72  ...  33.6                     0.627   50        1
1             1            1       85             66  ...  26.6                     0.351   31        0
2             2            8      183             64  ...  23.3                     0.672   32        1
3             3            1       89             66  ...  28.1                     0.167   21        0
4             4            0      137             40  ...  43.1                     2.288   33        1
..          ...          ...      ...            ...  ...   ...                       ...  ...      ...
763         763           10      101             76  ...  32.9                     0.171   63        0
764         764            2      122             70  ...  36.8                     0.340   27        0
765         765            5      121             72  ...  26.2 

## EXCEL 파일 저장
- 데이터프레임의 행과 열은 Excel 파일의 행과 열로 일대일로 대응되며 판다스의 데이터프레임을 Excel 파일로 저장하려면 to_excel()를 사용합니다.
- Excel 파일 저장 명령 : to_excel('파일경로/이름')

In [32]:
# 라이브러리 불러오기
import pandas as pd

#파일경로를 찾고 변수 file_path에 저장
file_path = 'data/diabetes.xlsx'

# read csv()함수로 데이터프레임 변환
df6 = pd.read_excel(file_path)

# to_excel 함수를 사용 excel파일로 내보내기
# 파일명은 sample_data1.xlsx로 저장
df6.to_excel('data/sample_data.xlsx')

# 데이터폴더 저장확인
file_path = 'data/sample_data.xlsx'
df5 = pd.read_excel(file_path)
print(df5)

     Unnamed: 0  Pregnancies  Glucose  BloodPressure  ...   BMI  DiabetesPedigreeFunction  Age  Outcome
0             0            6      148             72  ...  33.6                     0.627   50        1
1             1            1       85             66  ...  26.6                     0.351   31        0
2             2            8      183             64  ...  23.3                     0.672   32        1
3             3            1       89             66  ...  28.1                     0.167   21        0
4             4            0      137             40  ...  43.1                     2.288   33        1
..          ...          ...      ...            ...  ...   ...                       ...  ...      ...
763         763           10      101             76  ...  32.9                     0.171   63        0
764         764            2      122             70  ...  36.8                     0.340   27        0
765         765            5      121             72  ...  26.2 

### JSON 파일 저장
- 데이터프레임을 JSON 파일로 저장하려면 to_json() 함수를 이용합니다.
- JSON 파일 읽기 명령 : to_json('파일경로/이름')

In [None]:
# 라이브러리 불러오기
import pandas as pd

#파일경로를 찾고 변수 file_path에 저장
file_path = 'data/read.json'

#read_json()함수로 데이터프레임 변환
df7 = pd.read_json(file_path)
df7

#to_json() 메소드를 사용하여 JSON 파일로 내보내기
#파일명은 sample_data_json.json'로 저장
df7.to_json('C:/data/sample_data_json.json')

### 피클 저장하기
- 피클(Picke)은 파이썬의 모든 객체를 파일로 저장할 수 있는 방법입니다.
- 판다스 데이터프레임뿐만 아니라 리스트, 딕셔너리 등 모든 객체를 저장할 수 있으며 데이터프레임을 저장할 때는 to_picle, 불러올 때는 read_pickle이라는 함수를 사용합니다.

In [2]:
# df.to_pickle("df.pkl")
# df = pd.read_pickle("df.pkl")

## 공공 데이터 OPEN API

In [3]:
#파이썬으로 REST API 요청
import pandas
from bs4 import BeautifulSoup
import requests
from openpyxl.workbook import Workbook

# apikey = "개인별로 발급받은 API 키 입력"
apikey = "exA%2BY9Anbj9k%2FtFH55gwfYssca33fxP9wm2D0xQ4eqmmcUHYnEXuTZST8Ct1wcKgCFI1rMIfOJxXBwYVT%2BV9wA%3D%3D"
api = "https://apis.data.go.kr/B551182/pharmacyInfoService/getParmacyBasisList?serviceKey=exA%2BY9Anbj9k%2FtFH55gwfYssca33fxP9wm2D0xQ4eqmmcUHYnEXuTZST8Ct1wcKgCFI1rMIfOJxXBwYVT%2BV9wA%3D%3D&pageNo=1&numOfRows=10&sidoCd=110000&sgguCd=110019&emdongNm=%EC%8B%A0%EB%82%B4%EB%8F%99&yadmNm=%EC%98%A8%EB%88%84%EB%A6%AC%EA%B1%B4%EA%B0%95&xPos=127.0965441345503&yPos=37.60765568913871&radius=3000&type=json&APPID={key}"

# 약구 정보 리스트
list_drugs = ["병원명", "종별코드명", "시도명", "주소", "전화번호"]
i = 0
for list_drug in list_drugs:
    url = api.format(list_drugs=list_drug, key=apikey)
    req = requests.get(url)
    re = req.text
    soup = BeautifulSoup(re, 'html.parser')
    
    #병원명
    yadmnm = soup.find_all('yadmnm')
    #종별코드명
    sggucdnm = soup.find_all('sggucdnm')
    #시도명
    sidocdnm = soup.find_all('sidocdnm')
    #주소
    addr = soup.find_all('addr')
    #전화번호
    telno = soup.find_all('telno')
print("병원명:", yadmnm)
print("종별코드명:", sggucdnm)
print("시도명:", sidocdnm)
print("주소:", addr)
print("전화번호:", telno)



병원명: [<yadmnm>온누리건강약국</yadmnm>]
종별코드명: [<sggucdnm>중랑구</sggucdnm>]
시도명: [<sidocdnm>서울</sidocdnm>]
주소: [<addr>서울특별시 중랑구 봉화산로 215 1층 (신내동)</addr>]
전화번호: [<telno>02-3422-3097</telno>]


### API 키 인증 없이 API 정보 가지고 오기

In [None]:
import pandas as pd
import requests
url_temp="https://restcountries.eu/rest/v1/name/"
country="South Korea"
url = url_temp + country
r = requests.get(url)
print(r.text)

# 데이터 프레임으로 JsSON 확인
df = pd.read_json(r.text)
df

### API와 HTTP 프로토콜
- HTTP 프로토콜에서 정보를 요청(Request)하는 쪽을 클라이언트, 정보를 응답(Response)하여 보내는 부분을 서버라 하며 이런 구조를 클라이언트/서버라고 함
- 메시지는 GET과 POST 두 가지 방식으로 요청할 수 있고, 두 방식의 큰 차이점은 GET은 URL(경로)에 데이터를 명시하여 보내지만 POST는 숨겨서 보낸다,
---
- POST : POST를 통해 해당 URL를 요청하면 리소스를 생성
- GET : GET를 통해 해당 리소스를 조회합니다. 
리소스를 조회하고 해당 도큐먼트에 대한 자세한 정보를 가져온다.
- PUT : PUT를 통해 해당 리소스를 수정
- DELETE : DELETE를 통해 리소스를 삭제


## 파이썬 웹 크롤링

### 웹 크롤링 이해

In [51]:
# 라이브러리설치
# BequtifulSoup은 별도 설치가 필요한 라이브러리이기 때문에 아나콘다 프롬프트에서 다음과 같이 별도 설치합니다.
# pip install requests
# pip install BeautifulSoup4

### BeautifulSoup 기본 설명
- from bs4 import BeautifulSoup : 라이브러리 불러오기
- a = BeautifulSoup(html소스, 'html.parser') : html 소스를 파이썬으로 파싱(불러오기) a에 저장
- a.find('p') : 첫 번째 p 태그 찾기
- a.find_all('p', class_= , id= ) : a에 들어있는 html 소스에서 상/하위 구분 없이 <p>태그 모두 추출 / class_나 id 옵션을 사용하면 해당하는 class / id 의 p 태그만 추출 
- a.get_text() : a에 저장된 html 소스 중 태그(<>)밖에 있는 모든 문자 추출
- a.p['class'] : a에 저장된 html 소스 중 첫 번재 p 태그의 class 속성 내용 확인

### 네이버 웹 크롤링

In [52]:
# 1) 네이버 날씨 웹 페이지 가져오기
from bs4 import BeautifulSoup as bs
from pprint import pprint
import requests

html = requests.get('https://search.naver.com/search.naver?query=날씨')
print(html.text)

<!doctype html> <html lang="ko"> <head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=2.0"> <meta property="og:title" content="날씨 : 네이버 통합검색"/> <meta property="og:image" content="https://ssl.pstatic.net/sstatic/search/common/og_v3.png"> <meta property="og:description" content="'날씨'의 네이버 통합검색 결과입니다."> <meta name="description" lang="ko" content="'날씨'의 네이버 통합검색 결과입니다."> <title>날씨 : 네이버 통합검색</title> <link rel="shortcut icon" href="https://ssl.pstatic.net/sstatic/search/favicon/favicon_191118_pc.ico">  <link rel="search" type="application/opensearchdescription+xml" href="https://ssl.pstatic.net/sstatic/search/opensearch-description.https.xml" title="Naver" /><link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/sstatic/search/pc/css/search1_230216.css"> <link rel="stylesheet" type="text/css" href="https:/

In [54]:
# 2)파싱 
from bs4 import BeautifulSoup as bs
from pprint import pprint
import requests

html = requests.get('https://search.naver.com/search.naver?query=날씨')
soup = bs(html.text, 'html.parser')
dustdata_one = soup.find('div', {'class':'status_wrap'})
print(dustdata_one)

<div class="status_wrap"> <h3 class="blind">오늘의 날씨</h3> <div class="_today"> <div class="weather_graphic"> <div class="weather_main"> <i class="wt_icon ico_wt6"><span class="blind">구름많음</span></i> </div> <div class="temperature_text"> <strong><span class="blind">현재 온도</span>4.7<span class="celsius">°</span></strong> </div> </div> <div class="temperature_info"> <p class="summary">어제보다 <span class="temperature down">0.9° <span class="blind">낮아요</span> </span> <span class="weather before_slash">구름많음</span> </p> <dl class="summary_list"> <dt class="term">체감</dt> <dd class="desc">3.9°</dd> <dt class="term">습도</dt> <dd class="desc">47%</dd> <dt class="term">바람(남동풍)</dt> <dd class="desc">1m/s</dd> </dl> </div> </div> <div class="report_card_wrap"> <ul class="today_chart_list"> <li class="item_today level1"> <a href="?where=nexearch&amp;sm=tab_etc&amp;pkid=227&amp;qvt=0&amp;query=%EC%84%9C%EC%9A%B8%ED%8A%B9%EB%B3%84%EC%8B%9C%20%EC%84%9C%EB%8C%80%EB%AC%B8%EA%B5%AC%20%EC%97%B0%ED%9D%AC%EB%8F%99%

In [55]:
from bs4 import BeautifulSoup as bs
from pprint import pprint
import requests

html = requests.get('https://search.naver.com/search.naver?query=날씨')
soup = bs(html.text, 'html.parser')
dustdata_one = soup.find('div', {'class':'status_wrap'})
dustdata_all = dustdata_one.findAll('dd')
pprint(dustdata_all)

[<dd class="desc">3.9°</dd>,
 <dd class="desc">47%</dd>,
 <dd class="desc">1m/s</dd>]


In [59]:
# 3) 텍스트 추출
from bs4 import BeautifulSoup as bs
from pprint import pprint
import requests

html = requests.get('https://search.naver.com/search.naver?query=날씨')
soup = bs(html.text, 'html.parser')
dustdata_one = soup.find('div', {'class':'status_wrap'})
dustdata_all = dustdata_one.findAll('dd')
fine_dust_code = dustdata_all[0].find('span', {'class':'num'})
fine_dust_con = dustdata_all[0].find('span', {'class':'num'}).text
print(fine_dust_code)
print(fine_dust_con)

AttributeError: 'NoneType' object has no attribute 'text'