# 외부 파일 읽어오기
|File Format|Reader|Writer|
|-----------|------|------|
|CSV|read_csv|to_csv|
|JSON|read_json|to_json|
|HTML|read_html|to_html|
|SQL|read_sql|to_sql|

## csv 파일
데이터 값을 쉼표(,)로 구분하고 있다는 의미로 CSV(comma-separated values)라고 부르는 텍스트 파일이다.  
쉼표(,)로 열을 구분하고 줄바꿈으로 행을 구분한다.  
- csv 파일 => 데이터 프레임: pandas.read_csv("파일 경로(이름)")

In [6]:
import pandas as pd
file_path = '../phone_data.csv'

# read_csv() 함수로 데이터프레임 변환. 변수 df1에 저장
df1 = pd.read_csv(file_path)
print(df1)
print('\n')

# read_csv() 함수로 데이터프레임 변환. 변수 df2에 저장. header = None 옵션
df2 = pd.read_csv(file_path, header=None)
print(df2)
print('\n')

# read_csv() 함수로 데이터프레임 변환. 변수 df3에 저장. index_col=None 옵션
df3 = pd.read_csv(file_path, index_col = None)
print(df3)
print('\n')

# read_csv() 함수로 데이터프레임 변환. 변수 df4에 저장. index_col = 'c0' 옵션
df4 = pd.read_csv(file_path, index_col='index')
print(df4)

     index            date  duration  item    month   network network_type
0        0  15/10/14 06:58    34.429  data  2014-11      data         data
1        1  15/10/14 06:58    13.000  call  2014-11  Vodafone       mobile
2        2  15/10/14 14:46    23.000  call  2014-11    Meteor       mobile
3        3  15/10/14 14:48     4.000  call  2014-11     Tesco       mobile
4        4  15/10/14 17:27     4.000  call  2014-11     Tesco       mobile
..     ...             ...       ...   ...      ...       ...          ...
825    825  13/03/15 00:38     1.000   sms  2015-03     world        world
826    826  13/03/15 00:39     1.000   sms  2015-03  Vodafone       mobile
827    827  13/03/15 06:58    34.429  data  2015-03      data         data
828    828  14/03/15 00:13     1.000   sms  2015-03     world        world
829    829  14/03/15 00:16     1.000   sms  2015-03     world        world

[830 rows x 7 columns]


         0               1         2     3        4         5             

### 옵션
|옵션|설명|
|----|----|
|path|파일의 위치(파일명 포함),URL|
|sep(또는 delimiter)|텍스트 데이터를 필드별로 구분하는 문자|
|header|<p>열 이름으로 사용될 행의 번호(기본값0)<br>header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정 가능</p>|
|index_col|행 인덱스로 사용할 열의 번호 또는 열 이름|
|names|열 이름으로 사용할 문자열 리스트|
|skiprows|<p>처음 몇줄을 skip 할 것인지 설정(숫자 입력)<br>skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1, 3, 5])</p>|
|parse_dates|날짜 텍스트를 datetime64로 변한할 것인지 설정(기본값은 False)|
|skip_footer|마지막 몇 줄을 skip할 것인지 설정(숫자입력)|
|encoding| 텍스트 인코딩 종류를 설정(예:'utf-8')
    

## Excel 파일
Excel 파일(확장자: .xlsx)의 행과 열은 데이터프레임의 행, 열로 일대일 대응된다.  
read_excel() 함수의 사용법은 앞에서 살펴본 read_csv() 함수와 거의 비슷하다.  
- Excel 파일=> 데이터프레임: pandas.read_excel("파일경로(이름)")

In [8]:
import pandas as pd

# read_excel() 함수로 데이터프레임 변환
df1 = pd.read_excel('./시간표.xlsx')
df2 = pd.read_excel('./시간표.xlsx', header = None)

print(df1)
print('\n')
print(df2)

    Unnamed: 0               Unnamed: 1           Unnamed: 2  \
0          NaN  부스트캠프 AI Tech 2기 일별 시간표                  NaN   
1          NaN                      NaN                  NaN   
2          NaN                      NaN                    월   
3        week1                       시간  2021-08-02 00:00:00   
4          NaN              10:00~10:10        출석체크  및 학습 시작   
..         ...                      ...                  ...   
176        NaN             16:30~ 18:00                  NaN   
177        NaN              18:00~19:00                  NaN   
178        NaN              19:00~19:10                  NaN   
179        NaN                      NaN                  NaN   
180        NaN  5주 이론, 15주 프로젝트 과정으로 진행                  NaN   

              Unnamed: 3           Unnamed: 4           Unnamed: 5  \
0                    NaN                  NaN                  NaN   
1                    NaN                  NaN                  NaN   
2                    

## JSON 파일
JSON 파일은 데이터 공유를 목적으로 개발된 특수한 파일 형식이다.  
파이썬 딕셔너리와 비숫하게 "key : value" 구조를 갖는데, 구조가 중첩되는 방식에 따라 다르게 적용한다.
- JSON파일 => 데이터프레임: pandas.read_json("파일경로(이름)")

In [9]:
import pandas as pd
df = pd.read_json("./sample.json")
print(df)
print('\n')
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


# 웹(Web)에서 가져오기
## HTML 웹 페이지에서 표 속성 가져오기
판다스 read_html() 함수는 HTML 웹 페이지에 있는 <table> 태구에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환한다.  
표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러개의 데이터프레임(표)을 원소로 갖는 리스트가 반환된다.
- HTML 표 속성 읽기 : pandas.read_html("웹 주소(URL)" 또는 "HTML 파일 경로(이름)")

In [15]:
import pandas as pd

# HTML 파일 경로 or 웹 페이지 주소를 url 변수에 저장
url = './sample.html'

#HTML 웹페이지 표(table)를 가져와서 데이터프레임으로 변환
tables = pd.read_html(url)

# 표(table)의 개수 확인
print(len(tables))
print('\n')

# tables 리스트 원소를 iteration하면서 각각 화면 출력
for i in range(len(tables)):
    print("tables[%s]" %i)
    print(tables[i])
    print('\n')
# 파이썬 패키지 정보가 들어 있는 두 번째 데이터프레임을 선택하여 df 변수에 저장
df = tables[0]

# '직업' 열을 인덱스로 지정
df.set_index(['Job'], inplace=True)
print(df)

1


tables[0]
                  Job             prepare
0             actuary        prepare exam
1  Fiance Engineering  go graduate school


                               prepare
Job                                   
actuary                   prepare exam
Fiance Engineering  go graduate school


## 웹 스크래핑
BeautifulSoup 등 웹 스크래핑(scraping)도구로 수집한 데이터를 판다스 데이터프레임으로 정리하는 방법을 설명한다.  


In [18]:
from bs4 import BeautifulSoup
import requests
import re
import pandas as pd

#위키피디아 미국 ETF 웹 페이지에서 필요한 정보를 스크래핑하여 딕셔너리 형태로 변수 etfs에 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')
rows = soup.select('div > ul > li')

etfs = {}
for row in rows:
    
    try:
        etf_name = re.findall('^(.*)\(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]
    except AttributeError as err:
        pass

# etfs 딕셔너리 출력
print(etfs)
print('\n')
# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
print(df)

{}


Empty DataFrame
Columns: []
Index: []


### 데이터베이스[database]에서 판다스로 데이터를 가져올 수 있을까?
판다스 read_sql() 함수를 이용하면 SQL 쿼리를 가지고 데이터베이스로부터 데이터를 불러올 수 있다.  
이때 읽어온 데이터는 데이터프레임 포맷으로 저장된다.

# API 활용하여 데이터 수집하기

|구글 지오코딩 API 발급절차|
|--------------------------|
|구글 지도 서비스(https://cloud.google.com/maps-platform/places/?hl=ko) 접속|
|API 설정|
|사용자 인증|
|API 키 발급|

1. Anaconda Prompt를 실행
2. 콘다 설치명령 conda install -c conda-forge googlemaps
3. 설치여부 'y'입력


In [20]:
import googlemaps
import pandas as pd

my_key = "AIzaSyA0Xb5OBQWfkFcNnU7xOqHf6jW2VtHhTf0" #삭제

# 구글 맵스 객체 생성하기
maps = googlemaps.Client(key=my_key) #my key 값 입력
lat = [] #위도
lng = [] #경도

places = ["서울시청", "국립국악원", "해운대해수욕장"]

i = 0
for place in places:
    i = i + 1
    try:
        print(i, place)
        # 지오코딩 API 결과값 호출하여 geo_location 변수에 저장
        geo_location = map.geocode(places)[0].get('geometry')
        lat.append(geo_location['location']['lat'])
        lng.append(geo_location['location']['lng'])
    except:
        lat.append('')
        lng.append('')
        print(i)

# 데이터프레임으로 변환하기
df = pd.DataFrame({'위도':lat, '경도':lng}, index=places)
print('\n')
print(df)

1 서울시청
1
2 국립국악원
2
3 해운대해수욕장
3


        위도 경도
서울시청         
국립국악원        
해운대해수욕장      


# 데이터 저장하기
## CSV 파일로 저장
판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 CSV 파일로 변환할 수 있다.  
데이터프레임을 CSV 파일로 저장하려면 to_csv() 메소드를 적용한다.  
CSV 파일을 저장할 파일 경로와 파일명을 따옴표 안에 입력한다.  
- CSV 파일로 저장 DataFrame 객체.to_csv("파일 이름(경로)")

In [21]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : [ "C", "B", "B+"],
       'c++' : ['B+', 'C', 'C+'],
       }
df = pd.DataFrame(data)
df.set_index('name', inplace=True) # name 열을 인덱스로 지정
print(df)

# to_csv() 메소드를 사용하여 CSV 파일로 내보내기. 파일명은 df_sample.csv로 저장
df.to_csv('./df_sample.csv')

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## JSON 파일로 저장
데이터프레임을 JSON 파일로 저장하려면 to_json() 메소드를 이용한다. JSON 파일의 이름을 저장하려는 파일 경로와 함께 따옴표 안에 입력한다.  
- JSON 파일로 저장: DataFrame 객체.to_json("파일 이름(경로)")

In [22]:
import pandas as pd

# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : [ "C", "B", "B+"],
       'c++' : ['B+', 'C', 'C+'],
       }
df = pd.DataFrame(data)
df.set_index('name', inplace=True) # name 열을 인덱스로 지정
print(df)

df.to_json("./df_sample.json")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## Excel 파일로 저장
데이터프레임 Excel 파일과 아주 유사한 구조를 갖는다.  
데이터프레임의 행과 열은 Excel 파일의 행과 열로 일대일로 대응된다.  
데이터프레임을 Excel 파일로 저장할 때는 to_excel()메소드를 적용한다.  
단 to_excel() 메소드를 사용하려면 openpyxl 라이브러리를 사전에 설치해야 한다.  
아나콘다 배포판에는 openpyxl 라이브러리가 기본 제공되므로 따로 설치하지 않아도 된다.  
- Excel 파일로 저장: DataFrame 객체.to_excel("파일이름(경로)")

In [23]:
import pandas as pd
# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df에 저장
data = {'name': ['Jerry', 'Riah', 'Paul'],
       'algol' : ["A", "A+", "B"],
       'basic' : ["C", "B", "B+"],
       'c++' : ["B+", "C", "C+"],
       }
df = pd.DataFrame(data)
df.set_index('name', inplace = True) # name 열을 인덱스로 지정
print(df)

# to_excel() 메소드를 사용하여 Excel 파일로 내보내기. 파일명은 df_sample.xlsx로 저장
df.to_excel("./df_sample.xlsx")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


## 여러개의 데이터프레임을 하나의 Excel 파일로 저장
- 데이터프레임 여러 개를 Excel 파일로 저장: pandas.ExcelWriter("파일 이름(경로)")

In [25]:
import pandas as pd
# 판다스 DataFrame() 함수로 데이터프레임 변환. 변수 df1, df2에 저장
data1 = {'name': ['Jerry', 'Riah', 'Paul'],
        'algol' : ['A', 'A+', 'B'],
        'basic' : ["C", "B", "B+"],
        'c++' : ["B+", "C", "C+"]}
data2 = {'c0':[1,2,3],
        'c1':[4,5,6],
        'c2':[7,8,9],
        'c3':[10,11,12],
        'c4' : [13,14,15]}
df1 = pd.DataFrame(data1)
df1.set_index('name', inplace = True)
print(df1)
print('\n')

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace = True)
print(df2)

# df1을 'sheet1'으로, df2를 'sheet2'로 저장(Excel 파일명은 "df_excelwriter.xlsx")
writer = pd.ExcelWriter("./df_excelwriter.xlsx")
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
writer.save()

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
