In [1]:
import pandas as pd

#### 1. 외부 파일 읽어오기

##### 1-1. CSV 파일
- csv(comma-separated values)
- 쉼표로 구분하고 줄바꿈으로 행 구분하는 텍스트 파일
- pandas.read_csv("파일경로(이름)", header = 0 , index_col = False)
    - csv 파일 읽어와서 데이터프레임으로 변환
    - header : 열 이름이 되는 행 지정
    - inex_col : 행 인덱스가 되는 열 지정

In [3]:
file_path = "./read_csv_sample.csv"

df1 = pd.read_csv(file_path)
print(df1)
print("\n")
# 파일 첫 행의 데이터가 열 이름이 됨.
df2 = pd.read_csv(file_path, header = None)
print(df2)
print("\n")
# 행 인덱스 정수로 자동 지정
df3 = pd.read_csv(file_path, index_col = None)
print(df3)
print("\n")
# 'c0'열이 행 인덱스가 됨
df4 = pd.read_csv(file_path, index_col = 'c0')
print(df4)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


##### 1-2. Excel 파일
- read_excel() 함수 인자롤 전달
- header 옵션 X -> 파일의 첫 행이 열 이름 구성
- header = None : 정수형 인덱스를 열 이름으로 자동 할당

In [4]:
df1 = pd.read_excel("./남북한발전전력량.xlsx") # header = 0 (default)
df2 = pd.read_excel("./남북한발전전력량.xlsx", header = None)

print(df1)
print("\n")
print(df2)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

##### 1-3. JSON 파일
- json : 데이터 공유를 목적으로 개발된 특수한 파일 형식
- 딕셔너리와 비슷한 구조 key : value
- pd.read_json("파일경로(이름)")

In [5]:
df = pd.read_json("./read_json_sample.json")
print(df)
print("\n")
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


#### 2. 웹에서 가져오기

##### 2-1. HTML 웹 페이지에서 표 속성 가져오기
- read_html() : HTML 웹 페이지에 있는 table 태그에서 표 형식의 데이터 모두 찾아서 데이터프레임으로 변환
- 각각 별도의 데이터프레임으로 변환되므로 여러 개의 데이터프레임을 원소로 갖는 리스트 반환
- 표 정보 파싱
    - pd.read_html("https://www.naver.com/")

In [6]:
url = "./sample.html"

tables = pd.read_html(url)

# 표 개수 확인
print(len(tables))
print("\n")

# 테이블 출력
for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print("\n")

# 두 번째 데이터 프레임 df에 저장
df = tables[1]

# "name" 열 인덱스로 지정
df.set_index(["name"],inplace = True)
print(df)

2


tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


##### 2-2. 웹 스크래핑 

In [12]:
from bs4 import BeautifulSoup
import requests
import re
# 위키피디아 미국 ETF 웹 페이지 스크래핑 후 딕셔너리 형태로 저장
url = "https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds"
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')   
rows = soup.select('div > ul > li')
    
etfs = {}
for row in rows:
    
    try:
        etf_name = re.findall('^(.*) \(NYSE', row.text)
        etf_market = re.findall('\((.*)\|', row.text)
        etf_ticker = re.findall('NYSE Arca\|(.*)\)', row.text)
        
        if (len(etf_ticker) > 0) & (len(etf_market) > 0) & (len(etf_name) > 0):
            # 리스트를 원소로 갖는 딕셔너리 정의
            etfs[etf_ticker[0]] = [etf_market[0], etf_name[0]]

    except AttributeError as err:
        pass    

# etfs 딕셔너리 출력
print(etfs)
print('\n')

# etfs 딕셔너리를 데이터프레임으로 변환
df = pd.DataFrame(etfs)
print(df)

{}


Empty DataFrame
Columns: []
Index: []


#### 3. API 활용하여 데이터 수집하기
- 구글 지오코딩 API 예시
    - 장소 이름 또는 주소를 입력하면 위도와 경도 좌표 정보 변환해주는 서비스

In [13]:
pip install "googlemaps"

Collecting googlemaps
  Downloading googlemaps-4.6.0.tar.gz (31 kB)
Building wheels for collected packages: googlemaps
  Building wheel for googlemaps (setup.py): started
  Building wheel for googlemaps (setup.py): finished with status 'done'
  Created wheel for googlemaps: filename=googlemaps-4.6.0-py3-none-any.whl size=38537 sha256=d0889b02f269a8e74b40fad22ba73eb634b694ef42dc0d5f01cccb16cfcdce67
  Stored in directory: c:\users\samsung\appdata\local\pip\cache\wheels\2d\e9\ee\336c1792ed04efbf4fe9c89662d701f5c1f1fdddf8782951d3
Successfully built googlemaps
Installing collected packages: googlemaps
Successfully installed googlemaps-4.6.0
Note: you may need to restart the kernel to use updated packages.


In [19]:
# google 지오코딩 API로 위도, 경도 데이터 가져오기
import googlemaps

my_key = "AIzaSyD3QakySWtkNFjpzf4vN04JyZnCWoy36IM"

# 구글맵스 객체 생성하기
maps = googlemaps.Client(key=my_key)  # my key값 입력

lat = []  #위도
lng = []  #경도

# 장소(또는 주소) 리스트
places = ["서울시청", "국립국악원", "해운대해수욕장"]

i=0
for place in places:   
    i = i + 1
    try:
        print(i, place)
        # 지오코딩 API 결과값 호출하여 geo_location 변수에 저장
        geo_location = maps.geocode(place)[0].get('geometry')
        lat.append(geo_location['location']['lat'])
        lng.append(geo_location['location']['lng'])
        
    except:
        lat.append('')
        lng.append('')
        print(i)

# 데이터프레임으로 변환하기
df = pd.DataFrame({'위도':lat, '경도':lng}, index=places)
print('\n')
print(df)

1 서울시청
2 국립국악원
3 해운대해수욕장


                위도          경도
서울시청     37.566535  126.977969
국립국악원    37.477759  127.008304
해운대해수욕장  35.158698  129.160384


#### 4. 데이터 저장하기

##### 4-1. CSV 파일로 저장 
- to_csv("파일이름(경로)")

In [20]:
data = {'name' : ['Jerry','Riah','Paul'],
       'algol' : ['A','A+','B'],
        'basic' : ['C','B','B+'],
        'c++' : ['B+',"C",'C+'],
       }
df = pd.DataFrame(data)
df.set_index('name', inplace = True)
print(df)

df.to_csv("./df_sample.csv")

      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


##### 4-2. JSON 파일로 저장
- to_json("파일이름(경로)")

In [21]:
df.to_json("./df_sample.json")

##### 4-3. Excel 파일로 저장

In [22]:
df.to_excel("./df_sample.xlsx")

##### 4-4. 여러 개의 데이터프레임을 하나의 Excel 파일로 저장
- ExcelWriter() : Excel 워크북 객체 생성 ( = 엑셀 파일 )
- to_excel() 메소드 적용 시 워크북 객체를 인자로 전달
- sheet_name 옵션으로 삽입되는 시트 위치 지정 가능

In [23]:
data1 = {'name' : ['Jerry','Riah','Paul'],
       'algol' : ['A','A+','B'],
        'basic' : ['C','B','B+'],
        'c++' : ['B+',"C",'C+']}
data2 = {'c0':[1,2,3],
        'c1':[4,5,6],
        'c2':[7,8,9],
        'c3':[10,11,12],
        'c4':[13,14,15]}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace = True)
print(df1)
print("\n")

df2 = pd.DataFrame(data2)
df2.set_index("c0", inplace = True)
print(df2)

writer = pd.ExcelWriter("./df_excelwriter.xlsx")
df1.to_excel(writer, sheet_name = "sheet1")
df2.to_excel(writer, sheet_name = "sheet2")
writer.save()


      algol basic c++
name                 
Jerry     A     C  B+
Riah     A+     B   C
Paul      B    B+  C+


    c1  c2  c3  c4
c0                
1    4   7  10  13
2    5   8  11  14
3    6   9  12  15
