## I/O Tools - 외부 데이터를 DataFrame으로 Import 하기
실제 데이터 분석에서, 사용할 데이터를 일일히 입력해 넣는 경우는 흔하지 않다.
분석에 사용할 데이터는 파일로부터 import를 하는 경우가 대부분

## csv 파일 DataFrame에 불러오기
### 서울시 지하철 승차정보 불러오기


In [1]:
import pandas as pd
url = 'https://github.com/silent0402/lecturenote/raw/master/Notes/data/subway.csv'
df = pd.read_csv(url)
print(df)


           사용일자  노선명   역ID    역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872    매교    2348    2405  20190804
1      20190801  분당선  1871  수원시청   11930   13290  20190804
2      20190801  분당선  1870  매탄권선    4609    4360  20190804
3      20190801  분당선  1869    망포   14103   13044  20190804
4      20190801  분당선  1868    영통    9303    9380  20190804
...         ...  ...   ...   ...     ...     ...       ...
18314  20190831  3호선   316   독립문    8877    8761  20190903
18315  20190831  3호선   315   무악재    3491    3576  20190903
18316  20190831  3호선   314    홍제   17306   16129  20190903
18317  20190831  3호선   313    녹번   11970    9936  20190903
18318  20190831  3호선   312    불광   16697   18805  20190903

[18319 rows x 7 columns]


### 특정 Column만 선택하여 불러오기

In [2]:
import pandas as pd

df = pd.read_csv('https://github.com/silent0402/lecturenote/raw/master/Notes/data/subway.csv', 
                 sep=",",
                index_col=2,
                )
print(df)
df.shape
#shape : 행, 열의 갯수
df.columns
#구체적인 열 정보

df2 = df[["역명", "노선명"]]
print(df2)
# 필요한 열만 뽑아내기 (두 개 이상일 경우 대괄호 두 개임을 주의)

          사용일자  노선명    역명  승차총승객수  하차총승객수      등록일자
역ID                                                
1872  20190801  분당선    매교    2348    2405  20190804
1871  20190801  분당선  수원시청   11930   13290  20190804
1870  20190801  분당선  매탄권선    4609    4360  20190804
1869  20190801  분당선    망포   14103   13044  20190804
1868  20190801  분당선    영통    9303    9380  20190804
...        ...  ...   ...     ...     ...       ...
316   20190831  3호선   독립문    8877    8761  20190903
315   20190831  3호선   무악재    3491    3576  20190903
314   20190831  3호선    홍제   17306   16129  20190903
313   20190831  3호선    녹번   11970    9936  20190903
312   20190831  3호선    불광   16697   18805  20190903

[18319 rows x 6 columns]
        역명  노선명
역ID            
1872    매교  분당선
1871  수원시청  분당선
1870  매탄권선  분당선
1869    망포  분당선
1868    영통  분당선
...    ...  ...
316    독립문  3호선
315    무악재  3호선
314     홍제  3호선
313     녹번  3호선
312     불광  3호선

[18319 rows x 2 columns]


### header가 없는 경우 & Delimiter(구분자)가 쉼표가 아닐 경우

In [26]:
import pandas as pd

df = pd.read_csv('https://github.com/silent0402/lecturenote/raw/master/Notes/data/subway.csv', 
                 sep="|",
                header=None,
                 names=['a','b']
                )
print(df)

                                                       a   b
0         사용일자,"노선명","역ID","역명","승차총승객수","하차총승객수","등록일자" NaN
1      20190801,"분당선","1872","매교","2348","2405","2019... NaN
2      20190801,"분당선","1871","수원시청","11930","13290","... NaN
3      20190801,"분당선","1870","매탄권선","4609","4360","20... NaN
4      20190801,"분당선","1869","망포","14103","13044","20... NaN
...                                                  ...  ..
18315  20190831,"3호선","0316","독립문","8877","8761","201... NaN
18316  20190831,"3호선","0315","무악재","3491","3576","201... NaN
18317  20190831,"3호선","0314","홍제","17306","16129","20... NaN
18318  20190831,"3호선","0313","녹번","11970","9936","201... NaN
18319  20190831,"3호선","0312","불광","16697","18805","20... NaN

[18320 rows x 2 columns]


## Excel 파일 DataFrame에 불러오기


In [4]:
import pandas as pd

df = pd.read_excel('https://github.com/silent0402/lecturenote/raw/master/Notes/data/subway.xlsx', sheet_name="subway")
print(df)

           사용일자  노선명   역ID    역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872    매교    2348    2405  20190804
1      20190801  분당선  1871  수원시청   11930   13290  20190804
2      20190801  분당선  1870  매탄권선    4609    4360  20190804
3      20190801  분당선  1869    망포   14103   13044  20190804
4      20190801  분당선  1868    영통    9303    9380  20190804
...         ...  ...   ...   ...     ...     ...       ...
18314  20190831  3호선   316   독립문    8877    8761  20190903
18315  20190831  3호선   315   무악재    3491    3576  20190903
18316  20190831  3호선   314    홍제   17306   16129  20190903
18317  20190831  3호선   313    녹번   11970    9936  20190903
18318  20190831  3호선   312    불광   16697   18805  20190903

[18319 rows x 7 columns]


### !wget 방법 사용

In [16]:
import pandas as pd
df = pd.read_excel('data/subway.xlsx', 
                   sheet_name = 'subway')

print(df)
    


           사용일자  노선명   역ID    역명  승차총승객수  하차총승객수      등록일자
0      20190801  분당선  1872    매교    2348    2405  20190804
1      20190801  분당선  1871  수원시청   11930   13290  20190804
2      20190801  분당선  1870  매탄권선    4609    4360  20190804
3      20190801  분당선  1869    망포   14103   13044  20190804
4      20190801  분당선  1868    영통    9303    9380  20190804
...         ...  ...   ...   ...     ...     ...       ...
18314  20190831  3호선   316   독립문    8877    8761  20190903
18315  20190831  3호선   315   무악재    3491    3576  20190903
18316  20190831  3호선   314    홍제   17306   16129  20190903
18317  20190831  3호선   313    녹번   11970    9936  20190903
18318  20190831  3호선   312    불광   16697   18805  20190903

[18319 rows x 7 columns]


## HTML 파일을 DataFrame에 불러오기

### url을 입력하여 해당 페이지의 Table 불러오기
read_html의 결과로 DataFrame의 '리스트'가 반환되는 것에 유의

In [6]:
!pip install lxml



In [7]:
import pandas as pd
url = 'https://www.fdic.gov/bank/individual/failed/banklist.html'
dfs = pd.read_html(url)
print(dfs[0])


                                             Bank Name        City  ST   CERT  \
0                                 The Enloe State Bank      Cooper  TX  10716   
1                  Washington Federal Bank for Savings     Chicago  IL  30570   
2      The Farmers and Merchants State Bank of Argonia     Argonia  KS  17719   
3                                  Fayette County Bank  Saint Elmo  IL   1802   
4    Guaranty Bank, (d/b/a BestBank in Georgia & Mi...   Milwaukee  WI  30003   
..                                                 ...         ...  ..    ...   
551                                 Superior Bank, FSB    Hinsdale  IL  32646   
552                                Malta National Bank       Malta  OH   6629   
553                    First Alliance Bank & Trust Co.  Manchester  NH  34264   
554                  National State Bank of Metropolis  Metropolis  IL   3815   
555                                   Bank of Honolulu    Honolulu  HI  21029   

                   Acquirin

## JSON 파일을 DataFrame에 불러오기

### 미국 연도별 인구데이터 불러오기
!wget 방식 미해결

In [8]:
import pandas as pd
url = 'https://github.com/silent0402/lecturenote/raw/master/Notes/data/population.json'

df = pd.read_json(url)
print(df)

                                            indicator  \
0   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
1   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
2   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
3   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
4   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
5   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
6   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
7   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
8   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
9   {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
10  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
11  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
12  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
13  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
14  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
15  {'id': 'SP.POP.TOTL', 'value': 'Population, to...   
16  {'id': 'SP.POP.TOTL', 'valu

### json_normalize 함수를 이용하여 Nested structure의 JSON 파일을 정상적으로 불러오기

In [16]:
import pandas as pd

import json
from pandas.io.json import json_normalize

with open ('population.json') as data_file:
    data = json.load(data_file)

df = json_normalize(data)
print(df)

        value decimal  date indicator.id    indicator.value country.id  \
0   327167434       0  2018  SP.POP.TOTL  Population, total         US   
1   325147121       0  2017  SP.POP.TOTL  Population, total         US   
2   323071342       0  2016  SP.POP.TOTL  Population, total         US   
3   320742673       0  2015  SP.POP.TOTL  Population, total         US   
4   318386421       0  2014  SP.POP.TOTL  Population, total         US   
5   316057727       0  2013  SP.POP.TOTL  Population, total         US   
6   313874218       0  2012  SP.POP.TOTL  Population, total         US   
7   311580009       0  2011  SP.POP.TOTL  Population, total         US   
8   309326085       0  2010  SP.POP.TOTL  Population, total         US   
9   306771529       0  2009  SP.POP.TOTL  Population, total         US   
10  304093966       0  2008  SP.POP.TOTL  Population, total         US   
11  301231207       0  2007  SP.POP.TOTL  Population, total         US   
12  298379912       0  2006  SP.POP.TO

In [None]:
!pip install requests

### 실시간 검색어 순위 JSON 데이터를 반환

In [44]:
import pandas as pd
import json, requests
from pandas.io.json import json_normalize

r = requests.get('http://rank.search.naver.com/rank.js')
#json_normalize(json.loads(r.text), ['data','category'])
json_normalize(json.loads(r.text), ['data','data'])
#json_normalize(json.loads(r.text), ['data'])

Unnamed: 0,rank,keyword,change,score,tvalue,cvalue,ratio,delta
0,1,커버낫 헝가리 구스,+,0,0.0,0.0,.,0
1,2,미세플라스틱 미검출 샤프란,+,0,0.0,0.0,.,0
2,3,미샤베스트1+1,+,0,0.0,0.0,.,0
3,4,투썸플레이스 원두,+,0,0.0,0.0,.,0
4,5,cjone 굿퀴즈,+,0,0.0,0.0,.,0
5,6,성현아,+,0,0.0,0.0,.,0
6,7,반트 1만개 이벤트,+,0,0.0,0.0,.,0
7,8,한승우,+,0,0.0,0.0,.,0
8,9,세리번나이트 오늘만 반값,+,0,0.0,0.0,.,0
9,10,미세플라스틱 섬유유연제,+,0,0.0,0.0,.,0


In [20]:
# time stamp

r = requests.get('http://rank.search.naver.com/rank.js')
json.loads(r.text)['ts']

'2019-10-21T15:39:00+0900'