## 외부 파일 읽어오기
- CSV 파일 읽기
- Excel 파일 읽기
- JSON 파일 읽기
- HTML 읽기
- Web Scraping

In [1]:
# 라이브러리 불러오기
import pandas as pd

# 파일 경로를 찾고, 변수에 저장
file_path = "data/read_csv_sample.csv"

''' 
c0,c1,c2,c3
0,1,4,7
1,2,5,8
2,3,6,9
'''

In [2]:
# 헤더 옵션을 주지 않으니 첫 줄을 자동으로 헤더로 취급함 (컬럼 이름으로 지정해줌)
df1 = pd.read_csv(file_path)
print(df1)
print('\n')

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9




In [8]:
# 헤더 옵션을 None으로 주면 1줄도 데이터로 취급함
df1 = pd.read_csv(file_path, header = None)
print(df1)
print('\n')

# 실습 : header의 값을 0, 1, 2... 로 차례로 바꾸어 출력 결과를 관찰해보기
#  => 헤더로 지정한 행 인덱스는 컬럼 이름으로 지정되고 그 이후 행들은 데이터프레임에 남음

    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9




In [9]:
# index_col = None => 디폴트로 정수 인덱스 생성
df3 = pd.read_csv(file_path, index_col=None)
print(df3)
print('\n')

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9




In [14]:
# index_col = 열 인덱스 or '지정 열' => 데이터의 일부를 인덱스 열로 지정
# 아래 둘 다 가능
# df4 = pd.read_csv(file_path, index_col='c2')
df4 = pd.read_csv(file_path, index_col=2)
print(df4)
print('\n')

# 이 때 c2로 표시되는 것은 인덱스 컬럼의 이름으로 사용됨

    c0  c1  c3
c2            
4    0   1   7
5    1   2   8
6    2   3   9




## Excel 파일 읽기
> read_excel(filepath_or_buffer)

In [18]:
import pandas as pd

# header 옵션을 주지 않으면 엑셀의 첫 줄을 컬럼 네임으로 지정함 (header = 0)
df1 = pd.read_excel('data/남북한발전전력량.xlsx')
print(df1)
print('\n')

# 컬럼 네임이 0부터 인덱스가 새로 들어가서 원래 엑셀 파일의 컬럼 이름이 데이터프레임으로 들어가게됨
df2 = pd.read_excel('data/남북한발전전력량.xlsx', header=None)
print(df2)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

## JSON 파일 읽기 테스트
> read_json(filepath_or_buffer)

In [21]:
import pandas as pd

# 최상위의 키 값이 컬럼 네임이 됨
df1 = pd.read_json('data/read_json_sample.json')
print(df1)
print('\n')
print(df1.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')


## HTML 파일 읽기
> read_html(filepath_or_buffer)

- html 처리 관련 패키지 설치
    -  pip install lxml

In [23]:
import pandas as pd

tables = pd.read_html('data/sample.html')
print(len(tables))
print('\n')

2




In [24]:
for i in range(len(tables)):
    print("tables[%s]" % i)
    print(tables[i])
    print('\n')

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9


tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True




In [25]:
# 파이썬 패키지 정보가 들어있는 두 번째 데이터 프레임을 선택해 df 변수에 저장
df = tables[1]

# 'name' 열을 인덱스로 지정
df.set_index(['name'], inplace=True) # inplace=True 복사본 만들지 말고 자체 변경
print(df)

            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


## 파일 저장하기
- CSV 파일 저장
- Excel 파일 저장
- JSON 파일 저장

In [26]:
import pandas as pd

data={}

df = pd.DataFrame(data)
df.set_index('name', inplace=True)
print(df)

df.to_csv("data/저장하기.csv")

ValueError: DataFrame constructor not properly called!

# Web Scrapping
