# Pandas Intro
DataFrame 을 주로 다루기 위한 라이브러리로 데이터 핸들링 작업을 빠르게 할 수 있습니다.<BR>
[Cheat sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)<BR>
참고. [예제로 배우는 파이썬 프로그래밍](http://pythonstudy.xyz/python/article/408-pandas-%EB%8D%B0%EC%9D%B4%ED%83%80-%EB%B6%84%EC%84%9D)

## Install
pip 를 이용해 인스톨 가능합니다. Colab 에선 이미 설치되어 지원하기 때문에 생략해도 됩니다.

In [None]:
# !pip install pandas

## Basic usage

### Import
보통 pd 로 많이 사용합니다.

In [None]:
import pandas as pd

version 확인

In [None]:
pd.__version__

'1.1.5'

### setting
Jupyter 에서 줄 제한을 늘리는 방법

In [None]:
pd.set_option('display.max_rows',80)

### Data 형
Pandas 는 크게 3가지 자료형을 제공합니다.<br>
출처. [dooo.park Pandas](https://dooopark.tistory.com/29)

#### Series
1차원 자료구조로 배열/리스트와 같은 일련의 시퀀스 데이타를 받아들이는데, 별도의 인덱스 레이블을 지정하지 않으면 자동적으로 0부터 시작되는 디폴트 정수 인덱스를 사용합니다.

In [None]:
data = [1, 3, 5, 7, 9]
s = pd.Series(data)
s

0    1
1    3
2    5
3    7
4    9
dtype: int64

In [None]:
s[0]

1

#### DataFrame
2차원 자료구조로 행과 열이 있는 테이블 데이타(Tabular Data)를 받아들이는데 쓰입니다.

In [None]:
data = {
    'year': [2016, 2017, 2018],
    'GDP rate': [2.8, 3.1, 3.0],
    'GDP': ['1.637M', '1.73M', '1.83M']
}
df = pd.DataFrame(data)
df

Unnamed: 0,year,GDP rate,GDP
0,2016,2.8,1.637M
1,2017,3.1,1.73M
2,2018,3.0,1.83M


In [None]:
df['year']

0    2016
1    2017
2    2018
Name: year, dtype: int64

In [None]:
df [df['year'] > 2016]

Unnamed: 0,year,GDP rate,GDP
1,2017,3.1,1.73M
2,2018,3.0,1.83M


#### Panel
3차원 자료구조로
- Axis 0 (items) == DataFrame
- Axis 1 (major_axis) == DataFrame 의 행
- Axis 2 (minor_axis) == DataFrame 의 열

의 3개의 축을 가지고 있습니다.


참고사항. Panel 구조는 더이상 지원하지 않습니다.<BR>
3차원 자료구조를 이용하는 것은 to_frame()을 통해 DataFrame의 MultiIndex를 사용하거나 xarray 패키지를 사용하는 것을 권합니다. pandas는 이 변환을 자동화하기 위해 to_xarray() 메서드를 제공합니다.


출처. [pandas what's new in 0.23.0](https://pandas.pydata.org/docs/whatsnew/v0.23.0.html?highlight=panel#deprecate-panel)<BR>


### File 데이터 불러오기

WEB 상에 있는 파일을 다운로드하기

In [None]:
!wget https://github.com/Finfra/TensorflowStudyExample/raw/master/data/example.csv
!wget https://github.com/Finfra/TensorflowStudyExample/raw/master/data/example.xlsx

#### CSV 파일 로드

In [None]:
df = pd.read_csv("./example.csv")
df

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,1,2,3,4
2,7,8,9,0,9
3,4,5,6,7,8
4,11,13,8,5,5


해당 내용을 꺼내볼 수도 있다.

In [None]:
df['a'][0]

1

#### EXCEL 파일 로드

In [None]:
df = pd.read_excel("./example.xlsx")
df

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,1,2,3,4
2,7,8,9,0,9
3,4,5,6,7,8
4,11,13,8,5,5


조건에 해당하는 값만 가져오는 것도 가능하다.

In [None]:
df[ df['e'] == 5]

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
4,11,13,8,5,5


#### HTML TABLE 로드
출처. [Myzz's pandas](https://mizykk.tistory.com/40)

HTML 내용중에 테이블 내용을 각각 가져온다.

In [None]:
table = pd.read_html('https://mizykk.tistory.com/39', header=0, encoding='utf-8')
table

[    과일  색상     가격
 0   사과  빨강  1500원
 1   사과  초록  1000원
 2  바나나  노랑  3000원
 3  바나나  초록  2000원,      국가   도시     언어
 0    한국   서울    한국어
 1    미국   뉴욕     영어
 2  이탈리아  피렌체  이탈리아어
 3   프랑스   파리     불어,   한국어        영어
 0  1월   January
 1  2월  Feburary
 2  3월     March,               [Python] 리스트 정렬하기 :: sort / sorted (0)  2021.02.10
 0    [Python] 영문 > 한글 키보드 입력 변환하기 :: 자모결합 / 자소결합 (0)  2021.01.29
 1  [Python] for문(반복문) 진행상황 표시 :: tqdm / tqdm_note...  2021.01.28
 2  [Python] has no attribute 'compat' (most likel...  2020.10.05
 3                               pd.read_table 예제 (0)  2020.03.31
 4               [Python] 위경도 거리 구하기 :: haversine (1)  2020.01.28]

가져온 데이터 중에 원하는 테이블만 보기

In [None]:
table[1]

Unnamed: 0,국가,도시,언어
0,한국,서울,한국어
1,미국,뉴욕,영어
2,이탈리아,피렌체,이탈리아어
3,프랑스,파리,불어


원하는 테이블 내용만 가져오기

In [None]:
table2 = pd.read_html('https://mizykk.tistory.com/39', match = '국가', header=0, encoding='utf-8')
table2

[     국가   도시     언어
 0    한국   서울    한국어
 1    미국   뉴욕     영어
 2  이탈리아  피렌체  이탈리아어
 3   프랑스   파리     불어]

### 데이터를 File로 저장하기

#### CSV 파일 저장

Dumi data 만들기

In [None]:
data = {
    'year': [2016, 2017, 2018],
    'GDP rate': [2.8, 3.1, 3.0],
    'GDP': ['1.637M', '1.73M', '1.83M']
}
df = pd.DataFrame(data)
df

Unnamed: 0,year,GDP rate,GDP
0,2016,2.8,1.637M
1,2017,3.1,1.73M
2,2018,3.0,1.83M


저장하기

In [None]:
df.to_csv('./csvsave.csv')
!ls

저장된 파일 가져오기

In [None]:
df2 = pd.read_csv('./csvsave.csv')
df2

Unnamed: 0.1,Unnamed: 0,year,GDP rate,GDP
0,0,2016,2.8,1.637M
1,1,2017,3.1,1.73M
2,2,2018,3.0,1.83M


저장하기 전 데이터와 같아지게 Unnamed: 0 컬럼 지우기

In [None]:
df2 = df2.drop('Unnamed: 0',axis=1)
df2

Unnamed: 0,year,GDP rate,GDP
0,2016,2.8,1.637M
1,2017,3.1,1.73M
2,2018,3.0,1.83M
