## Pandas

<img src='https://pandas.pydata.org/static/img/pandas.svg' width=500>

#### 판다스(Pandas)
- 구조화된 데이터 처리를 쉽고 직관적으로 할 수 있도록 제공하는 Python library 
  - 행과 열로 이루어진 데이터 객체를 만들고 다룰 수 있어 안정적으로 대용량의 데이터들을 처리하는데 매우 편리한 도구
  - 자동적/명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 데이터구조
  - 직관적인 데이터 세트 병합 및 결합을 할 수 있음
  - 시계열 특정 기능 지원을 통해 날짜 범위 생성 및 날짜 이동 및 지연 가능
- 서로 다른 여러 가지 유형의 데이터를 공통의 포맷으로 정리할 수 있음
  - 다양한 소스(source)로부터 데이터 수집이 가능함. 
  - 데이터프레임(DataFrame)을 자료구조로 제공함으로써 모든 자료를 공통의 포맷으로 정리할 수 있음.
  - csv파일, json파일, txt파일, excel파일, hdf5파일 등 다양한 형태의 io파일 사용 가능
- 고성능 Array 계산 라이브러리인 Numpy를 통합해 강력한 '스프레드시트' 처리 기능을 제공
  - 부동 소수점 데이터와 아닌 데이터 모두 결측 데이터(NaN)을 쉽게 처리할 수 있음
  - 새로운 열의 추가와 특정 열의 삭제 등 데이터 추가와 삭제를 자유롭게 할 수 있음
  - 데이터 정렬(sort)과 그룹바이(groupby), 피벗(pivot) 등 다양한 데이터 조작이 가능함

#### Pandas Documentation
- docs: https://pandas.pydata.org/
- cheatsheet: https://www.datacamp.com/blog/pandas-cheat-sheet-for-data-science-in-python

#### NumPy Documentation
- docs: https://numpy.org/doc/
- cheatsheet: https://www.datacamp.com/blog/numpy-cheat-sheet-data-analysis-in-python


#### Python Documentation
- docs: https://docs.python.org/3/
- cheatsheet: https://perso.limsi.fr/pointal/_media/python:cours:mementopython3-english.pdf


#### 판다스 사용하기
- 판다스 설치: 
  - <pre>pip install pandas</pre>(아나콘다와 함께 설치됨)
- 판다스 사용: 
  - <pre>import pandas as pd</pre>(일반적으로 pd라는 별칭으로 호출함)
- 판다스 버전 확인: 
  - <pre>pandas.__version__</pre>


## Pandas 객체

#### 자료구조 비교

- 파이썬의 리스트(List)는 다양한 자료형을 저장할 수 있음
- 넘파이(Numpy)의 넘파이 배열(ndarray)은 다양한 차원을 제공하며 같은 자료형을 저장할 수 있음
- 판다스(Pandas)의 데이터프레임(DataFrame)은 열(columns)마다 다른 자료형을 저장할 수 있음

<img src='https://mblogthumb-phinf.pstatic.net/MjAyMjAyMTVfMjkg/MDAxNjQ0OTA2ODA4Mzg5.72Uo7EHQ3BBT3Bnu3bBzl0c3VvGd_c88ZlB0BvpSBxQg.HoRnRZbgwof1Xend1iSm3GoyKcfdClWl1XE7_zWd3hEg.PNG.kckoh2309/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B5%AC%EC%A1%B02.png?type=w800' width=700><br>
출처: https://m.blog.naver.com/kckoh2309/222648298029




#### 판다스(Pandas)와 넘파이(NumPy) 비교
- Pandas는 다양한 자료를 저장할 수 있고 Nan값 처리가 가능하며 index를 활용할 수 있다.
- Series 객체 인덱싱은 NumPy array에 비해 상당히 느리다.
- Pandas가 Series로 색인을 생성할 때 많은 일을 하고 있고 Python에서 그 일을 하고 있다.
- NumPy는 ndarray는 Cython에서 바로 실행하기에 무슨일을 하는지 알 수 없다.

In [None]:
# Pandas Series와 Numpy ndarray의 성능 비교
big_array = np.random.rand(1000000)
big_series = pd.Series(big_array)

# 배열의 크기가 커졌을 때 인덱싱의 속도를 비교하시오.
print("---인덱싱 속도 비교---")
%timeit big_array[100000]
%timeit big_series[100000]

# 배열의 크기가 커졌을 때 합계 연산의 속도를 비교하시오.
print("---연산 속도 비교---")
%timeit sum(big_array)
%timeit big_array.sum()
%timeit big_series.sum()

### Series
- 인덱싱된 데이터의 1차원 자료구조(index-value)
- Series는 일련의 객체를 담을 수 있는 1차원 배열과 같은 자료구조
- 인덱스(index)라고 하는 배열의 데이터와 연관된 이름을 가지고 있음.
- Series 객체를 출력하면 왼쪽에는 인덱스(index)를 오른쪽에는 값(value)을 보여줌.
- 인덱스(index)에 값(value)을 연결하고 있으므로 파이썬의 사전(dictionary)형과 비슷함.

<br>
<img src="https://bites-data.s3.us-east-2.amazonaws.com/series_spreadsheet.png" width=300>
<br>
출처: https://codechalleng.es/bites/251/

<img src="https://www.w3resource.com/w3r_images/pandas-series-add-image-1.svg">
<br>
출처: https://www.w3resource.com/pandas/series/series-add.php

### DataFrame 
- 인덱싱된 데이터의 2차원 자료구조(index-column-value)
- 같은 index를 공유하는 정렬된 Series 객체가 연결된 집합.
- 컬럼별로 다른 종류의 자료형 저장이 가능함
- 저장되는 자료형에 제약이 없고, column 이름이나 row 이름을 지정해 줄 수 있음

<img src='https://bookdata.readthedocs.io/en/latest/_images/base_01_pandas_5_0.png' width=500>
<br>
출처: https://bookdata.readthedocs.io/en/latest/base/01_pandas.html<br>

<br>
<img src="https://cvw.cac.cornell.edu/PyDataSci1/images/AnatomyDataFrame.png" width="500px">
<br>
출처: https://cvw.cac.cornell.edu/PyDataSci1/arrays_dataframes <br>

<br>
<img src="https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png" width="700px">
<br>
출처: https://www.geeksforgeeks.org/creating-a-pandas-dataframe/
<br>
<br>


In [None]:
list = [[10, 20, 30, 40, 50], [60, 70, 80, 90, 100], [80, 90, 100, 110, 120]]

In [None]:
# Dictionary
dic = {'Country': ['Beigium', 'India', 'Brazil'],
        'Capital': ['Brusseis', 'New Delhi', 'Brasilia'],
        'Population': [11190846, 1303171035, 207847528] }
dic

### Index
- 불변의 배열로 일반적인 방법으로는 변경될 수 없는 불변의 값임
  - 불변성 덕분에 예기치 않은 인덱스 변경으로 인한 부작용 없이 여러 DataFrame과 배열 사이에서 인덱스를 더 안전하게 공유할 수 있음
- 정렬된 집합으로 합집합, 교집합, 차집합을 비롯한 방식으로 계산될 수 있음
- 중복되는 값을 허용함
- 암묵적으로 정의된 정수형 인덱스와, 값에 연결된 명시적인 인덱스가 있음.
- 다양한 인덱스 표현이 가능함. 
  - MultiIndex는 계층적인 인덱스를 표현할 수 있음. 좀 더 고차원의 데이터 표현이 가능함
  - DatetimeIndex는 날짜를 인덱스로 표현할 수 있음. 시계열 처리가 가능함.

<br>
<img src="https://pynative.com/wp-content/uploads/2021/02/dataframe.png" width="500px">
<br>
출처: https://pynative.com/python-pandas-dataframe/ <br>


## 데이터 정보

### Data Types

<img src='https://pbpython.com/images/pandas_dtypes.png'><br>
출처: https://pbpython.com/pandas_dtypes.html

### Basic Information


### Sort & Rank

## 데이터 선택

| Syntax | Operation | Result | 
|--------|-----------|--------|
| df[col] | 하나의 컬럼을 선택한다 | Series |
| df.loc[row] | 라벨값으로 행의 부분집합을 선택한다 | Series |
| df.loc[:, col] | 라벨값으로 열의 부분집합을 선택한다 | Series |
| df.loc[row, col] | 라벨값으로 행과 열의 부분집합을 선택한다 | value |
| df.iloc[irow] | 정수색인으로 행의 부분집합을 선택한다 | Series |
| df.iloc[:, icol] | 정수색인으로 열의 부분집합을 선택한다 | Series |
| df.iloc[:, :] | 정수색인으로 행과 열을 슬라이싱한다. | DataFrame |
| df.iloc[irow, icol] | 정수색인으로 행과 열의 부분집합을 선택한다 | value |
| df.at[row, col] | 라벨값으로 행과 열의 값을 선택한다 | value |
| df.iat[irow, icol] | 정수색인으로 행과 열의 값을 선택한다 | value |
| df[:] | 행을 슬라이싱한다. | DataFrame |
| df[[col, col]] | 팬시 인덱싱을 통해 여러 열을 선택한다. | DataFrame |
| df[bool_vec] | 불리언 배열을 통해 여러 행을 선택한다. | DataFrame |

* 참고로 최근에 df.ix()는 삭제되었음.


### SubsetObservations(Rows)
- 부울 마스킹
- 슬라이싱

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_rows.svg" width="700px">
<br>
이미지 출처: https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_rows.svg


### Subset Variables(Columns)
- 인덱싱
- 팬시인덱싱

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns.svg" width="700px">
<br>
이미지 출처: https://pandas.pydata.org/pandas-docs/stable/_images/03_subset_columns.svg

### Selection

## 데이터 연산

### 벡터화 연산
- 벡터화 연산은 유니버셜 함수(universal functions, ufuncs)를 통해 구현됨.
- 이항 연산을 적용하는 경우 Pandas는 연산을 수행하는 과정에서 인덱스를 정렬해서 데이터 연산을 수행함

| 연산자 | 메서드 |
|:------:|--------|
+	|add
-	|sub
*	|mul
/	|div
//	|floordiv
%	|mod
**	|pow

<br>

| 연산자 | 메서드 |
|:------:|--------|
| == 	| eq |
| !=	| ne |
| <=	| le |
| <	 | lt |
| >= | ge |
| >	 | gt |

### 집계 연산
- 기본적인 수학, 통계 연산 지원


In [None]:
sdf = pd.DataFrame([[9.1, 1.2, 1.3, np.nan],
                    [2.1, 9.2, 9.3, 2.4],
                    [np.nan, 3.2, 3.3, 3.4]],
                   columns=['A', 'B', 'C', 'D'])
sdf

### groupby 연산
- 데이터를 그룹핑할 때 많이 사용
- group객체 생성
  - Dataframe객체.groupby(기준이 되는 열이름)
  - Dataframe객체.groupby(기준이 되는 열이름)[value컬럼명]
  - Dataframe객체.groupby(기준이 되는 열이름 리스트)
- 그룹별 연산 
  - group객체.count() : 그룹별 데이터 개수
  - group객체.sum() : 그룹별 합계
  - group객체.mean() : 그룹별 평균
  - size, count: 그룹 데이터 개수
  - mean, median, min, max, sum, std, quantile: 통계값  
- 여러 함수 매핑 agg
  - 모든 열에 여러 함수를 매핑 : group객체.agg([함수1, 함수2, ...])
  - 각 열마다 다른 함수를 매핑 : group객체.agg({'열1': 함수1, '열2':함수2, ...})
  

In [None]:
gdf = pd.DataFrame({'class': [1, 1, 1, 2, 2, 2],
                    'name' : ['rex', 'dino', 'kong', 'sand', 'sky', 'kiki'],
                    'gender' : ['m', 'm', 'f', 'm', 'f', 'f'],
                    'score' : [99, 88, np.nan, 79, 60, 90]})
gdf

### 문자열 연산
- 문자열과 관련된 것은 str 이용
- python의 모든 문자열 관련 연산을 적용할 수 있음.

In [None]:
df = pd.DataFrame({'Country': ['Beigium', 'India', 'Brazil'],
                   'Capital': ['Brusseis', 'New Delhi', 'Brasilia'],
                   'Population': [11190846, 1303171035, 207847528]},
                  index=[1, 2, 3])
df

## 데이터 결합

### concat
- DataFrame을 연결시켜줌

In [None]:
s1 = pd.Series(['a', 'b'], index=[1, 2])
s2 = pd.Series(['c', 'd'], index=[3, 4])

In [None]:
df1 = pd.DataFrame({'a': ['a0', 'a1'],
                    'b': ['b0', 'b1']})
df1

In [None]:
df2 = pd.DataFrame({'a': ['a2', 'a2'],
                    'b': ['b2', 'b3']},
                   index=[2, 3])
df2

In [None]:
df3 = pd.DataFrame({'c': ['c1', 'c2'],
                    'd': ['d1', 'd2']},
                   index=[1, 2])
df3

### merge
- 특정 컬럼을 기준으로 병합함
- on을 통해 join이 되는 컬럼 명시함
- how를 통해 join 방식을 설정할 수 있음
  - inner: 기본값, 일치하는 값이 있는 경우만 join하여 표시함
  - left: left outer join. 왼쪽을 기준으로 join하여 표시함
  - right: right outer join. 오른쪽을 기준으로 join하여 표시함
  - outer: full outer join. 모든 것을 join하여 표시함
<br>
<img src='https://miro.medium.com/max/1400/0*ZGDgg-0SznYlwiij.png' width=500>
<br>
출처: https://medium.com/analytics-vidhya/python-tip-6-pandas-merge-dev-skrol-bf0be41f29b7

In [None]:
shop = {'shop_id' : ['s01', 's02', 's03', 's04'], 
        'city' : ['Chennai', 'Madurai', 'Trichy', 'Coimbatore'], 
        'zip_code' : [600001, 625001, 620001, 641001] } 
shop = pd.DataFrame(shop) 
shop

In [None]:
product = {'shop_id' : ['s01', 's02', 's02', 's03', 's03', 's03', 's05'], 
           'product_id' : ['p01', 'p02', 'p03', 'p01', 'p02', 'p03', 'p02'], 
           'price' : [220, 500, 145, 225, 510, 150, 505] } 
product = pd.DataFrame(product) 
product

## 데이터 정제

### 결측 데이터 처리
- 실제 데이터들은 정제되지 않았기에 누락값들이 존재함
- 결측 데이터는 null, NaN(Not a Number), NA(Not Available)로 표기함
- null값 확인
  - info()를 통해 개수 확인
  - isnull() 또는 isna()를 통해 bool타입으로 확인
- null값 처리
  - dropna() 데이터에서 삭제
  - fillna() 평균 등 다른값으로 치환

In [None]:
s = pd.Series([1, 2, np.nan, 'String', None])
s

### 값 치환
- replace(이전 값, 변경 값)

In [None]:
s = pd.Series([1., 2., -999., 3., -1000., 4.])
s

### 중복 제거
- unique() : 유일한 값
- duplicated() : 중복값 여부 bool타입으로 반환
- drop_duplicates() : 중복값 삭제

In [None]:
s = pd.Series([1, 2, 1, 2, 3, np.nan, 'String', None])
s

## 판다스 더 알아가기

### index, columns 변경
- df.set_index('컬럼명'): 컬럼을 인덱스로 설정
- df.reset_index() : index를 0부터 재설정
- df.rename(index=OOO, columns=OOO) : 인덱스와 컬럼의 이름 변경

In [None]:
df = pd.DataFrame({'Country': ['Beigium', 'India', 'Brazil'],
                   'Capital': ['Brusseis', 'New Delhi', 'Brasilia'],
                   'Population': [11190846, 1303171035, 207847528]},
                  index=[1, 2, 3])
df

### drop - 행열 삭제

### 파일 입출력(*io*)

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/02_io_readwrite.svg" width="700px">
<br>
이미지 출처: https://pandas.pydata.org/pandas-docs/stable/_images/02_io_readwrite.svg

In [None]:
%%writefile f1.csv
a, b, c, d, e, text
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, hello
11, 12, 13, 14, 15, hirong

In [None]:
!ls

In [None]:
!cat wf1.csv

In [None]:
%%writefile f2.csv
# 파일 설명
# 컬럼은 a~e, text가 있음
a, b, c, d, e, text
# 데이터는 1~15까지 있음
1, 2, 3, 4, 5, hi
6, 7, 8, 9, 10, hello
11, 12, 13, 14, 15, hirong

In [None]:
%%writefile f3.json
[{"a":1, "b":2, "c":3, "d":4, "e":5},
 {"a":6, "b":7, "c":8, "d":9, "e":10},
 {"a":11, "b":12, "c":13, "d":14, "e":15}]

In [None]:
!cat f3.json

In [None]:
!cat of3.json

## 참고문헌

- Pandas 사이트: https://pandas.pydata.org/
- Jake VanderPlas, "Python Data Science Handbook", O'Reilly
- Wes Mckinney, "Python for Data Analysis", O'Reilly
- 이수안 lab, http://suanlab.com/
- 이미지의 사이트 내용 참조 (각 이미지 아래 출처 표기함)