## Pandas

* 'Panel Datas'의 줄임말


* 테이블 형태의 데이터를 다루기 쉽게 도와주는 라이브러리
    - csv, html, sql 등 다양한 데이터 읽을 수 있음
    - 튜토리얼 : https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html

* Numpy 를 기반으로 만들어졌지만, 좀 더 복잡한 데이터 분석에 특화
    - Numpy는 같은 데이터 타입만 처리할 수 있지만, Pandas는 다양한 데이터 타입의 데이터 처리가 가능


* 데이터베이스 및 엑셀과 유사
    - 데이터 조인이나 정렬, 그룹핑 등이 가능
    - 데이터 분석 작업을 위해 메모리 상에 구현한 엑셀과 비슷

## Pandas의 두 가지 자료구조

1. 시리즈 (Series) : 인덱스(index)와 값(values)으로 구성 -> Column이 1개
2. 데이터프레임 (DataFrame) : 다수의 Series를 모아 처리하기 위해 사용 -> Column이 여러 개
    - 표 형태로, 데이터를 손쉽게 다루기 위해 사용

## Series

1. Series는 일련의 객체를 담을 수 있는 1차원의 배열과 같은 자료 구조
    - 왼쪽에 색인을 보여주고, 오른쪽에 색인에 해당하는 값을 보여줌
    - 색인 지정을 하지 않으면? *기본 색인 (정수 0에서 데이터의 길이 -1까지 숫자 표현)*

In [1]:
import pandas as pd

data = pd.Series([5, 3, -1, 9])
data

0    5
1    3
2   -1
3    9
dtype: int64

2. Series의 값과 색인은 values와 index 속성을 통해 얻거나 지정할 수 있음

In [2]:
data.values

array([ 5,  3, -1,  9], dtype=int64)

In [3]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [4]:
data2 = pd.Series([8, -5, 0, 2], index=['A', 'B', 'C', 'D'])
data2

A    8
B   -5
C    0
D    2
dtype: int64

3. Series에서 값을 선택하거나 대입할 때는 색인을 통해 접근

In [5]:
data2['A']

8

In [7]:
data2['A'] = 10

In [8]:
data2

A    10
B    -5
C     0
D     2
dtype: int64

## DataFrame 개요

1. 표 형식을 데이터를 담기 위한 자료형
    - 여러 개의 열(column)이 있는데 **각 열은 다른 종류의 자료형**을 담을 수 있음 (숫자, 문자, 불리언 등)
    - **각 행과 열에 대한 고유 색인을 지니고 있음**
        - 행: index / 열: columns
        - 각 행과 열에 이름을 붙임 => 숫자 인덱스가 아닌 이름으로 값을 찾기


2. 2차원 numpy array에 부가적인 기능이 추가된 것 (numpy array 기반으로 만들어짐)


3. 형식: **pandas.DataFrame(data=None, index=None, columnes=None, dtype=None, copy=False)**


4. Python list, Numpy Array, Dictionay 등 다양한 데이터로부터 생성
    - Python list와 Numpy Array와 달리, 색인을 가지고 있어 데이터 핸들링이 편리
    - DataFrame으로 변환할 때, index, columns를 지정 (지정하지 않으면 자동으로 할당)


* 사전 (Dictionary) : 자료형 중 하나로, key와 value 쌍으로 이루어짐
    - 예) person = {'이름' : '홍길동', '나이' : 24}

### 01. DataFrame으로 변환하기

* 1차원 Python list와 Numpy array 변환하기
    - DataFrame은 2차원 이하의 데이터들만 변환 가능
    - pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

In [10]:
import numpy as np

In [11]:
a = [1, 2, 3]
a

[1, 2, 3]

In [12]:
b = np.array([1, 2, 3])
b

array([1, 2, 3])

In [13]:
# Python list를 이용하여 DataFrame 생성하기
df = pd.DataFrame(a)
df

Unnamed: 0,0
0,1
1,2
2,3


In [14]:
# Numpy array를 이용하여 DataFrame 생성하기
df2 = pd.DataFrame(b)
df2

Unnamed: 0,0
0,1
1,2
2,3


* 

In [15]:
# python list를 이용하여 DataFrame 생성
# index와 columns 추가
df = pd.DataFrame(a, index=['1번', '2번', '3번'], columns=['A'])
df

Unnamed: 0,A
1번,1
2번,2
3번,3


* 2차원 Python list와 Numpy array 변환하기
    - pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)

In [17]:
# 2 x 3 크기의 Python list와 Numpy array 생성 후 DataFrame 변환
a = [[1, 2, 3], [4, 5, 6]]
b = np.array(a)
b

array([[1, 2, 3],
       [4, 5, 6]])

In [18]:
b.shape

(2, 3)

In [19]:
df = pd.DataFrame(a, index=['1번', '2번'], columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [20]:
df2 = pd.DataFrame(b, index=['1번', '2번'], columns=['A', 'B', 'C'])
df2

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


* Dictionary 변환하기

    - Dictionary의 키(key)는 컬럼명(columns)으로, 값(value)은 해당 컬럼 데이터로 변환됨
    - key는 문자열 / value는 Python list 혹은 Numpy array로 dictionary 구성

In [21]:
a = {'key1' : [1, 2, 3], 'key2' : [2, 3, 4], 'key3' : [3, 5, 7]}   # dictionary 형태
a

{'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [3, 5, 7]}

In [22]:
# key(문자열)는 컬럼명(columns)으로 value(list 혹은 array)는 컬럼 데이터로 매핑됨
df = pd.DataFrame(a)
df

Unnamed: 0,key1,key2,key3
0,1,2,3
1,2,3,5
2,3,4,7


In [23]:
data = {'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
        '작가': ['이동건', '오성대', '전선욱'],
        '장르': ['에피소드', '옴니버스', '스토리']}
data

{'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
 '작가': ['이동건', '오성대', '전선욱'],
 '장르': ['에피소드', '옴니버스', '스토리']}

In [24]:
type(data)

dict

In [25]:
frame = pd.DataFrame(data)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니버스
2,프리드로우,전선욱,스토리


* 원하는 순서대로 열(column)을 지정: 원하는 순서를 지닌 DataFrame 객체 생성

In [26]:
frame = pd.DataFrame(data, columns=['장르', '제목', '작가'])
frame

Unnamed: 0,장르,제목,작가
0,에피소드,유미의 세포들,이동건
1,옴니버스,기기괴괴,오성대
2,스토리,프리드로우,전선욱


* 행에 색인(index) 넣기

In [27]:
frame = pd.DataFrame(data, index=['1번', '2번', '3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니버스
3번,프리드로우,전선욱,스토리


* 열(Column) 가져오기: 사전 형식의 표기법으로 접근

In [28]:
frame['제목']

1번    유미의 세포들
2번       기기괴괴
3번      프리드로우
Name: 제목, dtype: object

* 행렬전치 (transpose)

In [29]:
frame.T

Unnamed: 0,1번,2번,3번
제목,유미의 세포들,기기괴괴,프리드로우
작가,이동건,오성대,전선욱
장르,에피소드,옴니버스,스토리


### 02. 데이터 정렬하기

1. 행의 index를 기준으로 알파벳 순으로 정렬: sort_index()
    - 기본 정렬 방식은 오름차순 (ascending)
    - 내림차순으로 정렬하고 싶으면 ascending 옵션을 False로 설정

In [30]:
frame = pd.DataFrame([[1, 3, 2, 4], [8, 11, 1, 7], [10, 5, 20, 1]],
                    index = ['5번', '2번', '4번'], columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,20,1


In [32]:
frame.sort_index()

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


In [33]:
frame.sort_index(ascending=False)

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


2. 특정 열의 값에 따라서 행들을 정렬하기: sort_values()
    - 어떤 컬럼의 값을 기준으로 정렬해야 하는지 명시적으로 설정해야함
        - sort_values(by=[컬럼명]) -> by 옵션에 정렬 기준이 되는 컬럼명을 입력
        - 기본 정렬 방식은 오름차순 (ascending) / 내림차순으로 정렬하고 싶으면 ascending 옵션을 False로 설정
    - 참고: DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)

In [35]:
# 특정 열의 값을 기준으로 정렬하기
frame.sort_values(by=['Z'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


In [36]:
# 기본 정렬 방식은 오름차순 (ascending)
# 내림차순으로 정렬하고 싶다면, ascending 옵션을 False로 설정
frame.sort_values(by=['Z'], ascending=False)

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


In [37]:
# 여러 개의 열을 기준으로 정렬
# ['Z', 'C'] 컬럼의 값을 기준으로 정렬
frame.sort_values(by=['B', 'C'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,20,1


### 03. 데이터 삭제하기

* 특정 행이나 열을 삭제: drop()
* DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, error='raise')

In [40]:
frame = pd.DataFrame([[1, 3, 20, 4], [8, 11, 1, 7], [1, 5, 2, 1]],
                    index = ['5번', '2번', '4번'],
                    columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [41]:
frame.drop(labels=['5번', '2번'], axis=0)

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


In [42]:
frame.drop(['5번', '2번'])

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


In [43]:
frame.drop(labels=['Z', 'A'], axis=1)

Unnamed: 0,B,C
5번,1,20
2번,8,1
4번,1,2


In [44]:
frame.drop(['Z', 'A'])

# axis의 기본값은 0이므로 에러 / axis=1을 붙여주어야 함

KeyError: "['Z', 'A'] not found in axis"

### 04. 데이터 조회하기

* DataFrame에서 원하는 구간만 확인하기
    - head(n) : 첫 n개의 행만 보기 (기본값은 5)
    - tail(n) : 뒷 n개의 행만 보기

In [45]:
frame = pd.DataFrame([[1, 3, 20, 4], [8, 11, 1, 7], [1, 5, 2, 1], [1, 2, 3, 4], [1, 3, 5, 7], [2, 4, 6, 8]],
                    index = ['5번', '2번', '4번', '10번', '3번', '15번'], columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [46]:
# 첫 3개의 행 보기
frame.head(3)

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [47]:
# 뒷 3개의 행 보기
frame.tail(3)

Unnamed: 0,B,Z,C,A
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


* 레이블 인덱싱: loc[label]
    - loc[index명] 혹은 loc[index명, columns명]
    - 레이블을 기반으로 데이터를 조회함

In [48]:
# '10번' 행에 접근
frame.loc['10번']

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [49]:
# '10번' 행의 'C'열에 해당하는 요소에 접근
frame.loc['10번', 'C']

3

* 위치 인덱싱: iloc[position]
    - iloc[행 index] 혹은 iloc[행 index, 열 index]
    - 위치 정수를 기반으로 데이터를 조회함

In [50]:
# index 3에 해당하는 행에 접근
frame.iloc[3]

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [51]:
# index 3에 해당하는 행, 2에 해당하는 열에 접근
frame.iloc[3, 2]

3

### 05. 데이터 세기

* value_counts() : 어떤 열(column) / Series의 unique value들을 count
    - index : unique value들 & 각 index에 해당하는 count 결과 값
    - https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html

In [52]:
# 'B'라는 컬럼명을 가진 열의 unique한 데이터 개수 세기
frame['B'].value_counts()

1    4
8    1
2    1
Name: B, dtype: int64

### 6. 데이터 읽고 쓰기

* 외부 데이터 읽기
    - Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고, DataFrame을 생성할 수 있음
    - csv 파일의 경우: *pandas.read_csv(파일명)*

* 파일로 저장하기
    - *pandas.to_csv()*을 이용하여 csv 파일로 저장하기

In [53]:
import pandas as pd

frame = pd.DataFrame([[1, 3, 20, 4], [8, 11, 1, 7], [1, 5, 2, 1], [1, 2, 3, 4], [1, 3, 5, 7], [2, 4, 6, 8]],
                    index = ['5번', '2번', '4번', '10번', '3번', '15번'], columns = ['B', 'Z', 'C', 'A'])

# csv 파일로 쓰기
# frame.to_csv('example.csv')

In [54]:
# data = pd.read_csv('example.csv')
# data