# Pandas 는
- Numpy를 기반으로 만들어짐 but 복잡한 데이터의 분석에 특화
    - 다양한 데이터 타입의 데이터 처리 가능

- 테이블 데이터를 다룸


## Pandas의 두가지 자료구조
- 시리즈 (Series)
    - 인덱스와 값이 으로 구성 (column 1개)
- 데이터 프레임 (DataFrame)
    - 다수의 Series를 모아 처리하기 위해 사용 (column 여러개)
    - 표 형태로 데이터를 손쉽게 다루기 위해 사용

## Series (시리즈)  살펴보기
- 일련의 객체를 담을 수 있는 1차원 배열과 같은 자료구조

In [2]:
import pandas as pd

# 왼쪽 : index / 오른쪽 : value
data = pd.Series([5,3,-1,9])
data

0    5
1    3
2   -1
3    9
dtype: int64

In [3]:
data.values

array([ 5,  3, -1,  9], dtype=int64)

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data2 = pd.Series([8,-5,0,2],index=['A','B','C','D']) # index 지정
data2

A    8
B   -5
C    0
D    2
dtype: int64

In [7]:
data2['A'] # index로 접근

8

## DataFrame
- 표 형식의 데이터를 담기 위한 자료형
    - 각 열은 다른 종류의 자료형을 지닐 수 있음
    - 각 행과 열에 대한 고유의 index 지님


- 2차원 numpy array 에 부가적인 기능 추가


- DataFrame 과 python list, nimpy array, dictionary
    - DataFrame 은 python list, nimpy array, dictionary 등으로 부터 생성
    - 색인을 가지고 있어 데이터 핸들링이 편리!


- Dictionary 란? 파이썬의 자료형 중 하나로 key 와 value 쌍으로 이루어져있음

### DataFrame 으로 변환하기

In [11]:
import numpy as np

In [4]:
a = [1,2,3]
a

[1, 2, 3]

In [12]:
b = np.array([1,2,3])
b

array([1, 2, 3])

In [13]:
# pyhon list 이용하여 변환
df = pd.DataFrame(a)
df

Unnamed: 0,0
0,1
1,2
2,3


In [14]:
# numpy array 이용하여 변환
df2 = pd.DataFrame(a)
df2

Unnamed: 0,0
0,1
1,2
2,3


In [8]:
# python list 를 이용하여 DataFrame 생성하기
a = [1,2,3]
# index, column 추가
df = pd.DataFrame(a, index=['1번','2번','3번'], columns=['A'])
df

Unnamed: 0,A
1번,1
2번,2
3번,3


In [9]:
# numpy array 를 이용하여 DataFrame 생성하기
import numpy as np
a = [[1,2,3],[4,5,6]]
b = np.array(a)

df1 = pd.DataFrame(a, index=['1번','2번'], columns=['A','B','C'])
df1

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [10]:
df2 = pd.DataFrame(b, index=['1번','2번'], columns=['A','B','C'])
df2

Unnamed: 0,A,B,C
1번,1,2,3
2번,4,5,6


In [11]:
a = {'key1':[1,2,3],'key2':[2,3,4],'key3':[3,5,7]} # dictionary
a

{'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [3, 5, 7]}

In [13]:
# key(문자열)은 column명으로 value는 데이터로 매핑
df = pd.DataFrame(a)
df

Unnamed: 0,key1,key2,key3
0,1,2,3
1,2,3,5
2,3,4,7


In [15]:
webtoonData = {'제목':['유미의 세포들','기기괴괴','프리드로우'],'작가':['이동건','오성대','전선욱'],'장르':['에피소드','옴니머스','스토리']}
webtoonData

{'제목': ['유미의 세포들', '기기괴괴', '프리드로우'],
 '작가': ['이동건', '오성대', '전선욱'],
 '장르': ['에피소드', '옴니머스', '스토리']}

In [16]:
type(webtoonData)

dict

In [17]:
frame = pd.DataFrame(webtoonData)
frame

Unnamed: 0,제목,작가,장르
0,유미의 세포들,이동건,에피소드
1,기기괴괴,오성대,옴니머스
2,프리드로우,전선욱,스토리


In [18]:
# 원하는 순서를 지닌 DataFrame 생성
frame = pd.DataFrame(webtoonData, columns=['장르','제목','작가'])
frame

Unnamed: 0,장르,제목,작가
0,에피소드,유미의 세포들,이동건
1,옴니머스,기기괴괴,오성대
2,스토리,프리드로우,전선욱


In [19]:
# 행에 index 넣기
frame = pd.DataFrame(webtoonData, index=['1번','2번','3번'])
frame

Unnamed: 0,제목,작가,장르
1번,유미의 세포들,이동건,에피소드
2번,기기괴괴,오성대,옴니머스
3번,프리드로우,전선욱,스토리


In [20]:
# column 가져오기
frame['제목']

1번    유미의 세포들
2번       기기괴괴
3번      프리드로우
Name: 제목, dtype: object

In [21]:
# 행렬전치
frame.T

Unnamed: 0,1번,2번,3번
제목,유미의 세포들,기기괴괴,프리드로우
작가,이동건,오성대,전선욱
장르,에피소드,옴니머스,스토리


### 데이터 정렬하기

In [22]:
frame = pd.DataFrame([[1,3,2,4],[8,11,1,7],[10,5,20,1]],
                     index=['5번','2번','4번'],columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,20,1


In [23]:
# index를 기준으로 알파벳순 정렬 : sort_index
frame.sort_index()

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


In [24]:
# 기본 정렬 방식은 오름차순
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 false로 설정
frame.sort_index(ascending=False)

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


In [26]:
# 특정 열의 값에 따라 행 정렬 : sort_values()
frame.sort_values(by=['Z'])

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


In [27]:
# 기본 정렬 방식은 오름차순
# 내림차순으로 정렬하고 싶다면 ascending 옵션을 false로 설정
frame.sort_values(by=['Z'],ascending=False)

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


In [28]:
frame.sort_values(by=['B','C'],ascending=False) # B먼저 -> 같으면 C

Unnamed: 0,B,Z,C,A
4번,10,5,20,1
2번,8,11,1,7
5번,1,3,2,4


### 데이터 삭제하기

In [29]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1]],
                     index=['5번','2번','4번'],columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [30]:
# 특정 행이나 열을 삭제 : drop()

# axis = 0 : 행 삭제
frame.drop(labels=['5번','2번'],axis=0)

Unnamed: 0,B,Z,C,A
4번,1,5,2,1


In [31]:
# axis = 1 : 열 삭제
frame.drop(labels=['A'],axis=1)

Unnamed: 0,B,Z,C
5번,1,3,20
2번,8,11,1
4번,1,5,2


### 데이터 조회하기

In [34]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],[1,2,3,4],[1,3,5,7],[2,4,6,8]],
                     index=['5번','2번','4번','10번','3번','15번'],columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [35]:
# 첫 n 개의 행만 보기 : head(n)
frame.head(3)

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [36]:
# 뒷 n 개의 행만 보기 : tail(n)
frame.tail(2)

Unnamed: 0,B,Z,C,A
3번,1,3,5,7
15번,2,4,6,8


In [37]:
# 레이블 인덱싱 : loc[label]

# loc[index명]
frame.loc['10번']

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [38]:
# loc[index명, column명]
frame.loc['10번','C']

3

In [39]:
# 위치 인덱싱 : iloc[position]

# iloc[행 index]
frame.iloc[3]

B    1
Z    2
C    3
A    4
Name: 10번, dtype: int64

In [40]:
# iloc[행 index, 열 index]
frame.iloc[3,2]

3

### 데이터 세기

In [41]:
frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],[1,2,3,4],[1,3,5,7],[2,4,6,8]],
                     index=['5번','2번','4번','10번','3번','15번'],columns=['B','Z','C','A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1
10번,1,2,3,4
3번,1,3,5,7
15번,2,4,6,8


In [42]:
# value_counts()
frame['B'].value_counts()

1    4
2    1
8    1
Name: B, dtype: int64

### 데이터 읽고 쓰기

- Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 읽을 수있음

In [43]:
import pandas as pd

frame = pd.DataFrame([[1,3,20,4],[8,11,1,7],[1,5,2,1],[1,2,3,4],[1,3,5,7],[2,4,6,8]],
                     index=['5번','2번','4번','10번','3번','15번'],columns=['B','Z','C','A'])
frame.to_csv('example.csv') # csv 파일로 쓰기

In [44]:
data = pd.read_csv('example.csv') # csv 파일 읽기
data

Unnamed: 0.1,Unnamed: 0,B,Z,C,A
0,5번,1,3,20,4
1,2번,8,11,1,7
2,4번,1,5,2,1
3,10번,1,2,3,4
4,3번,1,3,5,7
5,15번,2,4,6,8
