# Pandas
---
- `Numpy`를 기반으로 만들어졌지만 좀 더 복잡한 데이터 분석에 특화 되었음


- `csv`, `json` 등의 데이터를 파일 경로 혹은 url로부터 가져와서 `DataFrame`이라는 자료구조에 넣어 데이터를 다룸


- 테이블 형태의 데이터를 다루기 쉽게 도와주는 라이브러리


- 튜토리얼: https://pandas.pydata.org/pandas-docs/stable/getting_started/intro_tutorials/index.html


- 시리즈(Series)
    - 인덱스와 값으로 구성됨


- 데이터프레임 (DataFrame)
    - 다수의 Series를 모아 처리하기 위해 사용
    - **표 형태**로 데이터를 손쉽게 다루기 위해 사용

## Series

- `Series`는 일련의 객체를 담을 수 있는 1차원의 배열과 같은 자료구조


- 왼쪽에 인덱스를 보여주고 오른쪽에 인덱스에 해당하는 값을 보여줌 (인덱스 기본값은 정수0부터)

In [1]:
import pandas as pd

data = pd.Series([5, 3, -1, 9])

data

0    5
1    3
2   -1
3    9
dtype: int64

- Series의 값과 색인은 `values`와 `index` 속성을 통해 얻거나 지정할 수 있음

In [3]:
data2 = pd.Series([8, 3, -5, 2], index=['a', 'b', 'c', 'd'])
data2

a    8
b    3
c   -5
d    2
dtype: int64

- Series에서 값을 선택하거나 대입할 때는 인덱스 통해 접근

In [4]:
data2['a']

8

## DataFrame

- 표 형식의 데이터를 담기위한 자료형
    - 여러개의 열(Column)이 있는데 각 열은 다른 종류의 자료형을 담을 수 있음
    - 각 행과 열에 대한 고유 색인를 지니고 있음
        - 행: index, 열: columns
        - 각 행과 열에 이름을 붙임 -> 숫자 인덱스가 아닌 이름으로 값을 찾기


- 2차원 `numpy array`에 부가적인 기능이 추가된 것


- `DataFrame`은 `python list`, `numpy array`, `dictionary` 등 다양한 데이터로부터 생성


- `python list`와 `numpy array`와 달리 색인을 가지고 있어 데이터 핸들링이 편리

## DataFrame으로 변환하기

- 1차원 python list와 numpy array 변환하기

In [1]:
import numpy as np
import pandas as pd

In [2]:
a = np.array([1,2,3])

df = pd.DataFrame(a, index=['1번', '2번', '3번'], columns=['값'])
df

Unnamed: 0,값
1번,1
2번,2
3번,3


In [13]:
b = np.array([[1,2,3],[4,5,6]])

df = pd.DataFrame(b, index=['1번', '2번'], columns=['1번', '2번', '3번'])
df

Unnamed: 0,1번,2번,3번
1번,1,2,3
2번,4,5,6


## Dictionary를 DataFrame으로 변환하기

In [20]:
d = {'key1': [1, 2, 3], 'key2': [2, 3, 4], 'key3': [4, 5, 6]}
df = pd.DataFrame(d, index=['value1', 'value2', 'value3'])
df

Unnamed: 0,key1,key2,key3
value1,1,2,4
value2,2,3,5
value3,3,4,6


- 행렬 전치

In [21]:
df.T

Unnamed: 0,value1,value2,value3
key1,1,2,3
key2,2,3,4
key3,4,5,6


## 데이터 정렬하기
- 행의 `index`를 기준으로 알파벳 순으로 정렬: sort_index()

In [3]:
frame = pd.DataFrame([[1,3,2,4],[8,11,1,7],[10,5,20,1]], index=['5번', '2번', '4번'], columns=['B', 'Z', 'C', 'A'])
frame

Unnamed: 0,B,Z,C,A
5번,1,3,2,4
2번,8,11,1,7
4번,10,5,20,1


In [4]:
frame.sort_index()
# 내림차순: frame.sort_index(ascending=False)

Unnamed: 0,B,Z,C,A
2번,8,11,1,7
4번,10,5,20,1
5번,1,3,2,4


- 열의 columns을 기준으로 정렬하기: sort_values(by = \[컬럼명\])

In [7]:
frame = pd.DataFrame([[1,3,2,4], [8,11,1,7], [10,5,20,1]], index=['5번', '2번', '4번'],columns=['b','z','c','a'])
frame.sort_values(by=['z'])

Unnamed: 0,b,z,c,a
5번,1,3,2,4
4번,10,5,20,1
2번,8,11,1,7


## 데이터 삭제하기

- 특정 행이나 열을 삭제: drop()

In [10]:
frame = pd.DataFrame([[1,3,20,4], [8,11,1,7], [1,5,2,1]], index=['5번','2번','4번'], columns=['b','z','c','a'])
frame

Unnamed: 0,b,z,c,a
5번,1,3,20,4
2번,8,11,1,7
4번,1,5,2,1


In [9]:
frame.drop(labels=['2번','4번'], axis=0) # 행 삭제 axis=0

Unnamed: 0,b,z,c,a
5번,1,3,20,4


In [11]:
frame.drop(labels=['z'], axis=1) # 열 삭제 axis=1

Unnamed: 0,b,c,a
5번,1,20,4
2번,8,1,7
4번,1,2,1
