# Pandas

[Pandas](https://pandas.pydata.org)는 데이터 분석과 조작 패키지입니다. 특히 2차원 자료구조(Table)을 다루기 편하게 해줍니다.

In [1]:
import pandas as pd

## ```pandas.DataFrame```

### 데이터 초기화
Pandas에서 제일 중요하고 근간을 이루는 자료형입니다. 행 레이블, 열 레이블과 데이터로 구성되어 있으며 파이썬의 딕셔너리를 이용하여 생성할 수 있습니다. 행과 열 레이블은 ```index()```와 ```column()```으로 접근할 수 있고 데이터는 ```values``` 혹은 ```to_numpy()```를 통해 접근할 수 있습니다.

DataFrame을 초기화하는 방법은 여러 가지가 있는데,

* 딕셔너리로 초기화: 딕셔너리의 key는 열 이름(column name)이 되고, value는 각 열의 데이터가 된다.

In [2]:
data = {
    'col0': [1, 2, 3],
    'col1': [4, 5, 6],
    'col2': [7, 8, 9],
    'col3': [10, 11, 12],
    'col4': [13, 14, 15]
}

df = pd.DataFrame(data) # 딕셔너리로 초기화시 데이터가 열로 변환됨 (column-major)
print(df)
print(df.index) # 행 레이블 집합
print(df.columns) # 열 레이블 집합
print(df.values) # 데이터 집합

   col0  col1  col2  col3  col4
0     1     4     7    10    13
1     2     5     8    11    14
2     3     6     9    12    15
RangeIndex(start=0, stop=3, step=1)
Index(['col0', 'col1', 'col2', 'col3', 'col4'], dtype='object')
[[ 1  4  7 10 13]
 [ 2  5  8 11 14]
 [ 3  6  9 12 15]]


* 리스트/튜플로 초기화: 2차원 리스트/튜플이 행렬처럼 DataFrame의 데이터가 됩니다.

In [3]:
data = [[1, 2, 3, 4 ,5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15]]
df = pd.DataFrame(data) # 리스트, 튜플로 초기화시 데이터가 행으로 변환됨 (row-major)
print(df)

    0   1   2   3   4
0   1   2   3   4   5
1   6   7   8   9  10
2  11  12  13  14  15


* ```Numpy``` 배열로 초기화: 리스트, 튜플과 똑같음

In [4]:
import numpy as np
a = np.arange(20)
a = a.reshape(4, -1)
df = pd.DataFrame(a)
print(df)

    0   1   2   3   4
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19


* 파일로 초기화: ```read_csv(), read_excel(), read_html()```등 함수 이용 (사실 제일 많이씀)

In [5]:
file = '서울특별시_관악구_종량제봉투가격.csv'
df = pd.read_csv(file, encoding='EUC-KR') # encoding은 cp949 혹은 EUC-KR로 해야함! 기본값인 utf-8은 오류남
df.head() # print보다 이게 더 좋음

Unnamed: 0,시도명,시군구명,종량제봉투종류,종량제봉투처리방식,종량제봉투용도,종량제봉투사용대상,1ℓ가격,1.5ℓ가격,2ℓ가격,2.5ℓ가격,...,30ℓ가격,50ℓ가격,60ℓ가격,75ℓ가격,100ℓ가격,120ℓ가격,125ℓ가격,관리부서명,관리부서전화번호,데이터기준일자
0,서울특별시,관악구,규격봉투,소각용,생활쓰레기,가정용,0,0,0,0,...,740,1250,0,1880,0,0,0,청소행정과,02-879-6206,2021-10-15
1,서울특별시,관악구,규격봉투,소각용,음식물쓰레기,가정용,100,0,190,0,...,0,0,0,0,0,0,0,청소행정과,02-879-6206,2021-10-15


## 행/열 이름 바꾸기

만약 행/열 이름을 바꾸고 싶다면, ```df.index```나 ```df.columns``` 속성에 직접 값을 대입하여 바꿀 수도 있습니다. 혹은 처음부터 데이터프레임을 생성할 때 index와 column 이름을 지정할 수 있습니다.

일부 index, column을 바꾸고 싶다면 ```rename()``` 메소드를 이용하면 됩니다.

In [6]:
a = np.arange(20)
a = a.reshape(4, -1)
df = pd.DataFrame(a, index=[f'row{i}' for i in range(4)], columns=[f'col{i}' for i in range(5)]) # 초기화 시 행/열 레이블 지정
print(df)

# 행/열 레이블 바꾸기
df.index = [f'index{i}' for i in range(4)]
df.columns = [f'column{i}' for i in range(5)]
print(df)

# 행/열 레이블 바꾸기 2
df.rename(index={'index1': '수상한 인덱스'}, columns={'column0': '수상한 열'}, inplace=True) # inplace=True 옵션은 왜 있을까요?
df.head()

      col0  col1  col2  col3  col4
row0     0     1     2     3     4
row1     5     6     7     8     9
row2    10    11    12    13    14
row3    15    16    17    18    19
        column0  column1  column2  column3  column4
index0        0        1        2        3        4
index1        5        6        7        8        9
index2       10       11       12       13       14
index3       15       16       17       18       19


Unnamed: 0,수상한 열,column1,column2,column3,column4
index0,0,1,2,3,4
수상한 인덱스,5,6,7,8,9
index2,10,11,12,13,14
index3,15,16,17,18,19


> 행과 열을 바꾸고 싶으면 Numpy처럼 df.T (Transpose)를 사용해도 됩니다.

### 데이터 선택 및 수정

pandas에서 데이터를 선택하는 방식은 크게 행 기반, 열 기반으로 나눌 수 있습니다.

* 행 기반 데이터 선택
  * ```df.loc[]```: *인덱스 이름*을 기준으로 행을 선택
  * ```df.iloc[]```: *위치 인덱스*를 기준으로 행을 선택
* 열 기반 데이터 선택
  * ```df[]```, ```df.```: 열 이름을 기준으로 선택

In [7]:
a = np.arange(20)
a = a.reshape(4, -1)
df = pd.DataFrame(a, index=[f'row{i}' for i in range(4)], columns=[f'col{i}' for i in range(5)])
df.head()

Unnamed: 0,col0,col1,col2,col3,col4
row0,0,1,2,3,4
row1,5,6,7,8,9
row2,10,11,12,13,14
row3,15,16,17,18,19


In [8]:
print(df.loc['row1']) # 하나만 선택하면 Series 형식으로 출력됨
print(df.loc['row1':'row3']) # 슬라이싱도 가능, 주의할 점은 리스트 슬라이싱이랑 범위가 다름.

col0    5
col1    6
col2    7
col3    8
col4    9
Name: row1, dtype: int64
      col0  col1  col2  col3  col4
row1     5     6     7     8     9
row2    10    11    12    13    14
row3    15    16    17    18    19


In [9]:
print(df.iloc[[0]]) # 하나만 선택해도 괄호를 2개 쓰면 DataFrame 형식이 됨
print()
print(df.iloc[2:])

      col0  col1  col2  col3  col4
row0     0     1     2     3     4

      col0  col1  col2  col3  col4
row2    10    11    12    13    14
row3    15    16    17    18    19


In [10]:
print(df['col0']) # 하나만 선택, Series 형식
print(df.col0)
print(df[['col1','col3']]) # 여러개 선택하려면 괄호 2개 써야함. 그리고 얘만 슬라이싱 안됨

row0     0
row1     5
row2    10
row3    15
Name: col0, dtype: int64
row0     0
row1     5
row2    10
row3    15
Name: col0, dtype: int64
      col1  col3
row0     1     3
row1     6     8
row2    11    13
row3    16    18


두 선택법을 조합하면 데이터를 선택하고 값을 변경할 수 있습니다.

* ```df.loc[인덱스, 열 이름]```
* ```df.iloc[행 번호, 열 번호]```:
* ```df[열 이름][인덱스 or 행 번호]```

In [11]:
print(df.loc['row0', 'col1'])
print(df.iloc[0, 1])

print(df.loc['row0', 'col1':'col3']) # 2개 이상 출력하면 Series나 DataFrame 객체가 됨
print(df.loc['row0':'row2', 'col1':'col3'])
print(df.iloc[0:2, 1:3]) # 윗줄이랑 왜 출력이 다를까요

# 값 변경

print(df.iloc[0, 1]) # 1
df.iloc[0, 1] = 100
print(df)
df.loc['row0', 'col1'] = 1 # 원상복구

print(df.loc['row1':'row2', 'col1':'col2']) # 6, 7, 11, 12
df.loc['row1':'row2', 'col1':'col2'] = [[60, 70], [110, 120]]
df.head()

1
1
col1    1
col2    2
col3    3
Name: row0, dtype: int64
      col1  col2  col3
row0     1     2     3
row1     6     7     8
row2    11    12    13
      col1  col2
row0     1     2
row1     6     7
1
      col0  col1  col2  col3  col4
row0     0   100     2     3     4
row1     5     6     7     8     9
row2    10    11    12    13    14
row3    15    16    17    18    19
      col1  col2
row1     6     7
row2    11    12


Unnamed: 0,col0,col1,col2,col3,col4
row0,0,1,2,3,4
row1,5,60,70,8,9
row2,10,110,120,13,14
row3,15,16,17,18,19


행이나 열을 삭제하려면 ```drop()```함수를 사용하세요.

In [12]:
a = np.arange(20)
a = a.reshape(4, -1)
df = pd.DataFrame(a, index=[f'row{i}' for i in range(4)], columns=[f'col{i}' for i in range(5)])

df_1 = df.copy() # 만약 카피하지 않으면 무시무시한 일이 벌어짐

df_1.drop('row0', axis=0, inplace=True) # axis=0은 row-wise 연산. 따라서 행이 삭제됨.
print(df_1)

df_2 = df.copy()

df_2.drop('col2', axis=1, inplace=True)
print(df_2)

# 카피 안하면
# df_notacopy = df
# df_notacopy.loc['row1', 'col1'] = 3192
# df_notacopy.drop('row3', inplace=True)
# print(df_notacopy)
# print(df) # 넌 왜 바뀌어있니???

      col0  col1  col2  col3  col4
row1     5     6     7     8     9
row2    10    11    12    13    14
row3    15    16    17    18    19
      col0  col1  col3  col4
row0     0     1     3     4
row1     5     6     8     9
row2    10    11    13    14
row3    15    16    18    19
