# 3. 라이브러리 다루기
## 판다스
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [30]:
import pandas as pd
import numpy as np

In [2]:
# 판다스 데이터 프레임 생성하기
df = pd.DataFrame(
    {"a":[4, 5, 6],
    "b":[7, 8, 9],
    "c":[10, 11, 12]},
    index=[1, 2, 3])

df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df["a"]

1    4
2    5
3    6
Name: a, dtype: int64

In [4]:
df[["a", "b"]]

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9


### **iloc[ ]와 loc[ ]**
- 참고 링크: https://separang.tistory.com/91
- loc[  ] 
    - 사용 예시: DataFrame.iloc[index_index, column_index]
    - 예를 들어 df[["a", "b"]]는 df의 a열과 b열을 선택하고, df.loc[1]은 1행을 선택한다
    - index를 활용하지 않고 직접 index 및 컬럼명을 통해 지정
    - 컬럼명을 직접 적거나, 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근
    - 주어진 키를 기반으로 행을 선택
- iloc[  ]
    - 사용 예시: DataFrame.loc[index_name, column_name]
    - integer location 
    - index를 활용한 location 지정 방법
    - 데이터 프레임의 행이나 컬럼의 순서를 나타내는 정수로 특정 값을 추출
    - 컴퓨터가 읽기 좋은 방법(숫자)로 데이터가 있는 위치(순서)에 접근
    - 정수 기반 인덱스 기반으로 행을 선택

In [25]:
# df의 3행 출력(1부터 시작)
df.loc[2] 

a     5
b     8
c    11
Name: 2, dtype: int64

In [24]:
# df의 인덱스가 2인 행 출력(0부터 시작)
df.iloc[2]

a     6
b     9
c    12
Name: 3, dtype: int64

In [21]:
df.loc[:,"b"] 

1    7
2    8
3    9
Name: b, dtype: int64

In [28]:
# 위의 loc와 차이점 확인해보기
df.iloc[:,1] 

1    7
2    8
3    9
Name: b, dtype: int64

In [32]:
# 두 개의 인덱스 갖도록 데이터 프레임 만들기

df = pd.DataFrame(
    {"a":[4, 5, 6, 6, np.nan],
    "b":[7, 8, np.nan, 9, 9],
    "c":[10, 11, 12, np.nan, 12]},
    index = pd.MultiIndex.from_tuples(
    [("d", 1), ("d", 2), ("e", 2), ("e", 3), ("e", 4)],
    names = ["n", "v"]))

df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [39]:
df["a"] < 6

n  v
d  1     True
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [36]:
df[df.a < 6]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [37]:
df[df["a"] < 6]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


### 특정 값이 들어 있는지 확인하기 

In [43]:
# df.column.isin([value])
# df[df["분류"].isin(["경제", "사회"])] -> "분류"열에서 값이 "경제"이거나 "사회"인 행
df["a"].isin([5])

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [42]:
df[df["a"].isin([5])]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5.0,8.0,11.0


### 중복 데이터 제거하기
- 기본값은 행의 값이 모두 같아야 제거
- 특정 행 지정 시, 특정 행에 해당하는 값만 제거
- keep = 'first', 'last', False 등 매개 변수 사용 시, 어느 것을 삭제할 지 선택 가능
    - keep = "last": 뒤의 값을 남기고 앞에 중복되는 값 삭제 

In [45]:
# df.drop_duplicates()
df.drop_duplicates(subset="a", keep="last")

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,3,6.0,9.0,
e,4,,9.0,12.0


### 데이터 미리 보기

In [56]:
df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [57]:
df.tail(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [58]:
df.iloc[-2:]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0



다음은 **str 접근자로 문자열 다루기**에 대해 배우겠습니다