이 노트북은 박조은님의 <모두의 한국어 텍스트 분석> 책의 예제를 바탕으로 한 노트북입니다.

# 3장. 라이브러리 다루기
## 판다스
- https://pandas.pydata.org/docs/index.html
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 판다스 데이터 프레임 생성하기
df = pd.DataFrame(
    {"a":[4, 5, 6],
    "b":[7, 8, 9],
    "c":[10, 11, 12]},
    index=[1, 2, 3])

df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df["a"]

1    4
2    5
3    6
Name: a, dtype: int64

In [4]:
df[["a", "b"]]

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9


### **iloc[ ]와 loc[ ]**
- 참고 링크: https://separang.tistory.com/91
- loc[  ] 
    - 사용 예시: DataFrame.iloc[index_index, column_index]
    - 예를 들어 df[["a", "b"]]는 df의 a열과 b열을 선택하고, df.loc[1]은 1행을 선택한다
    - index를 활용하지 않고 직접 index 및 컬럼명을 통해 지정
    - 컬럼명을 직접 적거나, 특정 조건식을 써줌으로써 사람이 읽기 좋은 방법으로 데이터에 접근
    - 주어진 키를 기반으로 행을 선택
- iloc[  ]
    - 사용 예시: DataFrame.loc[index_name, column_name]
    - integer location 
    - index를 활용한 location 지정 방법
    - 데이터 프레임의 행이나 컬럼의 순서를 나타내는 정수로 특정 값을 추출
    - 컴퓨터가 읽기 좋은 방법(숫자)로 데이터가 있는 위치(순서)에 접근
    - 정수 기반 인덱스 기반으로 행을 선택

In [5]:
# df의 3행 출력(1부터 시작)
df.loc[2] 

a     5
b     8
c    11
Name: 2, dtype: int64

In [6]:
# df의 인덱스가 2인 행 출력(0부터 시작)
df.iloc[2]

a     6
b     9
c    12
Name: 3, dtype: int64

In [7]:
df.loc[:,"b"] 

1    7
2    8
3    9
Name: b, dtype: int64

In [8]:
# 위의 loc와 차이점 확인해보기
df.iloc[:,1] 

1    7
2    8
3    9
Name: b, dtype: int64

In [9]:
# 두 개의 인덱스 갖도록 데이터 프레임 만들기

df = pd.DataFrame(
    {"a":[4, 5, 6, 6, np.nan],
    "b":[7, 8, np.nan, 9, 9],
    "c":[10, 11, 12, np.nan, 12]},
    index = pd.MultiIndex.from_tuples(
    [("d", 1), ("d", 2), ("e", 2), ("e", 3), ("e", 4)],
    names = ["n", "v"]))

df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [10]:
df["a"] < 6

n  v
d  1     True
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [11]:
df[df.a < 6]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [12]:
df[df["a"] < 6]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


### 특정 값이 들어 있는지 확인하기 

In [13]:
# df.column.isin([value])
# df[df["분류"].isin(["경제", "사회"])] -> "분류"열에서 값이 "경제"이거나 "사회"인 행
df["a"].isin([5])

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [14]:
df[df["a"].isin([5])]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5.0,8.0,11.0


### 중복 데이터 제거하기
- 기본값은 행의 값이 모두 같아야 제거
- 특정 행 지정 시, 특정 행에 해당하는 값만 제거
- keep = 'first', 'last', False 등 매개 변수 사용 시, 어느 것을 삭제할 지 선택 가능
    - keep = "last": 뒤의 값을 남기고 앞에 중복되는 값 삭제 

In [15]:
# df.drop_duplicates()
# 뒤의 값 남기고 앞에 중복되는 값 삭제하기
df.drop_duplicates(subset="a", keep="last")

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,3,6.0,9.0,
e,4,,9.0,12.0


### 데이터 미리 보기

In [16]:
df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [17]:
df.tail(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


In [18]:
df.iloc[-2:]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


### str 접근자로 문자열 다루기
- 판다스 str 접근자 메서드: https://pandas.pydata.org/docs/reference/series.html#api-series-str
- 문자열 데이터에서 적용할 수 있는 시리즈 내 별도 네임 스페이스
- 데이터 프레임에서 행이나 열을 인덱싱하여 시리즈 형태로 반환 후 사용하거나 특정 시리즈에서 사용해야 한다(데이터 프레임에서 사용 X)
- "python".upper()를 하면 대문자 "PYTHON"으로 바꿔주는 것처럼, str 접근자는 파이썬 문자열에 사용할 수 있는 메서드와 유사하게 문자열을 처리해준다
- 해당 시리즈 전체에 일괄 적용이 가능하여, 코드가 직관적이며 속도도 반복문을 사용하는 것보다 빠르다

In [19]:
# str 접근자의 메서드 중 일부 예제 실행해보기
sample = pd.DataFrame({
    "a":["apple", "amond", "able"],
    "b":["banana", "bound", "bold"],
    "c":["car rot", "cu  be", "con   nect"],
    "d":[" diamond ", "  dog  ", "   duplicate   "]},
    index=[1, 2, 3])

sample

Unnamed: 0,a,b,c,d
1,apple,banana,car rot,diamond
2,amond,bound,cu be,dog
3,able,bold,con nect,duplicate


In [20]:
# 첫 글자를 대문자로 만들기
sample["a"].str.capitalize()

1    Apple
2    Amond
3     Able
Name: a, dtype: object

In [21]:
# 값을 지정한 횟수만큼 반복
sample["b"].str.repeat(2)

1    bananabanana
2      boundbound
3        boldbold
Name: b, dtype: object

In [22]:
# 단어의 첫 글자 대문자로 만들기
# capitalize는 문장의 첫 글자, title은 단어의 첫 글자를 대문자로 만든다
sample["c"].str.title()

1       Car Rot
2        Cu  Be
3    Con   Nect
Name: c, dtype: object

In [23]:
# 문자열 길이 구하기
sample["d"].str.len()

1     9
2     7
3    15
Name: d, dtype: int64

In [24]:
sample["d"]

1           diamond 
2              dog  
3       duplicate   
Name: d, dtype: object

In [25]:
# 앞뒤 공백 제거
sample["d"].str.strip()

1      diamond
2          dog
3    duplicate
Name: d, dtype: object

In [26]:
# 특정 인덱스에 해당되는 값 반환
sample["d"].str.get(2)

1    i
2    d
3     
Name: d, dtype: object

In [27]:
# 알파벳으로만 된 문자인지 확인하기
sample["a"].str.isalpha()

1    True
2    True
3    True
Name: a, dtype: bool

In [28]:
sample["d"].str.isalpha() # 공백문자 때문에 False

'''
그 외에도
Series.str.isalnum()
Series.str.islower()
Series.str.isnumeric() 등 다양하다
'''

'\n그 외에도\nSeries.str.isalnum()\nSeries.str.islower()\nSeries.str.isnumeric() 등 다양하다\n'

### 시리즈 형태의 문자열 데이터 다루기

In [52]:
document = ["다른 사람이 말할 때까지 끝까지 잘 들어 보렴.",
           " 본인이 할 수 있는 무언가를 하자.",
           "일부만 보고 전체를 매도하지 마세요! ",
           "인생, 살아만 있다면 어떻게든 된다",
           "Cool 하게 헤어집시다.",
           " 회사 출근 시 중요 Tip"]

df_doc = pd.DataFrame(document, columns=["문서"])
df_doc

Unnamed: 0,문서
0,다른 사람이 말할 때까지 끝까지 잘 들어 보렴.
1,본인이 할 수 있는 무언가를 하자.
2,일부만 보고 전체를 매도하지 마세요!
3,"인생, 살아만 있다면 어떻게든 된다"
4,Cool 하게 헤어집시다.
5,회사 출근 시 중요 Tip


In [53]:
# 대소문자 변경하기
# 알파벳이 포함되어 있는 문서를 다룰 때, 파이썬은 대소문자를 구분하기 때문에 Good과 good을 서로 다른 단어로 취급한다
# 그렇게 되면 단어 빈도 분석이 제대로 되지 않고 단어 사전을 만들 때에도 대소문자만 다른 중복 단어가 여러 개 생기게 된다
df_doc["문서"].str.upper() # 대문자
df_doc["문서"].str.lower() # 소문자

0    다른 사람이 말할 때까지 끝까지 잘 들어 보렴.
1           본인이 할 수 있는 무언가를 하자.
2         일부만 보고 전체를 매도하지 마세요! 
3           인생, 살아만 있다면 어떻게든 된다
4                cool 하게 헤어집시다.
5                회사 출근 시 중요 tip
Name: 문서, dtype: object

In [54]:
# 양끝 공백 제거하기
df_doc["문서"].str.strip()

0    다른 사람이 말할 때까지 끝까지 잘 들어 보렴.
1           본인이 할 수 있는 무언가를 하자.
2          일부만 보고 전체를 매도하지 마세요!
3           인생, 살아만 있다면 어떻게든 된다
4                Cool 하게 헤어집시다.
5                회사 출근 시 중요 Tip
Name: 문서, dtype: object

In [55]:
# 어절 나누기
# 괄호 안에 아무 것도 넣지 않으면 기본값인 공백(띄어쓰기)를 기준으로 문장을 나눈다.
# 특정 문자로 구분되어 있다면 괄호 안에 "구분자"를 넣어 나누어 준다
df_doc["문서"].str.split()

0    [다른, 사람이, 말할, 때까지, 끝까지, 잘, 들어, 보렴.]
1             [본인이, 할, 수, 있는, 무언가를, 하자.]
2             [일부만, 보고, 전체를, 매도하지, 마세요!]
3              [인생,, 살아만, 있다면, 어떻게든, 된다]
4                     [Cool, 하게, 헤어집시다.]
5                   [회사, 출근, 시, 중요, Tip]
Name: 문서, dtype: object

In [56]:
# 어절 나눈 것을 데이터 프레임으로 반환하기
df_doc["문서"].str.split(expand=True)

Unnamed: 0,0,1,2,3,4,5,6,7
0,다른,사람이,말할,때까지,끝까지,잘,들어,보렴.
1,본인이,할,수,있는,무언가를,하자.,,
2,일부만,보고,전체를,매도하지,마세요!,,,
3,"인생,",살아만,있다면,어떻게든,된다,,,
4,Cool,하게,헤어집시다.,,,,,
5,회사,출근,시,중요,Tip,,,


In [60]:
# 특정 문자 찾기
df_doc["문서"].str.contains("인생")

0    False
1    False
2    False
3     True
4    False
5    False
Name: 문서, dtype: bool

In [59]:
# 행을 데이터 프레임으로 한번 더 감싸주면 해당 데이터만 가져온다.
df_doc[df_doc["문서"].str.contains("인생")]

Unnamed: 0,문서
3,"인생, 살아만 있다면 어떻게든 된다"


In [61]:
# 내부에서 정규표현식을 사용하여 여러 데이터 가져오기
# &(AND) 또는 |(OR)
df_doc[df_doc["문서"].str.contains("인생|출근")]

Unnamed: 0,문서
3,"인생, 살아만 있다면 어떻게든 된다"
5,회사 출근 시 중요 Tip


- **replace() 메서드와 str 접근자 replace()의 차이점**
    - **replace() 메서드**
        - 데이터 프레임, 시리즈 모두 사용 가능
        - 전체 텍스트가 일치해야 대체(정규표현식 사용 시 일부만 일치해도 대체)
    - **str 접근자 replace()** 
        - 시리즈에만 사용 가능
        - 일부 일치하는 텍스트를 대체
    - 모두 정규표현식 사용 가능

In [63]:
# 문자열 바꾸기
df_doc["문서"].str.replace("출근", "퇴사")

0    다른 사람이 말할 때까지 끝까지 잘 들어 보렴.
1           본인이 할 수 있는 무언가를 하자.
2         일부만 보고 전체를 매도하지 마세요! 
3           인생, 살아만 있다면 어떻게든 된다
4                Cool 하게 헤어집시다.
5                회사 퇴사 시 중요 Tip
Name: 문서, dtype: object

In [66]:
# 문자열을 변경할 때 정규표현식을 함께 사용할 수 있다.
df_doc["문서"].str.replace("출근|인생", "퇴사", regex=True)

0    다른 사람이 말할 때까지 끝까지 잘 들어 보렴.
1           본인이 할 수 있는 무언가를 하자.
2         일부만 보고 전체를 매도하지 마세요! 
3           퇴사, 살아만 있다면 어떻게든 된다
4                Cool 하게 헤어집시다.
5                회사 퇴사 시 중요 Tip
Name: 문서, dtype: object