## 판다스 기초
* https://pandas.pydata.org/
* [Pandas_Cheat_Sheet.pdf](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

In [1]:
# pandas 라이브러리를 불러옵니다.
import pandas as pd

In [2]:
pd.__version__

'2.0.2'

In [3]:
# conda prompt, terminal 을 통해서 업그레이드 해주세요!
# !pip install pandas --upgrade

## DataFrame과 Series

<img src="https://pandas.pydata.org/docs/_images/01_table_dataframe.svg" width="400" align="left">

<img src="https://pandas.pydata.org/docs/_images/01_table_series.svg" width="180">


In [4]:
# 판다스로 다룰 문서를 리스트 형태로 만듭니다.
document = ["코로나 상생지원금 문의입니다.",
            " 낮12시~2시 지하철 운행시간 문의입니다.",
            "밤 12시 이후 버스 운행시간 문의입니다. ",
            "사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.",
            "Bus 운행시간 문의입니다.",
            " Taxi 승강장 문의입니다."]
document

['코로나 상생지원금 문의입니다.',
 ' 낮12시~2시 지하철 운행시간 문의입니다.',
 '밤 12시 이후 버스 운행시간 문의입니다. ',
 '사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.',
 'Bus 운행시간 문의입니다.',
 ' Taxi 승강장 문의입니다.']

In [5]:
pd.Series(document)

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2           밤 12시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 운행시간 문의입니다.
5                    Taxi 승강장 문의입니다.
dtype: object

In [6]:
# 리스트 타입의 문서를 판다스 데이터프레임 형태로 만듭니다.
# 컬럼명은 ["문서"]로 합니다.
# pd.DataFrame({"문서": document})
# pd.DataFrame(document, columns=["문서"])

df = pd.DataFrame({"문서": document})
df

Unnamed: 0,문서
0,코로나 상생지원금 문의입니다.
1,낮12시~2시 지하철 운행시간 문의입니다.
2,밤 12시 이후 버스 운행시간 문의입니다.
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4,Bus 운행시간 문의입니다.
5,Taxi 승강장 문의입니다.


In [7]:
# shape로 행, 열 크기 보기
df.shape

(6, 1)

In [8]:
# info를 통해 데이터프레임의 정보를 봅니다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   문서      6 non-null      object
dtypes: object(1)
memory usage: 180.0+ bytes


In [9]:
# 문의날짜 만들기
df["날짜"] = "2024-10-12"
df

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12
4,Bus 운행시간 문의입니다.,2024-10-12
5,Taxi 승강장 문의입니다.,2024-10-12


### DataFrame에서 특정 열 선택하기

<img src = 'https://pandas.pydata.org/docs/_images/03_subset_columns.svg' width="600">

In [10]:
# "문서" 컬럼 가져오기
df["문서"]

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2           밤 12시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 운행시간 문의입니다.
5                    Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [11]:
# DataFrame 의 type
type(df)

pandas.core.frame.DataFrame

In [12]:
# Series 의 type
type(df["문서"])

pandas.core.series.Series

In [13]:
# DataFrame 
df[["문서", "날짜"]]

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12
4,Bus 운행시간 문의입니다.,2024-10-12
5,Taxi 승강장 문의입니다.,2024-10-12


In [14]:
df[["문서"]]

Unnamed: 0,문서
0,코로나 상생지원금 문의입니다.
1,낮12시~2시 지하철 운행시간 문의입니다.
2,밤 12시 이후 버스 운행시간 문의입니다.
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4,Bus 운행시간 문의입니다.
5,Taxi 승강장 문의입니다.


### DataFrame에서 특정 행 가져오기

<img src = 'https://pandas.pydata.org/docs/_images/03_subset_rows.svg' width="600">

In [15]:
# 첫번째 행 가져오기
# loc[행]
# loc[행, 열]
# loc[조건, 열]
df.loc[0]

문서    코로나 상생지원금 문의입니다.
날짜          2024-10-12
Name: 0, dtype: object

In [16]:
type(df.loc[0])

pandas.core.series.Series

In [17]:
df.loc[[0, 1, 3, 4]]

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12
4,Bus 운행시간 문의입니다.,2024-10-12


In [18]:
df.loc[[0]]

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12


In [19]:
# loc[행, 열]
df.loc[0, "문서"]

'코로나 상생지원금 문의입니다.'

In [20]:
# loc[행, 열]

df.loc[[0, 1], "문서"]

0            코로나 상생지원금 문의입니다.
1     낮12시~2시 지하철 운행시간 문의입니다.
Name: 문서, dtype: object

In [21]:
# loc[행, 열]

df.loc[[0, 1], ["문서", "날짜"]]

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12


In [22]:
df.loc[1:3, "문서":"날짜"]

Unnamed: 0,문서,날짜
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12


###  DataFrame에서 특정 행과 열 함께 가져오기
<img src = 'https://pandas.pydata.org/docs/_images/03_subset_columns_rows.svg' width="600">

In [23]:
# 행과 열 함께 가져오기
df.loc[0, "문서"]

'코로나 상생지원금 문의입니다.'

In [24]:
# df.loc[0, 1] => iloc

In [25]:
# .iloc를 사용해서 일부 슬라이싱 하기
df.iloc[0, 0]

'코로나 상생지원금 문의입니다.'

In [26]:
df.iloc[[0, 3], [0, 1]]

Unnamed: 0,문서,날짜
0,코로나 상생지원금 문의입니다.,2024-10-12
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12


In [27]:
# 슬라이싱
df.iloc[:3, 1:]

Unnamed: 0,날짜
0,2024-10-12
1,2024-10-12
2,2024-10-12


In [28]:
# df.head?? => 소스코드를 보면 iloc 를 사용하고 있습니다.
# help(df.head)

## 판다스 문자열 다루기

* https://pandas.pydata.org/docs/user_guide/text.html
* https://pandas.pydata.org/docs/reference/series.html#api-series-str


판다스의 시리즈 형태의 데이터를 문자열로 다루게 되면 파이썬 문자열 함수와 비슷하게 문자열을 처리할 수 있습니다. 다음과 같은 문서가 판다스의 시리즈 형태로 있다고 할 때 대소문자 변경, 공백제거, 어절 나누기, 특정문자 찾기, 바꾸기 등의 문자열 전처리에 필요한 몇 가지 기능을 알아봅니다. 



### 대소문자 변경

In [29]:
# 대문자로 변경하기
df["문서"].str.upper()

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2           밤 12시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    BUS 운행시간 문의입니다.
5                    TAXI 승강장 문의입니다.
Name: 문서, dtype: object

In [30]:
# 소문자로 변경하기
df["문서"].str.lower()

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2           밤 12시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    bus 운행시간 문의입니다.
5                    taxi 승강장 문의입니다.
Name: 문서, dtype: object

### 양끝 공백 제거

In [31]:
document

['코로나 상생지원금 문의입니다.',
 ' 낮12시~2시 지하철 운행시간 문의입니다.',
 '밤 12시 이후 버스 운행시간 문의입니다. ',
 '사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.',
 'Bus 운행시간 문의입니다.',
 ' Taxi 승강장 문의입니다.']

In [32]:
# 양끝 공백 제거
df["문서"].str.strip()

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2            밤 12시 이후 버스 운행시간 문의입니다.
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 운행시간 문의입니다.
5                    Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [33]:
df["문서"].str.len()

0    16
1    24
2    24
3    31
4    15
5    16
Name: 문서, dtype: int64

In [34]:
df["문서"].str.strip().str.len()

0    16
1    23
2    23
3    31
4    15
5    15
Name: 문서, dtype: int64

### 어절 나누기
* 토큰화, 문자열 나누기

In [35]:
# 어절 나누기
df["문서"].str.split()

0                       [코로나, 상생지원금, 문의입니다.]
1               [낮12시~2시, 지하철, 운행시간, 문의입니다.]
2             [밤, 12시, 이후, 버스, 운행시간, 문의입니다.]
3    [사회적, 거리두기로, 인한, 10시, 이후, 영업시간, 안내입니다.]
4                        [Bus, 운행시간, 문의입니다.]
5                        [Taxi, 승강장, 문의입니다.]
Name: 문서, dtype: object

In [36]:
# 어절을 나누고 데이터프레임으로 반환받기
df["문서"].str.split(expand=True)

Unnamed: 0,0,1,2,3,4,5,6
0,코로나,상생지원금,문의입니다.,,,,
1,낮12시~2시,지하철,운행시간,문의입니다.,,,
2,밤,12시,이후,버스,운행시간,문의입니다.,
3,사회적,거리두기로,인한,10시,이후,영업시간,안내입니다.
4,Bus,운행시간,문의입니다.,,,,
5,Taxi,승강장,문의입니다.,,,,


In [37]:
df["문서"].str.split(expand=True)[0]

0        코로나
1    낮12시~2시
2          밤
3        사회적
4        Bus
5       Taxi
Name: 0, dtype: object

In [38]:
df["문서"].map(lambda x : x.split()[-1])

0    문의입니다.
1    문의입니다.
2    문의입니다.
3    안내입니다.
4    문의입니다.
5    문의입니다.
Name: 문서, dtype: object

In [39]:
# 특정 단어 기준으로 문서를 나눕니다.
# "문의" 단어 기준으로 나누기
df["문서"].str.split("문의", expand=True)

Unnamed: 0,0,1
0,코로나 상생지원금,입니다.
1,낮12시~2시 지하철 운행시간,입니다.
2,밤 12시 이후 버스 운행시간,입니다.
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,
4,Bus 운행시간,입니다.
5,Taxi 승강장,입니다.


In [40]:
df["문서"].map(lambda x : x.split("문의")[-1])

0                               입니다.
1                               입니다.
2                              입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                               입니다.
5                               입니다.
Name: 문서, dtype: object

### 특정 문자 찾기

In [41]:
# 특정 문자가 들어가는 텍스트 찾기
df["문서"].str.contains("문의")

0     True
1     True
2     True
3    False
4     True
5     True
Name: 문서, dtype: bool

In [42]:
# 특정 문자가 들어가는 텍스트를 찾아 다시 데이터프레임으로 감싸주면 해당 데이터만 가져오게 됩니다.

df[df["문서"].str.contains("운행")]

Unnamed: 0,문서,날짜
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12
4,Bus 운행시간 문의입니다.,2024-10-12


### 파생변수 만들기

In [43]:
# 특정 문자가 들어가는 텍스트 찾기
# "문의"가 들어가는 여부를 확인하고 파생변수 만들기
df["문의"] = df["문서"].str.contains("문의")
df

Unnamed: 0,문서,날짜,문의
0,코로나 상생지원금 문의입니다.,2024-10-12,True
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12,True
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12,True
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False
4,Bus 운행시간 문의입니다.,2024-10-12,True
5,Taxi 승강장 문의입니다.,2024-10-12,True


In [44]:
# 특정 문자가 들어가는 텍스트 찾기
# "안내"가 들어가는 여부를 확인하고 파생변수 만들기
df["안내"] = df["문서"].str.contains("안내")
df

Unnamed: 0,문서,날짜,문의,안내
0,코로나 상생지원금 문의입니다.,2024-10-12,True,False
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12,True,False
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12,True,False
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False,True
4,Bus 운행시간 문의입니다.,2024-10-12,True,False
5,Taxi 승강장 문의입니다.,2024-10-12,True,False


In [45]:
df.loc[df["문서"].str.contains("문의"), "문의안내"] = "문의"
df.loc[df["문서"].str.contains("안내"), "문의안내"] = "안내"
df

Unnamed: 0,문서,날짜,문의,안내,문의안내
0,코로나 상생지원금 문의입니다.,2024-10-12,True,False,문의
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12,True,False,문의
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12,True,False,문의
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False,True,안내
4,Bus 운행시간 문의입니다.,2024-10-12,True,False,문의
5,Taxi 승강장 문의입니다.,2024-10-12,True,False,문의


### 문자열 바꾸기

In [46]:
# .str.replace로 "운행" => "영업" 으로 바꾸기
df["문서"].str.replace("운행", "영업", regex=True)

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 영업시간 문의입니다.
2           밤 12시 이후 버스 영업시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 영업시간 문의입니다.
5                    Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [47]:
# .str.replace 를 사용해서 문자열을 변경할 때 정규표현식을 함께 사용
# |(엔터키 위의 키를 Shift를 누르고 사용)는 or를 의미합니다.
# & 는 and 를 의미합니다.
# 버스|지하철 를 "대중교통"으로 변경해 봅니다.

df["문서"].str.replace("버스|지하철", "대중교통", regex=True)

0                   코로나 상생지원금 문의입니다.
1           낮12시~2시 대중교통 운행시간 문의입니다.
2         밤 12시 이후 대중교통 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 운행시간 문의입니다.
5                    Taxi 승강장 문의입니다.
Name: 문서, dtype: object

* <font color="red">pandas 구버전을 사용한다면 `regex=True` 지정시 오류가 날 수 있습니다.</font>
* 오류가 나면  `regex=True` 를 제외하고 사용하면 됩니다.

In [48]:
# replace 를 통해 특정 문자열을 변경
# "운행"을 "영업" 으로 변경해 봅니다.
# replace => DF
# str.replace => Series
# df.replace("운행", "영업", regex=True)
# df.replace("2022-05-01", "2023-05-01")

df["문서"].replace("버스|지하철", "대중교통", regex=True)

0                   코로나 상생지원금 문의입니다.
1           낮12시~2시 대중교통 운행시간 문의입니다.
2         밤 12시 이후 대중교통 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                    Bus 운행시간 문의입니다.
5                    Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [49]:
# str 을 제외하고 replace()를 사용해서 문자열의 일부만 변경하고자 할때는 regex=True 를 함께 사용
# replace() 는 전체 일치하는 값이 있을 때 값이 변경되며 
# 데이터프레임에서 사용할 때는 딕셔너리 형태로 변경하고자 하는 컬럼과 값을 지정해서 사용
# "지하철"을 "교통"으로 변경합니다.

df.replace({"지하철":"교통"}, regex=True)

Unnamed: 0,문서,날짜,문의,안내,문의안내
0,코로나 상생지원금 문의입니다.,2024-10-12,True,False,문의
1,낮12시~2시 교통 운행시간 문의입니다.,2024-10-12,True,False,문의
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12,True,False,문의
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False,True,안내
4,Bus 운행시간 문의입니다.,2024-10-12,True,False,문의
5,Taxi 승강장 문의입니다.,2024-10-12,True,False,문의


In [50]:
# 딕셔너리의 키, 값으로 작성하면 키 값과 일치하는 값으로 변경합니다.
# {"문의":"질문"}

df.replace({"지하철":"교통", "문의":"질문"}, regex=True)

Unnamed: 0,문서,날짜,문의,안내,문의안내
0,코로나 상생지원금 질문입니다.,2024-10-12,True,False,질문
1,낮12시~2시 교통 운행시간 질문입니다.,2024-10-12,True,False,질문
2,밤 12시 이후 버스 운행시간 질문입니다.,2024-10-12,True,False,질문
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False,True,안내
4,Bus 운행시간 질문입니다.,2024-10-12,True,False,질문
5,Taxi 승강장 질문입니다.,2024-10-12,True,False,질문


### 정규표현식 

* [정규 표현식 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%ED%91%9C%ED%98%84%EC%8B%9D)


* 파이썬 공식문서 정규표현식 참고하기 : 
    * https://docs.python.org/3.9/library/re.html#re.sub
    
    
* 문자열 바꾸기 : re.sub("규칙", "패턴", "데이터")
    * https://docs.python.org/3.9/library/re.html#text-munging


* 정규표현식 문자열 패턴
    * https://docs.python.org/3.9/howto/regex.html#matching-characters

    
    
* [    ] : 일치시킬 문자 세트의 패턴
* [가나다] : 가 or 나 or 다 중에 하나를 포함하고 있는지
* [가-힣] : 한글 가부터 힣까의 문자 중 하나를 포함하고 있는지
* [0-9] : 0~9까지의 숫자 중 하나를 포함하고 있는지
* [^0-9] : 숫자를 포함하고 있지 않음
* [^가-힣] : 한글이 포함되어 있지 않음
* [가-힣+] : 한글이 하나 이상 포함되는지


| 클래스 | 표현식 | 설명 |
|----|-----|----|
|\d | [0-9]|십진수와 일치|
|\D| [^0-9] | 숫자가 아닌 문자와 일치|
|\s |[\t\n\r\f\v] | 공백 문자와 일치 |
|\S |[^\t\n\r\f\v]| 공백이 아닌 문자와 일치|
| \w| [a-zA-Z0-9_] | 모든 숫자 영문자와 일치|
| \W| [^a-zA-Z0-9_]| 영문자, 숫자가 아닌 것과 일치|


표현식	설명

|표현식 | 설명 |	
|----|-----|
|^x	| 문자열의 시작을 표현하며 x 문자로 시작|
|x$	| 문자열의 종료를 표현하며 x 문자로 종료|
|.x	| 임의의 한 문자의 자리수를 표현하며 문자열이 x 로 끝남|
|x+	| 반복을 표현하며 x 문자가 한번 이상 반복됨|
|x*	| 반복여부를 표현하며 x 문자가 0번 또는 그 이상 반복됨|
|x?	| 존재여부를 표현하며 x 문자가 존재할 수도, 존재하지 않을 수도 있음|
|x\|y	| or 를 표현하며 x 또는 y 문자가 존재함|
|(x)	| 그룹을 표현하며 x 를 그룹으로 처리함|
|(x)(y)	| 그룹들의 집합을 표현하며 순서대로 번호를 부여하여 x, y 는 각 그룹의 데이터로 관리|
|(x)(?:y)	| 그룹들의 집합에 대한 예외를 표현하며 그룹 집합으로 관리되지 않음|
|x{n}	| 반복을 표현하며 x 문자가 n번 반복됨|
|x{n,}	| 반복을 표현하며 x 문자가 n번 이상 반복됨
|x{n,m}	| 반복을 표현하며 x 문자가 최소 n번 이상 최대 m 번 이하로 반복됨|


### 숫자 제거하기

In [51]:
# 정규표현식의 [0-9] 로 숫자를 제거합니다.
# df["문서"].str.replace("[^0-9]", "", regex=True)
df["문서"].str.replace("[0-9]", "", regex=True)

0                 코로나 상생지원금 문의입니다.
1             낮시~시 지하철 운행시간 문의입니다.
2           밤 시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 시 이후 영업시간 안내입니다.
4                  Bus 운행시간 문의입니다.
5                  Taxi 승강장 문의입니다.
Name: 문서, dtype: object

### 영문자 제거하기

In [52]:
df["문서"].str.replace("[a-zA-Z]", "", regex=True)

0                   코로나 상생지원금 문의입니다.
1            낮12시~2시 지하철 운행시간 문의입니다.
2           밤 12시 이후 버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.
4                        운행시간 문의입니다.
5                         승강장 문의입니다.
Name: 문서, dtype: object

### 문자, 단어 수 구하기

In [53]:
# 문자 길이를 구합니다.
df["문서"].str.len()

0    16
1    24
2    24
3    31
4    15
5    16
Name: 문서, dtype: int64

In [54]:
# 단어의 갯수를 구합니다.
df["문서"].str.split().str.len()

0    3
1    4
2    6
3    7
4    3
5    3
Name: 문서, dtype: int64

In [55]:
df["문서"].map(lambda x : len(x.split()))

0    3
1    4
2    6
3    7
4    3
5    3
Name: 문서, dtype: int64

### 문자열 인덱싱과 슬라이싱

In [56]:
# 문자열 인덱싱
df["문서"].str[1]

0    로
1    낮
2     
3    회
4    u
5    T
Name: 문서, dtype: object

In [57]:
# 문자열 슬라이싱

df["문서"].str[-6:]

0    문의입니다.
1    문의입니다.
2    의입니다. 
3    안내입니다.
4    문의입니다.
5    문의입니다.
Name: 문서, dtype: object

In [58]:
df["문서"].str.strip().str[-6:-4]

0    문의
1    문의
2    문의
3    안내
4    문의
5    문의
Name: 문서, dtype: object

### map, apply 를 활용하기

|| Series | DataFrame | 사용 예 |
|---|---|---|---|
|map|O|X|df[“컬럼명”].map(함수 or dict)|
|apply|O|O|df.apply(함수) <br/> df[“컬럼명”].apply(함수)|
|applymap|X|O|df.applymap(함수)|

In [59]:
# map 과 lambda 를 사용하여 길이를 구하기
df["문서"].map(lambda x : len(x))

0    16
1    24
2    24
3    31
4    15
5    16
Name: 문서, dtype: int64

In [60]:
# map 과 lambda 를 사용하여 단어수 구하기
df["문서"].map(lambda x : len(x.split()))

0    3
1    4
2    6
3    7
4    3
5    3
Name: 문서, dtype: int64

In [61]:
# apply
df["문서"].apply(lambda x : len(x))

0    16
1    24
2    24
3    31
4    15
5    16
Name: 문서, dtype: int64

In [62]:
# apply
df["문서"].apply(lambda x : len(x.split()))

0    3
1    4
2    6
3    7
4    3
5    3
Name: 문서, dtype: int64

In [63]:
df.apply(lambda x : len(x["문서"]), axis=1)

0    16
1    24
2    24
3    31
4    15
5    16
dtype: int64

In [64]:
df.apply(lambda x : len(x["문서"].split()), axis=1)

0    3
1    4
2    6
3    7
4    3
5    3
dtype: int64

## 파일로 저장하고 불러오기
<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg" width="500" align="left">

In [65]:
# 현재 파일이 저장된 경로 
# 파일탐색기로 저장된 파일을 열어볼 때 
# 아래의 코드를 실행해서 출력되는 경로의 폴더를 열어주세요.
import os
os.getcwd()

'/Users/corazzon/codes/python-text-analysis'

In [66]:
# to_csv 로 저장하기, 인덱스값은 제외 
df.to_csv("text.csv", index=False, encoding="cp949")

In [67]:
# read_csv 로 읽어오기
pd.read_csv("text.csv", encoding="cp949")

Unnamed: 0,문서,날짜,문의,안내,문의안내
0,코로나 상생지원금 문의입니다.,2024-10-12,True,False,문의
1,낮12시~2시 지하철 운행시간 문의입니다.,2024-10-12,True,False,문의
2,밤 12시 이후 버스 운행시간 문의입니다.,2024-10-12,True,False,문의
3,사회적 거리두기로 인한 10시 이후 영업시간 안내입니다.,2024-10-12,False,True,안내
4,Bus 운행시간 문의입니다.,2024-10-12,True,False,문의
5,Taxi 승강장 문의입니다.,2024-10-12,True,False,문의


## string data type
* Panas Changed in version 1.1.0.

In [68]:
import numpy as np
# string type 의 이해
s1 = pd.Series(["a", 2, np.nan])
s2 = pd.Series(["a", 2, np.nan]).astype("string")
s1, s2

(0      a
 1      2
 2    NaN
 dtype: object,
 0       a
 1       2
 2    <NA>
 dtype: string)

In [69]:
# 타입을 비교
type(s1[1]), type(s2[1])

(int, str)

In [70]:
# 값을 비교
s1[1] == s2[1]

False

In [71]:
s2[1] == "2"

True

## 더 읽어보기

* https://pandas.pydata.org/docs/user_guide/text.html
* https://pandas.pydata.org/docs/reference/series.html#api-series-str
