[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pytextbook/pytextbook/blob/main/3.1.%20pandas.ipynb) 


## 판다스 기초

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame(
        {"a" : [4 ,5, 6],
        "b" : [7, 8, 9],
        "c" : [10, 11, 12]},
        index = [1, 2, 3])    

In [3]:
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [4]:
# df[["A"]]

In [5]:
df["a"]

1    4
2    5
3    6
Name: a, dtype: int64

In [6]:
df[["a", "b"]]

Unnamed: 0,a,b
1,4,7
2,5,8
3,6,9


In [7]:
df.loc[3]

a     6
b     9
c    12
Name: 3, dtype: int64

In [8]:
import numpy as np
df = pd.DataFrame(
    {"a" : [4 ,5, 6],
     "b" : [7, 8, 9],
     "c" : [10, 11, 12]},
    index = [1, 2, 3])  
index = pd.MultiIndex.from_tuples(
    [('d',1),('d',2),('e',2)],
    names=['n','v'])
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [34]:
import numpy as np
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6, np.nan],
        "b" : [7, 8, np.nan, 9, 9],
        "c" : [10, 11, 12, np.nan, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2),('e',3),('e',4)],
        names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [35]:
df[df.a < 6]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [36]:
df.a.isin([5])

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [31]:
df = df.drop_duplicates(subset="a", keep='last')
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [32]:
df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [33]:
df.tail(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


## 판다스 문자열 다루기

* https://pandas.pydata.org/docs/user_guide/text.html

판다스의 시리즈 형태의 데이터를 문자열로 다루게 되면 파이썬 문자열 함수와 비슷하게 문자열을 처리할 수 있다. 다음과 같은 문서가 판다스의 시리즈 형태로 있다고 할 때 대소문자 변경, 공백제거, 어절 나누기, 특정문자 찾기, 바꾸기 등의 문자열 전처리에 필요한 몇 가지 기능을 알아본다. 

In [12]:
document = ["코로나 상생지원금 문의입니다.",
            " 지하철 운행시간 문의입니다.",
            "버스 운행시간 문의입니다. ",
            "사회적 거리두기로 인한 영업시간 안내입니다.",
            "Bus 운행시간 문의입니다.",
            " Taxi 승강장 문의입니다."]

In [13]:
df_doc = pd.DataFrame(document, columns=["문서"])

In [14]:
df_doc["문서"].astype("string")

0            코로나 상생지원금 문의입니다.
1             지하철 운행시간 문의입니다.
2             버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             Bus 운행시간 문의입니다.
5             Taxi 승강장 문의입니다.
Name: 문서, dtype: string

In [15]:
df_doc

Unnamed: 0,문서
0,코로나 상생지원금 문의입니다.
1,지하철 운행시간 문의입니다.
2,버스 운행시간 문의입니다.
3,사회적 거리두기로 인한 영업시간 안내입니다.
4,Bus 운행시간 문의입니다.
5,Taxi 승강장 문의입니다.


### 대소문자 변경

In [16]:
# 대문자로 변경하기
df_doc["문서"].str.upper()

0            코로나 상생지원금 문의입니다.
1             지하철 운행시간 문의입니다.
2             버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             BUS 운행시간 문의입니다.
5             TAXI 승강장 문의입니다.
Name: 문서, dtype: object

In [17]:
# 소문자로 변경하기
df_doc["문서"].str.lower()

0            코로나 상생지원금 문의입니다.
1             지하철 운행시간 문의입니다.
2             버스 운행시간 문의입니다. 
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             bus 운행시간 문의입니다.
5             taxi 승강장 문의입니다.
Name: 문서, dtype: object

### 양끝 공백 제거

In [18]:
# 양끝 공백 제거
df_doc["문서"].str.strip()

0            코로나 상생지원금 문의입니다.
1             지하철 운행시간 문의입니다.
2              버스 운행시간 문의입니다.
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             Bus 운행시간 문의입니다.
5             Taxi 승강장 문의입니다.
Name: 문서, dtype: object

### 어절 나누기

In [19]:
# 어절 나누기
df_doc["문서"].str.split()

0              [코로나, 상생지원금, 문의입니다.]
1               [지하철, 운행시간, 문의입니다.]
2                [버스, 운행시간, 문의입니다.]
3    [사회적, 거리두기로, 인한, 영업시간, 안내입니다.]
4               [Bus, 운행시간, 문의입니다.]
5               [Taxi, 승강장, 문의입니다.]
Name: 문서, dtype: object

In [20]:
# 어절을 나누고 데이터프레임으로 반환받기
df_doc["문서"].str.split(expand=True)

Unnamed: 0,0,1,2,3,4
0,코로나,상생지원금,문의입니다.,,
1,지하철,운행시간,문의입니다.,,
2,버스,운행시간,문의입니다.,,
3,사회적,거리두기로,인한,영업시간,안내입니다.
4,Bus,운행시간,문의입니다.,,
5,Taxi,승강장,문의입니다.,,


### 특정 문자 찾기

In [21]:
# 특정 문자가 들어가는 텍스트 찾기
df_doc["문서"].str.contains("버스")

0    False
1    False
2     True
3    False
4    False
5    False
Name: 문서, dtype: bool

In [22]:
# 특정 문자가 들어가는 텍스트를 찾아 다시 데이터프레임으로 감싸주면 해당 데이터만 가져오게 된다.
df_doc[df_doc["문서"].str.contains("버스")]

Unnamed: 0,문서
2,버스 운행시간 문의입니다.


### 문자열 바꾸기

In [23]:
# replace 를 통해 특정 문자열을 변경할 수 있다.
df_doc["문서"].str.replace("운행", "영업")

0            코로나 상생지원금 문의입니다.
1             지하철 영업시간 문의입니다.
2             버스 영업시간 문의입니다. 
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             Bus 영업시간 문의입니다.
5             Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [24]:
# replace 를 사용해서 문자열을 변경할 때 정규표현식을 함께 사용할 수 있다.
df_doc["문서"].str.replace("버스|지하철", "대중교통", regex=True)

0            코로나 상생지원금 문의입니다.
1            대중교통 운행시간 문의입니다.
2           대중교통 운행시간 문의입니다. 
3    사회적 거리두기로 인한 영업시간 안내입니다.
4             Bus 운행시간 문의입니다.
5             Taxi 승강장 문의입니다.
Name: 문서, dtype: object

In [25]:
# str 을 제외하고 replace()를 사용해서 문자열의 일부만 변경하고자 할때는 regex=True 를 함께 사용해야 한다.
# replace() 는 전체 일치하는 값이 있을 때 값이 변경되며 
# 데이터프레임에서 사용할 때는 딕셔너리 형태로 변경하고자 하는 컬럼과 값을 지정해서 사용할 수 있다.
df_doc.replace("지하철", "교통", regex=True)

Unnamed: 0,문서
0,코로나 상생지원금 문의입니다.
1,교통 운행시간 문의입니다.
2,버스 운행시간 문의입니다.
3,사회적 거리두기로 인한 영업시간 안내입니다.
4,Bus 운행시간 문의입니다.
5,Taxi 승강장 문의입니다.


In [26]:
df_doc.replace({"문의":"질문"}, regex=True)

Unnamed: 0,문서
0,코로나 상생지원금 질문입니다.
1,지하철 운행시간 질문입니다.
2,버스 운행시간 질문입니다.
3,사회적 거리두기로 인한 영업시간 안내입니다.
4,Bus 운행시간 질문입니다.
5,Taxi 승강장 질문입니다.


In [27]:
df_doc["문서"].str.split("문의")

0            [코로나 상생지원금 , 입니다.]
1            [ 지하철 운행시간 , 입니다.]
2             [버스 운행시간 , 입니다. ]
3    [사회적 거리두기로 인한 영업시간 안내입니다.]
4             [Bus 운행시간 , 입니다.]
5            [ Taxi 승강장 , 입니다.]
Name: 문서, dtype: object