# 텍스트 데이터 다루기

데이터 출처: [Ramen Rating(Kaggle)](https://www.kaggle.com/residentmario/ramen-ratings), [Titanic(Kaggle)](https://www.kaggle.com/c/titanic)

## Preparation

In [None]:
import pandas as pd
import random
import numpy as np
import matplotlib.pyplot as plt

In [None]:
ramen = pd.read_csv("./data/ramen-review/ramen-ratings.csv")
titanic = pd.read_csv("./data/titanic/train.csv")

In [None]:
ramen.head()

In [None]:
ramen.dtypes

In [None]:
titanic.head()

In [None]:
titanic.dtypes

## `cat()`

한 컬럼을 하나의 문자열로 합침

`['a','b','c','d']`인 series를 하나로 합쳐 `'a,b,c,d'` 또는 `'abcd'`로 만드는 예시

In [None]:
s = pd.Series(['a', 'b', 'c', 'd'])

In [None]:
s.str.cat(sep=",")

In [None]:
s.str.cat()

## `split()`

문자열을 공백문자나 separator로 분리한 문자열을 만든다.

`"Wei Lih"` $\Rightarrow$ `["Wei", "Lih"]`

In [None]:
ramen["Brand"].head()

In [None]:
# 공백문자로 분리
ramen["Brand"].str.split().head()

In [None]:
# 예시 데이터 만들기
ramen["Brand"] = ramen["Brand"].str.split().str.join("-")
ramen["Brand"].head()

In [None]:
# 하이픈(-)으로 분리
ramen["Brand"].str.split("-").head()

In [None]:
# 원래대로 되돌리기
ramen["Brand"] = ramen["Brand"].str.split("-").str.join(" ")

## `join()`

`split()`에 의해 분리된 문자열 리스트나 series를 separator로 연결한 문자열을 만든다.

`["Wei", "Lih"]` $\Rightarrow$ `"Wei Lih"` or `"Wei-Lih"`

In [None]:
ramen["BrandSplitted"] = ramen["Brand"].str.split()

In [None]:
ramen["BrandSplitted"].head()

In [None]:
ramen["BrandSplitted"].str.join(" ").head() # separator: " "

In [None]:
ramen["BrandSplitted"].str.join("-").head() # separator: "-"

## `replace()`

특정 문자열을 찾아 바꿔준다.

### 정규식을 사용하지 않고

반드시 `regex=False`를 해야 한다. 정확하게 매칭되는 문자열을 찾아 바꿔준다.

In [None]:
titanic["Name"].head()

In [None]:
# 첫 번째 이름 Braund, Mr. Owen Harris을 Mr. Harries로 바꾸기
titanic["Name"].str.replace(
    "Braund, Mr. Owen Harris","Mr. Harries", regex=False).head()

`regex=False`를 해야 하는 이유는 `replace()`가 기본적으로 정규식을 기본으로 작동하기 때문이다. 정규식에서 몇몇 특수문자는 특별한 기호로 다루어지기 때문에 우리가 생각하는 방식과 다르게 작동하거나 에러가 날 가능성이 높다. 예를 들어 찾고자 하는 문자열에 `[`, `]`,`.`이 들어있을 때 `regex=False`를 하지 않으면 정상적으로 replace가 되지 않는다.

### 정규식으로 찾기

정규식에 대한 자세한 내용은 [점프투파이썬 07-02-1 : 정규 표현식의 기초](https://wikidocs.net/4308#mn)을 참고한다. 모르면 넘어가도 된다.

`Name` 컬럼은 Last name, Prefix, First Name으로 되어 있다.

In [None]:
titanic["Name"].head()

모든 사람의 Last name과 `,`를 지우려고 할 때 정규식을 사용하면 쉽게 사용할 수 있다.

In [None]:
# 정규식 패턴에 맞는 문자열을 ""(공백)으로 바꾼다.
titanic["Name"].str.replace("[a-zA-Z]+,\s*","").head()

## `strip()`, `rstrip()`, `lstrip()`

In [None]:
titanic["Name"] += " "

여기서는 `Name` 컬럼 뒤에 공백 문자를 추가했지만, CSV 파일을 읽는 과정에서 문자열 전후에 공백들이 추가될 수 있으며 공백문자 때문에 여러가지 문제가 발생할 수 있다.

In [None]:
titanic["Name"][0]

이를 제거하기 위해 `strip()`, `rstrip()`, `lstrip()` 를 사용할 수 있다.

* `strip()`: 양쪽 끝 공백들을 모두 제거
* `rstrip()`: 오른쪽 끝 공백만 제거
* `lstrip()`: 왼쪽 끝 공백만 제거

In [None]:
titanic["Name"].str.lstrip()[0] # 왼쪽만 제거, 그대로 남음

In [None]:
titanic["Name"].str.rstrip()[0] # 오른쪽만 제거, 공백 제거됨

In [None]:
titanic["Name"].str.strip()[0] # 양쪽 모두 제거, 공백 제거됨

In [None]:
titanic["Name"] = titanic["Name"].str.strip() # 원래대로 돌려놓기

## 기타 기능

### 모든 문자 대문자, 소문자로 만들기

`lower()`, `upper()`를 사용한다.

In [None]:
titanic["Name"].head()

In [None]:
titanic["Name"].str.upper().head()

In [None]:
titanic["Name"].str.lower().head()

### prefix, suffix 매칭 확인하기

`startswith()`, `endswith()`를 사용한다.

Last Name이 `B`로 시작하는 사람들 찾기

In [None]:
titanic[ titanic["Name"].str.startswith("B") ].head()

First Name이 `Lee`인 사람들 찾기

In [None]:
titanic[titanic["Name"].str.endswith("Lee")].head()

## 연습문제

In [None]:
# 데이터 만들기
for i in range(1,5):
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] = ramen.loc[idx,"Brand"].str.split().str.join(sep=" "*i)
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] = ramen.loc[idx,"Brand"].str.capitalize()
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] = ramen.loc[idx,"Brand"].str.lower()
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] = ramen.loc[idx,"Brand"].str.upper()
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] += " "*i
    idx = random.sample(list(ramen.index), ramen.shape[0]//2)
    ramen.loc[idx,"Brand"] = " "*i + ramen.loc[idx,"Brand"]
ramen["Stars"] = pd.to_numeric(ramen["Stars"],errors="coarse")

브랜드별(`Brand` 컬럼) 평균 평점 (`Stars` 컬럼)을 구하고 싶다. 그러나 아래와 같이 같은 카테고리 임에도 브랜드 이름이 정확하게 동일하지 않아 그대로 groupby를 사용하면 같은 브랜드임에도 서로 다른 카테고리에 묶이게 된다.

`split()`, `join()`, `replace()`, `strip()`, `lower()`, `upper()` 함수 중 필요한 함수를 적절하게 골라 브랜드별 평균 평점을 찾는 코드를 작성하여라. 코드가 아래의 문제들을 적절하게 처리할 수 있으면 된다.

* 문자열 중간 공백문자 길이가 다름
* 브랜드 이름 양끝에 공백
* 대소문자 다름


In [None]:
ramen["Brand"][ramen["Brand"].str.contains("baixiang",case=False)].unique()

### 정답

총 353개의 브랜드별 가치를 알 수 있으면 됨

In [None]:
ramen["Brand"] = ramen["Brand"].str.strip() \
    .str.lower() \
    .str.split() \
    .str.join(sep=" ")

ramen.groupby("Brand")["Stars"].mean()