## 7. 데이터 정제 및 준비

7.1 누락된 데이터 처리하기

In [None]:
import numpy as np
import pandas as pd

In [None]:
# 실수형 데이터를 담은 시리즈 생성
# np.nan은 누락 데이터
float_data = pd.Series([1.2, -3.5, np.nan, 0])
float_data

In [None]:
# 불리언 시리즈로 변환
# null(nan)이면 true 
float_data.isna()

In [None]:
# 시리즈 생성
# nan, None은 누락 데이터
string_data = pd.Series(["aardvark", np.nan, None, "avocado"])
string_data
# 불리언 시리즈로 변환
string_data.isna()
# 시리즈 생성
float_data = pd.Series([1, 2, None], dtype='float64')
float_data
# 불리언 시리즈로 변환
float_data.isna()

7.1.1 누락된 데이터 골라내기

In [None]:
# 시리즈 생성
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data
# 누락 데이터 제거
data.dropna()

In [None]:
# 불리언 시리즈로 변환
# isna 함수와 반대. 정상 데이터면 true
data.notna()
# 정상데이터만 선택하여 출력
data[data.notna()]

In [None]:
# 데이터프레임 생성
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
data
# 행에 하나라도 na가 있으면 제거
data.dropna()

In [None]:
# 옵션 how="all" -> 모든 값이 na인 행만 제거
data.dropna(how="all")

7.1.2 누락 데이터 채우기

In [None]:
# 누락 데이터를 0으로 대체
data.fillna(0)

In [None]:
# 각 열을 지정한 값으로 채우기
# 입력값: 딕셔너리(행:값, 행:값)
data.fillna({0:0, 1: 0.1, 2: 0.2})

In [None]:
data

In [None]:
# 누락 데이터를 이전 값으로 채우기
data.fillna(method="ffill")
data.ffill() # 위와 같음
# 누락 데이터를 이전 값으로 채우되, 1개까지만
data.fillna(method="ffill", limit=1)

In [None]:
# 시리즈 생성
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data
# 누락 데이터를 평균값으로 대체
data.fillna(data.mean())

7.2 데이터 변형

7.2.1 중복 제거하기

In [None]:
# 데이터프레임 생성 (k1열, k2열)
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2": [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
# 중복되는지 여부를 불리언 값으로 반환
# 이전행과 같으면 true
data.duplicated()

In [None]:
# 중복된행 제거
data.drop_duplicates()

In [None]:
data

In [None]:
# 데이터프레임에 v1 열을 추가하고, 0부터 6까지 숫자를 값으로 추가
data["v1"] = range(7)
data

In [None]:
# subset=["k1"] 옵션 -> k1 열을 기준으로 중복된 행을 제거 (첫번째 행만 남김)
data.drop_duplicates(subset=["k1"])

In [None]:
# k1과 k2를 기준으로 중복된 행을 제거
# 예: (one+1)과 (one+2) 서로 다른 조합으로 취급
# 중복이 있으면 마자막 행만 남김
data.drop_duplicates(["k1", "k2"], keep="last")

7.2.2 함수나 매핑 이용해서 데이터 변형하기

In [None]:
# 육류 종류와 무게를 담은 데이터 프레임 생성
data = pd.DataFrame({"food": ["bacon", "pulled pork", "bacon",
                              "pastrami", "corned beef", "bacon",
                              "pastrami", "honey ham", "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

In [None]:
# 원재료를 담은 딕셔너리
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

In [None]:
# foor 열의 값을 meat_to_animal과 매핑하여, animal 열 추가
data["animal"] = data["food"].map(meat_to_animal)
data

In [None]:
# 함수 정의: food 값을 받아 meat_to_animal 매핑을 통해 동물명 반환
def get_animal(x):
    return meat_to_animal[x]

# map에 함수를 적용하여 animal 값 반환
data["food"].map(get_animal)

7.2.3 값 치환하기

In [None]:
# 시리즈 생성
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

In [None]:
# -999를 누락된 값이라고 취급하여 nan로 교체
data.replace(-999, np.nan)

In [None]:
# -999와 -1000을 누락된 값으로
data.replace([-999, -1000], np.nan)

In [None]:
# -999 → NaN, -1000 → 0 으로 변환
data.replace([-999, -1000], [np.nan, 0])

In [None]:
# 리스트 대신 딕셔너리 사용
data.replace({-999: np.nan, -1000: 0})

7.2.5 이산화

In [None]:
# 나이를 담은 리스트 생성
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [None]:
# 나이별로 18~25, 25~35, 35~60, 60~100 그룹으로 나누기
bins = [18, 25, 35, 60, 100] # 기준
age_categories = pd.cut(ages, bins)
age_categories

In [None]:
# 그룹별로 나이 개수 세기
pd.value_counts(age_categories)
# 결과에서 (시작값은 미포함 [끝값은 포함

In [None]:
# right=False 옵션 -> 왼쪽(시작값) 포함 오른쪽(끝값) 미포함 방식으로 설정
pd.cut(ages, bins, right=False)

In [None]:
# 그룹 이름 지정
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]
pd.cut(ages, bins, labels=group_names)

In [None]:
# 표준 정규분포에서 난수 100개 생성
data = np.random.standard_normal(1000)

# 값을 4개의 구간으로 나누기
# cut은 숫자 구간을 똑같이 나눈다
result = pd.cut(data, 4)

# 각 구간별 데이터 개수 세기
pd.value_counts(result)

In [None]:
# 값을 4개의 구간으로 나누기
# qcut은 데이터 개수가 비슷하게 들어가도록 구간을 나눈다
result = pd.qcut(data, 4)
result

# 각 구간별 데이터 개수 세기
pd.value_counts(result)

In [None]:
# 값을 정렬한 뒤, 비율을 기준으로 나눔
# 하위 10%, 10-50%, 50-90%, 상위 10% 네 구간으로 나누고
# 각 구간별 데이터 개수 세기
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]).value_counts()

7.2.6 이상치를 찾고 제외하기

In [None]:
# 1000행 4열 난수 데이터프레임 생성
data = pd.DataFrame(np.random.standard_normal((1000, 4)))
# 통계 보기
# 정규분포는 거의 -3~+3 사이에 값이 있음
# 그 범위를 벗어나면 튀는값
data.describe()

In [None]:
# 데이터프레임에서 튀는값 찾기
# 튀는값: 다른 값보다 유난히 크거나 작은 값
# 2번째 열에서 절대값이 3보다 큰 값만 찾기
col = data[2]
col[col.abs() > 3]

In [None]:
# 절대값이 3보다 큰 값이 들어있는 행 찾기
data[(data.abs() > 3).any(axis="columns")]

In [None]:
# 절대값이 3보다 큰값을 찾아서 교체
# 예: -3.5 -> -3
# 예: 3.5 -> 3
# np.sign(data) : 부호를 반환. 음수는 -1 양수는 1
data[data.abs() > 3] = np.sign(data) * 3
data.describe()

7.2.8 표시자, 더미 변수 계산하기

In [None]:
# 데이터 프레임 생성
df = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                   "data1": range(6)})
df

In [None]:
# key 열에 있는 값들을 열로 만들기
# 행과 열에 값이 있었으면 1 아니면 0
# dtype=float → 0과 1 실수로 표시
pd.get_dummies(df["key"], dtype=float)

In [None]:
# prefix="key" -> 새 열 이름 앞에 'key_' 접두사가 붙는다
dummies = pd.get_dummies(df["key"], prefix="key", dtype=float)
dummies
# 기존데이터에 더미데이터 붙이기
df_with_dummy = df[["data1"]].join(dummies)
df_with_dummy

In [None]:
# 영화 데이터
data = {
    "movie_id": [1, 2, 3],
    "title": [
        "Toy Story (1995)",   # 다중 장르
        "Heat (1995)",        # 다중 장르
        "Sudden Death (1995)" # 단일 장르
    ],
    "genres": [
        "Animation|Children|Comedy", # 다중
        "Action|Crime|Thriller",       # 다중
        "Action"                       # 단일
    ]
}
# 데이터프레임 생성
movies = pd.DataFrame(data)

In [None]:
# genres 열을 구분자 '|' 기준으로 분리 후 장르(genres)를 열로 만들기
dummies = movies["genres"].str.get_dummies("|")
dummies

7.4 문자열 다루기

7.4.1 파이썬 내장 문자열 객체 메서드

In [None]:
# 문자열을 쉼표(,) 기준으로 분리
val = "a,b,  guido"
val.split(",")

In [None]:
# 분리된 문자열의 좌우 공백 제거
pieces = [x.strip() for x in val.split(",")]
pieces

In [None]:
# 리스트 분리
first, second, third = pieces
# , ::로 연결
first + "::" + second + "::" + third

In [None]:
# 리스트 요소를 :: 기준으로 연결
"::".join(pieces)

In [None]:
# 문자열 포함 여부 확인
"guido" in val

# 특정 문자 위치 찾기
val.index(",")   # 첫 번째 쉼표 위치
val.find(":")    # ':'가 없으면 -1 반환

In [None]:
# 특정 문자 개수 세기
val.count(",")

In [None]:
# 문자 교체
val.replace(",", "::")
val.replace(" ", "")

7.4.2 정규표현식

In [None]:
import re슾펭잇스
text = "foo    bar\t baz  \tqux"
# \s+ : 하나이상의 공백문자 (스페이스" " 탭\t 등)
# r"" : 정규표현식
# split(구분자(정규표현식), 문자열)
re.split(r"\s+", text)

In [None]:
# 정규식 객체 생성 후 split 함수 사용
regex = re.compile(r"\s+")
regex.split(text)

In [None]:
# findall: 패턴에 매칭되는 모든 문자열 찾기
regex.findall(text)

In [None]:
# 이메일 주소
text = """aa!bbb
dave@google.com
steve@gmail.com
rob@naver.com"""
# 패턴
# [A-Z0-9._%+-]+    # 이메일 앞부분 : 영문, 숫자, ., _, %, +, - 허용
# [A-Z0-9.-]+       # 도메인 이름 부분 : 영문, 숫자, ., - 허용
# \.                # 점(.)
# [A-Z]{2,4}        # 마지막 부분 : 영문 2~4자리 (예: COM, NET, ORG)
pattern = r"[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}"

In [None]:
# flags=re.IGNORECASE -> 대소문자 구분 없이
regex = re.compile(pattern, flags=re.IGNORECASE)
regex.findall(text)

In [None]:
# search: 첫 번째 매칭 결과 반환
m = regex.search(text)
m
m.start() # 매칭 시작 인덱스
m.end() # 매칭 끝 인덱스
# 문자열에서 매칭된 부분만 슬라이스
text[m.start():m.end()]

In [None]:
# match: 문자열 시작 부분부터 매칭 검사
# search 와 달리 시작부분에 매치되는 문자열이 없으면 none
print(regex.match(text))

In [None]:
# sub: 매칭된 부분을 다른 문자열로 치환
print(regex.sub("REDACTED", text))

In [None]:
# 그룹 지정 (아이디, 도메인, 최상위 도메인 분리)
# 각패턴을 ()괄호로 묶어서 그룹 만들기
pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
regex = re.compile(pattern, flags=re.IGNORECASE)

In [None]:
# 패턴에 해당하는 값을 튜플로 반환
m = regex.match("wesm@bright.net")
m.groups()

In [None]:
# 모든 매칭 결과 그룹 단위로 반환
regex.findall(text)

7.4.3 판다스의 문자열 함수

In [None]:
# 이메일 주소가 담긴 시리즈 생성
data = {"Dave": "dave@google.com", "Steve": "steve@gmail.com",
        "Rob": "rob@gmail.com", "Wes": np.nan}
data = pd.Series(data)
data
# 불리언 값으로 변환
# data.isna()

In [None]:
# 각 이메일이 "gmail"을 포함하고 있는지 확인
data.str.contains("gmail")

In [None]:
# 자료형 변환 str -> string
# string은 파이썬의 새로운 문자열 타입으로 
# na도 안전하게 처리할 수 있음
# 예: 'aa' + na => 'aa'
data_as_string_ext = data.astype('string')
data_as_string_ext
# 각 이메일이 "gmail"을 포함하고 있는지 확인
data_as_string_ext.str.contains("gmail")

In [None]:
# 정규식으로 이메일 주소 패턴 추출
pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
matches = data.str.findall(pattern, flags=re.IGNORECASE)
matches

In [None]:
# 문자열 잘라내기
data.str[:5]

In [None]:
# 결과를 데이터프레인으로 반환
data.str.extract(pattern, flags=re.IGNORECASE)

7.5 범주형 데이터

7.5.1 개발 배경과 동기

In [None]:
# 문자열 시리즈 생성
values = pd.Series(['apple', 'orange', 'apple',
                    'apple'] * 2)
values
# 중복값 제거 후 고유값 확인
pd.unique(values)
# 문자열별 개수 세기
pd.value_counts(values)

7.5.2 판다스의 Categorical 확장형

In [None]:
# 과일 리스트 생성
fruits = ['apple', 'orange', 'apple', 'apple'] * 2
N = len(fruits)
N
# 난수 생성기
rng = np.random.default_rng(seed=12345)
# 데이터 프레임 생성
# integers(low, high, size=…) → 난수생성기로 랜덤값 만들기. 3이상 15미만의 정수
# rng.uniform(low, high, size=…) → 0이상 4미만의 실수. 균일분포로 모든 구간이 같은 확률
df = pd.DataFrame({'fruit': fruits,
                   'basket_id': np.arange(N),
                   'count': rng.integers(3, 15, size=N),
                   'weight': rng.uniform(0, 4, size=N)},
                  columns=['basket_id', 'fruit', 'count', 'weight'])
df

In [None]:
# fruit 열을 category 데이터로 변환
# category 타입은 메모리 절약형으로 똑같은 데이터는 메모리에 한번만 저장
fruit_cat = df['fruit'].astype('category')
fruit_cat

In [None]:
# fruit_cat열이 어떤 배열을 쓰는지 확인
c = fruit_cat.array
# PandasArray 또는 Categorical
type(c)

In [None]:
# 고유한 카테고리 목록
c.categories
# 각행의 카테고리 코드
c.codes

In [None]:
# fruit열의 타입을 category로 변환
df['fruit'] = df['fruit'].astype('category')
df["fruit"]

In [None]:
# 직접 카테고리 객체 생성
my_categories = pd.Categorical(['foo', 'bar', 'baz', 'foo', 'bar'])
my_categories

In [None]:
# 코드와 이름으로 카테고리 객체 생성
categories = ['foo', 'bar', 'baz']
codes = [0, 1, 2, 0, 0, 1]
my_cats_2 = pd.Categorical.from_codes(codes, categories)
my_cats_2

In [None]:
# 카테고리 숫서 설정
ordered_cat = pd.Categorical.from_codes(codes, categories,
                                        ordered=True)
ordered_cat

In [None]:
# 기존 카테고리 객체를 순서형으로 변경
my_cats_2.as_ordered()