---
# 1. Data cleaning - 타이타닉 데이터 다루기
---

---
## 1-1. 들어가며
### 학습 내용
- 판다스를 사용한 데이터 탐색, 불필요한 컬럼 및 결측치 처리, 이상치와 중복 데이터 처리, 텍스트 및 날짜/시간 데이터 처리를 통해 데이터 정제의 기본을 배웁니다.
### 학습 목표
1. 결측치를 처리할 수 있다.
2. 이상치를 판단하고 처리할 수 있다.    
3. 시간 데이터 및 텍스트형 데이터를 자유롭게 변환할 수 있다.
---

---
## 1-2. 파이썬으로 데이터 둘러보기
---

### 경로 설정

In [2]:
!pwd

/aiffel/aiffel/260107_unp_day1


In [3]:
# pandas 라이브러리 임포트 후 파일 불러오기
#  기존 타이타닉 데이터 셋을 살짝변경함 (오타 등...)
import pandas as pd  
pd.read_csv('/aiffel/data/titanic.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/aiffel/data/titanic.csv'

In [None]:
# pandas 데이터 프레임을 data라는 변수에 지정 
data = pd.read_csv('/aiffel/data/titanic.csv')
data

In [None]:
#[추가] 중복행 확인
data[data.duplicated()]

In [None]:
#중복행 삭제 후 data 변수에 입력
data = data.drop_duplicates()
data

In [None]:
# 처음 10줄
data.head(10)

In [None]:
# 마지막 10줄
data.tail(10)

In [None]:
# 각 컬럼에 대한 결측치, 데이터타입 등의 정보 제공 
data.info()

In [None]:
# 데이터 타입이 숫자인 컬럼의 통계치 제공
data.describe()

In [None]:
# 판다스 시리즈..열람...컬럼 2개 이상은 불러올 수 없음
# 지정한 컬럼의 정보..?
data['Name']

In [None]:
# 판다스 시리즈..열람...컬럼 2개 이상 불러오려면 대괄호로 리스트형식으로 묶어줘야함 
data[['Name','Age']]

In [None]:
# 판다스 데이터프레임을 ->판다스 시리즈로
pd.DataFrame(data['Name'])

In [None]:
# 판다스 시리즈를 -> 판다스 데이터 프레임으로
pd.Series(pd.DataFrame(data['Name'])['Name'])

In [None]:
# 넘파이 -> 가독성은 좋지 않지만 연산 속도가 빠름 
# 연산결과가 넘파이인 경우가 많으므로 읽고 변환할 수 있어야 함 
import numpy as np
np.array(data)

---
## 1-3. 불필요한 컬럼 삭제 (Dropping columns), 누락된 결측치 처리 (Missing values)
---

In [None]:
import pandas as pd  
pd.read_csv('/aiffel/data/titanic.csv')
data.head()

In [None]:
# 컬럼제거 
# 판다스 데이터프레임에서 drop 함수를 쓸 때는 축을 바꿔줘야함 (axis=1) 없으면 행기준으로 데이터 취급함
# 해당함수는 뷰에서만 컬럼을 없애주므로 데이터를 덮어 쓰는것은 아님 덮어쓰기 위해서는 (inplace=True) 추가 필요
data.drop('Name', axis=1)

In [None]:
# drop 함수로 행 삭제 
data.drop(2)

In [None]:
# drop 함수괄호 안에는 두개의 오브젝트를 넣을 수 없으므로 리스트(대괄호)로 잡아줘야함 
# data.drop('Name', 'Pclass', axis=1) -> 에러 발생 
data.drop(['Name', 'Pclass'], axis=1)

In [None]:
# loc 함수로 행의 이름을 이용하여 필요한 열 불러오기 , 마찬가지로 리스트(대괄호)로 잡아줘야함 
data.loc[[4,5,6]]

In [None]:
# iloc 함수 -> loc 함수랑 겉보기에 출력값은 같음
# 행의 순서를 기반으로 데이터 불러옴 (대괄호 안의 값은 항상 숫자가 들어가야함)
data.iloc[[4,5,6]]

In [None]:
# 컬럼별 결측치 숫자 확인 
# 데이터 프레임에서 .sum(), mean() 을 붙여주면 각 컬럼의 통계치를 볼 수 있음 
data.isna().sum()

In [None]:
data.isna().mean()

In [None]:
data[data['Age'].isna()]

In [None]:
age_na_index=data[data['Age'].isna()].index
Embarked_na_index=data[data['Embarked'].isna()].index

In [None]:
data.loc[Embarked_na_index]

In [None]:
# 데이터 행 확인 
len(data)

In [None]:
# null 값인 모든 행 삭제
data.dropna()

In [None]:
# 특정 컬럼의 null 값인 행만 삭제
# data.dropna(subset = ['Embarked'])

In [None]:
# null 값을 특정 값으로 일괄 채우기 
# data.fillna(999)

# Age 컬럼의 null 값을 통계값으로 채우기
# data['Age'] = data['Age'].fillna(data['Age'].median())

---
## 1-4. 이상치 탐지 및 처리 (Outliers)
---

In [None]:
# 데이터 분포 검토 결과 Age, SibSp 컬럼 을 더 볼 필요가 있음 
data.describe()

In [None]:
data['Age'].sort_values()

In [None]:
data['SibSp'].sort_values()

In [None]:
# 데이터 시각화 (히스토그램 및 산점도 등..)
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data['SibSp'])

In [None]:
sns.histplot(data['Age'])

In [None]:
 sns.scatterplot(x= data.index, y= data['Age'])

In [None]:
 sns.scatterplot(x= data.index, y= data['SibSp'])

In [None]:
sns.boxplot(data['Age'])

In [None]:
# Age 100 이상 삭제  (이상치로 간주)
data=data[ data ['Age'] <= 100]

In [None]:
data['Age'].sort_values()

In [None]:
def age_func(x):
    if x > 80:
        return 80
    else:
        return x

In [None]:
# 컬럼의 값마다 함수 적용하는 방법 
data['Age'] = data['Age'].apply(age_func)
data['Age'].sort_values()

In [None]:
def new_age_func(x):
    if x > 70:
        return 70
    else:
        return x

In [None]:
# 아래 두 함수 같은 결과 (람다냐 선언함수냐 차이 )
# data['Age'].apply(new_age_func)
data['Age'].apply(lambda x: 70 if x > 70 else x)

---
## 1-5. 중복 데이터 처리 및 데이터 형태 변환처리(Removing duplicate data, apply, map, replace, rename)
---

In [None]:
# 삭제한 데이터 대처하는 법 
# 데이터 호출 블럭으로 가서 함수 수행 
# data .drop_duplicates()
# 확인 
data.head()

In [None]:
# 컬럼명 바꾸기 , 컬럼 지정할때는  axis = 1 추가
data.rename({'Gendr':'Gender'}, axis = 1)

In [None]:
# 컬럼명 바꾸기 , 행이름 바꾸기 
data.rename({0:'a'})

In [None]:
# replace 함수 : 여러개의 특정 값을 한번에 바꿈
data.replace({'S':'Southampton'})

In [None]:
# map 함수 : 여러개의 특정 값을 한번에 바꿈
# replace 함수와 다른점 1. 데이터 프레임에만 적용 가능 2. .각각의 라인별 함수를 매핑할 수 있음 
data['Embarked'].replace({'S':'Southampton'})

In [None]:
# map / replace / apply 정리 
#  공통: “규칙(함수/매핑)”로 값을 변환해 새 Series/컬럼을 만든다.

# map:
#   - 대상: Series(단일 컬럼)
#   - 방식: 값 → 값 매핑(dict/함수)
#   - 특징: 매핑에 없는 값은 NaN이 될 수 있음(누락을 드러냄)

#  replace:
#   - 대상: Series/DataFrame
#   - 방식: 특정 값(들)만 찾아서 치환
#   - 특징: 지정 안 한 값은 보통 그대로 유지(부분 교정에 강함)

#  apply:
#   - 대상: Series/DataFrame
#   - 방식: 함수 적용(DF는 보통 행/열 단위로 적용)
#   - 특징: 여러 컬럼을 엮는 계산/조건 로직에 적합(단순 치환엔 과할 수 있음)

---
## 1-6. 텍스트 처리 (Text handling)
---

In [None]:
data.head()

In [None]:
data.info()

In [None]:
#샘플 텍스트 데이터로 실습 해 보기 
sample_txt = 'A/5 21171'

In [None]:
# 숫자로 인덱싱 
sample_txt[:3]
sample_txt[4:]
sample_txt[-1]

In [None]:
# 대소문자 변경 
sample_txt.upper() # 대문자 변경 
sample_txt.lower()  # 소문자 변경 

In [None]:
# 문자열 나누기
sample_txt.split() # 띄어쓰기 기준으로 나누고 리스트로 만들어줌 
sample_txt.split(' ') # 띄어쓰기 기준으로 나누고 리스트로 만들어줌 
sample_txt.split('/') # / 기준으로 나누기 

In [None]:
# 문자열 나누기 + 인덱싱 
sample_txt.split()[-1]

In [None]:
# 불필요한 앞, 뒷부분 띄어쓰기 삭제
new_txt=' A/5 21171'
new_txt

new_txt.strip()

In [None]:
# 판다스 시리즈에서 인덱스를 쓰면 그에 해당하는 열을 불러옴 
data['Ticket'][:3]

In [None]:
# .str을 써주면 함수로 인식하여 사용가능 
data['Ticket'].str[:3]

In [None]:
# 티켓 번호만 뽑고 싶은데, 인덱싱결과 번호만 있는 데이터의 인덱싱 값이 일정하지 않음 
data['Ticket'].str.split()

In [None]:
# .split()결과물이 리스트로 되었는데 이를 각각의 컬럼으로 만들어주기 (expand = True)
data['Ticket'].str.split(expand = True)

In [None]:
# 해결을 위해 expand 쓰지않고 람다함수를 사용해서 인덱싱 , 별도 컬럼 new_ticket으로 저장 
data['new_ticket']=data['Ticket'].str.split().apply(lambda x: x[-1])

In [None]:
# new_ticket 데이터 타입이 object
data.info()

In [None]:
# new_ticket 데이터 타입 수정 -> 숫자말고 문자열이 섞여 있어서 에러발생 
data['new_ticket'] .astype('int')

In [None]:
# new_ticket 데이터 타입 확인을 위한 함수 (샘플로 실습)
txt_a = '123'
txt_b = 'abc'
txt_c = '12a'

In [None]:
# .isdigit() -> 숫자면  TRUE 반환
txt_a.isdigit()

In [None]:
# 앞에 ~ 기호 쓰면  True/False 반전 (문자열인 데이터 필터링)
data[~data['new_ticket'].str.isdigit()]

In [None]:
# 문자라고 걸러진 결과에 대해서 특정 숫자를 매핑하여 데이터 타입 변경 
data['new_ticket'] = data['new_ticket'].replace({'LINE':'99999999'})
data

In [None]:
# 수정여부 확인 후 데이터 타입 변경 
data[~data['new_ticket'].str.isdigit()]
data['new_ticket'].astype('int')

In [None]:
# 다른 방법 : 판다스가 데이터 타입 인식하여 자동으로 알아서 바꿔줌 
data['new_ticket'] = pd.to_numeric(data['new_ticket'])
data.info()

---
## 1-7. 날짜 및 시간 데이터 처리 (Datetime)
---

In [None]:
data.head()

In [None]:
from datetime import datetime
# 년월일시 양식은 검색하면 나옴 
sample_date=datetime.strptime('2023-01-01','%Y-%m-%d')

In [None]:
# 년월일시 양식 변경 
datetime.strftime(sample_date, '%y-%b-%d')

In [None]:
#년월일시 추출 
sample_date.year
sample_date.month
sample_date.day

In [None]:
next_date = datetime.strptime('2023-05-05','%Y-%m-%d')
next_date

In [None]:
sample_date - next_date

In [None]:
# ticket_date 컬럼의 데이터타입을 변경
data['ticket_date'] = pd.to_datetime(data['ticket_date'])
data.info()

In [None]:
data['ticket_date'].dt.year
data['ticket_date'].dt.day

In [None]:
# 티켓 구매 날짜와 사고날짜 차이 계산 (buy_before컬럼은 연산이 안되서 가공 필요)
acc = datetime.strptime('1912-04-15', '%Y-%m-%d')
data['buy_before'] = acc - data['ticket_date']
data.info()

In [None]:
# buy_before 컬럼 데이터 타입을 int 로 수정 
data['buy_before'] = data['buy_before'].dt.days
data.info()

In [None]:
data['buy_before'] + 10
