In [None]:
# 데이터 분석 프로세스

## 1. 데이터 수집

## 2. 데이터 탐색(EDA)
데이터 전처리를 수행하기 전후, 데이터 분석을 진행하면서 데이터를 여러 방식으로 파악하는 것

## 3. 데이터 전처리
결측치, 이상치를 적절히 처리하여 데이터의 왜곡을 피하는 것

## 4. 데이터 모델링
데이터에서 유용한 정보를 추출하기 위해 모델을 구축하는 것

In [None]:
# EDA (Exploratory Data Analysis)

## EDA의 대상 (일변량/다변량)
- **일변량**: 변수 1개 → 데이터 설명, 패턴 찾기
- **다변량**: 여러 변수 간 관계 분석

## EDA의 종류 (시각화/비시각화)
- **시각화**: 차트, 그림을 활용해 데이터 탐색
- **비시각화**: Summary Statistics 활용

## EDA의 유형
- **일변량 비시각화** → 데이터 분포 확인
- **일변량 시각화** → 데이터 전체적 관찰
- **다변량 비시각화** → 변수 간 관계 확인
- **다변량 시각화** → 변수 간 관계 시각적 분석

In [1]:
# 데이터 확인

## 1. 데이터 읽기
```python
import pandas as pd
df = pd.read_csv("파일경로/파일이름.csv")
```

## 2. 경로의 개념
- **절대 경로**: `C:/Users/사용자/insight/파일이름.csv`
- **상대 경로**:
  - `./` 현재 디렉토리
  - `../` 상위 디렉토리
  - `/` 루트 디렉토리

## 3. 데이터 파일 형식별 처리
| 파일 형식 | 읽기         | 쓰기
| CSV       | `read_csv`   | `to_csv`
| JSON      | `read_json`  | `to_json`
| HTML      | `read_html`  | `to_html`
| Excel     | `read_excel` | `to_excel`
| SQL       | `read_sql`   | `to_sql`

# CSV 파일은 데이터를 쉼표로 구분하고 있는 텍스트 파일로 크기가 작고 압축이 용이함
# excel 파일은 행과 열이 데이터프레임의 행, 열로 일대일 대응되는 파일로, 여러 시트로 구성된 데이터를 읽을 떄 시트 지정이 가능

pd.read_excel('파일경로/파일이름.xlsx', sheet name="불러올 시트")

## 4. 데이터 미리보기
```python
df.head()  # 상위 5개 행 출력
df.info()  # 데이터 요약 정보 출력

SyntaxError: invalid syntax (2254732150.py, line 4)

In [None]:
# 데이터의 종류
#범주형 데이터: 몇 개의 범주로 나누어진 데이터
-	명목형: 성별, 성공여부, 혈액형 등 순서 없이 분류만 된 데이터(A형, B형, O형)
-	순서형: 그들 사이에 순서 관계가 존재하는 데이터 (A->B->C)
#수치형 데이터: 숫자로 표현되는 데이터
-	이산형: 정수 단위로 떨어지는 데이터 (자식의 수)
-	연속형: 연속적 값을 갖는 데이터(신장, 체중 등)
** 정수면 이산형, 소수면 연속형이라고 할 수는 없음!
예를 들어, 1학점짜리 과목, 1.5학점짜리 과목, 2학점짜리, 3학점짜리 과목이 있다면, 1학점에서 1.5학점이 이어지는게 아닌, 각각 하나씩 있는 과목이므로 연속된다고 볼 수 없음. 즉, 소수로 표현되었지만, 이산형 데이터임


In [None]:
# 데이터 전처리
#전처리의 종류
1)	데이터 정제: 누락된 결측값을 보완하고, 이상치를 제거하는 것
2)	데이터 변환: 데이터 분석을 쉽게하기 위해 데이터를 변환해 일관성을 확보, 중복을 최소화해 데이터 분석 시간을 절약하는 것
3)	데이터 필터링: 오류를 발견하고, 삭제와 보정을 통해 품질을 향상시키는 것
4)	데이터 통합: 유사한 성질을 데이터를 통합하는 것

# 결측값을 확인하는데 사용되는 함수
1)	Info(): 데이터 프레임의 요약 정보를 출력하여 유효한 값의 개수를 알 수 있음
2)	Value_counts(dropna=False): na값을 drop하지 않으면서 결측값을 포함한 전체 데이터의 확인이 가능
3)	Isnull(): 누락 데이터면 true, 유효하면 false 반환함 (df.isnull().sum()의 형식으로 자주 사용됨)
4)	Notnull(): 유효 데이터면 true, 누락 데이터면 false 반환
5)	Replace(대체할 대상이 되는 값, 새롭게 바꿀 값)

## 1. 결측값 확인 - 0이라는 값이 진짜 0인지, 아니면 결측되어 0으로 표기된 것인지 확인해야 함
```python
df.isnull().sum()  # 결측값 개수 확인
df.notnull().sum() # 결측값이 아닌 개수 확인
```

## 2. 결측값 처리
- **삭제**
```python
df.dropna(axis=0, how='any')  # 결측값 포함 행 삭제
df.dropna(axis=1, how='all')  # 결측값 포함 열 삭제
# how='any'인 경우는 하나라도 결측값이 있으면 삭제하고, 'all'인 경우에는 모든 값이 결측값이어야 삭제
```
df.dropna(axis=0, how='any'/'all', subset=[col1, col2..], inplace=True/False)
subset을 통해 원하는 column을 기준으로 삭제할 수 있음
inplace가 True이면 원본 dataframe 자체를 변경함. 디폴트 값을 inplace=False임

- **대체**
```python
df.fillna(df['컬럼명'].mean(), inplace=True)  # 평균값으로 대체
df.fillna(df['컬럼명'].median(), inplace=True) # 중앙값으로 대체
```
---
대체할 때 유사 유형을 대체할 수도 있음
df[‘value’] = df.groupby(‘Category’)[‘Value’].apply(lambda x: x.fillna(x.mean()))
# df의 value 값을 채울건데, 각 category 별로 value값을 채우고, na값을 평균값으로 적용해서 대체할 것

In [None]:
# 이상치 탐색

## 1. 기술통계 확인
```python
df.describe()
```

## 2. Boxplot을 통한 이상치 확인
```python
import matplotlib.pyplot as plt    -> df의 통계 정보를 반복해서 읽음
df.boxplot(column=['컬럼명'])      -> 반복해서 읽은 df의 i 값으로 boxplot을 만듦
plt.show()                         -> 표현함
```

## 3. Z-score를 통한 이상치 탐색
데이터를 평균이 0, 표준편차가 1로 정규화하여 평균으로부터 얼마나 떨어졌는지를 확인함
평균에 가까울수록 0에 가깝고, 멀수록 커짐
보통 z-score가 2~3인 경우 이상치로 간주함
```python
from scipy import stats
df['z_score'] = stats.zscore(df['컬럼명'])
df[df['z_score'].abs() > 3]  # Z-score > 3 이상치 탐색
```

## 4. Tukey Fences 이상치 탐색
사분위 범위(IQR)를 기반으로 두 가지 경우에 이상치라고 판단함
Q1 – (1.5*IQR) 미만 / Q3+(1.5*IQR) 초과인 경우 이상치라고 판단함
즉, 데이터의 상위 25%보다 위, 하위 25%보다 아래를 이상치라고 판단함


이상치 제거하는 방법
1.	전체 삭제: 해당 관측치를 삭제 (human error인 경우)
2.	다른 값 대체: 관측치 자체가 적은 경우 삭제를 하면 신뢰성에 문제가 발생하므로 평균값이나 최빈값으로 대체하거나, 다른 변수를 사용해서 예측 모델을 만들고, 이상값을 예측하여 그 값으로 대체
3.	변수화: 이상값이 자연적으로 발생한 경우, 이상값에 대해 파악하는 것이 중요한데, 그 이상값이 나타난 이유를 확인하고, 자연스러운 값인 경우 해당 이상값을 제대로 분류하는 것이 필요함
4.	리샘플링: 이상값을 분리하여 모델을 만드는 것 -> 이상값을 대상에서 제외하는 것이 아닌, 이상값을 포함한 모델과 제외한 모델을 모두 만들고, 각각 모델에 대한 설명을 하는 것이 필요
즉, 이상값이 자연발생한 값이라면 제외하지 않고, 케이스를 분리하는 것이 좋음

# 예시 - Tukey fences로 이상치 찾기
Def find_outlier_by_Tukey_DF(data, feature):
	q1, q3 = np.percentile(data[feature],[25,75])
	iqr = q3-q1
	lower_bound = q1 – (iqr * 1.5)
	upper_bound = q3 + (iqr * 1.5)
	print(f'lower_bound는 {lower_bound.round(3)}, upper_bound는 {upper_bound.round(3)} 입니다')
mask = data[(data[feature] > upper_bound) | (data[feature] < lower_bound)].index return mask. 
mask = find_outlier_by_Tukey_DF(df, 'BMI') 
print(f'해당 열의 이상치는 {len(mask)}개 입니다')

In [None]:
# 피처 엔지니어링 - 전처리의 마지막 단계
피처(변수)들의 형태를 변형하거나, 적절하게 처리하는 과정으로 
새로운 데이터 또는 변수의 추가 없이 기존의 데이터를 보다 유용하게 만드는 방법

## 1. 인코딩
- **레이블 인코딩**
레이블 인코딩의 경우 범주형 변수를 0부터 n-1까지의 숫자로 변환
```python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['컬럼명'] = le.fit_transform(df['컬럼명'])
```
- **원-핫 인코딩**
원핫인코딩은 범주형 변수를 0과 1로 변환
```python
df = pd.get_dummies(df, columns=['컬럼명'])
```
## 2. 구간화
일정한 구간으로 나눠서 분석하는 것 – 값들을 일정 범주로 나눈 다음에 해당 범주에서 데이터를 분석하는 것

## 3. 변환
기존의 피처를 다른 피처로 변환하여 변수를 추가하는 것
예를 들어, 검수일자 피처를 변환하여 검수요일이라는 피처로 만들 수 있음

## 4. 스케일링
서로 다른 변수의 값 범위를 일정 수준으로 맞추는 작업
숫자의 상대적인 크기 차이로 인해 결과가 왜곡되어 나타나는 현상을 막기 위해 “정규화” 작업을 수행하는 것
표준화: 각 피처들의 평균을 0, 분산을 1로 변경하여 갖은 스케일을 갖게 만들게 됨
MinMaxScaler: 모든 피처가 0과 1 사이에 위치하게 만드는 것인데, 데이터가 서로 다른 비율의 속성으로 구성되어 있을 때, 
같은 비율로 속성을 맞추는 것
Sklearn 라이브러리는 StandardScaler, MinMaxScaler, MaxAbsScaler, RobustScaler 등의 스케일러를 제공함

```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['스케일링된 컬럼'] = scaler.fit_transform(df[['컬럼명']])
```
```python
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
df['스케일링된 컬럼'] = scaler.fit_transform(df[['컬럼명']])

In [None]:
# 데이터 시각화
숫자와 텍스트로 표현되는 정보를 그래프 등의 시각적 요소로 바꾸고, 이를 통해 데이터의 패턴, 관계, 추세를 파악하는 것
Matplotlib나 Seaborn을 사용함
시각화를 하기 전에 범주형인지, 수치형인지 파악 -> 결측값 및 이상치가 있는지 확인
-> 데이터의 특성을 파악하고 어떤 그래프를 통해 데이터를 표현할 지를 고민해야 함

파라미터
매개변수(파라미터)는 프로그래밍된 함수의 입력값을 의미
plt.figure(figsize=(5.4))
sns.countplpot(data=data, x=’Survived’) 를 통해서 count를 갖는 막대그래프를 만들고, 
data=data, x=’Survived’에서 data와 x는 각각 countplot의 매개변수이고, data와 ‘Survived’는 실제 전달되는 인자
즉, data와 x는 countplot에서의 입력값이 될 것이므로 매개변수가 되는 것임
x축에 표현할 칼럼을 ‘Survived’로 지정한다는 의미

Hue 파라미터
Hue 파라미터에는 내가 원하는 변수를 기준으로 데이터를 구분하여 그래프에 표시할 수 있음
plt.figure(figsize=(5.4))
sns.countplot(data=data, x=’Survived’, hue=’Sex’) 를 통해서 
성별이라는 변수를 통해서 데이터를 구분하여 그래프에 표시할 수 있음


# 다양한 시각화 기법
1.	Boxplot (상자수염그림) – 사분위수와 이상치를 보여주는 그래프
2.	Countplot – 범주형 변수의 빈도수를 확인하는 그래프
3.	Hisplot – 도수분포표 (수치형 변수의 구간별 빈도수를 보여줌)
4.	Displot, kdeplot – 히스토그램을 연속적 곡선으로 연결한 그래프
5.	Barplot – 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균을 제공
barplot에서 나타나는 검은 선은 신뢰구간을 의미함. 막대의 평균 값이 얼마나 신뢰할 수 있는지를 나타내고, 
기본적으로 95%의 신뢰구간이 사용되는데, 선이 짧으면 데이터의 변동이 적고, 선이 길면 변동이 큼
6.	Pointplot – 막대 그래프와 모양만 다르고 범주형 데이터 값 x에 따른 수치형 데이터 값 y의 평균을 제공함
7.	Scatterplot – 산점도 그래프로 두 변수 간의 관계를 시각화하기 위해 사용됨
8.	Regplot – 회귀선이 추가된 산점도그래프
9.	Catplot – categoryplot의 줄임말로, 수치형 데이터와 범주형 데이터의 관계를 볼 때 사용함
10.	Pieplot – 데이터의 부분과 전체 간의 비율을 표현하는 그래프이고, 비율을 강조하기 위해 사용하고, 모든 데이터가 합쳐서 전체를 이루는 경우에 효과적
11.	Heatmap – 변수간 상관계수를 볼 수 있는 그래프. Corr()을 통해서도 변수간 상관계수를 구하고, 
이를 히트맵에 표현할 수 있음
상관계수는 두 수치형 변수 사이의 상관 관계의 정도를 수치적으로 나타낸 계수. 즉, 서로 영향을 주는 정도임.
-1과 1 사이의 값을 가지며, -1과 1에 가까울수록 큰 상관계수를 가진다
음의 상관계수: 하나가 커지면 다른 하나가 작아짐
양의 상관계수: 하나가 커지면 다른 하나도 커짐
12.	Violinplot – 박스플롯과 커널밀도추정함수 그래프를 합친 그래프
13.	여러 그래프를 한번에 설정하는 그래프 – pairplot로 여러 변수간의 산점도를 한 번에 보여주는 그래프
