# Pandas Basic

Pandas는 데이터 분석 및 조작을 위한 높은 수준의 라이브러리입니다.

Pandas는 두 가지 주요 데이터 구조, 즉 시리즈(Series)와 데이터프레임(DataFrame)을 제공하여 데이터를 효과적으로 조작하고 분석할 수 있습니다.

딥러닝 모델 학습에서 Pandas는 데이터 전처리, 탐색적 데이터 분석(EDA), 피처 엔지니어링 등 다양한 작업을 수행하는 데 사용됩니다.

In [None]:
#@title Pandas 라이브러리 불러오기

import pandas as pd
import numpy as np

## Pandas의 데이터 구조
Pandas는 데이터 조작 및 분석을 위한 고성능의 오픈소스 라이브러리입니다.

Pandas의 핵심 구성 요소는 Series와 DataFrame 두 가지 데이터 구조로 구성되어 있습니다.

In [None]:
#@title Series

# Series 생성
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)

In [None]:
#@title DataFrame

# DataFrame 생성
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35],
        'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

In [None]:
#@title CSV 데이터 불러오기 / 저장하기

# CSV 파일에서 데이터 불러오기
df_csv = pd.read_csv('sample_data/california_housing_train.csv')

# DataFrame을 CSV 파일로 저장
df.to_csv('output.csv', index=False)

In [None]:
#@title DataFrame 출력해보기

# 처음 n개의 행 출력
df_csv.head()

In [None]:
# 열 이름 출력
print(df_csv.columns)

In [None]:
# 마지막 n개의 행 출력
print(df_csv.tail(3))

In [None]:
# DataFrame 정보 출력
df_csv.info()

In [None]:
# DataFrame 통계정보 출력
print(df_csv.describe())

In [None]:
# 'housing_median_age' 열의 값 빈도 출력
df_csv['housing_median_age'].value_counts()

## Pandas의 데이터 조작

- 기본적인 데이터 조작 : 인덱싱, 슬라이싱, 필터링을 통해 데이터를 조작할 수 있습니다.
- iloc() : 정수 기반 인덱싱입니다. 행과 열의 인덱스 번호를 사용하여 데이터를 선택합니다.
- loc() : 레이블 기반 인덱싱입니다. 행과 열의 레이블 이름을 사용하여 데이터를 선택합니다.

In [None]:
# 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [24, 27, 22, 32],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
}
df = pd.DataFrame(data)
df

In [None]:
#@title 데이터 조작

# 인덱싱
print(df['Name'])  # 'Name' 열 선택
print()

# 슬라이싱
print(df[0:2])  # 첫 번째와 두 번째 행 선택
print()

# 필터링 1
print(df[df['Age'] > 30])  # 'Age'가 30 초과인 행 선택
print()

# 필터링 2
print(df.query('Age > 30'))  # 'Age'가 30 초과인 행 선택
print()

In [None]:
#@title iloc()을 이용한 인덱싱

# iloc 사용 예제
print(df.iloc[1])  # 1번 인덱스 행 선택
print()

print(df.iloc[:, 1])  # 1번 인덱스 열 선택
print()

print(df.iloc[1:3, 0:2])  # 1~2 인덱스 행과 0~1 인덱스 열 선택
print()

In [None]:
#@title loc()을 이용한 인덱싱

# loc 사용 예제
print(df.loc[1])  # 인덱스 레이블이 1인 행 선택
print()

print(df.loc[:, 'Age'])  # 'Age' 레이블 열 선택
print()

print(df.loc[1:2, 'Name':'Age'])  # 인덱스 레이블이 1~2인 행과 'Name'~'Age' 레이블 열 선택
print()

## 시각화 및 EDA

#### california_housing_train 데이터셋
캘리포니아 주의 주택 가격에 대한 정보를 포함하고 있습니다.
이 데이터셋은 여러 특성(columns)을 가지고 있으며, 각 특성은 주택 가격의 예측에 도움이 될 수 있는 다양한 정보를 제공합니다.

- longitude: 주택의 경도를 나타냅니다.
- latitude: 주택의 위도를 나타냅니다.
- housing_median_age: 주택의 중앙값 연령을 나타냅니다.
- total_rooms: 지역의 총 방 개수를 나타냅니다.
- total_bedrooms: 지역의 총 침실 수를 나타냅니다.
- population: 지역의 인구를 나타냅니다.
- households: 지역의 가구 수를 나타냅니다.
- median_income: 지역의 중앙값 소득을 나타냅니다.
- median_house_value: 주택의 중앙값 가격을 나타냅니다. 이 값은 우리가 예측하려는 목표 변수(target variable)입니다.

In [None]:
#@title 산점도 그래프 그려보기

#@markdown 캘리포니아

#@markdown ![California](https://github.com/jphan32/CVTrack-Tutorials/blob/main/resources/california.png?raw=true)

import seaborn as sns
import matplotlib.pyplot as plt

sns.scatterplot(data=df_csv, x='longitude', y='latitude')
plt.show()

In [None]:
#@title 상관분석 그래프 그려보기
import seaborn as sns
import matplotlib.pyplot as plt

# 상관 분석
correlation_matrix = df_csv.corr()
sns.heatmap(data=correlation_matrix, annot=True)
plt.show()

In [None]:
#@title 빈도값 그래프 그려보기
import seaborn as sns
import matplotlib.pyplot as plt

# 그래프 크기 설정
plt.figure(figsize=(15, 5))

# 'City' 열의 값 빈도 계산 / 빈도 그래프 그리기
value_counts = df_csv['housing_median_age'].value_counts()
value_counts.plot(kind='bar')

## Seaborn을 사용하여 'housing_median_age' 열의 값에 대한 빈도 그래프 그리기
#sns.countplot(data=df_csv, x='housing_median_age')

# x축 레이블을 대각선 방향으로 회전
plt.xticks(rotation=45)

# 그래프 출력
plt.show()

## 딥러닝 모델 학습을 위한 Pandas 활용
딥러닝 모델을 학습시키기 전에 데이터를 정제하고 준비하는 단계가 필요합니다.

Pandas는 이러한 전처리 작업을 수행하기에 유용한 도구입니다.

### 결측치 처리
데이터에 결측치가 있는 경우, 이를 처리해야 합니다. 결측치를 제거하거나 다른 값으로 채울 수 있습니다.

In [None]:
# 데이터 생성
data = {
    'A': [1, 2, None, 4],
    'B': [5, None, None, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
df

In [None]:
# 결측치 제거
df_dropna = df.dropna()
df_dropna

In [None]:
# 결측치를 0으로 채우기
df_fillna = df.fillna(0)
df_fillna

### 이상치 처리
이상치는 데이터 세트에서 통계적으로 이상한 값으로, 이러한 값들은 데이터 분석이나 모델 학습에 부정적인 영향을 미칠 수 있습니다.

이상치를 식별하고 처리하는 것은 데이터 전처리의 중요한 단계입니다.

이상치는 여러 방법으로 처리할 수 있으며, 이상치를 제거하거나 다른 값으로 대체하는 것이 일반적입니다.

아래 예제 코드는 Pandas를 사용하여 이상치를 식별하고 처리하는 방법을 보여줍니다.

In [None]:
sns.displot(data=df_csv, x='total_rooms', bins=100)

#### Z-score를 사용한 이상치 식별
Z-score는 각 데이터 포인트가 평균으로부터 얼마나 떨어져 있는지를 나타내는 값입니다.

통계적으로, Z-score가 3 또는 -3보다 크거나 작은 데이터 포인트는 이상치로 간주할 수 있습니다.

![Z-score](https://github.com/jphan32/CVTrack-Tutorials/blob/main/resources/z-score.jpg?raw=true)

In [None]:
# Z-score 계산:  Z-score = |(x - mean) / std|
df_csv_with_zscore = df_csv.assign(tr_zscore = lambda x: x.total_rooms.sub(x.total_rooms.mean()).div(x.total_rooms.std()).abs())
df_csv_with_zscore.head()

In [None]:
sns.displot(data=df_csv_with_zscore, x='tr_zscore', bins=100)

In [None]:
# 이상치 필터링
sns.displot(data=df_csv_with_zscore.query('tr_zscore <= 3.'), x='total_rooms', bins=100)

#### IQR을 사용한 이상치 식별
IQR(Interquartile Range)은 데이터의 분포를 나타내며, 데이터 분포의 중간 50% 범위를 나타냅니다.

IQR은 데이터의 중앙값 주변의 분포를 측정하며, 이는 데이터의 분산이나 이상치에 대해 좀 더 견고한(robust) 측정값을 제공합니다.

IQR의 1.5배 이상 떨어진 데이터 포인트는 이상치로 간주할 수 있습니다.

![iqr](https://github.com/jphan32/CVTrack-Tutorials/blob/main/resources/iqr.png?raw=true)

In [None]:
# 분포 확인
df_csv['total_rooms'].describe()

In [None]:
# IQR 계산
Q1 = df_csv['total_rooms'].quantile(0.25)
Q3 = df_csv['total_rooms'].quantile(0.75)
IQR = Q3 - Q1
IQR

In [None]:
# 이상치 제거
condition = ~((df_csv['total_rooms'] < (Q1 - 1.5 * IQR)) | (df_csv['total_rooms'] > (Q3 + 1.5 * IQR)))
df_no_outliers = df_csv[condition]
df_no_outliers['total_rooms'].describe()

In [None]:
# 이상치 필터링
sns.displot(data=df_no_outliers, x='total_rooms', bins=100)

### 범주형 데이터 인코딩
범주형 데이터는 모델 학습에 사용하기 위해 수치 데이터로 변환되어야 합니다.

#### One-hot encoding
![One-hot encoding](https://github.com/jphan32/CVTrack-Tutorials/blob/main/resources/one_hot.png?raw=true)

In [None]:
# 예제 데이터
data = {'Category': ['Cat', 'Dog', 'Turtle', 'Fish', 'Cat']}
df = pd.DataFrame(data)
df

In [None]:
# 원-핫 인코딩
one_hot_encoded_df = pd.get_dummies(df, columns=['Category'])
one_hot_encoded_df