<a href="https://colab.research.google.com/github/jooeun921/Big-Data-Analyst/blob/main/Part02_Section_01_pandas_dataframe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Part 02. 데이터 처리
Python을 활용한 데이터 처리 및 전처리 기법.
Pandas와 scikit-learn을 이용한 전처리를 다룸.
- Pandas를 활용한 기본 데이터, 문자열 및 날짜 데이터 처리
- 데이터 분할 및 전처리
- 인코딩 및 정규화 기법
- 변수 변환과 차원 축소

### Section 01 학습 : Pandas로 데이터 프레임 다루기

In [None]:
import pandas as pd
import numpy as np

In [None]:
url = "https://bit.ly/examscore-csv"
mydata = pd.read_csv(url)
print(mydata.head())

In [None]:
mydata.info()

In [None]:
# sum(mydata['gender'] == 'F')

print(mydata[['gender', 'student_id']].head())

In [None]:
mydata.iloc[:, :3].head()

In [None]:
mydata.loc[mydata['gender'] == 'F', ['student_id', 'final']].head()

In [None]:
mydata.loc[ mydata['midterm'].isin([28, 38, 52]), ['student_id', 'gender', 'midterm'] ].head()
# mydata['midterm'].isin([28, 38, 52]), ['student_id', 'gender'] <- True, False로 된 리스트 출력.

In [None]:
mydata.loc[ ~mydata['midterm'].isin([28, 38, 52]), ['student_id', 'gender', 'midterm'] ].head()


In [None]:
mydata_na = mydata.iloc[:, :].head()

In [None]:
mydata_na

In [None]:
#결측치 처리 관련

mydata_na.iloc[0,1] = np.nan
mydata_na.iloc[4,0] = np.nan
print(mydata_na)

In [None]:
print("gender 결측치 개수", mydata_na['gender'].isna().sum())
print("student_id 결측치 개수", mydata_na['student_id'].isna().sum())

In [None]:
complete = mydata_na.dropna()
print(complete)
print("완전한 행수", len(complete))

In [None]:
mydata['total'] = mydata['midterm'] + mydata['final']
mydata.head()

In [None]:
del mydata['total']
mydata.head()
# 이미 한번 del를 활용해서 열을 삭제하면 그 뒤에 다시 실행했을 때 삭제할 수 있는 열이 없어서 keyerror가 발생하게 됨.

In [None]:
df1 = pd.DataFrame({
    'A' : ['A0', 'A1', 'A2'],
    'B' : ['B0', 'B1', 'B2']
})

df2 = pd.DataFrame({
    'A' : ['A3', 'A4', 'A5'],
    'B' : ['B3', 'B4', 'B5']
})

result = pd.concat([df1, df2])
print(result)

In [None]:
print(pd.concat.__doc__)

In [None]:
result = pd.concat([df1, df2], axis = 1)
print(result)

In [None]:
result = pd.concat([df1, df2], ignore_index = False)
print(result)

In [None]:
result = pd.concat([df1, df2], ignore_index = True)
print(result)

In [None]:
df3 = pd.DataFrame({
    'A' : ['A2', 'A3', 'A4'],
    'B' : ['B2', 'B3', 'B4'],
    'C' : ['C2', 'C3', 'C4']
})

In [None]:
result = pd.concat([df1, df3], join = "outer")
print(result)

In [None]:
result = pd.concat([df1, df3], join = "inner")
print(result)

In [None]:
result = pd.concat([df1, df3], keys = ['key1', 'key2'], join = "inner")
print(result)

In [None]:
# df1_rows = result.loc['key1'].iloc[:]
df1_rows = result.loc['key1']
print(df1_rows)

In [None]:
print(mydata.describe(include=[object]))
# pandas.DataFrame.describe() 메서드의 include / exclude 인수는 요약 통계(descriptive statistics) 를 낼 때 어떤 데이터 타입의 열(column) 을 포함하거나 제외할지를 지정하는 옵션

In [None]:
print(mydata.describe.__doc__)

In [None]:
print(mydata.describe())

In [None]:
print(mydata.info())

In [None]:
print(mydata.sort_values.__doc__)

In [None]:
sorted_mydata = mydata.sort_values(by='gender')
print(sorted_mydata.head())
print(sorted_mydata.tail())

In [None]:
sorted_mydata = mydata.sort_values(by=['midterm', 'final'], ascending = [False, True])
sorted_mydata.head()

In [None]:
max_idx = mydata['midterm'].idxmax()
print(max_idx)

In [None]:
print(mydata.loc[max_idx])

In [None]:
min_idx = mydata['midterm'].idxmin()
print("중간성적 최하위 인덱스 번호 : ", min_idx)
print(mydata.loc[min_idx])

In [None]:
print(sorted_mydata.iloc[0])
print("---------------------------------")
print(mydata.loc[max_idx])

In [None]:
max_value_row = sorted_mydata.iloc[0]
comparison = max_value_row.equals(mydata.loc[max_idx])
print(comparison)

In [None]:
print(mydata[mydata['gender'] == mydata['gender'].mode()[0]])

In [None]:
print(mydata['gender'].mode())

In [None]:
# 팔머 펭귄 데이터 불러오기
df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/penguins.csv')

In [None]:
df.info()

In [None]:
df.head()

In [None]:
print(df.groupby.__doc__)

In [None]:
grouped_df = df.groupby(['island'])['flipper_length_mm'].sum()
max_idx_penguin = grouped_df.idxmax()
print(grouped_df)
print("----------------------------------")
print(max_idx_penguin)
print(grouped_df.loc[max_idx_penguin])

In [None]:
grouped_df_idx = df.groupby(['island'], as_index = False)['flipper_length_mm'].sum()
print(grouped_df_idx)

In [None]:
sorted_grouped_df_idx = grouped_df_idx.sort_values(by='flipper_length_mm', ascending = False)
sorted_grouped_df_idx

In [None]:
print(pd.merge.__doc__)

In [None]:
df1 = pd.DataFrame({'key' : ['A', 'B', 'C'], 'value' : [1, 2, 3]})
df2 = pd.DataFrame({'key' : ['A', 'B', 'D'], 'value' : [4, 5, 6]})

merge_df = pd.merge(df1, df2, on = 'key', how = "inner")
print(merge_df)

In [None]:
merge_df = pd.merge(df1, df2, on = 'key', how = "outer")
print(merge_df)

In [None]:
merge_df = pd.merge(df1, df2, on = 'key', how = "left")
print(merge_df)

In [None]:
merge_df = pd.merge(df1, df2, on = 'key', how = "right")
print(merge_df)

In [None]:
data = {
    'Date' : ['2024-07-01', '2024-07-02', '2024-07-03', '2024-07-04'],
    'Temperature' : [10, 20, 25, 20],
    'Humidity' : [60, 65, 70, 21]
}

melt_df = pd.DataFrame(data)
print(melt_df)

In [None]:
melted_df = melt_df.melt(id_vars = 'Date', value_vars = ['Temperature', 'Humidity'], var_name='Variable', value_name='Value')
print(melted_df)

In [None]:
melt_data = pd.DataFrame({
    'Date' : ['2024-07-04'],
    'Variable' : ['Humidity'],
    'Value' : [60]
})

plus_melted_df = pd.concat([melted_df, melt_data], ignore_index = True)
# melted_df.loc[len(melted_df)] = ['2024-07-04', 'Humidity', 31]

# melted_df = melted_df.drop(index = [12])

# print(melted_df)
print(plus_melted_df)

In [None]:
print(df.insert.__doc__)

In [None]:
print(melt_df.pivot.__doc__)

In [None]:
pivot_df = melted_df.pivot(index = 'Date', columns = 'Variable', values = 'Value').reset_index()
print(pivot_df)

In [None]:
plus_pivot_df = plus_melted_df.pivot(index = 'Date', columns = 'Variable', values = 'Value').reset_index()
print(pivot_df)

In [None]:
pivot_table_df = pd.pivot_table(melted_df, index = 'Date', columns = 'Variable', values = 'Value').reset_index()
print(pivot_table_df)

In [None]:
plus_melted_df

In [None]:
plus_pivot_table_df = pd.pivot_table(plus_melted_df, index = 'Date', columns = 'Variable', values = 'Value', aggfunc="mean").reset_index()
print(plus_pivot_table_df)

In [None]:
print(melted_df.pivot_table.__doc__)

In [None]:
# 데이터 프레임 또는 시리즈의 데이터 타입 변경
print(melted_df.astype.__doc__)

In [None]:
df.info()
print("===================================\n")

print("칼럼 정보 뽑는 방법")
print()
print(df.columns)

print()
df_list = list(df)
print(df_list)

In [None]:
#데이터 프레임에서 축(행, 혹은 열) 기준으로 함수(사용자 정의 함수 포함)를 일괄 적용하는 함수
print(melted_df.apply.__doc__)

In [None]:
apply_df = df[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']]
# apply_df.head()
print(apply_df.apply(np.sum, axis=0))
# axis = 0 열 방향. = 1 행 방향
print("----------------------------")
print(apply_df.apply(max, axis=0))


In [None]:
print(df_assign.assign.__doc__)

In [None]:
df_assign = apply_df.copy()
mean_length = list(apply_df.apply(np.mean, axis=0))

def classify_length(mm):
    if mm >= mean_length[0]:
        return "Big"
    elif mm < mean_length[0]:
        return "Small"
    else:
        return np.nan

df_assign = df_assign.assign(length_size = df_assign['bill_length_mm'].apply(classify_length))
print(df_assign.head())

In [None]:
df2_assign = apply_df.copy()
df2_assign = df2_assign.assign(bill_length_mm = df2_assign['bill_length_mm'].apply(classify_length))
print(df2_assign.head())

print("-------------------------------")

df3_assign = apply_df.copy()
df3_assign['bill_length_mm'] = df3_assign['bill_length_mm'].apply(classify_length)
print(df3_assign.head())

In [None]:
df_assign.info()

In [None]:
print(df_assign.select_dtypes(object).head(2))
print()
print(df_assign.select_dtypes(float).head(3))

In [None]:
# select_dtypes() 특정 타입 값들만 따로 선택하여 전처리에 유용함. apply나 assign과 함께 활용하기 좋다!

# 임시 정규화 함수
def standardize(x):
    return ((x - np.nanmean(x)) / np.std(x))

print(df.select_dtypes(float).apply(standardize).head())

In [None]:
print(df.columns)

In [None]:
print(df.columns.str.startswith('b'))

In [None]:
print(df.loc[:, df.columns.str.startswith('b')].head())

In [None]:
print(df.columns.str.endswith('mm'))
print(df.loc[:, df.columns.str.endswith('mm')].head())

In [None]:
print(df.columns.str.contains('length'))
print("===========================================\n")
print(df.loc[:, df.columns.str.contains('length')].head())
print("===========================================\n")
print(df.loc[:, df.columns.str.contains('length')].apply(standardize).head())

### Section 01 연습문제 : Pandas로 데이터 프레임 다루기


In [None]:
# 학교 성적 데이터
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/data/main/grade.csv')

#### 1-8번

In [None]:
#1 df 데이터 프레임의 정보를 출력하고, 각 칼럼의 데이터 타입을 확인하시오.
df.info()

In [None]:
#2 midterm 점수가 85점 이상인 학생들의 데이터를 필터링하여 출력하시오.
print(df.loc[df['midterm'] >= 85])

# 제대로 필터링 됐는지 확인용
# df_2 = df.loc[df['midterm'] >= 85]
# print(df_2['midterm'].min())

In [None]:
#3 final 점수를 기준으로 데이터 프레임을 내림차순으로 정렬하고, 정렬된 데이터 프레임의 첫 5행을 출력하시오.

print(df.sort_values(by = ['final'], ascending = False).head(5))

In [None]:
#4 gender 칼럼을 기준으로 데이터 프레임을 그룹화하고, 각 그룹별 midterm과 final의 평균을 계산하여 출력하시오.

df_group = df[['gender', 'midterm', 'final']]
print(df_group.groupby(by=["gender"]).mean())

# group화를 할 때 object 타입은 mean과 같은 함수 사용이 안됨. sum은 되긴 하지만, 애초에 문자열 변수를 더해봤자 그다지 의미없는 경우가 많으니까, 필요한 열들만 먼저 뽑고 작업해도 될듯!

In [None]:
#5 student_id 칼럼을 문자열 타입으로 변환하고, 변환된 데이터 프레임의 정보를 출력하시오.

df = df.astype({'student_id' : 'object'})
df.info()

In [None]:
#6 assignment 점수의 최댓값과 최솟값을 가지는 행을 각각 출력하시오.

print("최댓값 :\n", df.iloc[[df['assignment'].idxmax()]])
print("최솟값 :\n", df.iloc[[df['assignment'].idxmin()]])

In [None]:
#7 midterm, final, assignment 점수의 평균을 계산하여 average 칼럼을 추가하고, 첫 5행을 출력하시오.

df['average'] = df[['midterm', 'final', 'assignment']].mean(axis=1)
# df = df.assign(average = df.select_dtypes(include = ['float64']).apply(np.mean, axis = 1))

print(df.head(5))

In [None]:
#8 데이터 프레임에 결측치가 있는지 확인하고, 결측치를 포함한 행을 제거한 후 데이터 프레임의 정보를 출력하시오.

print("결측치가 있는 열", df.columns[df.isna().sum() >= 1])
df_cleaned = df.dropna()
df_cleaned.info()

#### ❌9번

In [None]:
#9 아래의 추가 데이터를 생성하고, 기존 데이터 프레임과 student_id를 기준으로 병합하여 출력하시오.
additional_data = {
    'student_id' : ['1', '3', '5', '7', '9'],
    'club' : ['Art', 'Science', 'Math', 'Music', 'Drama']
}
df_additional = pd.DataFrame(additional_data)

df = df.astype({'student_id' : 'str'})
merged_df = df.merge(df_additional, on = 'student_id', how = 'left')
print(merged_df)
df = df.astype({'student_id' : 'object'})

#### 10번

In [None]:
#10 gender를 인덱스로, student_id를 열로 사용하여 average 점수에 대한 피벗 테이블을 생성하고 출력하시오.

df_pivot = df.pivot_table(values = 'average', index = 'gender', columns=['student_id'])
print(df_pivot)

#### ❌11번 문제

In [None]:
#11 midterm, final, assignment의 평균을 구하고, average 열을 생성하시오. 또한, 성별, 성적 유형(assignment, average, final, midterm)별 평균 점수를 계산하시오.
# 성별, 성적 유형별 평균 점수 => 2 * 4 = 8개 행이 결과로 나와야 함.

df['average'] = df[['midterm', 'final', 'assignment']].mean(axis=1)

# df_melted = df.melt(id_vars = ['gender'], value_vars = ['assignment', 'average', 'final', 'midterm'], var_name = 'variable', value_name = 'score')
df_melt = df.melt(id_vars = ['student_id', 'name', 'gender'], value_vars = ['assignment', 'average', 'final', 'midterm'], var_name = 'variable', value_name = 'score')

grouped_mean = df_melt.groupby(['gender', 'variable'])['score'].mean().reset_index()
print(grouped_mean)

#### 12번

In [None]:
#12 최대 평균 성적을 가진 학생의 이름과 평균 성적을 출력하시오.

max_avg_student_idx = df['average'].idxmax()

print(df.iloc[[df['average'].idxmax()], [1, -1]])
print("==========================================")
print(df.loc[max_avg_student_idx, ['name', 'average']])