In [42]:
#판다스 심화: 데이터프레임 구조화 다시하기와 크기 조정하기

In [52]:
#데이터프레임 구조화 다시하기
#데이터프레임의 구조를 재조정하여, 데이터를 원하는 형태로 변형할 수 있음.
#주요 작업으로는 피벗(pivot), 변경(melt), 스택(stack)과 언스택(unstack)이 있음.

In [54]:
#pivot()을 사용한 피벗 테이블 생성
#pivot() 함수는 열 데이터를 행 또는 열로 이동시켜 새로운 데이터프레임을 만듦.
#이는 데이터를 재구성하고 분석하는 데 매우 유용.

In [58]:
import pandas as pd

#예시 데이터프레임
data = {
    '날짜':['2023-01-01', '2023-01-02', '2023-01-01', '2023-01-02'],
    '도시': ['서울', '서울', '부산', '부산'],
    '온도': [2, 3, 6, 7],
    '습도': [55, 60, 80, 85]
}
df = pd.DataFrame(data)

In [68]:
#출력
df

Unnamed: 0,날짜,도시,온도,습도
0,2023-01-01,서울,2,55
1,2023-01-02,서울,3,60
2,2023-01-01,부산,6,80
3,2023-01-02,부산,7,85


In [70]:
# '도시'를 기준으로 '날짜'를 인덱스로, '온도'를 값으로 하는 피벗 테이블 생성
pivot_df = df.pivot(index = '날짜', columns = '도시', values = '온도')

In [72]:
#출력
pivot_df

도시,부산,서울
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,6,2
2023-01-02,7,3


In [74]:
#날짜를 인덱스로, 도시를 열로 하여 각 온도 값을 피벗 테이블로 변환.

In [77]:
#melt()를 사용한 데이터 구조 해체
# melt()함수는 피벗된 데이터를 다시 긴 형식(long format)으로 변환할 때 사용.
#이는 여러 열을 하나의 열로 통합하는 데 유용.

In [81]:
#데이터프레임 구조 해체 (melt)
melted_df = pd.melt(df, id_vars = ['날짜', '도시'], value_vars = ['온도', '습도'])

In [83]:
#출력
melted_df

Unnamed: 0,날짜,도시,variable,value
0,2023-01-01,서울,온도,2
1,2023-01-02,서울,온도,3
2,2023-01-01,부산,온도,6
3,2023-01-02,부산,온도,7
4,2023-01-01,서울,습도,55
5,2023-01-02,서울,습도,60
6,2023-01-01,부산,습도,80
7,2023-01-02,부산,습도,85


In [85]:
#온도와 습도 열이 하나의 열(variable)로 통합되어 melt()되었습니다.

In [88]:
#stack()과 unstack()을 사용한 데이터 변환
#stack()은 열 데이터를 인덱스의 하위 레벨로 이동시키고, unstack()은 그 반대 작업을 수행.
#이는 멀티 인덱스 데이터프레임에서 유용.

In [90]:
#'도시' 레벨을 인덱스로 스택(stack)
stacked_df = pivot_df.stack()

In [92]:
#출력
stacked_df
#'도시'가 인덱스로 변환

날짜          도시
2023-01-01  부산    6
            서울    2
2023-01-02  부산    7
            서울    3
dtype: int64

In [96]:
#다시 언스택(unstack)하여 원래 구조로 복원
unstacked_df = stacked_df.unstack()

In [98]:
#출력
unstacked_df

도시,부산,서울
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-01-01,6,2
2023-01-02,7,3


In [100]:
#결과는 원래의 피벗 테이블 형태로 돌아옴.

In [103]:
#데이터프레임 크기 조정하기
#데이터프레임의 크기를 조정하는 방법에는 행과 열의 추가, 삭제, 데이터 병합 등이 있음.
#이를 통해 데이터를 분석하기에 적합한 형태로 조정 가능.

In [105]:
#행과 열 추가하기
#새로운 열을 추가할 때는 새로운 데이터를 할당하면 됨.

#예)
#df['새로운 열'] = 값 의 형태로 추가

In [107]:
#새로운 열 추가
df['날씨'] = ['맑음', '흐림', '밁음', '흐림']

In [109]:
#출력
df

Unnamed: 0,날짜,도시,온도,습도,날씨
0,2023-01-01,서울,2,55,맑음
1,2023-01-02,서울,3,60,흐림
2,2023-01-01,부산,6,80,밁음
3,2023-01-02,부산,7,85,흐림


In [111]:
#새로운 열(날씨)이 추가됨.

In [114]:
#행과 열 삭제하기
#행과 열 삭제는 drop() 함수를 사용.
#axis=0은 행을, axis=1은 열을 삭제.

In [122]:
#'습도'열 삭제
df_dropped = df.drop(columns=['습도'])

In [124]:
#출력
df_dropped

Unnamed: 0,날짜,도시,온도,날씨
0,2023-01-01,서울,2,맑음
1,2023-01-02,서울,3,흐림
2,2023-01-01,부산,6,밁음
3,2023-01-02,부산,7,흐림


In [126]:
#'습도' 열이 삭제되었음.

In [129]:
#특정 행 삭제(예: 첫 번째 행)
df_dropped_row = df.drop(index=0)

In [131]:
#출력
df_dropped_row

Unnamed: 0,날짜,도시,온도,습도,날씨
1,2023-01-02,서울,3,60,흐림
2,2023-01-01,부산,6,80,밁음
3,2023-01-02,부산,7,85,흐림


In [133]:
#첫 번째 행 삭제

In [136]:
#데이터 병합하기
#데이터프레임을 병합할 때는 concat()과 merge()를 사용함.
#이들은 데이터를 추가하거나 병합하는 데 사용됨.

In [138]:
# 새로운 데이터프레임 생성
data2 = {
    '날짜': ['2023-01-03', '2023-01-04'],
    '도시': ['서울', '부산'],
    '온도': [5, 8],
    '습도': [70, 75],
    '날씨': ['맑음', '흐림']
}
df2 = pd.DataFrame(data2)

In [142]:
#출력
df2

Unnamed: 0,날짜,도시,온도,습도,날씨
0,2023-01-03,서울,5,70,맑음
1,2023-01-04,부산,8,75,흐림


In [146]:
#행을 기준으로 데이터프레임 병합 (concat)
merged_df = pd.concat([df, df2], ignore_index = True)

In [148]:
#출력
merged_df

Unnamed: 0,날짜,도시,온도,습도,날씨
0,2023-01-01,서울,2,55,맑음
1,2023-01-02,서울,3,60,흐림
2,2023-01-01,부산,6,80,밁음
3,2023-01-02,부산,7,85,흐림
4,2023-01-03,서울,5,70,맑음
5,2023-01-04,부산,8,75,흐림


In [150]:
# 새로운 데이터가 병합되어 데이터프레임의 크기가 확장

In [153]:
#요약
#데이터프레임 구조화 다시하기에는 pivot(), melt(), stack(), unstack() 등이 사용되며, 이를 통해 다양한 방식으로 변형 및 재구성 가능.
#크기 조정에는 새로운 행과 열을 추가하거나, drop()을 사용해 삭제하는 방법이 있으며, concat()과 merge()를 통해 데이터를 병합할 수 있음.