<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>


---
-  강의 및 추가 자료 링크
- 강의 링크: [Python 강의](#)

-  소셜 미디어 및 연락처
  - 저자 SNS: [instagram](https://www.instagram.com/ringo_data/?igsh=MTlrdW4xMzZvNTBtdw%3D%3D), [LinkedIn](https://www.linkedin.com/in/ringokwon/)
  - 이메일: ringo.data1@gmail.com

---

# Long Form vs. Wide Form
- Long From:
  - 긴 형식은 데이터를 더 상세하게 나타냄
  - 유연하게 데이터를 조작하고, 다양한 형태의 분석에 적합
- Wide From:
  - 데이터의 전반적인 구조를 한눈에 파악하기 용이

In [1]:
import pandas as pd

# 긴 형식(Long Form) 데이터프레임 생성
long_form_data = {
    'Student': ['Alice', 'Alice', 'Alice', 'Bob', 'Bob', 'Bob'],
    'Subject': ['Math', 'Science', 'English', 'Math', 'Science', 'English'],
    'Score': [90, 85, 95, 75, 80, 78]
}
long_form_df = pd.DataFrame(long_form_data)

# 넓은 형식(Wide Form) 데이터프레임 생성
wide_form_data = {
    'Student': ['Alice', 'Bob'],
    'Math': [90, 75],
    'Science': [85, 80],
    'English': [95, 78]
}
wide_form_df = pd.DataFrame(wide_form_data)

In [2]:
long_form_df

Unnamed: 0,Student,Subject,Score
0,Alice,Math,90
1,Alice,Science,85
2,Alice,English,95
3,Bob,Math,75
4,Bob,Science,80
5,Bob,English,78


In [3]:
wide_form_df

Unnamed: 0,Student,Math,Science,English
0,Alice,90,85,95
1,Bob,75,80,78


# df.melt()
- Unpivot (Melt) 예시: 넓은 형식(Wide Form)에서 긴 형식(Long Form)으로 변환
- 주요 파라미터
  - `id_vars`: 데이터의 식별자 역할을 하는 열(들)의 이름을 나타냄. 이 열들은 그대로 유지됨.
  - `value_vars`: 'long form'으로 변환하고자 하는 열(들)의 이름.
  - `var_name`: value_vars에 해당하는 열 이름들을 담을 새로운 열의 이름.
  - `value_name`: value_vars에서의 값을 담을 새로운 열의 이름.
```python
unpivot_df = wide_form_df.melt(
  id_vars='col_1'
  , value_vars = ['col_2', 'col_3',...]
  , var_name='col_name_1' # variable name
  , value_name='col_name_2'
  )
```

In [4]:
unpivot_df = wide_form_df.melt(
id_vars='Student'
, value_vars = ['Math', 'Science', 'English']
, var_name='subject' # variable name
, value_name='score'
)

unpivot_df.sort_values('Student')

Unnamed: 0,Student,subject,score
0,Alice,Math,90
2,Alice,Science,85
4,Alice,English,95
1,Bob,Math,75
3,Bob,Science,80
5,Bob,English,78


# df.pivot_table()
- 기본 개념:
  - 데이터 프레임을 재구조화하는 데 사용됨.
  - 특정 키 값에 따라 데이터를 요약하고, 그룹화함.
- 주요 파라미터:
  - `index`: 피벗 테이블의 로우를 그룹화하는데 사용되는 컬럼(들).
  - `columns`: 피벗 테이블의 컬럼을 그룹화하는데 사용되는 컬럼(들).
  - `values`: 분석하려는 데이터 컬럼.
  - `aggfunc`: 집계 함수. 예를 들어, np.sum, np.mean (기본값은 np.mean).
```python
df.pivot_table(
  index='col_1'
  , columns='col_2'
  , values='col_3'
  , aggfunc='min/max/...'
  )
```

In [5]:
import pandas as pd

# 예제 데이터프레임 생성
data = pd.DataFrame({
    'year': [2020, 2020, 2021, 2021, 2020, 2020, 2021, 2021],
    'region': ['East', 'West', 'East', 'West', 'East', 'West', 'East', 'West'],
    'category': ['Electronics', 'Electronics', 'Electronics', 'Electronics', 'Clothing', 'Clothing', 'Clothing', 'Clothing'],
    'sales': [100, 200, 300, 400, 150, 250, 350, 450],
    'profit': [20, 40, 60, 80, 30, 50, 70, 90]
})


In [6]:
data

Unnamed: 0,year,region,category,sales,profit
0,2020,East,Electronics,100,20
1,2020,West,Electronics,200,40
2,2021,East,Electronics,300,60
3,2021,West,Electronics,400,80
4,2020,East,Clothing,150,30
5,2020,West,Clothing,250,50
6,2021,East,Clothing,350,70
7,2021,West,Clothing,450,90


In [8]:
data.pivot_table(
index='region'
, columns='year'
, values='sales'
, aggfunc='sum'
)

year,2020,2021
region,Unnamed: 1_level_1,Unnamed: 2_level_1
East,250,650
West,450,850


In [9]:
data.pivot_table(
index='region'
, columns='category'
, values='sales'
, aggfunc='sum'
)

category,Clothing,Electronics
region,Unnamed: 1_level_1,Unnamed: 2_level_1
East,500,400
West,700,600


In [10]:
data.pivot_table(
index='region'
, columns='category'
, values='sales'
, aggfunc='mean'
)

category,Clothing,Electronics
region,Unnamed: 1_level_1,Unnamed: 2_level_1
East,250.0,200.0
West,350.0,300.0


# Exercise
- 일시정지 후 스스로 문제를 풀어보고 강의를 수강해 주세요

1. 판다스의 melt 함수를 사용해 'iris' 데이터셋을 'long form'으로 변환하시오
  - 'variable' 열의 이름을 'measure_type'으로, 'value' 열의 이름을 'measure_value'로 변경
  - iris_long으로 저장
2. iris_long을 활용하여 species 와 measure_type 별 평균을 구하시오

In [11]:
import pandas as pd
import seaborn as sns

# iris 데이터셋 로드
iris = sns.load_dataset('iris' , cache = False)


In [12]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [13]:
iris_long = iris.melt(
id_vars='species'
, value_vars = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
, var_name='measure_type' # variable name
, value_name='measure_value'
)

iris_long

Unnamed: 0,species,measure_type,measure_value
0,setosa,sepal_length,5.1
1,setosa,sepal_length,4.9
2,setosa,sepal_length,4.7
3,setosa,sepal_length,4.6
4,setosa,sepal_length,5.0
...,...,...,...
595,virginica,petal_width,2.3
596,virginica,petal_width,1.9
597,virginica,petal_width,2.0
598,virginica,petal_width,2.3


In [14]:
# iris_long을 활용하여 species 와 measure_type 별 평균을 구하시오
iris_long.pivot_table(
index='species'
, columns='measure_type'
, values='measure_value'
, aggfunc='mean'
)



measure_type,petal_length,petal_width,sepal_length,sepal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.462,0.246,5.006,3.428
versicolor,4.26,1.326,5.936,2.77
virginica,5.552,2.026,6.588,2.974


---
-  🔒 저작권 및 사용 조건 (중요)
  - **저작권 보호**: 이 강의 노트는 저작권법에 의해 엄격히 보호됩니다.
  - **무단 사용 금지**: 어떠한 형태로든 상업적 사용이 엄격히 금지됩니다.
  - **개인용도 한정**: 이 자료는 교육 목적으로만 사용이 허가되며, 개인적인 학습 외의 목적으로 사용할 수 없습니다.
  - **위반 시 조치**: 저작권법 위반 시 법적 조치가 취해질 수 있습니다.
---

<img src="https://i.ibb.co/1MPXBQZ/ringodata-banner-v2.jpg" width="200"/>
