# Melt
pandas.melt 함수는 데이터프레임의 구조를 wide(넓은) 형식에서 long(긴) 형식으로 변환할 때 사용하는 매우 유용한 함수입니다. 이를 통해 여러 열로 분리되어 있는 데이터를 하나의 열로 모으거나, 분석 및 시각화에 보다 적합한 형태로 재구조화할 수 있습니다.

* Wide Format: 데이터가 여러 열에 걸쳐 분포되어 있는 형태입니다.
  예를 들어, 학생들의 여러 시험 점수가 각기 다른 열에 저장되어 있는 경우가 해당됩니다.
* Long Format: 데이터가 한 열에 변수의 이름(예: 시험 이름)과 다른 열에 값(예: 점수)으로 저장된 형태입니다. 분석 도구나 시각화 라이브러리에서는 long format이 더 유리할 때가 많습니다.

In [2]:
import pandas as pd

pew = pd.read_csv("pew.csv")
pew.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


## 함수 주요 파라미터
* frame: 변환할 데이터프레임.
* id_vars: 고정할(식별자 역할을 하는) 열의 이름이나 리스트. 이 열들은 melt 후에도 그대로 유지됩니다.
* value_vars: 변환 대상(녹여낼) 열의 이름이나 리스트. 이 열들의 값들이 하나의 열로 합쳐집니다. 지정하지 않으면, id_vars에 포함되지 않은 모든 열이 대상이 됩니다.
* var_name: 새로운 "변수 이름" 열의 이름을 지정합니다. 지정하지 않으면 기본적으로 'variable'이라는 이름이 사용됩니다.
* value_name: 새로운 "값" 열의 이름을 지정합니다. 기본값은 'value'입니다.
* col_level: 멀티인덱스 컬럼을 가진 경우, 특정 레벨을 지정할 수 있습니다.
* ignore_index: 결과 데이터프레임의 인덱스를 무시하고 0부터 다시 생성할지 여부를 결정합니다. (기본값은 True)

In [4]:
pew2 = pd.melt(pew, id_vars = "religion", var_name = "income", value_name = "count")
pew2

Unnamed: 0,religion,income,count
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


# .str 접근자
Pandas의 .str 접근자는 Series(혹은 Index) 내에 저장된 문자열 데이터를 효율적으로 다루기 위한 벡터화된(string vectorized) 문자열 연산 기능을 제공합니다. 이는 파이썬의 기본 문자열 함수들을 for문 등 반복문 없이 Series의 모든 요소에 동시에 적용할 수 있도록 해주어, 코드 작성이 간결해지고 성능상 이점도 있습니다.

* 소문자/대문자 변환

In [6]:
s = pd.Series(['Apple', 'Banana', 'Cherry'])
s.str.lower()

0     apple
1    banana
2    cherry
dtype: object

In [7]:
s.str.upper()

0     APPLE
1    BANANA
2    CHERRY
dtype: object

* 문자열 길이 구하기

In [8]:
s.str.len()

0    5
1    6
2    6
dtype: int64

* 특정 문자열 포함 여부 확인 (contains)

In [9]:
s.str.contains('an')

0    False
1     True
2    False
dtype: bool

* 문자열 시작/끝 여부 확인

In [12]:
s.str.startswith('A')

0     True
1    False
2    False
dtype: bool

In [13]:
s.str.endswith('y')

0    False
1    False
2     True
dtype: bool

* 문자열 분할 (split)

In [14]:
s2 = pd.Series(['John Doe', 'Jane Smith', 'Alice Johnson'])
# 공백을 기준으로 분할하여 리스트로 반환
s2.str.split()

0         [John, Doe]
1       [Jane, Smith]
2    [Alice, Johnson]
dtype: object

* 문자열 연결 (join)

In [15]:
# 리스트 형태의 문자열을 '-'로 연결
s3 = pd.Series([['2025', '02', '13'], ['2025', '03', '01']])
s3.str.join('-')

0    2025-02-13
1    2025-03-01
dtype: object

* 문자열 치환 (replace)

In [16]:
s4 = pd.Series(['apple pie', 'banana pie', 'cherry pie'])
# 'pie'를 'tart'로 변경 (정규표현식 사용 가능)
s4.str.replace('pie', 'tart')

0     apple tart
1    banana tart
2    cherry tart
dtype: object

* 정규표현식 기반 추출 (extract)

In [19]:
s5 = pd.Series(['Order: 12345', 'Order: 67890'])
# 숫자 부분만 추출
s5.str.extract(r'(\d+)')

Unnamed: 0,0
0,12345
1,67890


* 문자열 트리밍 (strip, lstrip, rstrip)

In [22]:
s6 = pd.Series(['  hello  ', '  world'])
s6.str.strip()   # 양쪽 공백 제거

0    hello
1    world
dtype: object

In [24]:
s6.str.lstrip()  # 왼쪽 공백 제거

0    hello  
1      world
dtype: object

In [25]:
s6.str.rstrip()  # 오른쪽 공백 제거

0      hello
1      world
dtype: object

* 문자열 패딩 (pad, zfill)

In [26]:
s7 = pd.Series(['1', '12', '123'])
# 왼쪽을 0으로 채워 3자리 문자열로 만듦
s7.str.zfill(3)

0    001
1    012
2    123
dtype: object

* 대체 작업 (get_dummies)

In [27]:
s8 = pd.Series(['red', 'blue', 'red', 'green'])
s8.str.get_dummies()

Unnamed: 0,blue,green,red
0,0,0,1
1,1,0,0
2,0,0,1
3,0,1,0


## 연습문제
1. 이 데이터를 long format으로 변환하세요.
결과 DataFrame은 다음 열을 포함해야 합니다. (학생, 과목, 점수).

In [6]:
import pandas as pd

data = {
    '학생': ['철수', '영희', '민수'],
    '수학': [80, 90, 75],
    '영어': [85, 95, 80],
    '과학': [78, 88, 92]
}

df = pd.DataFrame(data)
pd.melt(df, id_vars = "학생", var_name = "과목", value_name = "점수")

Unnamed: 0,학생,과목,점수
0,철수,수학,80
1,영희,수학,90
2,민수,수학,75
3,철수,영어,85
4,영희,영어,95
5,민수,영어,80
6,철수,과학,78
7,영희,과학,88
8,민수,과학,92


2. 데이터를 long format으로 변환하세요.
변환 후 DataFrame은 제품, 월, 판매량 열을 가져야 합니다.

In [7]:
data = {
    '제품': ['A', 'B', 'C'],
    '월1': [100, 150, 200],
    '월2': [110, 160, 210],
    '월3': [120, 170, 220]
}

df = pd.DataFrame(data)
df
pd.melt(df, id_vars = "제품", var_name = "월", value_name = "판매량")

Unnamed: 0,제품,월,판매량
0,A,월1,100
1,B,월1,150
2,C,월1,200
3,A,월2,110
4,B,월2,160
5,C,월2,210
6,A,월3,120
7,B,월3,170
8,C,월3,220


3. .str 접근자를 사용하여 각 주소에서 시/도 부분(예: "서울특별시", "부산광역시")만 추출하는 코드를 작성하세요.

In [35]:
data = {
    '이름': ['김철수', '이영희'],
    '주소': ['서울특별시 강남구', '부산광역시 해운대구']
}

df = pd.DataFrame(data)
df

df["주소"].str.split().str[0]

0    서울특별시
1    부산광역시
Name: 주소, dtype: object

4. .str 메소드를 사용하여 '-'를 기준으로 문자열을 분리하고,
분리된 결과에서 앞부분은 제품명, 뒷부분은 제품번호라는 새 열에 저장하는 코드를 작성하세요.

In [60]:
data = {
    '제품코드': ['AB-1234', 'CD-5678', 'EF-9101']
}

df = pd.DataFrame(data)
df

df["제품명"] = df["제품코드"].str.split("-").str[0]
df["제품번호"] = df["제품코드"].str.split("-").str[1]

df

Unnamed: 0,제품코드,제품명,제품번호
0,AB-1234,AB,1234
1,CD-5678,CD,5678
2,EF-9101,EF,9101


5. ```이름``` 열의 공백을 제거하고 모두 소문자로 변환하는 코드를 작성하세요.

In [22]:
data = {
    '이름': ['  Alice  ', '  Bob', 'Charlie  '],
    '점수': [85, 90, 95]
}

df = pd.DataFrame(data)
df

df["이름"].str.strip().str.lower()

0      alice
1        bob
2    charlie
Name: 이름, dtype: object

6. 데이터를 long format으로 변환하고,
새로운 열 이름은 도시, 월, 기온이 되어야 합니다.

In [21]:
data = {
    '도시': ['서울', '부산'],
    '1월': [0, 5],
    '2월': [2, 7],
    '3월': [8, 12]
}

df = pd.DataFrame(data)
df

pd.melt(df, id_vars = "도시", var_name = "월", value_name = "기온")

Unnamed: 0,도시,월,기온
0,서울,1월,0
1,부산,1월,5
2,서울,2월,2
3,부산,2월,7
4,서울,3월,8
5,부산,3월,12


7. .str 접근자를 사용하여 각 문장에서 첫 번째 단어만 추출하는 코드를 작성하세요.

In [42]:
data = {
    '문장': ['Hello world', 'Python is fun', 'Pandas is powerful']
}

df = pd.DataFrame(data)
df["문장"].str.split().str[0]

0     Hello
1    Python
2    Pandas
Name: 문장, dtype: object

8. 각 URL이 'https'로 시작하는지 여부를 판단하는 코드를 작성하세요.

In [43]:
data = {
    '사이트': ['Google', 'Facebook', 'Naver'],
    'URL': ['https://www.google.com', 'http://www.facebook.com', 'https://www.naver.com']
}

df = pd.DataFrame(data)
df["URL"].str.startswith("https")

0     True
1    False
2     True
Name: URL, dtype: bool

9. 먼저, pandas.melt 함수를 사용하여 DataFrame을 long format으로 변환하세요.
결과는 날짜, 판매채널, 정보 열을 가져야 합니다.
그 후, .str 접근자를 사용하여 정보 열에서 ':'를 기준으로 분리하고,
분리된 앞부분은 제품명, 뒷부분은 가격이라는 새 열에 저장하는 코드를 작성하세요.

In [61]:
data = {
    '날짜': ['2025-01-01', '2025-01-02'],
    '온라인': ['사과:1000', '바나나:1500'],
    '오프라인': ['사과:1100', '바나나:1400']
}

df = pd.DataFrame(data)
df2 = pd.melt(df, id_vars = "날짜", var_name = "판매채널", value_name = "정보")

df2["제품명"] = df2["정보"].str.split(":").str[0]
df2["가격"] = df2["정보"].str.split(":").str[1]

df2

Unnamed: 0,날짜,판매채널,정보,제품명,가격
0,2025-01-01,온라인,사과:1000,사과,1000
1,2025-01-02,온라인,바나나:1500,바나나,1500
2,2025-01-01,오프라인,사과:1100,사과,1100
3,2025-01-02,오프라인,바나나:1400,바나나,1400


10. 이 시리즈를 아래와 같은 시리즈로 변환하세요.

```
0    python_pandas
1    data_analysis
dtype: object
```

In [64]:
s9 = pd.Series(['  Python Pandas  ', ' Data Analysis  '])

#s9.str.capitalize().str.strip().str.replace(" ", "_")        내가

s9.str.strip().str.split().str.join("_")

0    Python_Pandas
1    Data_Analysis
dtype: object