# 2주차: Pandas로 구조화된 데이터 다루기

## 학습 목표
- 구조화된 데이터를 효율적으로 다루는 방법을 익히자
- Series와 DataFrame의 개념과 활용법을 이해하자
- 데이터 선택, 필터링, 정렬 기법을 연습하자
- groupby와 집계 함수로 데이터를 요약하고 분석하자

## 1. Pandas 라이브러리 소개

Pandas는 데이터 분석을 위한 파이썬의 핵심 라이브러리다. 음원 분석 연구에서 메타데이터 관리, 특징 추출 결과 정리, 실험 결과 분석 등에 필수적이다.

구조화된 데이터를 다루기 위한 Series와 DataFrame이라는 두 가지 주요 자료구조를 제공한다.
엑셀이나 SQL 데이터베이스의 기능을 파이썬에서 구현할 수 있게 해준다.
음원 데이터의 메타정보(파일명, 장르, BPM, 길이 등)를 체계적으로 관리하고 분석할 수 있다.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# 기본 설정
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.figsize'] = (10, 6)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 100)

print(f"Pandas 버전: {pd.__version__}")
print("Pandas 라이브러리 로딩 완료!")

## 2. Series - 1차원 데이터 구조

### 2.1 Series 생성과 기본 조작

Series는 인덱스가 있는 1차원 배열로, NumPy 배열의 확장 버전이라고 볼 수 있다.
각 데이터 포인트에 라벨(인덱스)을 부여할 수 있어 데이터를 더 직관적으로 다룰 수 있다.
음원 분석에서는 단일 특징값들(예: 각 트랙의 BPM)을 저장하는 데 유용하다.

In [None]:
# Series 생성 - 리스트로부터
bpm_values = pd.Series([120, 128, 140, 96, 110])
print("BPM Series:")
print(bpm_values)
print()

# 인덱스를 지정한 Series
tracks = ['Track_A', 'Track_B', 'Track_C', 'Track_D', 'Track_E']
bpm_series = pd.Series([120, 128, 140, 96, 110], index=tracks)
print("인덱스가 있는 BPM Series:")
print(bpm_series)
print()

# 딕셔너리로부터 Series 생성
genre_dict = {
    'Track_A': 'House',
    'Track_B': 'Techno',
    'Track_C': 'Drum&Bass',
    'Track_D': 'Hip-Hop',
    'Track_E': 'Pop'
}
genre_series = pd.Series(genre_dict)
print("장르 Series:")
print(genre_series)

### 2.2 Series 인덱싱과 슬라이싱

Series는 정수 인덱스와 라벨 인덱스를 모두 지원한다.
NumPy 배열처럼 슬라이싱이 가능하며, 딕셔너리처럼 키로 접근할 수도 있다.
불리언 인덱싱을 통해 조건에 맞는 데이터만 선택할 수 있다.

In [None]:
# 인덱스를 통한 접근
print("Track_A의 BPM:", bpm_series['Track_A'])
print("첫 번째 트랙의 BPM:", bpm_series.iloc[0])
print()

# 슬라이싱
print("처음 3개 트랙:")
print(bpm_series[:3])
print()

# 조건부 선택
fast_tracks = bpm_series[bpm_series > 120]
print("BPM이 120보다 빠른 트랙:")
print(fast_tracks)
print()

# 여러 인덱스 선택
selected_tracks = bpm_series[['Track_A', 'Track_C', 'Track_E']]
print("선택된 트랙들:")
print(selected_tracks)

## 3. DataFrame - 2차원 데이터 구조

### 3.1 DataFrame 생성

DataFrame은 표 형태의 2차원 데이터 구조로, 엑셀 스프레드시트와 유사하다.
각 열(column)은 Series로 구성되며, 서로 다른 데이터 타입을 가질 수 있다.
음원 데이터셋의 다양한 특징들을 하나의 표로 관리할 때 매우 유용하다.

In [None]:
# 딕셔너리로 DataFrame 생성
audio_data = {
    'filename': ['track1.wav', 'track2.wav', 'track3.wav', 'track4.wav', 'track5.wav'],
    'duration': [180, 240, 200, 165, 210],  # 초 단위
    'bpm': [120, 128, 140, 96, 110],
    'genre': ['House', 'Techno', 'Drum&Bass', 'Hip-Hop', 'Pop'],
    'energy': [0.8, 0.9, 0.95, 0.6, 0.7]
}

df = pd.DataFrame(audio_data)
print("음원 데이터프레임:")
print(df)
print()
print("데이터프레임 정보:")
print(df.info())

### 3.2 DataFrame 기본 속성과 메서드

DataFrame은 데이터를 탐색하고 이해하는 데 필요한 다양한 속성과 메서드를 제공한다.
shape, columns, dtypes 등의 속성으로 데이터의 구조를 파악할 수 있다.
head(), tail(), describe() 등의 메서드로 데이터를 빠르게 살펴볼 수 있다.

In [None]:
# 기본 속성
print(f"DataFrame 형태: {df.shape}")
print(f"행 개수: {len(df)}")
print(f"열 이름: {df.columns.tolist()}")
print(f"인덱스: {df.index.tolist()}")
print()

# 데이터 타입
print("각 열의 데이터 타입:")
print(df.dtypes)
print()

# 기본 통계
print("수치형 데이터 통계:")
print(df.describe())
print()

# 처음/마지막 데이터 확인
print("처음 3개 행:")
print(df.head(3))

## 4. 데이터 선택과 필터링

### 4.1 열(Column) 선택

DataFrame에서 특정 열을 선택하는 것은 데이터 분석의 기본이다.
단일 열을 선택하면 Series가 반환되고, 여러 열을 선택하면 DataFrame이 반환된다.
대괄호 표기법과 점 표기법을 모두 사용할 수 있지만, 대괄호가 더 안전하고 유연하다.

In [None]:
# 단일 열 선택 (Series 반환)
bpm_column = df['bpm']
print("BPM 열 (Series):")
print(bpm_column)
print(f"타입: {type(bpm_column)}")
print()

# 여러 열 선택 (DataFrame 반환)
selected_cols = df[['filename', 'bpm', 'genre']]
print("선택된 열들 (DataFrame):")
print(selected_cols)
print(f"타입: {type(selected_cols)}")
print()

# 새로운 열 추가
df['duration_min'] = df['duration'] / 60
print("분 단위 duration 열 추가:")
print(df[['filename', 'duration', 'duration_min']])

### 4.2 조건부 필터링

불리언 인덱싱을 통해 특정 조건을 만족하는 행만 선택할 수 있다.
여러 조건을 조합할 때는 &(and), |(or), ~(not) 연산자를 사용한다.
query() 메서드를 사용하면 SQL과 유사한 문법으로 필터링할 수 있다.

In [None]:
# 단일 조건 필터링
fast_tracks = df[df['bpm'] > 120]
print("BPM이 120 초과인 트랙:")
print(fast_tracks)
print()

# 복합 조건 필터링
electronic_fast = df[(df['bpm'] > 120) & (df['genre'].isin(['Techno', 'House', 'Drum&Bass']))]
print("빠른 일렉트로닉 트랙:")
print(electronic_fast)
print()

# query 메서드 사용
long_energetic = df.query('duration > 180 and energy > 0.7')
print("3분 이상이면서 에너지가 높은 트랙:")
print(long_energetic)
print()

# isin() 메서드로 여러 값 중 하나 선택
selected_genres = df[df['genre'].isin(['House', 'Techno'])]
print("House 또는 Techno 트랙:")
print(selected_genres)

### 4.3 loc과 iloc을 이용한 선택

loc은 라벨 기반 인덱싱, iloc은 정수 위치 기반 인덱싱을 제공한다.
loc은 슬라이싱 시 끝점을 포함하고, iloc은 파이썬의 일반적인 슬라이싱처럼 끝점을 제외한다.
행과 열을 동시에 선택할 때 매우 유용하며, 데이터의 특정 부분을 정확하게 선택할 수 있다.

In [None]:
# loc - 라벨 기반 선택
print("loc을 사용한 선택:")
print("행 1의 'bpm'과 'genre':", df.loc[1, ['bpm', 'genre']].tolist())
print()
print("행 0~2의 'filename'부터 'genre'까지:")
print(df.loc[0:2, 'filename':'genre'])
print()

# iloc - 위치 기반 선택
print("iloc을 사용한 선택:")
print("첫 번째 행, 두 번째 열:", df.iloc[0, 1])
print()
print("처음 3행, 처음 3열:")
print(df.iloc[:3, :3])
print()

# 조건과 함께 사용
high_energy_bpm = df.loc[df['energy'] > 0.7, ['filename', 'bpm', 'energy']]
print("에너지가 높은 트랙의 BPM:")
print(high_energy_bpm)

## 5. 데이터 정렬

### 5.1 값 기준 정렬

데이터를 특정 열의 값을 기준으로 정렬하는 것은 데이터 탐색의 기본이다.
sort_values() 메서드를 사용하여 오름차순 또는 내림차순으로 정렬할 수 있다.
여러 열을 기준으로 정렬할 수도 있으며, 각 열마다 다른 정렬 방향을 지정할 수 있다.

In [None]:
# BPM으로 정렬 (오름차순)
sorted_by_bpm = df.sort_values('bpm')
print("BPM 오름차순 정렬:")
print(sorted_by_bpm[['filename', 'bpm', 'genre']])
print()

# 에너지로 정렬 (내림차순)
sorted_by_energy = df.sort_values('energy', ascending=False)
print("에너지 내림차순 정렬:")
print(sorted_by_energy[['filename', 'energy', 'genre']])
print()

# 여러 열로 정렬
sorted_multi = df.sort_values(['genre', 'bpm'], ascending=[True, False])
print("장르별로 정렬 후 BPM 내림차순:")
print(sorted_multi[['filename', 'genre', 'bpm']])

## 6. GroupBy와 집계 함수

### 6.1 기본 GroupBy 연산

GroupBy는 데이터를 그룹별로 나누어 분석할 수 있게 해주는 강력한 기능이다.
Split-Apply-Combine 패러다임을 따르며, SQL의 GROUP BY와 유사한 기능을 제공한다.
음원 데이터를 장르별, 아티스트별로 분석할 때 매우 유용하다.

In [None]:
# 더 많은 데이터로 DataFrame 확장
extended_data = {
    'filename': ['track1.wav', 'track2.wav', 'track3.wav', 'track4.wav', 'track5.wav',
                 'track6.wav', 'track7.wav', 'track8.wav', 'track9.wav', 'track10.wav'],
    'duration': [180, 240, 200, 165, 210, 195, 220, 175, 205, 190],
    'bpm': [120, 128, 140, 96, 110, 125, 130, 95, 118, 122],
    'genre': ['House', 'Techno', 'Drum&Bass', 'Hip-Hop', 'Pop',
              'House', 'Techno', 'Hip-Hop', 'Pop', 'House'],
    'energy': [0.8, 0.9, 0.95, 0.6, 0.7, 0.85, 0.88, 0.55, 0.75, 0.82],
    'year': [2020, 2021, 2022, 2020, 2021, 2022, 2021, 2020, 2022, 2021]
}

df_extended = pd.DataFrame(extended_data)

# 장르별 그룹화
genre_groups = df_extended.groupby('genre')

# 기본 집계
print("장르별 평균 BPM:")
print(genre_groups['bpm'].mean().round(1))
print()

print("장르별 트랙 수:")
print(genre_groups.size())
print()

# 여러 집계 함수 적용
print("장르별 다양한 통계:")
genre_stats = genre_groups.agg({
    'bpm': ['mean', 'min', 'max'],
    'energy': 'mean',
    'duration': 'mean'
}).round(2)
print(genre_stats)

### 6.2 다중 그룹화와 피벗 테이블

여러 열을 기준으로 그룹화하면 더 세밀한 분석이 가능하다.
pivot_table() 함수는 엑셀의 피벗 테이블과 같은 기능을 제공한다.
교차 분석과 다차원 집계를 통해 데이터의 패턴을 발견할 수 있다.

In [None]:
# 다중 그룹화
multi_group = df_extended.groupby(['genre', 'year'])
print("장르와 연도별 평균 에너지:")
print(multi_group['energy'].mean().round(2))
print()

print(df_extended)
print()

# 피벗 테이블 생성
pivot = pd.pivot_table(df_extended, 
                       values='duration',
                       index='year',
                       columns='genre',
                       aggfunc='mean',
                       fill_value=None)
print("장르-연도별 평균 에너지 피벗 테이블:")
print(pivot.round(2))
print()

# 여러 값에 대한 피벗 테이블
multi_pivot = pd.pivot_table(df_extended,
                            values=['bpm', 'energy'],
                            index='genre',
                            aggfunc={'bpm': 'mean', 'energy': 'max'})
print("장르별 평균 BPM과 최대 에너지:")
print(multi_pivot.round(2))

## 7. 결측치 처리

### 7.1 결측치 확인과 처리

실제 데이터에는 항상 결측치(missing values)가 존재한다.
결측치를 어떻게 처리하느냐에 따라 분석 결과가 크게 달라질 수 있다.
Pandas는 결측치를 확인하고 처리하는 다양한 방법을 제공한다.

In [None]:
# 결측치가 있는 데이터 생성
data_with_nan = {
    'track_id': ['T001', 'T002', 'T003', 'T004', 'T005'],
    'artist': ['Artist_A', 'Artist_B', None, 'Artist_D', 'Artist_E'],
    'bpm': [120, None, 140, 96, 110],
    'key': ['C', 'G', 'A', None, 'D'],
    'loudness': [-5.2, -4.8, None, -6.1, -5.5]
}

df_nan = pd.DataFrame(data_with_nan)
print("결측치가 있는 DataFrame:")
print(df_nan)
print()

# 결측치 확인
print("결측치 개수:")
print(df_nan.isnull().sum())
print()

print("결측치 비율:")
print((df_nan.isnull().sum() / len(df_nan) * 100).round(1))
print()

# 결측치가 있는 행 확인
print("결측치가 있는 행:")
print(df_nan.isnull())
print(df_nan[df_nan.isnull().any(axis=1)])

### 7.2 결측치 처리 전략

결측치 처리에는 여러 전략이 있으며, 데이터의 특성에 따라 적절한 방법을 선택해야 한다.
삭제, 대체, 보간 등의 방법을 사용할 수 있으며, 각각 장단점이 있다.
음원 데이터에서는 특히 메타데이터의 결측치를 신중하게 처리해야 한다.

In [None]:
# 결측치 삭제
df_dropped = df_nan.dropna()  # 결측치가 있는 모든 행 삭제
print("결측치가 있는 행 삭제:")
print(df_dropped)
print()

# 특정 열의 결측치만 고려하여 삭제
df_dropped_bpm = df_nan.dropna(subset=['bpm'])
print("BPM 결측치가 있는 행만 삭제:")
print(df_dropped_bpm)
print()

# 결측치 채우기
df_filled = df_nan.copy()
df_filled['bpm'].fillna(df_filled['bpm'].mean(), inplace=True)  # 평균으로 채우기
df_filled['key'].fillna('Unknown', inplace=True)  # 특정 값으로 채우기
df_filled['artist'].fillna(method='ffill', inplace=True)  # 이전 값으로 채우기
df_filled['loudness'].fillna(df_filled['loudness'].median(), inplace=True)  # 중앙값으로 채우기

print("결측치를 채운 DataFrame:")
print(df_filled)
print()

# 보간법 사용
numeric_cols = ['bpm', 'loudness']
df_interpolated = df_nan.copy()
df_interpolated[numeric_cols] = df_interpolated[numeric_cols].interpolate()
print("보간법으로 채운 수치형 데이터:")
print(df_interpolated)

## 8. 데이터 변환과 연산

### 8.1 apply 함수를 이용한 데이터 변환

apply() 함수는 DataFrame이나 Series의 각 요소에 함수를 적용할 수 있게 해준다.
복잡한 변환 로직을 간결하게 표현할 수 있으며, 벡터화된 연산보다 유연하다.
음원 데이터의 특징을 추출하거나 변환할 때 매우 유용하다.

In [None]:
# 샘플 데이터 준비
df_transform = df_extended.copy()

# 함수를 적용한 새로운 열 생성
def categorize_tempo(bpm):
    if bpm < 100:
        return 'Slow'
    elif bpm < 120:
        return 'Medium'
    elif bpm < 140:
        return 'Fast'
    else:
        return 'Very Fast'

df_transform['tempo_category'] = df_transform['bpm'].apply(categorize_tempo)
print("템포 카테고리 추가:")
print(df_transform[['filename', 'bpm', 'tempo_category']])
print()

# 여러 열을 사용한 계산
df_transform['energy_per_minute'] = df_transform.apply(
    lambda row: row['energy'] / (row['duration'] / 60), axis=1
)

print("분당 에너지 계산:")
print(df_transform[['filename', 'energy', 'duration', 'energy_per_minute']].round(3))
print()

# 문자열 연산
df_transform['track_info'] = df_transform.apply(
    lambda row: f"{row['genre']} - {row['bpm']}BPM", axis=1
)
print("트랙 정보 문자열:")
print(df_transform[['filename', 'track_info']].head())

## 9. 데이터 결합

### 9.1 DataFrame 병합과 조인

여러 데이터소스를 결합하는 것은 실제 데이터 분석에서 매우 중요한 작업이다.
merge(), join(), concat() 등의 메서드를 통해 다양한 방식으로 데이터를 결합할 수 있다.
음원 데이터와 아티스트 정보, 차트 데이터 등을 결합할 때 필수적이다.

In [None]:
# 첫 번째 DataFrame: 트랙 정보
tracks_df = pd.DataFrame({
    'track_id': ['T001', 'T002', 'T003', 'T004'],
    'title': ['Song A', 'Song B', 'Song C', 'Song D'],
    'artist_id': ['A01', 'A02', 'A01', 'A03']
})

# 두 번째 DataFrame: 아티스트 정보
artists_df = pd.DataFrame({
    'artist_id': ['A01', 'A02', 'A03'],
    'artist_name': ['Artist X', 'Artist Y', 'Artist Z'],
    'country': ['USA', 'UK', 'Canada']
})

# 세 번째 DataFrame: 스트리밍 데이터
streaming_df = pd.DataFrame({
    'track_id': ['T001', 'T002', 'T003', 'T005'],
    'streams': [1000000, 500000, 750000, 200000],
    'playlist_adds': [150, 80, 120, 30]
})

print("트랙 정보:")
print(tracks_df)
print("\n아티스트 정보:")
print(artists_df)
print("\n스트리밍 데이터:")
print(streaming_df)
print()

# Inner join (교집합)
merged_inner = pd.merge(tracks_df, artists_df, on='artist_id')
print("Inner Join (트랙 + 아티스트):")
print(merged_inner)
print()

# Left join (왼쪽 기준)
merged_left = pd.merge(tracks_df, streaming_df, on='track_id', how='left')
print("Left Join (트랙 + 스트리밍):")
print(merged_left)
print()

# 여러 DataFrame 결합
full_data = tracks_df.merge(artists_df, on='artist_id').merge(streaming_df, on='track_id', how='left')
print("전체 데이터 결합:")
print(full_data)

## 10. 실전 음원 메타데이터 분석

### 10.1 종합 분석 예제

지금까지 배운 Pandas 기능들을 활용하여 실제 음원 메타데이터를 분석해보자.
데이터 로딩부터 정제, 변환, 분석, 시각화까지 전체 워크플로우를 수행한다.
이러한 분석 과정은 실제 음원 연구와 음악 추천 시스템 개발에 직접 활용될 수 있다.

In [None]:
# 종합 음원 데이터셋 생성
np.random.seed(42)
n_tracks = 50

comprehensive_data = {
    'track_id': [f'T{i:03d}' for i in range(1, n_tracks + 1)],
    'title': [f'Track_{i}' for i in range(1, n_tracks + 1)],
    'artist': np.random.choice(['Artist_A', 'Artist_B', 'Artist_C', 'Artist_D', 'Artist_E'], n_tracks),
    'genre': np.random.choice(['Pop', 'Rock', 'Electronic', 'Hip-Hop', 'Jazz'], n_tracks, p=[0.3, 0.2, 0.25, 0.15, 0.1]),
    'bpm': np.random.randint(60, 180, n_tracks),
    'duration_sec': np.random.randint(120, 360, n_tracks),
    'energy': np.random.uniform(0.3, 1.0, n_tracks),
    'valence': np.random.uniform(0.1, 1.0, n_tracks),  # 긍정성
    'danceability': np.random.uniform(0.4, 1.0, n_tracks),
    'release_year': np.random.choice([2020, 2021, 2022, 2023], n_tracks),
    'streams': np.random.randint(10000, 5000000, n_tracks)
}

music_df = pd.DataFrame(comprehensive_data)

# 데이터 전처리
music_df['duration_min'] = music_df['duration_sec'] / 60
music_df['popularity_score'] = pd.qcut(music_df['streams'], q=5, labels=['Very Low', 'Low', 'Medium', 'High', 'Very High'])

print("음원 데이터셋 정보:")
print(music_df.info())
print("\n처음 5개 트랙:")
print(music_df.head())

### 10.2 장르별 특성 분석

In [None]:
# 장르별 주요 특성 분석
genre_analysis = music_df.groupby('genre').agg({
    'bpm': ['mean', 'std'],
    'energy': 'mean',
    'valence': 'mean',
    'danceability': 'mean',
    'streams': 'sum',
    'track_id': 'count'
}).round(2)

genre_analysis.columns = ['BPM_평균', 'BPM_표준편차', '에너지', '긍정성', '댄스성', '총_스트림', '트랙_수']
print("장르별 특성 분석:")
print(genre_analysis)
print()

# 가장 인기있는 장르
genre_popularity = music_df.groupby('genre')['streams'].sum().sort_values(ascending=False)
print("장르별 총 스트리밍 수 (인기도):")
print(genre_popularity)
print()

# 상관관계 분석
numeric_cols = ['bpm', 'energy', 'valence', 'danceability', 'streams']
correlation_matrix = music_df[numeric_cols].corr()
print("특성 간 상관관계:")
print(correlation_matrix.round(2))

### 10.3 아티스트별 성과 분석

In [None]:
# 아티스트별 성과 지표
artist_performance = music_df.groupby('artist').agg({
    'track_id': 'count',
    'streams': ['sum', 'mean'],
    'energy': 'mean',
    'genre': lambda x: x.mode()[0] if not x.mode().empty else 'Unknown'  # 주요 장르
}).round(0)

artist_performance.columns = ['트랙_수', '총_스트림', '평균_스트림', '평균_에너지', '주요_장르']
artist_performance = artist_performance.sort_values('총_스트림', ascending=False)

print("아티스트별 성과 분석:")
print(artist_performance)
print()

# 최고 성과 트랙
top_tracks = music_df.nlargest(10, 'streams')[['title', 'artist', 'genre', 'bpm', 'streams']]
print("Top 10 트랙 (스트리밍 기준):")
print(top_tracks)

### 10.4 시간대별 트렌드 분석

In [None]:
# 연도별 트렌드
yearly_trends = music_df.groupby('release_year').agg({
    'bpm': 'mean',
    'energy': 'mean',
    'valence': 'mean',
    'track_id': 'count'
}).round(2)

yearly_trends.columns = ['평균_BPM', '평균_에너지', '평균_긍정성', '릴리즈_수']
print("연도별 음악 트렌드:")
print(yearly_trends)
print()

# 장르별 연도 분포
genre_year_dist = pd.crosstab(music_df['genre'], music_df['release_year'])
print("장르별 연도 분포:")
print(genre_year_dist)

# 시각화를 위한 데이터 준비
viz_data = music_df[['genre', 'energy', 'valence', 'danceability']].groupby('genre').mean()

# 막대 그래프로 시각화
fig, ax = plt.subplots(figsize=(10, 6))
viz_data.plot(kind='bar', ax=ax)
ax.set_title('장르별 평균 특성값', fontsize=14, fontweight='bold')
ax.set_xlabel('장르')
ax.set_ylabel('값')
ax.legend(['에너지', '긍정성', '댄스성'])
ax.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 11. 추천 실습

### 실습 1: 자신만의 음원 데이터셋 구성

실제 음원 파일이나 스트리밍 서비스의 API를 활용하여 데이터를 수집해보자.
수집한 데이터를 DataFrame으로 구성하고 기본적인 정제 작업을 수행해보자.
데이터의 품질을 평가하고 분석에 적합한 형태로 변환하는 연습을 해보자.

In [None]:
# 실습 제안:
# 1. Spotify API나 Last.fm API를 활용하여 실제 음원 데이터 수집
# 2. 수집한 데이터를 DataFrame으로 변환
# 3. 결측치 확인 및 처리
# 4. 데이터 타입 변환 및 정규화
# 5. 기본 통계량 계산 및 시각화

### 실습 2: 음악 추천 시스템 프로토타입

배운 내용을 활용하여 간단한 음악 추천 시스템을 만들어보자.
사용자가 좋아하는 트랙의 특성을 분석하고 유사한 트랙을 찾아보자.
GroupBy와 집계 함수를 활용하여 개인화된 추천을 생성해보자.

In [None]:
# 실습 제안:
# 1. 사용자가 좋아하는 트랙들의 평균 특성 계산
# 2. 각 트랙과의 유사도 계산 (유클리드 거리 등)
# 3. 가장 유사한 상위 N개 트랙 추천
# 4. 장르, 아티스트 등을 고려한 다양성 확보
# 5. 추천 결과를 DataFrame으로 정리하여 제시

### 심화 학습을 위한 제안

더 깊이 있는 학습을 원한다면 다음 주제들을 탐구해보자:

1. **시계열 데이터 처리**: 날짜/시간 인덱스를 활용한 음원 스트리밍 패턴 분석
2. **대용량 데이터 처리**: chunk 단위 처리, Dask 활용법
3. **데이터베이스 연동**: SQL 쿼리와 Pandas의 결합
4. **고급 집계 기법**: window 함수, rolling 통계
5. **데이터 시각화 통합**: Seaborn, Plotly와의 연동

이러한 기술들은 실제 음원 분석 프로젝트에서 매우 유용하게 활용될 수 있다.