# Numpy

In [2]:
import numpy as np
import pandas as pd

In [93]:
# 단순 numpy array 생성 기초
zeros_array = np.zeros((3, 4))
zeros_array
# np.ones((2, 3))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [112]:
# np.ones(15, dtype=bool).reshape(5, 3)
np.full(15, True, dtype=bool).reshape(5, 3)

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True,  True,  True]])

In [113]:
# np.zeros(15, dtype=bool).reshape(5, 3)
# np.full(15, False, dtype=bool).reshape(5, 3)
~np.full(15, True, dtype=bool).reshape(5, 3)

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [180]:
# np.arange(14)
# np.arange(0, 14, 2)
arr = np.arange(12).reshape(4, 3)
# arr = arr.reshape(-1)
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [131]:
# Numpy 유용한 계산 방식들

# np.sum(arr)
# np.sum(arr, axis=1)
# np.mean(arr)
# np.mean(arr, axis=1)
# np.mod(arr, 2)
# np.where(arr > 4, arr, 0)
# np.random.normal() # 정규분포 난수
np.random.normal(0, 1, 30) # 평균 0, 표준편차 1
# np.dot(np.arange(12).reshape(3, 4), arr)

# 기타 numpy 함수들
# 1. 산술 연산 함수
# np.add(a, b)
# np.subtract(a, b)
# np.multiply(a, b) | a * b | 각 요소별로 곱셈을 수행합
# np.divide(a, b) | a / b | 각 요소별로 나눗셈을 수행 (결과는 항상 float)
# np.floor_divide(a, b) | a // b | 각 요소별로 나눗셈의 정수 몫
# np.power(a, b) | a ** b | 각 요소별로 a의 b 제곱을 계산
# np.abs(a) 각 요소의 절댓값
# np.negative(a) 각 요소의 부호 반전

# 2. 삼각함수
#  np.sin(a), np.cos(a), np.tan(a)
#  np.arcsin(a), np.arccos(a), np.arctan(a)
#  np.hypot(a, b) | sqrt(a**2 + b**2) 와 동일, 유클리드 거리를 계산

# 3. 비교 및 논리 연산 함수(True/False 배열로 반환)
#  np.equal(a, b) 두 요소가 같은지 비교
#  np.not_equal(a, b) 두 요소가 다른지 비교
#  np.less(a, b) a가 b보다 작은지 비교
#  np.less_equal(a, b) | a <= b | a가 b보다 작거나 같은지 비교
#  np.greater(a, b) | a > b | a가 b보다 큰지 비교
#  np.greater_equal(a, b) | a >= b | a가 b보다 크거나 같은지 비교
#  np.logical_and(a, b) 두 요소가 모두 True인지 확인
#  np.logical_or(a, b) 두 요소 중 하나라도 True인지 확인
#  np.logical_not(a) 각 요소의 논리값을 반전 (True -> False)
#  np.isnan(a) 각 요소가 NaN(Not a Number)인지 확인
#  np.isinf(a) 각 요소가 무한대(infinity)인지 확인

# 기타 numpy 수학함수
# np.sqrt(a) 각 요소의 제곱근을 계산
# np.exp(a) 각 요소의 지수 함수(e^a) 값을 계산
# np.log(a), np.log10(a), np.log2(a) 자연로그, 상용로그(밑 10), 이진로그(밑 2)를 계산
# np.ceil(a) 올림 연산
# np.floor(a) 내림 연산
# np.round(a, decimals=n) 각 요소를 소수점 n자리까지 반올림
# np.maximum(a, b), np.minimum(a, b) 두 배열의 각 요소를 비교하여 더 큰 값 또는 더 작은 값 선택
# np.clip(a, min, max) 배열 a의 값을 min보다 작으면 min, max보다 크면 max로 제한

array([-0.19330019,  0.88124547, -0.8707687 ,  0.81488346,  0.58645017,
       -0.55488937, -0.32322683, -0.12320271,  1.35406   ,  0.57612942,
       -1.73707828, -0.78038137, -0.41727292,  0.52887787, -1.66687497,
       -0.94241094,  0.42369966, -0.33425453, -0.41583465,  0.62863443,
        1.45376311,  0.97711017, -2.30115819, -0.02112213, -1.54907248,
        1.67597808, -0.9734414 ,  0.371848  ,  2.25211979,  1.37633686])

In [128]:
data = np.random.randint(1, 100, 30)

print(f"원본 데이터: {data}")

# False로 초기화된 마스크 생성
mask = np.zeros(30, dtype=bool)
print(mask)

# 조건에 따라 마스크 업데이트
mask[data > 50] = True  # 50보다 큰 값들만 True로 변경

print(f'\n\n{mask}')

원본 데이터: [54 55 83 56 75 22 61 80 64 84 31 92 58 73 71 71  3 53 41 66 24 27 11 15
 10 51 40 58 18 51]
[False False False False False False False False False False False False
 False False False False False False False False False False False False
 False False False False False False]


[ True  True  True  True  True False  True  True  True  True False  True
  True  True  True  True False  True False  True False False False False
 False  True False  True False  True]


In [182]:
# np.einsum() - Einstein Summation Convention 다차원 배열(텐서) 연산을 정의하고 실행
# 가능 연산 리스트 - 행렬 곱셈, 전치 행렬, 대각합(Trace), 배열의 합, 배열의 곱, 텐서 곱, 텐서 축소 등 복잡한 모든 연산(복잡한 연산의 경우나 연산이 2~3개 이상 묶여있을때 np 보다 빠름. 단순 행렬곱/요소별 곱/단순합은 np 가 빠름)

# 행렬 곱셈을 einsum으로
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])
result = np.einsum('ij,jk->ik', A, B) # np.einsum() 는 문자열로 된 수식을 받아서 연산
print(result)

# 복잡한 텐서 연산 - 배치 행렬 곱셈
batch_A = np.random.rand(3, 2, 2)
batch_B = np.random.rand(3, 2, 2)
batch_result = np.einsum('bij,bjk->bik', batch_A, batch_B)
# 배치 크기 3에서 각각 2x2 행렬곱 수행
print(f'\n\n---batch_A ---\n{batch_A}')
print(f'\n\n---batch_B ---\n{batch_B}')
print(f'\n\n---batch_result ---\n{batch_result}')

# 전치행렬 'ij->ji' : (i,j) 인덱스를 (j,i)로 바꿈
transpose_A = np.einsum('ij->ji', A)
print(f"einsum 전치 행렬:\n{transpose_A}")
# np.einsum('ii->', C)는 대각합 구하기
# np.einsum('ii', A) 대각행렬 (A.diagonal() 보다 빠름)

[[19 22]
 [43 50]]


---batch_A ---
[[[0.66811029 0.34991841]
  [0.34137018 0.7947765 ]]

 [[0.84811396 0.18609525]
  [0.28706422 0.90382691]]

 [[0.20997255 0.67639078]
  [0.68266029 0.45554966]]]


---batch_B ---
[[[0.40588436 0.88621675]
  [0.68019789 0.1774999 ]]

 [[0.7268249  0.363909  ]
  [0.92207687 0.41413495]]

 [[0.78484155 0.06620748]
  [0.94751316 0.883315  ]]]


---batch_result ---
[[[0.50918928 0.65420101]
  [0.67916212 0.44360072]]

 [[0.78802448 0.38570485]
  [1.04204331 0.47877157]]

 [[0.80568435 0.61136787]
  [0.96741946 0.44759107]]]
einsum 전치 행렬:
[[1 3]
 [2 4]]


In [142]:
small_array = np.array([1, 2, 3])
print(f'{small_array}\n')
# np.broadcast_to - 메모리 복사 없이 배열을 확장하여 대용량 데이터 처리 시 메모리 효율성을 극대화. 단, 생성된 배열은 쓰기가 불가능한 읽기전용 뷰
broadcasted = np.broadcast_to(small_array, (4, 3))
print(f'{broadcasted}\n')

# 메모리 공유 확인
print(np.shares_memory(small_array, broadcasted))  # True!

[1 2 3]

[[1 2 3]
 [1 2 3]
 [1 2 3]
 [1 2 3]]

True


In [183]:
from numpy.lib.stride_tricks import sliding_window_view

# 메모리를 효율적으로 윈도우 연산을 수행하여 시계열 분석과 신호 처리에서 핵심
time_series = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
windowed = sliding_window_view(time_series, window_shape=3)
print(f'{windowed}\n')

# 각 윈도우의 평균 계산
window_means = np.mean(windowed, axis=0)
window_means

[[ 1  2  3]
 [ 2  3  4]
 [ 3  4  5]
 [ 4  5  6]
 [ 5  6  7]
 [ 6  7  8]
 [ 7  8  9]
 [ 8  9 10]]

[[ 1  2  3  4]
 [ 2  3  4  5]
 [ 3  4  5  6]
 [ 4  5  6  7]
 [ 5  6  7  8]
 [ 6  7  8  9]
 [ 7  8  9 10]]



array([4., 5., 6., 7.])

In [185]:
# 함수 f(x) = x²의 gradient 계산
x = np.linspace(0, 5, 11)
y = x**2
gradient_y = np.gradient(y, x) # np.gradient() - 수치해석과 물리 시뮬레이션에서 미분 계산이 필요할 때 사용

print(f"x = {x} \ny = {y}")
print(f"이론값 (2x): {(2*x).round(2)}")
print(f"수치 미분: {gradient_y.round(2)}")

x = [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5. ] 
y = [ 0.    0.25  1.    2.25  4.    6.25  9.   12.25 16.   20.25 25.  ]
이론값 (2x): [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
수치 미분: [0.5 1.  2.  3.  4.  5.  6.  7.  8.  9.  9.5]


In [150]:
# 신호 주파수 분석
t = np.linspace(0, 1, 100) # 0부터 1까지의 구간을 100개의 동일한 간격으로 나눈 숫자 배열 t를 생성(= 신호의 시간 축 생성)
signal = np.sin(2 * np.pi * 2 * t) + 0.5 * np.sin(2 * np.pi * 5 * t) # 주파수가 2Hz인 사인파와 주파수가 5Hz이고 진폭이 첫 번째 파의 절반인 사인파를 결합하여 새로운 신호를 생성

# 푸리에 정리(Fourier Theorem): 모든 주기적 함수는 서로 다른 주파수를 가진 사인파의 합으로 표현 가능
# np.fft.fft() - 고속 푸리에 변환(신호 처리, 이미지 분석, 오디오 처리에서 주파수 도메인 분석에 필수)
# FFT는 신호를 시간 도메인에서 주파수 도메인으로 변환하여 신호를 구성하는 주파수 성분들을 분석할 수 있게 함
fft_result = np.fft.fft(signal)
# FFT 결과의 각 성분에 해당하는 주파수를 계산
# len(signal)은 신호의 데이터 포인트 수(100)
# t[1] - t[0]은 샘플링 간격(시간 축에서 연속된 두 점 사이의 간격)
frequencies = np.fft.fftfreq(len(signal), t[1] - t[0])

# 주요 주파수 성분 추출
# np.abs(fft_result)는 FFT 결과(복소수)의 크기를 계산하여 각 주파수 성분의 강도를 나타냄
# np.argsort()는 주파수 강도를 오름차순으로 정렬하고 해당 인덱스를 반환.
# [-4:]는 가장 큰 4개의 값을 선택. 실수 신호의 FFT 결과는 대칭적이므로 각 주파수가 양수와 음수 두 번 나타나기 때문에 4개를 선택합니다.
dominant_freq_idx = np.argsort(np.abs(fft_result))[-4:] # 가장 영향력 있는 주파수 성분의 인덱스를 찾기
dominant_freqs = frequencies[dominant_freq_idx] #  이전 단계에서 찾은 인덱스를 사용하여 frequencies 배열에서 실제 주파수 값을 가져오기
print(f"주요 주파수: {np.abs(dominant_freqs[dominant_freqs > 0]).round(1)} Hz")

주요 주파수: [5. 2.] Hz


# Pandas

In [89]:
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'salary': [50000, 60000, 70000]
}
df = pd.DataFrame(data)
print(f'{df.info()}\n\n{df.describe()}\n\n{df.head(2)}\n\n{df.tail(1)}')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   salary  3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes
None

        age   salary
count   3.0      3.0
mean   30.0  60000.0
std     5.0  10000.0
min    25.0  50000.0
25%    27.5  55000.0
50%    30.0  60000.0
75%    32.5  65000.0
max    35.0  70000.0

    name  age  salary
0  Alice   25   50000
1    Bob   30   60000

      name  age  salary
2  Charlie   35   70000


In [154]:
# 컬럼 선택
ages = df['age']  # 단일
subset = df[['name', 'age']]  # 복수
print(f'{ages}\n\n{subset}\n')

# 인덱싱
row_data = df.loc[0]  # 라벨 기반
cell_value = df.iloc[0, 1]  # 특정 위치 기반
print(f'{row_data}\n\ncell_value: {cell_value}\n')

# 9. apply() - 사용자 정의 함수 적용
df['age_category'] = df['age'].apply(lambda x: 'Young' if x < 30 else 'Senior')

# 10. merge() - 데이터 병합
# merged = pd.merge(df1, df2, on='key_column')
df

0    25
1    30
2    35
Name: age, dtype: int64

      name  age
0    Alice   25
1      Bob   30
2  Charlie   35

name            Alice
age                25
salary          50000
age_category    Young
Name: 0, dtype: object

cell_value: 25



Unnamed: 0,name,age,salary,age_category
0,Alice,25,50000,Young
1,Bob,30,60000,Senior
2,Charlie,35,70000,Senior


In [79]:
series = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
series

a    10
b    20
c    30
d    40
dtype: int64

In [156]:
# pd.eval() & pd.query() - 대용량 데이터에서 NumExpr 엔진을 활용해 일반 pandas 연산보다 2~10배 빠른 성능

# 대용량 데이터프레임
df = pd.DataFrame({
    'A': np.random.randn(10000),
    'B': np.random.randn(10000),
    'C': np.random.randn(10000),
    'category': np.random.choice(['X', 'Y', 'Z'], 10000)
})
print(df)
# eval()로 복잡한 연산 최적화 (NumExpr 엔진 사용)
df['D'] = df.eval('A * B + C**2')
print(f'\n\n{df}\n')
# query()로 SQL 스타일 필터링
filtered = df.query('(A > 0) & (B < 0) & (category == "X")')
print(f'\n\n{filtered}\n')

             A         B         C category
0    -0.764052  1.371044 -1.422681        X
1     0.370576  0.714923 -0.933745        Y
2    -0.766909 -0.457868  0.208545        Z
3     0.976870 -0.728505 -2.012161        Y
4    -0.472971 -0.782459 -0.746723        Y
...        ...       ...       ...      ...
9995  0.568243 -2.031136  0.551861        Z
9996  0.842827 -3.032821 -0.070290        Z
9997 -0.613677 -0.245133  0.324860        Z
9998  1.664018 -0.017434 -0.893055        Z
9999 -0.705668  0.671311 -0.700962        X

[10000 rows x 4 columns]


             A         B         C category         D
0    -0.764052  1.371044 -1.422681        X  0.976473
1     0.370576  0.714923 -0.933745        Y  1.136814
2    -0.766909 -0.457868  0.208545        Z  0.394634
3     0.976870 -0.728505 -2.012161        Y  3.337137
4    -0.472971 -0.782459 -0.746723        Y  0.927675
...        ...       ...       ...      ...       ...
9995  0.568243 -2.031136  0.551861        Z -0.849627
9996  0.8428

In [162]:
# MultiIndex - 계층적 인덱싱

# 다차원 인덱스 생성
regions = ['North', 'South', 'East']
products = ['A', 'B']
# pd.MultiIndex.from_product() - 여러개의 리스트나 배열의 모든 요소를 데카르트 곱을 하여 계층적 인덱스 생성
index = pd.MultiIndex.from_product([regions, products], names=['Region', 'Product'])
print(f'\n\n{index}\n')

multi_df = pd.DataFrame({
    'Sales': np.random.randint(100, 1000, len(index)),
    'Profit': np.random.randint(10, 100, len(index))
}, index=index)
print(f'\n\n{multi_df}\n')

# 계층별 집계
regional_sales = multi_df.groupby(level='Region')['Sales'].sum()
print(f'\n-- Regional sales --\n{regional_sales}\n')
profit_sales = multi_df.groupby(level='Region')['Profit'].sum()
print(f'\n-- Regional profit --\n{profit_sales}\n')

# 특정 지역 데이터 선택
north_data = multi_df.loc['North']
print(f'\n\n{north_data}\n')



MultiIndex([('North', 'A'),
            ('North', 'B'),
            ('South', 'A'),
            ('South', 'B'),
            ( 'East', 'A'),
            ( 'East', 'B')],
           names=['Region', 'Product'])



                Sales  Profit
Region Product               
North  A          632      49
       B          757      62
South  A          285      87
       B          754      70
East   A          410      96
       B          866      16


-- Regional sales --
Region
East     1276
North    1389
South    1039
Name: Sales, dtype: int64


-- Regional profit --
Region
East     112
North    111
South    157
Name: Profit, dtype: int64



         Sales  Profit
Product               
A          632      49
B          757      62



In [163]:
# df.transform() - 그룹별 변환 함수로서 그룹 내에서 데이터 정규화, 이상치 탐지, 상대적 순위 계산 등에 활용

# 그룹별 정규화 (Z-score)
sample_df = pd.DataFrame({
    'group': ['A', 'A', 'B', 'B', 'C', 'C'] * 5,
    'value': np.random.randn(30)
})
print(f'\n\n{sample_df}\n')

# 그룹별 Z-score 정규화
sample_df['z_score'] = sample_df.groupby('group')['value'].transform(
    # Z-score 공식, 그룹 내의 각 데이터 포인트(x의 각 요소)가 해당 그룹의 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 계산
    lambda x: (x - x.mean()) / x.std()
)
print(f'\n\n{sample_df}\n')

# 그룹별 백분위수
sample_df['percentile'] = sample_df.groupby('group')['value'].transform(
    lambda x: x.rank(pct=True)
)
print(f'\n\n{sample_df}\n')



   group     value
0      A -0.124147
1      A  1.338908
2      B  1.147175
3      B  0.427066
4      C -1.847358
5      C  1.046540
6      A  0.026593
7      A -0.543954
8      B -1.104011
9      B -0.840499
10     C -1.733174
11     C -0.279435
12     A -0.592736
13     A  0.132931
14     B  0.857369
15     B -0.063790
16     C  0.038291
17     C  0.696259
18     A  0.475673
19     A  0.966104
20     B -0.544970
21     B -1.001805
22     C -0.048657
23     C -0.906836
24     A  1.088824
25     A  1.882834
26     B -0.597227
27     B  0.480381
28     C -0.535324
29     C -0.360935



   group     value   z_score
0      A -0.124147 -0.709905
1      A  1.338908  1.052726
2      B  1.147175  1.570435
3      B  0.427066  0.680820
4      C -1.847358 -1.564897
5      C  1.046540  1.549087
6      A  0.026593 -0.528300
7      A -0.543954 -1.215672
8      B -1.104011 -1.210658
9      B -0.840499 -0.885118
10     C -1.733174 -1.442029
11     C -0.279435  0.122270
12     A -0.592736 -1.274443


In [164]:
# df.rolling() - 윈도우 함수. 시계열 분석, 금융 데이터 분석에서 이동평균, 변동성 계산 등에 활용

# 시계열 윈도우 분석
ts_data = pd.DataFrame({
    'value': np.random.randn(20).cumsum() + 100
})
print(f'\n\n{ts_data}\n')

# 다양한 윈도우 함수 적용
ts_data['rolling_mean'] = ts_data['value'].rolling(window=7).mean()
ts_data['rolling_std'] = ts_data['value'].rolling(window=7).std()
# expanding() - 시계열 데이터의 시작점부터 현재 데이터 지점까지의 모든 데이터를 포함하는 "윈도우"를 만들어 계산하는 방식(rolling과의 차이점)
ts_data['expanding_mean'] = ts_data['value'].expanding().mean()
print(f'\n\n{ts_data}\n')

# 사용자 정의 윈도우 함수
def rolling_zscore(series):
    # 데이터가 1개일 경우, 퍼져있는 정도(산포도) 측정불가. 이 경우 std는 0이 되거나 정의되지 않아, NaN(Not a Number) 또는 0으로 나누기 오류발생하므로 if(series)>1 else 0 조건 처리
    return (series.iloc[-1] - series.mean()) / series.std() if len(series) > 1 else 0

ts_data['rolling_zscore'] = ts_data['value'].rolling(window=7).apply(rolling_zscore)
print(f'\n\n{ts_data}\n')




         value
0   103.105256
1   103.011873
2   102.640311
3   103.314406
4   103.451482
5   102.784461
6   102.778138
7   104.087900
8   104.595735
9   104.840670
10  103.869982
11  104.865104
12  106.019123
13  106.305484
14  104.150408
15  103.740571
16  103.156510
17  104.797766
18  104.286050
19  104.201207



         value  rolling_mean  rolling_std  expanding_mean
0   103.105256           NaN          NaN      103.105256
1   103.011873           NaN          NaN      103.058565
2   102.640311           NaN          NaN      102.919147
3   103.314406           NaN          NaN      103.017962
4   103.451482           NaN          NaN      103.104666
5   102.784461           NaN          NaN      103.051298
6   102.778138    103.012275     0.299418      103.012275
7   104.087900    103.152653     0.507985      103.146728
8   104.595735    103.378919     0.736272      103.307729
9   104.840670    103.693256     0.831876      103.461023
10  103.869982    103.772624     0.816059 

In [168]:
# pd.melt() - Wide to Long 변환. 여러 열에 걸쳐 있던 값을 하나의 열로 모으고, 원래 열 이름을를 또 다른 열로 만들어, 데이터를 더 다루기 쉽고 분석에 용이한 형태로 재구성하는 기능(시각화와 통계 분석을 위해 데이터 형태를 재구성에 활용)

# Wide 형태 데이터
wide_data = pd.DataFrame({
    'ID': [1, 2, 3],
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Q1': [85, 90, 78],
    'Q2': [88, 85, 82],
    'Q3': [92, 88, 85]
})
print(f'\n\n{wide_data}\n')

# Long 형태로 변환(단일컬럼)
long_data = pd.melt(
    wide_data,
    id_vars=['ID', 'Name'], # 고유 식별자 변수로서, ID와 Name은 형태를 유지하며 기준 축 역할을 함.
    var_name='Quarter', # melt한 열들의 이름 지정
    value_name='Score' # melt한 열들의 값을 담을 새로운 열 이름 지정
)
print(f'\n\n{long_data}\n')



   ID     Name  Q1  Q2  Q3
0   1    Alice  85  88  92
1   2      Bob  90  85  88
2   3  Charlie  78  82  85



   ID     Name Quarter  Score
0   1    Alice      Q1     85
1   2      Bob      Q1     90
2   3  Charlie      Q1     78
3   1    Alice      Q2     88
4   2      Bob      Q2     85
5   3  Charlie      Q2     82
6   1    Alice      Q3     92
7   2      Bob      Q3     88
8   3  Charlie      Q3     85



In [173]:
# Wide to Long 변환 멀티 컬럼. (pd.melt + 문자열 처리로도 가능하지만, 직접적인 가공이 필요.)
import io

# 예시 데이터 생성
csv_data = """Year,Country,Nominal_Q1,Real_Q1,Core_Q1,Nominal_Q2,Real_Q2,Core_Q2
2023,USA,7.0,2.0,5.5,8.5,2.5,6.5
2023,KOR,5.0,1.5,4.0,6.0,2.0,5.0
"""
wide_df = pd.read_csv(io.StringIO(csv_data))

# wide_to_long을 사용하여 변환
long_df = pd.wide_to_long(
    df=wide_df,
    stubnames=['Nominal', 'Real', 'Core'], # 값으로 사용할 열들의 접두사
    i=['Year', 'Country'],                # 고유 식별자
    j='Quarter',                          # 접미사를 담을 새 열 이름
    sep='_',                              # 접두사와 접미사의 구분자
    suffix=r'\w+'                         # 접미사의 형태 (정규표현식)
).reset_index()

print(long_df)

   Year Country Quarter  Nominal  Real  Core
0  2023     USA      Q1      7.0   2.0   5.5
1  2023     USA      Q2      8.5   2.5   6.5
2  2023     KOR      Q1      5.0   1.5   4.0
3  2023     KOR      Q2      6.0   2.0   5.0


In [169]:
# SVD - 데이터(행렬)를 구성하는 핵심 성분과 그 중요도를 순서대로 분해하는 작업
# 목적
# 1.차원 축소 (Dimensionality Reduction) 및 데이터 압축. 특이값은 중요도 순으로 정렬되어 있으므로, 값이 매우 작은 특이값들을 0으로 처리하고(무시하고) 데이터를 재구성하면, 원본 데이터와 매우 유사하면서도 훨씬 적은 정보(차원)로 표현된 데이터를 얻을 수 있음
# 2.노이즈 제거 (Noise Reduction)
# 3.잠재 의미 분석 (Latent Semantic Analysis, LSA) - 추천 시스템이나 자연어 처리에서 사용됩니다. 예를 들어, '사용자-영화 평점' 행렬을 SVD로 분해하면, 눈에 보이지 않던 사용자의 잠재적인 취향(예: 'SF 영화 팬', '로맨틱 코미디 선호')이나 영화의 잠재적인 장르 특성을 U와 V 행렬을 통해 발견할 수 있음

# np.linalg.svd() - 특이값 분해

A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=float)
# A - 분석하기 위한 원본 데이터 행렬 (m x n 크기)
# U: 왼쪽 특이벡터(Left Singular Vectors) 행렬 (m x m 크기)로서, A의 열(column) 공간에 대한 중요한 방향(축)들을 나타냄. 이 방향들은 서로 직교(orthogonal)해야함. 즉, 데이터의 출력 공간(output space)을 설명하는 새로운 좌표축이라고 생각할 수 있음
# Σ (시그마) - 특이값(Singular Values)을 대각선에 담고 있는 행렬 (m x n 크기)로서, U와 V에 있는 각 방향(축)이 원본 데이터 A를 설명하는 데 얼마나 중요한지를 나타내는 중요도
# Vᵀ- 오른쪽 특이벡터(Right Singular Vectors)의 전치행렬 (n x n 크기)로서, A의 행(row) 공간에 대한 **중요한 방향(축)**들을 나타냄. 이 방향들 역시 서로 직교합니다. 데이터의 입력 공간(input space)을 설명하는 새로운 좌표축으로 볼 수 있음
print("SVD 분해: A = U * Σ * V^T")

U, s, Vt = np.linalg.svd(A)

print(f"A 형태: {A.shape}")
print(f"U 형태: {U.shape} (좌특이벡터)")
print(f"s 형태: {s.shape} (특이값)")
print(f"Vt 형태: {Vt.shape} (우특이벡터 전치)")

# 재구성 검증
S_matrix = np.diag(s)
A_reconstructed = U @ S_matrix @ Vt
print(f"재구성 오차: {np.linalg.norm(A - A_reconstructed):.10f}")

SVD 분해: A = U * Σ * V^T
A 형태: (3, 3)
U 형태: (3, 3) (좌특이벡터)
s 형태: (3,) (특이값)
Vt 형태: (3, 3) (우특이벡터 전치)
재구성 오차: 0.0000000000


In [170]:
# pd.pivot_table() - 피벗 테이블 알고리즘

sales_data = pd.DataFrame({
    'Region': ['North', 'South', 'North', 'South'],
    'Product': ['A', 'A', 'B', 'B'],
    'Sales': [100, 150, 200, 120]
})

print("피벗 테이블 생성 과정:")
print("1. 그룹키 조합 생성")
combinations = sales_data.groupby(['Region', 'Product']).groups
for combo, indices in combinations.items():
    values = sales_data.loc[indices, 'Sales'].values
    print(f"  {combo}: 합계 {values.sum()}")

print("\n2. 2차원 테이블 재구성")
pivot = pd.pivot_table(sales_data, values='Sales', index='Region', columns='Product', aggfunc='sum')
print(pivot)

피벗 테이블 생성 과정:
1. 그룹키 조합 생성
  ('North', 'A'): 합계 100
  ('North', 'B'): 합계 200
  ('South', 'A'): 합계 150
  ('South', 'B'): 합계 120

2. 2차원 테이블 재구성
Product    A    B
Region           
North    100  200
South    150  120


In [178]:
# pd.cut() & pd.qcut() - 구간화 알고리즘

data = np.array([20, 30, 35, 40, 45, 50, 55, 60, 65, 70])

# cut() - 동일 너비
print("pd.cut() 알고리즘:")
n_bins = 4
min_val, max_val = data.min(), data.max()
bin_width = (max_val - min_val) / n_bins
bin_edges = np.linspace(min_val, max_val, n_bins + 1)

print(f"구간 너비: {bin_width}")
print(f"구간 경계: {bin_edges}")

# cut() - 동일 너비
print("\npd.cut() 사용:")
cut_result, bin_edges = pd.cut(data, bins=4, retbins=True)
print(f"계산된 구간 경계: {bin_edges}")
print(f"각 데이터가 속한 구간:\n{cut_result}")

# qcut() - 동일 빈도
print("\npd.qcut() 알고리즘:")
quantiles = np.linspace(0, 1, n_bins + 1)
quantile_edges = np.quantile(data, quantiles)
print(f"분위수: {quantiles}")
print(f"분위수 값: {quantile_edges}")

# qcut() - 동일 빈도
print("\npd.qcut() 사용:")
qcut_result, quantile_edges = pd.qcut(data, q=4, retbins=True)
print(f"계산된 분위수 경계: {quantile_edges}")
print(f"각 데이터가 속한 구간:\n{qcut_result}")



pd.cut() 알고리즘:
구간 너비: 12.5
구간 경계: [20.  32.5 45.  57.5 70. ]

pd.cut() 사용:
계산된 구간 경계: [19.95 32.5  45.   57.5  70.  ]
각 데이터가 속한 구간:
[(19.95, 32.5], (19.95, 32.5], (32.5, 45.0], (32.5, 45.0], (32.5, 45.0], (45.0, 57.5], (45.0, 57.5], (57.5, 70.0], (57.5, 70.0], (57.5, 70.0]]
Categories (4, interval[float64, right]): [(19.95, 32.5] < (32.5, 45.0] < (45.0, 57.5] < (57.5, 70.0]]

pd.qcut() 알고리즘:
분위수: [0.   0.25 0.5  0.75 1.  ]
분위수 값: [20.   36.25 47.5  58.75 70.  ]

pd.qcut() 사용:
계산된 분위수 경계: [20.   36.25 47.5  58.75 70.  ]
각 데이터가 속한 구간:
[(19.999, 36.25], (19.999, 36.25], (19.999, 36.25], (36.25, 47.5], (36.25, 47.5], (47.5, 58.75], (47.5, 58.75], (58.75, 70.0], (58.75, 70.0], (58.75, 70.0]]
Categories (4, interval[float64, right]): [(19.999, 36.25] < (36.25, 47.5] < (47.5, 58.75] < (58.75, 70.0]]


In [172]:
# pd.crosstab() - 교차표 생성

# 교차표 알고리즘 단계별 분석
gender = np.array(['M', 'F', 'M', 'F', 'M'])
education = np.array(['College', 'High School', 'Graduate', 'College', 'High School'])

print("Crosstab 생성 과정:")
print("1. 고유값 추출")
unique_genders = np.unique(gender)
unique_educations = np.unique(education)

print("2. 조합별 카운팅")
for g in unique_genders:
    for e in unique_educations:
        count = np.sum((gender == g) & (education == e))
        print(f"  {g} × {e}: {count}개")

Crosstab 생성 과정:
1. 고유값 추출
2. 조합별 카운팅
  F × College: 1개
  F × Graduate: 0개
  F × High School: 1개
  M × College: 1개
  M × Graduate: 1개
  M × High School: 1개
