# pandas

## DataFrame

- 엑셀 시트와 같은 형테로 데이터를 표현

## Series

- 데이터 프레임의 한열을 나타내는데 사용되는 자료구조.
- 시리즈는 엑셀의 한열과 유사 
- 기본적으로 인덱스(index)와 값(value)로 이루어져 있다. 

In [1]:
import pandas as pd
# pandas Series

data = [ 10, 20, 30, 40, 50]
series1 = pd.Series(data)
print(series1)
print(type(series1))

0    10
1    20
2    30
3    40
4    50
dtype: int64
<class 'pandas.core.series.Series'>


In [3]:
# numpy array로부터 Series 생성
import numpy as np
data_array = np.array([10, 20, 30, 40, 50])
print('array type', type(data_array))
series2 = pd.Series(data_array)
print(series2)

array type <class 'numpy.ndarray'>
0    10
1    20
2    30
3    40
4    50
dtype: int64


In [4]:
data_dict = {
    'a': 10,
    'b': 20,
    'c': 30,
    'd': 40,
    'e': 50
}
series = pd.Series(data_dict)
series

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [5]:
data = [10, 20, 30, 40, 50]
series = pd.Series(data, name='MySeries')
series

0    10
1    20
2    30
3    40
4    50
Name: MySeries, dtype: int64

In [6]:
data = [10, 20, 30, 40, 50]
series = pd.Series(data, name='MySeries', dtype='float')
series

0    10.0
1    20.0
2    30.0
3    40.0
4    50.0
Name: MySeries, dtype: float64

# dtype 
| type      | 설명           |
|-----------|----------------|
| int       | 정수형 데이터   |
| float     | 부동소수점 데이터|
| complex   | 복소수 데이터   |
| bool      | True/False 논리값|
| object    | 문자열 등 일반 객체|
| category  | 범주형 데이터   |
| datetime64| 날짜/시간 데이터|
| timedelta64| 시간 간격 데이터|
| string    | 문자열 데이터   |
| uint      | 부호 없는 정수  |


In [None]:
# 🎯 dtype 파라미터를 사용하는 이유

## 1️⃣ 메모리 효율성 최적화
- 적절한 데이터 타입 선택으로 메모리 사용량 크게 절약
- 대용량 데이터 처리 시 성능 향상

## 2️⃣ 연산 속도 향상
- 데이터 타입이 명확하면 연산 속도 빨라짐
- 타입 변환 오버헤드 감소

## 3️⃣ 데이터 무결성 보장
- 예상치 못한 타입 변환 방지
- 일관된 데이터 처리 보장

## 4️⃣ 명시적 의도 표현
- 코드의 가독성과 유지보수성 향상
- 데이터 처리 의도를 명확히 표현

In [7]:
print("=== 1. 메모리 효율성 비교 ===")

# 같은 데이터를 다른 dtype으로 생성
data = [1, 2, 3, 4, 5] * 1000  # 5000개 데이터

# 기본 타입 (추론)
series_default = pd.Series(data)
print(f"기본 타입: {series_default.dtype}")
print(f"메모리 사용량: {series_default.memory_usage(deep=True)} bytes")

# int32로 명시적 지정
series_int32 = pd.Series(data, dtype='int32')
print(f"int32 타입: {series_int32.dtype}")
print(f"메모리 사용량: {series_int32.memory_usage(deep=True)} bytes")

# int8로 명시적 지정 (값이 1-5이므로 충분)
series_int8 = pd.Series(data, dtype='int8')
print(f"int8 타입: {series_int8.dtype}") 
print(f"메모리 사용량: {series_int8.memory_usage(deep=True)} bytes")

print(f"\n💡 메모리 절약률: {((series_default.memory_usage(deep=True) - series_int8.memory_usage(deep=True)) / series_default.memory_usage(deep=True) * 100):.1f}%")

=== 1. 메모리 효율성 비교 ===
기본 타입: int64
메모리 사용량: 40132 bytes
int32 타입: int32
메모리 사용량: 20132 bytes
int8 타입: int8
메모리 사용량: 5132 bytes

💡 메모리 절약률: 87.2%


In [11]:
print("\n=== 2. 연산 속도 비교 ===")
import time

# 대용량 데이터 생성
large_data = list(range(100000))

# 기본 타입으로 생성
start_time = time.time()
series_default = pd.Series(large_data)
result1 = series_default * 2
time_default = time.time() - start_time

# 명시적 int32 타입으로 생성
start_time = time.time()
series_int32 = pd.Series(large_data, dtype='int32')
result2 = series_int32 * 2
time_int32 = time.time() - start_time

print(f"기본 타입 연산 시간: {time_default:.6f}초")
print(f"int32 타입 연산 시간: {time_int32:.6f}초")
print(f"속도 향상: {(time_default/time_int32):.2f}배")

# 타입 확인
print(f"\n기본 추론 타입: {series_default.dtype}")
print(f"명시 지정 타입: {series_int32.dtype}")


=== 2. 연산 속도 비교 ===
기본 타입 연산 시간: 0.015148초
int32 타입 연산 시간: 0.007144초
속도 향상: 2.12배

기본 추론 타입: int64
명시 지정 타입: int32


In [8]:
print("\n=== 3. 데이터 무결성 보장 ===")

# 문제 상황: 의도치 않은 타입 변환
print("🚨 dtype 미지정 시 문제점:")
mixed_data = [1, 2, 3, '4', 5]  # 문자열이 섞인 데이터
series_auto = pd.Series(mixed_data)
print(f"자동 추론 타입: {series_auto.dtype}")
print(f"데이터: {series_auto.tolist()}")
print(f"모든 데이터가 문자열로 변환됨! ❌")

print("\n✅ dtype 명시 시 해결:")
try:
    # 정수형으로 강제 지정
    series_int = pd.Series(mixed_data, dtype='int')
    print("정수 변환 성공")
except ValueError as e:
    print(f"타입 오류 감지: {e}")
    print("데이터 품질 문제를 사전에 발견! ✅")

# 올바른 데이터로 재시도
clean_data = [1, 2, 3, 4, 5]
series_clean = pd.Series(clean_data, dtype='int32')
print(f"\n올바른 데이터 타입: {series_clean.dtype}")
print(f"데이터: {series_clean.tolist()}")


=== 3. 데이터 무결성 보장 ===
🚨 dtype 미지정 시 문제점:
자동 추론 타입: object
데이터: [1, 2, 3, '4', 5]
모든 데이터가 문자열로 변환됨! ❌

✅ dtype 명시 시 해결:
정수 변환 성공

올바른 데이터 타입: int32
데이터: [1, 2, 3, 4, 5]


In [9]:
print("\n=== 4. 실무 활용 예시 ===")

# 예시 1: 범주형 데이터 (category)
print("📊 범주형 데이터 활용:")
status_data = ['대기', '진행', '완료', '대기', '완료', '진행', '대기'] * 1000

# 일반 문자열로 저장
series_str = pd.Series(status_data, dtype='object')
print(f"문자열 타입 메모리: {series_str.memory_usage(deep=True)} bytes")

# 범주형으로 저장
series_cat = pd.Series(status_data, dtype='category')
print(f"범주형 타입 메모리: {series_cat.memory_usage(deep=True)} bytes")
print(f"메모리 절약: {((series_str.memory_usage(deep=True) - series_cat.memory_usage(deep=True)) / series_str.memory_usage(deep=True) * 100):.1f}%")

print(f"\n범주형 데이터 정보:")
print(f"카테고리: {series_cat.cat.categories.tolist()}")
print(f"카테고리 개수: {series_cat.nunique()}")

# 예시 2: 불린 데이터 (bool)
print("\n🔘 불린 데이터 활용:")
boolean_data = [True, False, True, True, False] * 1000

series_bool = pd.Series(boolean_data, dtype='bool')
print(f"불린 타입 메모리: {series_bool.memory_usage(deep=True)} bytes")
print(f"True 개수: {series_bool.sum()}")
print(f"False 개수: {(~series_bool).sum()}")


=== 4. 실무 활용 예시 ===
📊 범주형 데이터 활용:
문자열 타입 메모리: 490132 bytes
범주형 타입 메모리: 7471 bytes
메모리 절약: 98.6%

범주형 데이터 정보:
카테고리: ['대기', '완료', '진행']
카테고리 개수: 3

🔘 불린 데이터 활용:
불린 타입 메모리: 5132 bytes
True 개수: 3000
False 개수: 2000


## 🎯 dtype 선택 가이드

### 📝 상황별 최적 dtype 선택

| 데이터 종류 | 권장 dtype | 이유 | 예시 |
|------------|-----------|------|------|
| 작은 정수 (0-255) | `int8` | 메모리 절약 | 나이, 점수 |
| 일반 정수 | `int32` | 성능과 메모리 균형 | ID, 개수 |
| 큰 정수 | `int64` | 오버플로우 방지 | 인구수, 매출액 |
| 소수점 | `float32` | 일반적인 정밀도 | 가격, 비율 |
| 고정밀 소수 | `float64` | 높은 정밀도 | 과학적 계산 |
| 범주형 | `category` | 메모리 절약 | 성별, 등급, 상태 |
| 참/거짓 | `bool` | 명확성 | 플래그, 조건 |
| 문자열 | `string` | 명시적 표현 | 이름, 주소 |
| 날짜/시간 | `datetime64` | 시간 연산 | 생년월일, 주문일시 |

### ⚡ 성능 최적화 팁

1. **메모리 우선**: 데이터 범위에 맞는 최소 타입 선택
2. **연산 우선**: 자주 계산하는 데이터는 적절한 숫자 타입
3. **가독성 우선**: 코드 이해를 위해 명시적 타입 지정
4. **호환성 고려**: 다른 시스템과의 데이터 교환 시 표준 타입 사용

### 🚨 주의사항

- **오버플로우**: 작은 타입 사용 시 값 범위 초과 주의
- **정밀도 손실**: float32 사용 시 정밀도 확인
- **타입 변환 비용**: 빈번한 타입 변환은 성능 저하
- **호환성**: 외부 라이브러리와의 호환성 고려

In [10]:
print("=== 5. 실전 예시: 고객 데이터 최적화 ===")

# 고객 데이터 예시
print("📊 고객 데이터 최적화 전후 비교:")

# 비최적화 버전
customers_unoptimized = {
    'customer_id': pd.Series([i for i in range(10000)]),  # 기본 int64
    'age': pd.Series([25, 30, 35, 40, 45] * 2000),  # 기본 int64
    'gender': pd.Series(['M', 'F'] * 5000),  # object
    'is_premium': pd.Series([True, False] * 5000),  # bool (이미 최적)
    'satisfaction': pd.Series([1, 2, 3, 4, 5] * 2000)  # 기본 int64
}

# 최적화 버전
customers_optimized = {
    'customer_id': pd.Series([i for i in range(10000)], dtype='int32'),
    'age': pd.Series([25, 30, 35, 40, 45] * 2000, dtype='int8'),
    'gender': pd.Series(['M', 'F'] * 5000, dtype='category'),
    'is_premium': pd.Series([True, False] * 5000, dtype='bool'),
    'satisfaction': pd.Series([1, 2, 3, 4, 5] * 2000, dtype='int8')
}

# 메모리 사용량 비교
total_unoptimized = sum(series.memory_usage(deep=True) for series in customers_unoptimized.values())
total_optimized = sum(series.memory_usage(deep=True) for series in customers_optimized.values())

print(f"최적화 전 총 메모리: {total_unoptimized:,} bytes")
print(f"최적화 후 총 메모리: {total_optimized:,} bytes")
print(f"메모리 절약률: {((total_unoptimized - total_optimized) / total_unoptimized * 100):.1f}%")

# 각 컬럼별 상세 비교
print(f"\n📋 컬럼별 최적화 결과:")
for col in customers_unoptimized.keys():
    before = customers_unoptimized[col].memory_usage(deep=True)
    after = customers_optimized[col].memory_usage(deep=True)
    savings = (before - after) / before * 100
    print(f"  {col}: {before:,} → {after:,} bytes ({savings:.1f}% 절약)")

print(f"\n🎉 결론: dtype 최적화로 메모리를 {((total_unoptimized - total_optimized) / total_unoptimized * 100):.1f}% 절약했습니다!")

=== 5. 실전 예시: 고객 데이터 최적화 ===
📊 고객 데이터 최적화 전후 비교:
최적화 전 총 메모리: 750,660 bytes
최적화 후 총 메모리: 80,868 bytes
메모리 절약률: 89.2%

📋 컬럼별 최적화 결과:
  customer_id: 80,132 → 40,132 bytes (49.9% 절약)
  age: 80,132 → 10,132 bytes (87.4% 절약)
  gender: 500,132 → 10,340 bytes (97.9% 절약)
  is_premium: 10,132 → 10,132 bytes (0.0% 절약)
  satisfaction: 80,132 → 10,132 bytes (87.4% 절약)

🎉 결론: dtype 최적화로 메모리를 89.2% 절약했습니다!


In [12]:
data1 = [1, 2, 3, 4]
index = ['a', 'b', 'c', 'd']

series = pd.Series(data1, index=index, name='MySeries', dtype='int32')
series

a    1
b    2
c    3
d    4
Name: MySeries, dtype: int32

# Pandas Series


In [13]:
import pandas as pd

data1 = [1, 2, 3, 4, 5, 6, 7, 8]
index = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

series = pd.Series(data1, index=index, name='MySeries', dtype='int32')
print(series)

a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
Name: MySeries, dtype: int32


In [14]:
series.values

array([1, 2, 3, 4, 5, 6, 7, 8], dtype=int32)

In [15]:
series.index

Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'], dtype='object')

In [16]:
series.name

'MySeries'

In [17]:
series.dtype

dtype('int32')

In [18]:
series = series.astype('float')
series

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    6.0
g    7.0
h    8.0
Name: MySeries, dtype: float64

In [19]:
series.head()

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
Name: MySeries, dtype: float64

In [20]:
series.tail()

d    4.0
e    5.0
f    6.0
g    7.0
h    8.0
Name: MySeries, dtype: float64

In [21]:
series.describe()

count    8.00000
mean     4.50000
std      2.44949
min      1.00000
25%      2.75000
50%      4.50000
75%      6.25000
max      8.00000
Name: MySeries, dtype: float64

# Series calculator


In [22]:
import pandas as pd

data1 = [10, 20, 30, 40]
data2 = [5, 15, 25, 35]
index = ['a', 'b', 'c', 'd']

series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

In [24]:
addition_result = series1 + series2
addition_result

a    15
b    35
c    55
d    75
dtype: int64

In [25]:
subtraction_result = series1 - series2
multiplication_result = series1 * series2
division_result = series1 / series2

print(subtraction_result)
print(multiplication_result)
print(division_result)

a    5
b    5
c    5
d    5
dtype: int64
a      50
b     300
c     750
d    1400
dtype: int64
a    2.000000
b    1.333333
c    1.200000
d    1.142857
dtype: float64


In [27]:
# scalar 연산

addition_result = series1 + 10
print(addition_result)

a    20
b    30
c    40
d    50
dtype: int64


In [28]:
squared_series = series1 ** 2
squared_series

a     100
b     400
c     900
d    1600
dtype: int64

In [None]:
# 📊 NumPy 통계 연산 완전 가이드

## 🎯 NumPy 통계 연산이란?

NumPy는 다차원 배열 데이터의 **기술통계량**(Descriptive Statistics)을 계산하는 강력한 함수들을 제공합니다.
이러한 함수들은 데이터 분석의 첫 단계인 **탐색적 데이터 분석(EDA)**에서 핵심적인 역할을 합니다.

## 📋 주요 통계 연산 분류

### 1️⃣ 중심 경향성 (Central Tendency)
- **평균(Mean)**: 데이터의 중심값
- **중앙값(Median)**: 순서대로 정렬했을 때 가운데 값
- **최빈값(Mode)**: 가장 자주 나타나는 값

### 2️⃣ 분산도 (Dispersion)
- **분산(Variance)**: 데이터의 퍼짐 정도
- **표준편차(Standard Deviation)**: 분산의 제곱근
- **범위(Range)**: 최댓값 - 최솟값

### 3️⃣ 위치 통계량 (Position Statistics)
- **최솟값/최댓값**: 데이터의 극값
- **백분위수(Percentile)**: 데이터의 상대적 위치
- **사분위수(Quartile)**: 25%, 50%, 75% 위치값

In [29]:
print("=== 📊 NumPy 기본 통계 연산 ===")
import numpy as np

# 샘플 데이터 생성 (학생들의 시험 점수)
scores = np.array([85, 92, 78, 96, 88, 76, 94, 82, 90, 87, 
                   79, 93, 86, 91, 84, 89, 77, 95, 83, 88])

print(f"📝 시험 점수 데이터 (20명):")
print(f"   {scores}")
print(f"   데이터 형태: {scores.shape}")
print(f"   데이터 타입: {scores.dtype}")

print(f"\n🎯 1. 중심 경향성 (Central Tendency)")
print(f"   평균 (Mean): {np.mean(scores):.2f}점")
print(f"   중앙값 (Median): {np.median(scores):.2f}점")

# 최빈값은 별도 계산 (NumPy에는 mode 함수가 없음)
from scipy import stats
mode_result = stats.mode(scores, keepdims=True)
print(f"   최빈값 (Mode): {mode_result.mode[0]}점 (출현횟수: {mode_result.count[0]}회)")

print(f"\n📏 2. 분산도 (Dispersion)")
print(f"   분산 (Variance): {np.var(scores):.2f}")
print(f"   표준편차 (Std Dev): {np.std(scores):.2f}")
print(f"   범위 (Range): {np.ptp(scores)}점 ({np.min(scores)} ~ {np.max(scores)})")

print(f"\n📍 3. 위치 통계량 (Position Statistics)")
print(f"   최솟값 (Min): {np.min(scores)}점")
print(f"   최댓값 (Max): {np.max(scores)}점")
print(f"   25% 백분위수 (Q1): {np.percentile(scores, 25):.1f}점")
print(f"   50% 백분위수 (Q2/Median): {np.percentile(scores, 50):.1f}점")
print(f"   75% 백분위수 (Q3): {np.percentile(scores, 75):.1f}점")

=== 📊 NumPy 기본 통계 연산 ===
📝 시험 점수 데이터 (20명):
   [85 92 78 96 88 76 94 82 90 87 79 93 86 91 84 89 77 95 83 88]
   데이터 형태: (20,)
   데이터 타입: int64

🎯 1. 중심 경향성 (Central Tendency)
   평균 (Mean): 86.65점
   중앙값 (Median): 87.50점
   최빈값 (Mode): 88점 (출현횟수: 2회)

📏 2. 분산도 (Dispersion)
   분산 (Variance): 35.23
   표준편차 (Std Dev): 5.94
   범위 (Range): 20점 (76 ~ 96)

📍 3. 위치 통계량 (Position Statistics)
   최솟값 (Min): 76점
   최댓값 (Max): 96점
   25% 백분위수 (Q1): 82.8점
   50% 백분위수 (Q2/Median): 87.5점
   75% 백분위수 (Q3): 91.2점


In [30]:
print("\n=== 🎲 다차원 배열 통계 연산 ===")

# 2차원 배열 생성 (3개 반의 5명씩 시험 점수)
class_scores = np.array([
    [85, 92, 78, 96, 88],  # 1반
    [76, 94, 82, 90, 87],  # 2반
    [79, 93, 86, 91, 84]   # 3반
])

print("📚 반별 시험 점수 (3반 x 5명):")
print(class_scores)
print(f"배열 형태: {class_scores.shape}")

print(f"\n🎯 축(axis) 기반 연산:")
print(f"   전체 평균: {np.mean(class_scores):.2f}점")
print(f"   반별 평균 (axis=1): {np.mean(class_scores, axis=1)}")  # 각 반의 평균
print(f"   과목별 평균 (axis=0): {np.mean(class_scores, axis=0)}")  # 각 위치별 평균

print(f"\n📊 반별 상세 통계:")
for i, class_data in enumerate(class_scores, 1):
    print(f"   {i}반: 평균 {np.mean(class_data):.1f}, "
          f"표준편차 {np.std(class_data):.1f}, "
          f"최고점 {np.max(class_data)}, "
          f"최저점 {np.min(class_data)}")

print(f"\n🏆 학급별 성과 비교:")
class_means = np.mean(class_scores, axis=1)
best_class = np.argmax(class_means) + 1
worst_class = np.argmin(class_means) + 1
print(f"   최고 성과 반: {best_class}반 (평균 {class_means[best_class-1]:.1f}점)")
print(f"   최저 성과 반: {worst_class}반 (평균 {class_means[worst_class-1]:.1f}점)")
print(f"   반별 편차: {np.std(class_means):.2f}점")


=== 🎲 다차원 배열 통계 연산 ===
📚 반별 시험 점수 (3반 x 5명):
[[85 92 78 96 88]
 [76 94 82 90 87]
 [79 93 86 91 84]]
배열 형태: (3, 5)

🎯 축(axis) 기반 연산:
   전체 평균: 86.73점
   반별 평균 (axis=1): [87.8 85.8 86.6]
   과목별 평균 (axis=0): [80.         93.         82.         92.33333333 86.33333333]

📊 반별 상세 통계:
   1반: 평균 87.8, 표준편차 6.1, 최고점 96, 최저점 78
   2반: 평균 85.8, 표준편차 6.3, 최고점 94, 최저점 76
   3반: 평균 86.6, 표준편차 5.0, 최고점 93, 최저점 79

🏆 학급별 성과 비교:
   최고 성과 반: 1반 (평균 87.8점)
   최저 성과 반: 2반 (평균 85.8점)
   반별 편차: 0.82점


In [31]:
print("\n=== 🔍 고급 통계 연산 함수들 ===")

# 실제 주식 수익률 데이터 시뮬레이션
np.random.seed(42)  # 재현 가능한 결과를 위해
daily_returns = np.random.normal(0.001, 0.02, 252)  # 1년간 일일 수익률 (평균 0.1%, 표준편차 2%)

print("📈 주식 수익률 데이터 분석:")
print(f"   데이터 개수: {len(daily_returns)}일")
print(f"   평균 일일 수익률: {np.mean(daily_returns)*100:.3f}%")

print(f"\n🎯 분위수(Quantile) 분석:")
quantiles = [0, 5, 10, 25, 50, 75, 90, 95, 100]
for q in quantiles:
    value = np.percentile(daily_returns, q)
    print(f"   {q:2d}% 분위수: {value*100:6.3f}%")

print(f"\n📊 분포 특성 분석:")
# 왜도(Skewness) - 분포의 비대칭성
from scipy.stats import skew, kurtosis
skewness = skew(daily_returns)
kurt = kurtosis(daily_returns)

print(f"   왜도 (Skewness): {skewness:.3f}")
if skewness > 0:
    print("   → 양의 왜도: 오른쪽 꼬리가 긴 분포")
elif skewness < 0:
    print("   → 음의 왜도: 왼쪽 꼬리가 긴 분포")
else:
    print("   → 대칭 분포")

print(f"   첨도 (Kurtosis): {kurt:.3f}")
if kurt > 0:
    print("   → 정규분포보다 뾰족한 분포")
elif kurt < 0:
    print("   → 정규분포보다 평평한 분포")

print(f"\n🎲 누적 통계:")
cumulative_returns = np.cumsum(daily_returns)
print(f"   최대 누적 수익률: {np.max(cumulative_returns)*100:.2f}%")
print(f"   최소 누적 수익률: {np.min(cumulative_returns)*100:.2f}%")
print(f"   연말 누적 수익률: {cumulative_returns[-1]*100:.2f}%")

# 변동성 분석
rolling_std = np.array([np.std(daily_returns[max(0,i-30):i+1]) for i in range(len(daily_returns))])
print(f"   평균 30일 변동성: {np.mean(rolling_std)*100:.3f}%")
print(f"   최대 30일 변동성: {np.max(rolling_std)*100:.3f}%")


=== 🔍 고급 통계 연산 함수들 ===
📈 주식 수익률 데이터 분석:
   데이터 개수: 252일
   평균 일일 수익률: 0.092%

🎯 분위수(Quantile) 분석:
    0% 분위수: -5.139%
    5% 분위수: -2.890%
   10% 분위수: -2.360%
   25% 분위수: -1.271%
   50% 분위수:  0.218%
   75% 분위수:  1.286%
   90% 분위수:  2.277%
   95% 분위수:  3.213%
   100% 분위수:  7.805%

📊 분포 특성 분석:
   왜도 (Skewness): 0.300
   → 양의 왜도: 오른쪽 꼬리가 긴 분포
   첨도 (Kurtosis): 0.580
   → 정규분포보다 뾰족한 분포

🎲 누적 통계:
   최대 누적 수익률: 27.38%
   최소 누적 수익률: -18.72%
   연말 누적 수익률: 23.30%
   평균 30일 변동성: 1.861%
   최대 30일 변동성: 2.416%


In [33]:
print("\n=== 🎯 조건부 통계와 마스킹 ===")

# 온라인 쇼핑몰 매출 데이터 시뮬레이션
np.random.seed(123)
daily_sales = np.random.gamma(2, 50, 365)  # 365일간 일일 매출 (단위: 만원)
weekdays = np.array([i % 7 for i in range(365)])  # 0=월요일, 6=일요일

print("🛒 온라인 쇼핑몰 매출 분석:")
print(f"   전체 기간: {len(daily_sales)}일")
print(f"   총 매출: {np.sum(daily_sales):.0f}만원")
print(f"   일평균 매출: {np.mean(daily_sales):.1f}만원")

print(f"\n📅 요일별 매출 분석:")
weekday_names = ['월', '화', '수', '목', '금', '토', '일']
for day in range(7):
    day_mask = weekdays == day
    day_sales = daily_sales[day_mask]
    
    print(f"   {weekday_names[day]}요일: "
          f"평균 {np.mean(day_sales):.1f}만원, "
          f"표준편차 {np.std(day_sales):.1f}만원, "
          f"데이터 {len(day_sales)}개")

print(f"\n🔥 고매출 vs 저매출 분석:")
high_threshold = np.percentile(daily_sales, 75)  # 상위 25%
low_threshold = np.percentile(daily_sales, 25)   # 하위 25%

high_sales_mask = daily_sales >= high_threshold
low_sales_mask = daily_sales <= low_threshold

print(f"   고매출 기준: {high_threshold:.1f}만원 이상")
print(f"   고매출 일수: {np.sum(high_sales_mask)}일")
print(f"   고매출 평균: {np.mean(daily_sales[high_sales_mask]):.1f}만원")

print(f"   저매출 기준: {low_threshold:.1f}만원 이하")
print(f"   저매출 일수: {np.sum(low_sales_mask)}일")
print(f"   저매출 평균: {np.mean(daily_sales[low_sales_mask]):.1f}만원")

print(f"\n📊 월별 성장률 분석:")
# 365일을 12개월로 나누기 (30일씩 12개월, 5일 남음)
monthly_sales = daily_sales[:360].reshape(12, 30)  # 360일만 사용
monthly_avg = np.mean(monthly_sales, axis=1)

print(f"   월별 평균 매출 (30일 기준):")
for month, avg in enumerate(monthly_avg, 1):
    print(f"     {month:2d}월: {avg:.1f}만원")

# 월별 증감률 계산
monthly_growth = np.diff(monthly_avg) / monthly_avg[:-1] * 100
print(f"\n   월별 성장률:")
for month, growth in enumerate(monthly_growth, 2):
    print(f"     {month:2d}월: {growth:+.1f}%")

print(f"\n📈 추세 분석:")
print(f"   평균 월별 성장률: {np.mean(monthly_growth):.2f}%")
print(f"   최고 성장 월: {np.argmax(monthly_growth)+2}월 ({np.max(monthly_growth):+.1f}%)")
print(f"   최저 성장 월: {np.argmin(monthly_growth)+2}월 ({np.min(monthly_growth):+.1f}%)")


=== 🎯 조건부 통계와 마스킹 ===
🛒 온라인 쇼핑몰 매출 분석:
   전체 기간: 365일
   총 매출: 37318만원
   일평균 매출: 102.2만원

📅 요일별 매출 분석:
   월요일: 평균 91.3만원, 표준편차 53.2만원, 데이터 53개
   화요일: 평균 89.7만원, 표준편차 51.6만원, 데이터 52개
   수요일: 평균 115.0만원, 표준편차 72.8만원, 데이터 52개
   목요일: 평균 109.7만원, 표준편차 80.7만원, 데이터 52개
   금요일: 평균 90.8만원, 표준편차 61.1만원, 데이터 52개
   토요일: 평균 91.9만원, 표준편차 51.6만원, 데이터 52개
   일요일: 평균 127.5만원, 표준편차 82.9만원, 데이터 52개

🔥 고매출 vs 저매출 분석:
   고매출 기준: 135.4만원 이상
   고매출 일수: 92일
   고매출 평균: 197.1만원
   저매출 기준: 53.6만원 이하
   저매출 일수: 92일
   저매출 평균: 32.3만원

📊 월별 성장률 분석:
   월별 평균 매출 (30일 기준):
      1월: 111.7만원
      2월: 108.6만원
      3월: 99.1만원
      4월: 98.5만원
      5월: 77.8만원
      6월: 87.5만원
      7월: 105.7만원
      8월: 91.8만원
      9월: 131.7만원
     10월: 107.6만원
     11월: 91.5만원
     12월: 113.0만원

   월별 성장률:
      2월: -2.8%
      3월: -8.7%
      4월: -0.6%
      5월: -21.1%
      6월: +12.4%
      7월: +20.9%
      8월: -13.2%
      9월: +43.5%
     10월: -18.3%
     11월: -15.0%
     12월: +23.5%

📈 추세 분석:
   평균 월별 성장률: 1.88%
   최고 성장 월: 

## 📚 NumPy 통계 함수 완전 정리

### 🎯 기본 통계 함수

| 함수 | 기능 | 사용법 | 실무 활용 |
|------|------|--------|----------|
| `np.mean()` | 평균값 계산 | `np.mean(data, axis=None)` | 성과 지표, 중심 경향 |
| `np.median()` | 중앙값 계산 | `np.median(data, axis=None)` | 이상치 영향 최소화 |
| `np.std()` | 표준편차 계산 | `np.std(data, axis=None, ddof=0)` | 변동성, 위험도 측정 |
| `np.var()` | 분산 계산 | `np.var(data, axis=None, ddof=0)` | 데이터 퍼짐 정도 |
| `np.min()` | 최솟값 | `np.min(data, axis=None)` | 하한선, 최악 시나리오 |
| `np.max()` | 최댓값 | `np.max(data, axis=None)` | 상한선, 최고 성과 |
| `np.ptp()` | 범위 (max-min) | `np.ptp(data, axis=None)` | 변동 폭 측정 |

### 📊 분위수 및 순위 함수

| 함수 | 기능 | 사용법 | 활용 예시 |
|------|------|--------|----------|
| `np.percentile()` | 백분위수 | `np.percentile(data, q, axis=None)` | 상위 10% 고객 찾기 |
| `np.quantile()` | 분위수 (0-1) | `np.quantile(data, q, axis=None)` | 분포 구간 나누기 |
| `np.argmin()` | 최솟값 인덱스 | `np.argmin(data, axis=None)` | 최저 성과 시점 찾기 |
| `np.argmax()` | 최댓값 인덱스 | `np.argmax(data, axis=None)` | 최고 성과 시점 찾기 |

### 🔢 누적 및 집계 함수

| 함수 | 기능 | 사용법 | 비즈니스 활용 |
|------|------|--------|---------------|
| `np.sum()` | 합계 | `np.sum(data, axis=None)` | 총매출, 총비용 |
| `np.cumsum()` | 누적합 | `np.cumsum(data, axis=None)` | 누적 수익률 |
| `np.cumprod()` | 누적곱 | `np.cumprod(data, axis=None)` | 복리 수익률 |
| `np.prod()` | 곱 | `np.prod(data, axis=None)` | 전체 성장률 |

### ⚡ 성능 최적화 팁

1. **축(axis) 활용**: 다차원 배열에서 특정 방향으로만 연산
2. **ddof 파라미터**: 표본 vs 모집단 구분 (표본: ddof=1)
3. **마스킹**: 조건에 맞는 데이터만 선별하여 연산
4. **벡터화**: 반복문 대신 NumPy 함수 사용으로 속도 향상

### 🚨 주의사항

- **NaN 처리**: `np.nanmean()`, `np.nanstd()` 등 NaN 안전 함수 사용
- **메모리 사용량**: 대용량 데이터 시 메모리 고려
- **정밀도**: float32 vs float64 선택에 따른 정확도 차이
- **이상치**: 평균 대신 중앙값 사용 고려

In [34]:
print("=== 🏢 실전 예제: 기업 재무 데이터 분석 ===")

# 가상의 기업 5년간 분기별 매출 데이터 (20분기)
np.random.seed(2024)
quarterly_revenue = np.array([
    [120, 135, 142, 158],  # 1년차 (Q1-Q4)
    [165, 178, 185, 192],  # 2년차
    [198, 215, 223, 235],  # 3년차
    [242, 258, 265, 278],  # 4년차
    [285, 295, 302, 315]   # 5년차
]) + np.random.normal(0, 10, (5, 4))  # 약간의 노이즈 추가

print("📊 기업 재무 데이터 분석 (단위: 억원)")
print("분기별 매출 현황:")
print(quarterly_revenue.round(1))

print(f"\n🎯 종합 통계:")
total_revenue = quarterly_revenue.flatten()
print(f"   5년 총 매출: {np.sum(total_revenue):.1f}억원")
print(f"   분기 평균 매출: {np.mean(total_revenue):.1f}억원")
print(f"   매출 표준편차: {np.std(total_revenue):.1f}억원")
print(f"   매출 변동계수: {(np.std(total_revenue)/np.mean(total_revenue)*100):.1f}%")

print(f"\n📈 성장률 분석:")
annual_revenue = np.sum(quarterly_revenue, axis=1)  # 연도별 합계
annual_growth = np.diff(annual_revenue) / annual_revenue[:-1] * 100

print("   연도별 매출:")
for year, revenue in enumerate(annual_revenue, 1):
    print(f"     {year}년차: {revenue:.1f}억원")

print("   연도별 성장률:")
for year, growth in enumerate(annual_growth, 2):
    print(f"     {year}년차: {growth:+.1f}%")

print(f"   평균 성장률: {np.mean(annual_growth):.1f}%")
print(f"   최고 성장률: {np.max(annual_growth):.1f}% ({np.argmax(annual_growth)+2}년차)")

print(f"\n🔄 계절성 분석:")
quarterly_avg = np.mean(quarterly_revenue, axis=0)  # 분기별 평균
quarters = ['Q1', 'Q2', 'Q3', 'Q4']

print("   분기별 평균 매출:")
for quarter, avg in zip(quarters, quarterly_avg):
    print(f"     {quarter}: {avg:.1f}억원")

# 최고/최저 분기 찾기
best_quarter = np.argmax(quarterly_avg)
worst_quarter = np.argmin(quarterly_avg)
print(f"   최고 분기: {quarters[best_quarter]} ({quarterly_avg[best_quarter]:.1f}억원)")
print(f"   최저 분기: {quarters[worst_quarter]} ({quarterly_avg[worst_quarter]:.1f}억원)")

print(f"\n📊 리스크 분석:")
# 각 년도의 분기별 변동성
yearly_volatility = np.std(quarterly_revenue, axis=1)
print("   연도별 분기 변동성:")
for year, vol in enumerate(yearly_volatility, 1):
    print(f"     {year}년차: ±{vol:.1f}억원")

# 목표 대비 성과 (예: 분기당 200억 목표)
target = 200
performance_ratio = quarterly_revenue / target
above_target = performance_ratio >= 1.0

print(f"\n🎯 목표 달성 분석 (목표: {target}억원/분기):")
print(f"   목표 달성 분기: {np.sum(above_target)}개 / {quarterly_revenue.size}개")
print(f"   달성률: {np.sum(above_target)/quarterly_revenue.size*100:.1f}%")
print(f"   평균 목표 대비 비율: {np.mean(performance_ratio)*100:.1f}%")

=== 🏢 실전 예제: 기업 재무 데이터 분석 ===
📊 기업 재무 데이터 분석 (단위: 억원)
분기별 매출 현황:
[[136.7 142.4 140.  156.5]
 [174.2 189.6 158.8 178.7]
 [202.6 216.  233.5 251.2]
 [227.  255.2 276.9 286.6]
 [280.8 292.5 311.4 307.3]]

🎯 종합 통계:
   5년 총 매출: 4418.1억원
   분기 평균 매출: 220.9억원
   매출 표준편차: 58.0억원
   매출 변동계수: 26.3%

📈 성장률 분석:
   연도별 매출:
     1년차: 575.5억원
     2년차: 701.3억원
     3년차: 903.4억원
     4년차: 1045.8억원
     5년차: 1192.1억원
   연도별 성장률:
     2년차: +21.9%
     3년차: +28.8%
     4년차: +15.8%
     5년차: +14.0%
   평균 성장률: 20.1%
   최고 성장률: 28.8% (3년차)

🔄 계절성 분석:
   분기별 평균 매출:
     Q1: 204.3억원
     Q2: 219.1억원
     Q3: 224.1억원
     Q4: 236.1억원
   최고 분기: Q4 (236.1억원)
   최저 분기: Q1 (204.3억원)

📊 리스크 분석:
   연도별 분기 변동성:
     1년차: ±7.6억원
     2년차: ±11.1억원
     3년차: ±18.3억원
     4년차: ±22.9억원
     5년차: ±12.2억원

🎯 목표 달성 분석 (목표: 200억원/분기):
   목표 달성 분기: 12개 / 20개
   달성률: 60.0%
   평균 목표 대비 비율: 110.5%
