# 📚 Python 모듈과 NumPy 완전 정복

## 📖 학습 목표
- Python 모듈, 패키지, 라이브러리의 개념 이해
- NumPy 라이브러리의 기본 사용법 익히기
- 배열 생성, 조작, 인덱싱 방법 학습
- 실제 데이터를 활용한 BMI 계산 실습

```mermaid
graph TD
    A[Python 모듈 개념] --> B[NumPy 기초]
    B --> C[배열 생성 및 조작]
    C --> D[인덱싱과 슬라이싱]
    D --> E[실제 데이터 활용]
```

## 🧩 1. Python 모듈의 이해

### 모듈이란?
- **모듈(Module)**: 변수나 함수 또는 클래스를 모아 놓은 파일 (.py 확장자)
- **패키지(Package)**: 모듈이 여러개 들어있는 폴더
- **라이브러리(Library)**: 모듈 + 패키지 여러개 들어있는 도구의 모음

```mermaid
graph TD
    A[라이브러리] --> B[패키지1]
    A --> C[패키지2]
    B --> D[모듈1.py]
    B --> E[모듈2.py]
    C --> F[모듈3.py]
    C --> G[모듈4.py]
```

### 📋 비유로 이해하기
- **모듈**: 서류 한 장 (하나의 .py 파일)
- **패키지**: 보고서 하나 (여러 서류가 모인 폴더)
- **라이브러리**: 보고서가 모여있는 책장 (여러 도구의 모음)

In [1]:
# 모듈 import 예시
# import module
# module.cal_add(4,7)  # 덧셈 함수 호출
# module.cal_sub(6,1)  # 뺄셈 함수 호출

# 실제로는 다음과 같이 사용합니다
import math
print(f"원주율: {math.pi}")
print(f"2의 제곱근: {math.sqrt(2)}")

원주율: 3.141592653589793
2의 제곱근: 1.4142135623730951


## 📊 2. 데이터 분석 라이브러리 소개

### 주요 라이브러리들
- **NumPy**: 고성능 과학계산을 위한 데이터 분석 라이브러리
- **Pandas**: 행과 열로 구성된 표 형식의 데이터를 지원하는 라이브러리
- **Matplotlib**: 2D 그래프로 시각화가 가능한 라이브러리

```mermaid
pie title 데이터 분석 라이브러리 역할
    "NumPy (수치계산)" : 40
    "Pandas (데이터처리)" : 35
    "Matplotlib (시각화)" : 25
```

### 📈 빅데이터 처리 과정
**저장 → 관리 → 추출 → 처리 → 시각화 → 분석**

## 🔢 3. NumPy 기초 이해하기

### NumPy란?
- **Numerical Python**의 약자
- 파이썬의 수치해석용 라이브러리
- 리스트와 비슷하지만 **완전히 다른 성질**을 가짐
- 빠르고 효율적인 산술 연산 제공
- **다차원 배열(n-dimensional array)** 지원

### 🎯 NumPy vs 일반 리스트
```mermaid
graph LR
    A[일반 리스트] --> B[연결 시 결합]
    C[NumPy 배열] --> D[연결 시 원소별 연산]
    
    B --> E["[1,2] + [3,4] = [1,2,3,4]"]
    D --> F["[1,2] + [3,4] = [4,6]"]
```

In [2]:
# NumPy 설치 및 import
# !pip install numpy  # 필요한 경우에만 실행
import numpy as np

# 일반 리스트 생성
list1 = [1, 2, 3, 4, 5]
print(f"일반 리스트: {list1}")
print(f"리스트 타입: {type(list1)}")

# NumPy 배열 생성
arr1 = np.array(list1)
print(f"NumPy 배열: {arr1}")
print(f"배열 타입: {type(arr1)}")

일반 리스트: [1, 2, 3, 4, 5]
리스트 타입: <class 'list'>
NumPy 배열: [1 2 3 4 5]
배열 타입: <class 'numpy.ndarray'>


In [3]:
# 리스트 vs NumPy 배열의 차이점 비교
print("=== 리스트 vs NumPy 배열 비교 ===")
print(f"리스트 + 리스트: {list1 + list1}")
print(f"배열 + 배열: {arr1 + arr1}")
print(f"배열 + 10: {arr1 + 10}")
print(f"배열 * 2: {arr1 * 2}")
print(f"배열 ** 2: {arr1 ** 2}")

=== 리스트 vs NumPy 배열 비교 ===
리스트 + 리스트: [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
배열 + 배열: [ 2  4  6  8 10]
배열 + 10: [11 12 13 14 15]
배열 * 2: [ 2  4  6  8 10]
배열 ** 2: [ 1  4  9 16 25]


## 📐 4. 다차원 배열의 이해

### 배열의 차원
- **1차원**: 일렬로 나열된 데이터 `[1, 2, 3, 4, 5]`
- **2차원**: 행과 열로 구성된 표 형태 `[[1,2], [3,4]]`
- **3차원**: 깊이가 추가된 형태 (이미지, 동영상 등)

### 🎯 중요한 차원 표기법
- **일반 통계학**: `[행(row), 열(column), 깊이(depth)]`
- **NumPy**: `[깊이(depth), 행(row), 열(column)]`

In [4]:
# 2차원 배열 생성 - 각 차원에서 동일한 크기와 구조를 가져야 함
list2 = [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]]
arr2 = np.array(list2)
print(f"2차원 배열:\n{arr2}")
print(f"배열 타입: {type(arr2)}")

2차원 배열:
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
배열 타입: <class 'numpy.ndarray'>


## 🔍 5. 배열 속성 확인하기

### 주요 속성들
- **`.shape`**: 배열의 크기 (행, 열)
- **`.ndim`**: 배열의 차원 수
- **`.size`**: 전체 요소 개수
- **`.dtype`**: 데이터 타입

```mermaid
graph TD
    A[배열 속성] --> B[shape: 크기]
    A --> C[ndim: 차원]
    A --> D[size: 요소수]
    A --> E[dtype: 타입]
```

In [5]:
# 배열 속성 확인하기
print("=== 1차원 배열 속성 ===")
print(f"arr1.shape: {arr1.shape}")
print(f"arr1.ndim: {arr1.ndim}")
print(f"arr1.size: {arr1.size}")
print(f"arr1.dtype: {arr1.dtype}")

print("\n=== 2차원 배열 속성 ===")
print(f"arr2.shape: {arr2.shape}")
print(f"arr2.ndim: {arr2.ndim}")
print(f"arr2.size: {arr2.size}")
print(f"arr2.dtype: {arr2.dtype}")

=== 1차원 배열 속성 ===
arr1.shape: (5,)
arr1.ndim: 1
arr1.size: 5
arr1.dtype: int64

=== 2차원 배열 속성 ===
arr2.shape: (2, 5)
arr2.ndim: 2
arr2.size: 10
arr2.dtype: int64


In [None]:
# 데이터 타입 변경하기
arr1_int8 = np.array([1, 2, 3, 4, 5], dtype=np.int8)
print(f"int8 타입: {arr1_int8.dtype}")

arr1_int64 = arr1_int8.astype("int64")
print(f"int64로 변경: {arr1_int64.dtype}")

arr1_float = arr1_int8.astype("float32")
print(f"float32로 변경: {arr1_float.dtype}")

## 🛠️ 6. 배열 생성 함수들

### np.arange() 함수
- **for문과 range()** 함수와 동일한 방식
- `np.arange(start, stop, step)`
- 연속된 숫자 배열을 쉽게 생성

### 배열 모양 변경: reshape()
- 배열의 차원과 크기를 변경
- `arr.reshape(행, 열)`

In [6]:
# 전통적인 방법 vs NumPy 방법 비교
print("=== 전통적인 방법 (for문 사용) ===")
list3 = []
for i in range(1, 51, 1):
    list3.append(i)
print(f"for문으로 생성: {list3[:10]}...")  # 처음 10개만 출력

print("\n=== NumPy 방법 (arange 사용) ===")
arr3 = np.arange(1, 51, 1)
print(f"arange로 생성: {arr3[:10]}...")  # 처음 10개만 출력
print(f"배열 크기: {arr3.shape}")

=== 전통적인 방법 (for문 사용) ===
for문으로 생성: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]...

=== NumPy 방법 (arange 사용) ===
arange로 생성: [ 1  2  3  4  5  6  7  8  9 10]...
배열 크기: (50,)


In [7]:
# reshape을 사용한 배열 모양 변경
print("=== 배열 모양 변경 ===")
arr3_2d = arr3.reshape(5, 10)
print(f"5행 10열로 변경:\n{arr3_2d}")
print(f"변경된 배열 크기: {arr3_2d.shape}")

# 다른 형태로도 변경 가능
arr3_10x5 = arr3.reshape(10, 5)
print(f"\n10행 5열로 변경:\n{arr3_10x5}")

=== 배열 모양 변경 ===
5행 10열로 변경:
[[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]
 [31 32 33 34 35 36 37 38 39 40]
 [41 42 43 44 45 46 47 48 49 50]]
변경된 배열 크기: (5, 10)

10행 5열로 변경:
[[ 1  2  3  4  5]
 [ 6  7  8  9 10]
 [11 12 13 14 15]
 [16 17 18 19 20]
 [21 22 23 24 25]
 [26 27 28 29 30]
 [31 32 33 34 35]
 [36 37 38 39 40]
 [41 42 43 44 45]
 [46 47 48 49 50]]


## 🎯 7. 배열 인덱싱과 슬라이싱

### 데이터 접근 방법들
1. **인덱싱(Indexing)**: 특정 위치의 값 하나에 접근
2. **슬라이싱(Slicing)**: 연속된 여러 값에 접근
3. **불리언 인덱싱(Boolean Indexing)**: 조건에 맞는 값들에 접근

```mermaid
graph TD
    A[배열 데이터 접근] --> B[인덱싱]
    A --> C[슬라이싱]
    A --> D[불리언 인덱싱]
    
    B --> E["arr[0] → 첫 번째 요소"]
    C --> F["arr[1:4] → 1~3번째 요소"]
    D --> G["arr[arr > 30] → 30보다 큰 요소들"]
```

In [8]:
# 실습용 배열 생성 (10, 20, 30, 40, 50)
arr4 = np.arange(10, 51, 10)
print(f"실습용 배열: {arr4}")

# 1. 인덱싱 - 특정 위치의 값 하나 가져오기
print("\n=== 인덱싱 ===")
first_element = arr4[0]
print(f"첫 번째 숫자: {first_element}")

# 여러 개의 특정 위치 값 가져오기
multiple_elements = arr4[[0, 2]]  # 첫 번째와 세 번째
print(f"첫 번째와 세 번째 숫자: {multiple_elements}")

실습용 배열: [10 20 30 40 50]

=== 인덱싱 ===
첫 번째 숫자: 10
첫 번째와 세 번째 숫자: [10 30]


In [9]:
# 2. 슬라이싱 - 연속된 여러 값 가져오기
print("=== 슬라이싱 ===")
# 형식: arr[시작:끝:간격]
slice_all = arr4[0:5:1]  # 모든 요소
print(f"모든 요소: {slice_all}")

slice_first_three = arr4[0:3]  # 처음 3개
print(f"처음 3개: {slice_first_three}")

slice_last_two = arr4[-2:]  # 마지막 2개
print(f"마지막 2개: {slice_last_two}")

slice_step = arr4[::2]  # 2칸씩 건너뛰기
print(f"2칸씩 건너뛰기: {slice_step}")

=== 슬라이싱 ===
모든 요소: [10 20 30 40 50]
처음 3개: [10 20 30]
마지막 2개: [40 50]
2칸씩 건너뛰기: [10 30 50]


In [10]:
# 3. 불리언 인덱싱 - 조건에 맞는 값들 가져오기
print("=== 불리언 인덱싱 ===")
condition = arr4 > 30
print(f"30보다 큰지 확인: {condition}")

filtered_values = arr4[arr4 > 30]
print(f"30보다 큰 값들: {filtered_values}")

# 다양한 조건들
print(f"20 이상 40 이하: {arr4[(arr4 >= 20) & (arr4 <= 40)]}")
print(f"20 또는 50: {arr4[(arr4 == 20) | (arr4 == 50)]}")

=== 불리언 인덱싱 ===
30보다 큰지 확인: [False False False  True  True]
30보다 큰 값들: [40 50]
20 이상 40 이하: [20 30 40]
20 또는 50: [20 50]


## 🧮 8. 실습 문제

### 문제: 11~20까지 배열을 만들어서 제곱의 값이 200 이상인 숫자만 출력하기

In [11]:
# 11~20까지 배열 생성
arr5 = np.arange(11, 21, 1)
print(f"11~20 배열: {arr5}")

# 제곱 계산
squared = arr5 ** 2
print(f"제곱 값들: {squared}")

# 200 이상인지 확인
condition = squared >= 200
print(f"200 이상인지 확인: {condition}")

# 조건을 만족하는 원래 숫자들 출력
result = arr5[arr5 ** 2 >= 200]
print(f"제곱이 200 이상인 숫자들: {result}")

# 개수 확인
count = result.size
print(f"조건을 만족하는 숫자 개수: {count}개")

11~20 배열: [11 12 13 14 15 16 17 18 19 20]
제곱 값들: [121 144 169 196 225 256 289 324 361 400]
200 이상인지 확인: [False False False False  True  True  True  True  True  True]
제곱이 200 이상인 숫자들: [15 16 17 18 19 20]
조건을 만족하는 숫자 개수: 6개


## 📊 9. 실제 데이터 활용: BMI 계산

### BMI (Body Mass Index) 계산 공식
**BMI = 몸무게(kg) ÷ 키(m)²**

### 📈 BMI 기준
- 18.5 미만: 저체중
- 18.5~22.9: 정상체중
- 23~24.9: 과체중
- 25 이상: 비만

```mermaid
graph LR
    A[키/몸무게 데이터] --> B[데이터 로드]
    B --> C[단위 변환]
    C --> D[BMI 계산]
    D --> E[분석 결과]
```

In [12]:
# 샘플 데이터 생성 (실제 파일이 없는 경우)
# 키(cm)와 몸무게(kg) 데이터
height_cm = np.array([170, 165, 180, 175, 160, 185, 172, 168, 178, 155])
weight_kg = np.array([65, 55, 80, 70, 50, 90, 68, 60, 75, 45])

print(f"키 데이터(cm): {height_cm}")
print(f"몸무게 데이터(kg): {weight_kg}")

# 데이터 속성 확인
print(f"\n데이터 개수: {height_cm.size}개")
print(f"키 데이터 타입: {height_cm.dtype}")
print(f"몸무게 데이터 타입: {weight_kg.dtype}")

키 데이터(cm): [170 165 180 175 160 185 172 168 178 155]
몸무게 데이터(kg): [65 55 80 70 50 90 68 60 75 45]

데이터 개수: 10개
키 데이터 타입: int64
몸무게 데이터 타입: int64


In [13]:
# BMI 계산 과정
print("=== BMI 계산 과정 ===")

# 1. 키를 cm에서 m로 변환
height_m = height_cm / 100
print(f"키(m): {height_m}")

# 2. BMI 계산: 몸무게 ÷ 키²
bmi = weight_kg / (height_m ** 2)
print(f"BMI 지수: {bmi}")
print(f"BMI 지수(반올림): {np.round(bmi, 1)}")

=== BMI 계산 과정 ===
키(m): [1.7  1.65 1.8  1.75 1.6  1.85 1.72 1.68 1.78 1.55]
BMI 지수: [22.49134948 20.2020202  24.69135802 22.85714286 19.53125    26.29656684
 22.98539751 21.2585034  23.67125363 18.73048907]
BMI 지수(반올림): [22.5 20.2 24.7 22.9 19.5 26.3 23.  21.3 23.7 18.7]


In [14]:
# 3. BMI 분석
print("=== BMI 분석 결과 ===")

# 과체중(BMI ≥ 23) 확인
overweight_condition = bmi >= 23
print(f"과체중 여부: {overweight_condition}")

overweight_bmi = bmi[bmi >= 23]
print(f"과체중인 사람들의 BMI: {np.round(overweight_bmi, 1)}")

overweight_count = overweight_bmi.size
print(f"과체중인 사람 수: {overweight_count}명")

# 정상체중(18.5 ≤ BMI < 23) 확인
normal_weight = bmi[(bmi >= 18.5) & (bmi < 23)]
print(f"정상체중인 사람들의 BMI: {np.round(normal_weight, 1)}")
print(f"정상체중인 사람 수: {normal_weight.size}명")

# 전체 통계
print(f"\n=== 전체 통계 ===")
print(f"평균 BMI: {np.round(np.mean(bmi), 1)}")
print(f"최고 BMI: {np.round(np.max(bmi), 1)}")
print(f"최저 BMI: {np.round(np.min(bmi), 1)}")

=== BMI 분석 결과 ===
과체중 여부: [False False  True False False  True False False  True False]
과체중인 사람들의 BMI: [24.7 26.3 23.7]
과체중인 사람 수: 3명
정상체중인 사람들의 BMI: [22.5 20.2 22.9 19.5 23.  21.3 18.7]
정상체중인 사람 수: 7명

=== 전체 통계 ===
평균 BMI: 22.3
최고 BMI: 26.3
최저 BMI: 18.7


## 🎯 10. 추가 유용한 NumPy 함수들

### 배열 생성 함수들
- `np.zeros()`: 0으로 채워진 배열
- `np.ones()`: 1로 채워진 배열
- `np.random.random()`: 랜덤 값 배열
- `np.linspace()`: 균등한 간격의 배열

### 통계 함수들
- `np.mean()`: 평균
- `np.std()`: 표준편차
- `np.sum()`: 합계
- `np.max()`, `np.min()`: 최대값, 최소값

In [15]:
# 다양한 배열 생성 함수들
print("=== 다양한 배열 생성 ===")

# 0으로 채워진 배열
zeros_arr = np.zeros(5)
print(f"0으로 채워진 배열: {zeros_arr}")

# 1로 채워진 배열
ones_arr = np.ones(5)
print(f"1로 채워진 배열: {ones_arr}")

# 랜덤 값 배열
random_arr = np.random.random(5)
print(f"랜덤 값 배열: {np.round(random_arr, 2)}")

# 균등한 간격의 배열
linspace_arr = np.linspace(0, 10, 5)  # 0부터 10까지 5개
print(f"균등 간격 배열: {linspace_arr}")

=== 다양한 배열 생성 ===
0으로 채워진 배열: [0. 0. 0. 0. 0.]
1로 채워진 배열: [1. 1. 1. 1. 1.]
랜덤 값 배열: [0.69 0.99 0.22 0.29 0.9 ]
균등 간격 배열: [ 0.   2.5  5.   7.5 10. ]
랜덤 값 배열: [0.69 0.99 0.22 0.29 0.9 ]
균등 간격 배열: [ 0.   2.5  5.   7.5 10. ]


In [16]:
# 통계 함수들 활용
test_scores = np.array([85, 92, 78, 96, 88, 73, 91, 84, 87, 90])
print(f"시험 점수: {test_scores}")

print("\n=== 통계 분석 ===")
print(f"평균 점수: {np.mean(test_scores):.1f}")
print(f"표준편차: {np.std(test_scores):.1f}")
print(f"총합: {np.sum(test_scores)}")
print(f"최고 점수: {np.max(test_scores)}")
print(f"최저 점수: {np.min(test_scores)}")
print(f"중간값: {np.median(test_scores)}")

# 조건부 분석
high_scores = test_scores[test_scores >= 90]
print(f"\n90점 이상 점수: {high_scores}")
print(f"90점 이상 학생 수: {high_scores.size}명")
print(f"90점 이상 비율: {high_scores.size / test_scores.size * 100:.1f}%")

시험 점수: [85 92 78 96 88 73 91 84 87 90]

=== 통계 분석 ===
평균 점수: 86.4
표준편차: 6.5
총합: 864
최고 점수: 96
최저 점수: 73
중간값: 87.5

90점 이상 점수: [92 96 91 90]
90점 이상 학생 수: 4명
90점 이상 비율: 40.0%


## 📚 11. 학습 정리

### 🎯 오늘 배운 내용
1. **Python 모듈 시스템**: 모듈, 패키지, 라이브러리의 개념
2. **NumPy 기초**: 배열 생성과 기본 연산
3. **배열 속성**: shape, ndim, size, dtype
4. **데이터 접근**: 인덱싱, 슬라이싱, 불리언 인덱싱
5. **실제 활용**: BMI 계산을 통한 데이터 분석

```mermaid
graph TD
    A[Python 모듈 이해] --> B[NumPy 기초 학습]
    B --> C[배열 생성 및 조작]
    C --> D[데이터 접근 방법]
    D --> E[실제 데이터 분석]
    E --> F[데이터 과학 기초 완성]
```

### 💡 핵심 포인트
- NumPy는 **데이터 과학의 기초**
- 배열 연산은 **벡터화**되어 빠르고 효율적
- **불리언 인덱싱**으로 조건부 데이터 추출 가능
- 실제 데이터 분석에서 **전처리의 중요성**

### 🚀 다음 단계
- **Pandas**: 더 복잡한 데이터 구조 다루기
- **Matplotlib**: 데이터 시각화
- **머신러닝**: 예측 모델 만들기