## Chapter 1. 변수

### 1.1. 변수

**변수명**은 **데이터를 참조하기 위해 붙이는 이름**이며, 변수명으로 지정되어 **메모리에 저장된 데이터를 참조하는 것이 변수**입니다. 수학 시간에 배웠던 미지수를 떠올리면 쉽게 이해할 수 있습니다. 파이썬에서 변수를 사용하면 변수명을 통해 해당 데이터에 접근할 수 있습니다.

변수로 지정할 수 있는 데이터의 종류는 숫자, 문자열 등 다양하며, 추후 여러분이 데이터 분석 모듈(예: 판다스 라이브러리)을 학습하면 하나의 표도 변수로 지정할 수 있어 매우 편리합니다.



#### 1.1.1. 변수를 지정하는 방법

> 변수를 지정하는 방법

<img src=https://i.postimg.cc/br2yC3dq/6.jpg, width=600>

[그림 1-1] 변수를 지정하는 방법


변수를 지정하는 방법은 간단합니다. **변수명을 정하고 등호(`=`)를 사용해 데이터를 할당**하면 됩니다. 파이썬은 변수를 지정할 때 자료형을 명시할 필요가 없으며, 변수에 저장된 데이터의 자료형에 따라 자동으로 처리됩니다.

In [1]:
# 코드 1-1. 변수 x에 10을 할당하고, 변수 x를 출력
x = 10
x  # 변수 x 출력: 10

10

파이썬에서 **변수 할당 시에는 등호(`=`) 앞뒤로 공백을 추가**하여 가독성을 높이는 것이 좋습니다. 이는 함수 호출 시 사용하는 `매개변수=인수` 형식과 구분하기 위함입니다.

```python
# 변수 할당은 등호 앞뒤로 공백을 추가
x = 20

# 함수에 매개변수=인수 입력 시 공백 없음
print('Hello', 'World', sep='/')
```


#### 1.1.2. 변수를 사용하는 이유

> 변수를 사용하는 이유

변수는 데이터를 저장하고 관리하기 위해 이름을 부여함으로써 **데이터를 재사용하고 효율적으로 관리할 수 있도록 돕습니다.** 이를 통해 코드의 가독성이 높아지고 유지보수가 더욱 편리해집니다.

In [2]:
# 코드 1-2. 변수를 사용하는 이유: 편의성
# 소수점 10자리의 원주율을 변수 pi로 지정
pi = 3.1415926535

# 반지름이 3인 원의 원주 계산 (2 * 원주율 * 반지름)
2 * pi * 3  # 출력: 18.849555921

18.849555921

#### 1.1.3. 변수의 업데이트

> 변수의 업데이트

**변수에 저장된 값을 수정하거나 새로운 값을 할당하는 과정**을 변수의 업데이트라고 합니다. 파이썬에서는 기존 변수에 새로운 값을 간단히 할당하여 쉽게 업데이트할 수 있습니다.

In [3]:
# 코드 1-3. 변수의 업데이트
# 변수 x에 10을 할당
x = 10

# x에 20을 할당해 업데이트
x = 20
x  # 변수 x 출력: 20

20

#### 1.1.4. 변수명을 지정하는 규칙

> 변수 명명법

파이썬에서 변수명을 지정할 때 몇 가지 규칙을 지켜야 합니다.

- **첫 글자는 문자나 언더스코어(_)를 사용해야 합니다.**

  변수명에 숫자가 포함될 수 있으나, 변수명의 첫 글자로 숫자는 불가합니다.
  
  이후에는 문자, 숫자, 언더스코어를 조합할 수 있습니다.

- **대소문자를 구분합니다.**

  예를 들어, `df`와 `Df`는 서로 다른 변수로 인식됩니다. 소문자를 사용하는 것이 일반적입니다.

- **파이썬의 키워드나 함수명은 변수명으로 사용할 수 없습니다.**

  예를 들어, True, False, if, print 등은 변수명으로 사용할 수 없습니다.

> 스네이크 표기법

변수명은 스네이크 표기법(snake_case)을 따르는 것이 **권장**되며, 이 방식에서는 **모든 문자를 소문자로 작성하고 단어 간 구분은 언더스코어(`_`)를 사용합니다.**

<img src=https://i.postimg.cc/66G4xpjp/camel-snake.jpg, width=600>

[그림 1-2] 카멜 표기법과 스네이크 표기법

스네이크 표기법에 대한 자세한 내용은 다음 링크를 참고하세요.

🎈 [네이밍 규칙: 카멜 표기법과 스네이크 표기법](https://kimpanda.tistory.com/328)

> 퀴즈

다음 중 변수명으로 가능한 것을 모두 고르시오.

1. 1data
2. data(sum)
3. 데이터
4. user_data
5. Data2

**⭐ 해답**

숫자로 시작하거나 괄호와 같은 특수문자가 포함된 이름(예: `1data`, `data(sum)`)은 변수명으로 사용할 수 없습니다. 그래서 변수명으로 사용할 수 있는 예는 `데이터`, `user_data`, `Data2`입니다.

또한, 한글(예: `데이터`)이나 대문자(예: `Data2`)로 변수명을 지정하는 것은 권장 사항에 어긋나므로, `user_data`와 같이 소문자와 언더스코어(`_`)를 사용하는 형식이 가장 권장됩니다.


#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

> ChatGPT에 질문하기

ChatGPT에 심화 내용을 질문해 보다 깊이 학습할 수 있습니다.

🎈 [http://chatgpt.com/](http://chatgpt.com/)

```
프롬프트
파이썬의 변수에 대한 초급 강의를 학습한 수강생입니다.
더 깊이 있는 내용을 알려주세요.
```

> 기존 변수의 값을 활용한 업데이트


기존 변수의 값을 활용하여 변수를 업데이트할 수도 있습니다. 이 방법은 데이터를 동적으로 처리하고 변수의 값을 효율적으로 변경하는 데 유용합니다.

In [4]:
# 코드 1-4. 기존 변수의 값을 활용해 변수 업데이트
# 변수 x에 10을 할당
x = 10

# x에 1을 더하여 업데이트
x = x + 1

# print 함수로 결과 출력
print(x)  # 출력: 11

11


**축약 할당 연산자**를 사용하면 기존 변수의 값을 더욱 간편하게 업데이트할 수 있습니다. 예를 들어, `x = x + 1`은 `x += 1`과 동일한 코드입니다.

In [5]:
# 코드 1-5. 축약 할당 연산자를 사용해 [코드 1-4]와 동일한 결과 얻기
# 변수 x에 10을 할당
x = 10

# x에 1을 더하여 업데이트 (축약 할당 연산자 += 사용)
x += 1

# print 함수로 결과 출력
print(x)  # 출력: 11

11


축약 할당 연산자에는 `+=` 외에도 `-=`, `*=`, `/=` 등이 있습니다. 이러한 연산자는 주로 반복문과 같은 제어문에서 사용되지만, 반복문을 자주 사용하지 않는 데이터 분석 모듈(예: 판다스 라이브러리)에서는 자주 사용되지는 않습니다.

## Chapter 2. 자료형

**자료형은 값의 종류와 저장 방식, 연산 방법을 결정하는 데이터의 유형**입니다. 파이썬은 데이터를 표현하고 처리하기 위해 다양한 자료형을 제공합니다. 이러한 자료형은 코딩의 로직을 구성하고 데이터를 저장하며 연산을 수행하는 데 필수적인 요소입니다.

자료형은 저장하는 데이터의 개수에 따라 분류되며, **하나의 값을 저장하고 다룰 수 있는 자료형을 스칼라 자료형**이라고 하며 정수, 실수, 문자열, 불(bool) 등이 이에 포함됩니다. 반면, **여러 개의 데이터를 저장할 수 있는 자료형을 컬렉션 자료형**이라고 하며, 리스트, 튜플, 딕셔너리, 집합 등이 이에 해당합니다. 이러한 자료형을 적절히 활용하면 데이터를 효과적으로 관리하고 처리할 수 있습니다.


<br>




| 자료형  | 뜻                    | 단수 / 복수 | 불변성 |
|---------|-----------------------|-------------|--------|
| int     | 정수                  | 단수        | 불변   |
| float   | 부동 소수점(실수)      | 단수        | 불변   |
| str     | 문자열                | 단수        | 불변   |
| bool    | 불리언(True, False)   | 단수        | 불변   |
| list    | 리스트                | 복수        | 가변   |
| tuple   | 튜플                  | 복수        | 불변   |
| dict    | 딕셔너리              | 복수        | 가변   |
| set     | 집합                  | 복수        | 가변   |

[표 2-1] 파이썬의 기본 자료형

파이썬은 기본 자료형뿐 아니라 복잡한 데이터 구조를 표현할 수 있는 다양한 형태의 자료형을 지원합니다. 각 자료형은 고유한 특성과 용도가 있으며, 코딩의 효율성과 가독성을 높이기 위해 적절히 선택해야 합니다.


### 2.1. 정수

파이썬의 정수형 데이터는 기본 자료형 중 하나로, **`int`**(integer)로 표현되며 다양한 수치 연산을 지원합니다. 정수형 데이터는 코딩에서 자주 사용되며, 특히 산술 연산과 비교 연산에서 유용하게 활용됩니다.


#### 2.1.1. 파이썬의 산술 연산

> 산술 연산

정수형 데이터는 기본적인 산술 연산을 수행할 수 있으며, 그 외 실수 등 다른 자료형도 산술 연산을 지원합니다. 파이썬은 덧셈, 뺄셈, 곱셈, 나눗셈과 같은 사칙 연산 외에도 몫, 나머지, 지수 연산 등을 지원하여 수치 계산을 더욱 유연하게 처리할 수 있습니다.

<br>

| 산술 연산 | 산술 연산자 |
|-----------|-------------|
| 덧셈      | +           |
| 뺄셈      | -           |
| 곱셈      | *           |
| 나눗셈    | /           |
| 몫        | //          |
| 나머지    | %           |
| 지수      | **          |

[표 2-2] 파이썬의 산술 연산



In [6]:
# 코드 2-1. 파이썬의 산술 연산
# 변수 a에 10을 할당
a = 10

# a와 3을 나눈 나머지 출력
print(a % 3)  # 출력: 1

# a의 4승 출력
a ** 4  # 출력: 10000

1


10000

정수는 크다 와 같다 등의 비교 연산도 수행할 수 있습니다. 다만, 비교 연산의 결과는 `True` 또는 `False`를 나타내는 불(bool) 자료형으로 반환되므로, 이후 불 자료형을 학습한 뒤 자세히 알아보겠습니다. (불 자료형은 2.5 단원에서 학습합니다.)

#### 2.1.2. 정수로 변환하기

> int 함수

**`int` 함수는 주어진 데이터를 정수로 변환합니다.** 숫자로 표현된 표현된 문자열을 정수로 변환하거나 실수를 정수로 변환할 때 `int` 함수를 사용합니다.

In [7]:
# 코드 2-2. 정수로 변환하기
b = 1.1

# 실수인 변수 b를 정수로 변환하고 출력
print(int(b))  # 출력: 1

c = '10'

# 문자열인 변수 c를 정수로 변환하고 출력
int(c)  # 출력 : 10

1


10

#### 2.1.3. 자료형 확인

> type 함수

`type` 함수는 **변수의 자료형을 반환**합니다. 이를 통해 데이터가 정수형 자료형인지 확인할 수 있으며, 정수 자료형뿐 아니라 대부분의 자료형을 확인할 수 있습니다.

In [8]:
# 코드 2-3. type 함수로 자료형 확인하기
d = 5

# type 함수로 변수 d의 자료형 확인하기
type(d)  # 출력: int

int

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.


> 데이터 분석 모듈의 정수 자료형

데이터 분석 모듈 판다스나 넘파이에서 정수형 데이터를 저장할 때 주로 `int32` 또는 `int64` 자료형을 사용합니다. 이는 파이썬의 기본 `int` 자료형과 유사하지만, 판다스 내부에서 데이터를 효율적으로 처리하고 메모리를 관리하기 위해 사용됩니다.

<img src=https://i.postimg.cc/nzQkDwhy/image.png, width=600>

예를 들어 `int64` 자료형에서 `int`는 정수를 의미하고, 숫자는 비트 수를 나타냅니다. 따라서 **`int64`는 64비트로 표현할 수 있는 정수 범위를 표현할 수 있습니다.** 이 중 1개의 비트는 부호를 나타내는 데 사용되고, 나머지 63개의 비트는 정수의 값을 표현하는 데 사용됩니다. (2진법 기반입니다.)




> ChatGPT에 질문하기

- ChatGPT에 심화 내용을 질문해 보다 깊이 학습할 수 있습니다.

    🎈 [http://chatgpt.com/](http://chatgpt.com/)

    ```
파이썬의 정수에 대한 초급 강의를 학습한 수강생입니다.
더 깊이 있는 내용을 알려주세요.
```

- 스크롤 캡처를 사용해 강의 자료 전체를 저장한 후, ChatGPT에게 문제 생성을 요청할 수 있습니다.

    ```
(스크롤 캡처 첨부)
초급 파이썬을 수강하는 학생입니다.
첨부한 이미지의 범위에서 초급 수준의 문제를 출제하세요.
```
    **구글 크롬**을 사용한다면, **확장 프로그램 GoFullPage**로 손쉽게 스크롤 캡처를 할 수 있습니다. 그 외에도 다양한 스크롤 캡처 프로그램이 있으니 검색해 보세요.

    🎈 [GoFullPage 다운로드 링크](https://chromewebstore.google.com/detail/gofullpage-full-page-scre/fdpohaocaechififmbbbbbknoalclacl)
    
    🎈 [GoFullPage 설치 참고 영상](https://youtu.be/kSzuL9NBRSQ?si=jp6b9MknDe63oiV_&t=100)



### 2.2. 실수

실수는 소수점을 포함하는 숫자를 의미합니다. 파이썬에서는 이러한 실수를 주로 **부동 소수점 자료형(`float`)**으로 처리합니다.


In [9]:
# 코드 2-4. 실수의 생성

# 변수 a에 1.5를 할당하고 변수 a 출력
a = 1.5
print(a)  # 출력: 1.5

# 변수 a의 자료형 출력
type(a)  # 출력: float

1.5


float

실수는 수치형 자료형이기 때문에 산술 연산과 비교 연산이 가능합니다.

#### 2.2.1. 부동 소수점

> 부동 소수점이란?

- 실수를 유효숫자와 지수로 분리하여 표현하는 방식
- 소수점을 이동해 정수 부분을 한 자릿수로 맞추고, 지수를 사용해 숫자의 크기를 표현

<img src=https://i.postimg.cc/GtfMNckH/image.jpg, width=600>

[그림 2-1] 부동 소수점

다만, **부동 소수점은 실수를 메모리에 저장하는 방식일 뿐이며, 출력 시에는 일반적인 실수 형태로 표시됩니다.** 따라서 실수형 자료를 부동 소수점 자료형과 동일시해도 문제가 없습니다.

<br>

> 파이썬의 부동 소수점

- 파이썬에서 실수는 2진법 기반의 64비트 부동 소수점 형식으로 저장됩니다.

- 1비트는 부호, 11비트는 지수, 52비트는 가수에 사용됩니다.



<img src=https://i.postimg.cc/ZqSz5LXV/image.png, width=600>

[그림 2-2] 파이썬의 부동 소수점


<br>

> 부동 소수점의 한계

부동 소수점은 표현할 수 있는 수의 범위가 넓다는 장점이 있지만, **10진법 실수를 2진법으로 근사하여 제한된 비트로 계산하기 때문에 매우 엄밀하지는 않습니다.** 따라서 부동 소수점 연산에서는 때때로 오차가 발생할 수 있습니다.





In [10]:
# 코드 2-5. 부동 소수점 자료형의 한계

# 0.1 + 0.2의 결과 출력 (부동 소수점의 특성으로 근삿값이 출력됨)
0.1 + 0.2  # 출력: 0.30000000000000004

0.30000000000000004

대부분의 경우 엄밀한 계산이 필요하지 않으므로 문제가 되지 않지만, 매우 엄밀한 계산이 필요한 상황에서는 **decimal** 등의 모듈을 사용하여 문제를 해결합니다.

#### 2.2.2. 실수로 변환하기

> float 함수

**`float` 함수는 주어진 데이터 실수로 변환합니다.** 수치형으로 표현된 문자열이나 정수를 실수로 변환하고 싶을 때 `float` 함수를 사용합니다.

In [11]:
# 코드 2-6. 실수로 변환하기
b = 1

# 정수인 변수 b를 실수로 변환하고 출력
print(float(b))  # 출력: 1.0

c = '10'

# 문자열인 변수 c를 실수로 변환하고 출력
float(c)  # 출력 : 10.0

1.0


10.0

'2.1'과 같은 실수를 나타내는 문자열을 정수로 변환하려면, 먼저 `float` 함수를 사용해 실수로 변환한 뒤 `int` 함수를 통해 정수로 변환합니다.

In [12]:
# 코드 2-7. 실수 형태의 문자열을 정수로 변환하기
d = '2.1'

# 변수 d를 정수인 2로 변환
int(float(d))  # 출력: 2

2

> ChatGPT의 캔버스 기능 사용하기

**ChatGPT의 캔버스 기능**

별도의 코딩 창을 제공하며, 버그 수정과 실행이 가능하고,
개별 코드를 드래그해서 질문할 수 있습니다.

<img src=https://i.postimg.cc/3rnvwPvb/Chat-GPT-2.jpg, width=600>

[그림 2-3] ChatGPT의 캔버스 기능

캔버스 기능의 UI는 ChatGPT 버전에 따라 달라질 수 있으며, 프롬프트를 입력해도 캔버스 기능을 사용할 수 있습니다.

```
프롬프트:
캔버스 코딩 창을 열어주세요.
```

### 특강. 모듈 체험하기

여러분의 궁금증을 해소하고 동기를 부여하기 위해 모듈을 직접 체험하는 시간을 갖겠습니다. 이를 위한 예제로, 팩토리얼을 구하는 방법을 살펴보겠습니다.

> 팩토리알 구하기

**팩토리얼(factorial)**은 **어떤 자연수 n에 대해 1부터 n까지의 모든 정수를 곱한 값**을 의미합니다. 팩토리얼은 수학에서 순열, 조합, 확률 계산 등 다양한 분야에서 사용됩니다. 예를 들어, 5의 팩토리얼은 다음과 같습니다.

```
5! = 5 × 4 × 3 × 2 × 1 = 120
```



> 제어문으로 팩토리알 구하기

여러분이 n!을 구하는 코드를 파이썬으로 구현할 때, 모듈을 사용하지 않는다면 다음과 같은 제어문(반복문)을 사용합니다.

In [13]:
# 참고 1. 제어문으로 팩토리알 구하기
n = 5  # 변수 n에 정수 5를 할당

result = 1  # 팩토리얼 계산 결과를 저장할 변수 초기화
for i in range(1, n + 1):  # 1부터 n까지 반복하며 곱하기
    result *= i  # result에 i를 곱하고 다시 result에 할당

print(result)  # 출력: 120 (5!)

120


👌 제어문(반복문)은 추후 학습할 내용이므로 위 코드에 대해 몰라도 괜찮습니다. 중요한 것은, 위와 같은 **제어문을 사용하여 팩토리얼을 구하는 것이 모듈 없이 기본 파이썬만으로 문제를 해결하는 방법**이라는 점입니다.

> 모듈로 팩토리알 구하기

판다스에는 다양한 모듈이 있으며, 그중 **math** 모듈은 **여러 수학 관련 함수와 기능을 제공**합니다. **math** 모듈의 `factorial` 함수를 사용하면 제어문을 직접 구현하는 것보다 훨씬 쉽게 팩토리얼을 계산할 수 있습니다.

In [14]:
# 참고 2. math 모듈을 사용하여 팩토리얼 구하기
import math  # math 모듈 불러오기
math.factorial(5)  # math 모듈의 factorial 함수로 5! 계산: 120

120

기본 파이썬으로 문제를 해결하려면 제어문을 사용해야 하지만, **모듈을 활용하면 해당 기능을 제공하는 함수를 사용하여 더 쉽게 해결할 수 있습니다.** 모듈의 함수를 사용하면 코드가 간결해지고 직관성이 높아집니다.

데이터 분석 모듈인 **넘파이(Numpy)**와 **판다스(Pandas)**는 더욱 강력한 기능을 간결한 함수로 제공합니다. 이러한 모듈을 활용하여 데이터 처리 능력을 크게 향상시킬 수 있습니다.

### 2.3. 문자열

파이썬에서 문자열은 텍스트 데이터를 나타내는 자료형으로, 큰따옴표(`"`)나 작은따옴표(`'`)로 감싸서 표현합니다. 이러한 문자열 자료형(str)은 다양한 텍스트 작업에 사용됩니다. **파이썬의 문자열은 대소문자를 구분합니다.** 예를 들어 `'abc'`와 `'Abc'`는 서로 다른 문자열로 인식됩니다.

In [15]:
# 코드 2-8. 문자열의 생성

# 변수 a에 '김판다'를 할당하고 변수 a를 출력
a = '김판다'
print(a)  # 출력: '김판다'

# 변수 a의 자료형 출력
type(a)  # 출력: str

김판다


str

#### 2.3.1. 멀티 라인 문자열

여러 행으로 이루어진 멀티 라인 문자열을 작성하려면 개행 문자(`\n`)를 사용하거나, 따옴표 3개(`'''`)를 사용해 문자열을 생성합니다.

[코드 2-9]와 [코드 2-10]에서는 여러 행으로 이루어진 다음 문자열을 생성해 보겠습니다.

```
김판다 강사는
ChatGPT 사용을 강조한다.
```



> 개행 문자

여러 행으로 이루어진 멀티 라인 문자열을 작성할 때는 **개행 문자**(`\n`)를 사용합니다.


In [16]:
# 코드 2-9. 개행 문자(\n)를 사용해 멀티 라인 문자열 생성

# 변수 b에 개행 문자가 포함된 문자열 저장 후 출력
b = '김판다 강사는\nChatGPT 사용을 강조한다.'
print(b)

김판다 강사는
ChatGPT 사용을 강조한다.


> 따옴표 3개로 멀티 라인 문자열 작성하기

**따옴표 3개를 사용하면** 여러 행의 문자열을 편리하게 작성할 수 있습니다. 이 방법은 줄 바꿈과 공백을 포함한 텍스트를 그대로 유지할 수 있어, 개행 문자를 사용하지 않고 **입력된 형태 그대로 문자열을 처리합니다.**


In [17]:
# 코드 2-10. 따옴표 3개(''')를 사용해 멀티 라인 문자열 생성

# 변수 c에 따옴표 3개로 작성된 멀티 라인 문자열을 저장 후 출력
c = '''김판다 강사는
ChatGPT 사용을 강조한다.'''
print(c)

김판다 강사는
ChatGPT 사용을 강조한다.


#### 2.3.2. 문자열의 연산

> 문자열 연결

파이썬에서는 **덧셈 연산자(`+`)를 사용하여 문자열을 연결합니다.** 예를 들어, 문자열 '김'과 '판다'를 `+` 연산으로 연결하면 결과로 '김판다'를 얻습니다. 이 기법은 추후 학습하게 될 데이터 분석 모듈에서도 문자열을 연결할 때 자주 활용됩니다.

In [18]:
# 코드 2-11. 문자열 연결
d = '김'
e = '판다'

# 변수 d와 변수 e의 문자열 연결 후 출력
d + e  # 출력: '김판다'

'김판다'

 🚨 **문자열끼리만 연결이 가능하다**는 점과 파이썬에서는 덧셈 연산자(`+`)로 문자열을 연결할 수 있지만, 뺄셈 연산자(`-`)를 사용해 문자열에서 일부 문자를 제거할 수는 없다는 점에 주의하세요.

> 문자열로 변환하기

만약 문자열과 정수를 연결하고 싶다면, 정수를 문자열로 변환한 뒤 연결합니다. **문자열로 변환할 때는 `str` 함수를 사용합니다.**

In [19]:
# 코드 2-12. 문자열 연결
a = '김판다'
f = 2

# 변수 a와 변수 f를 문자열로 연결
a + str(f)  # 출력: '김판다2'

'김판다2'

> 문자열 반복

곱셈 연산자(`*`)를 사용하여 **문자열을 정수와 곱하면 문자열을 반복**할 수 있지만, 자주 사용되는 기법은 아닙니다.

In [20]:
# 코드 2-13. 문자열 반복
e = '판다'

# 변수 e를 4회 반복
e * 4  # 출력: '판다판다판다판다'

'판다판다판다판다'

#### 2.3.3. 문자열의 인덱싱과 슬라이싱

> 문자열의 인덱싱과 슬라이싱

파이썬의 **문자열은 인덱싱과 슬라이싱을 통해 특정 문자를 추출하거나 부분 문자열을 가져올 수 있습니다.** 문자열의 인덱스는 0부터 시작하며, 인덱스를 사용해 원하는 위치의 문자를 선택할 수 있습니다.

예를 들어, 변수 `g`가 'python'일 때 `g[0]`는 첫 번째 문자 **'p'**를 반환합니다.

In [21]:
# 코드 2-14. 문자열의 인덱싱
g = 'python'

# 변수 g에서 첫 번째 문자 반환하기
g[0]  # 출력: 'p'

'p'

인덱싱과 슬라이싱에 대해서는 이후의 단원(2.4. 인덱싱과 슬라이싱)에서 더 자세히 학습할 예정입니다. 여기서는 문자열도 인덱싱과 슬라이싱이 가능하다는 것만 기억합니다.

#### 2.3.4. 문자열을 다루는 함수

> 문자열의 길이


**`len` 함수는 문자열의 길이를 반환**합니다.




In [22]:
# 코드 2-15. 문자열의 길이 확인
g = 'python'

# 변수 g의 길이를 구하고 출력
len(g)  # 출력: 6

6

`len` 함수를 사용하면 문자열 'python'의 길이가 6임을 확인할 수 있습니다. `len` 함수는 문자열뿐만 아니라 리스트와 같은 배열의 길이도 구할 수 있으며, 데이터 분석 모듈에서도 자주 활용됩니다.



> 문자열 치환

**`replace` 함수를 사용하면 문자열에서 특정 부분을 다른 문자열로 대체**할 수 있습니다. 예를 들어, 변수 `h`에 저장된 문자열 '코카 콜라'에서 '코카'를 '펩시'로 치환하면 결과는 '펩시 콜라'가 됩니다.

In [23]:
# 코드 2-16. 문자열 치환
h = '코카 콜라'

# 변수 h에서 '코카'를 '펩시'로 치환
h.replace('코카', '펩시')  # 출력: '펩시 콜라'

'펩시 콜라'


`replace`는 **메서드** 형태로 사용되며, 메서드는 함수의 한 종류로 특정 객체(여기서는 문자열)에 종속되어 호출됩니다. 입문자는 **메서드**를 **"객체 뒤에 붙여 사용하는 함수"**로 간단히 이해하면 됩니다.

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.


> 다양한 문자열 함수

- `replace(old, new[, count])`: 문자열에서 old를 new로 치환 (최대 count회)

 ```python
a = '코카 콜라'
a.replace('코카', '펩시')  # 출력: '펩시 콜라'
```


- `zfill(width)`: 길이가 width가 되도록 문자열을 0으로 채움

   ```python
a = '42'
a.zfill(5)  # 출력: '00042'
```

- `strip([chars])`: 양쪽 끝의 공백 제거 (chars 지정 시 해당 문자 제거)

 ```python
a = '  hello  '
a.strip()  # 출력: 'hello'
```


- `lstrip([chars])`: 왼쪽 끝의 공백 제거 (chars 지정 시 해당 문자 제거)

 ```python
a = '  hello  '
a.lstrip()  # 출력: 'hello  '
```

- `rstrip([chars])`: 오른쪽 끝의 공백 제거 (chars 지정 시 해당 문자 제거)

 ```python
a = '  hello  '
a.rstrip()  # 출력: '  hello'
```


- `upper()` : 모든 문자를 대문자로 변환

 ```python
a = 'hello'
a.upper()  # 출력: 'HELLO'
```

- `lower()` : 모든 문자를 소문자로 변환

 ```python
a = 'HELLO'
a.lower()  # 출력: 'hello'
```

- `capitalize()` : 첫 글자는 대문자로, 나머지는 소문자로 변환

 ```python
a = 'hello world'
a.capitalize()  # 출력: 'Hello world'
```

- `split([sep[, maxsplit]])` : sep 기준으로 문자열 분할 후 리스트 반환

 ```python
a = 'bc/d/efg'
a.split('/')  # 출력: ['bc', 'd', 'efg']
```

- `count(sub[, start[, end]])` : 특정 문자열의 등장 횟수 반환

 ```python
a = 'Wow, he is going to hell!'
a.count('he')  # 출력: 2
```

- `find(sub[, start[, end]])` : 특정 문자열의 첫 등장 위치 반환 (없으면 -1)

 ```python
 a = 'hello world'
a.find('world')  # 출력: 6
```

- `index(sub[, start[, end]])` : 특정 문자열의 첫 등장 위치 반환 (없으면 오류 발생)

 ```python
a = 'hello world'
a.index('world')  # 출력: 6
```


- `join(iterable)` : 지정한 문자열을 기준으로 배열의 요소를 연결

 ```python
a = ['bc', 'd', 'efg']
'/'.join(a)  # 출력: 'bc/d/efg'
```

> 문자열 포매팅

**문자열 포매팅은 문자열 안에 변수의 값을 삽입해 새로운 문자열을 만드는 기법**입니다. 이를 통해 변수를 문자열에 동적으로 할당할 수 있습니다. 파이썬은 **f-string(formatted string) 기법과 `format` 함수를 사용해 문자열 포매팅을 수행**합니다.

- **f-string 기법**

 **문자열 앞에 접두사 f**를 붙이고, 중괄호(`{}`) 안에 변수를 입력합니다.

In [24]:
# 코드 2-17. 문자열 포매팅(f-string 기법)
a = '김판다'
f = 2  # 변수가 문자열이 아니어도 문자열 포매팅은 가능

# 문자열 '김판다 강사의 수업을 2회 수강하였다.' 생성
f'{a} 강사의 수업을 {f}회 수강하였다.'

'김판다 강사의 수업을 2회 수강하였다.'

- **format 함수**

 `format` 함수를 사용하여 문자열 내 중괄호(`{}`)에 변수를 삽입할 수 있습니다. **`format` 함수의 인수로 중괄호에 넣을 변수를 입력**해 텍스트를 생성합니다.

In [25]:
# 코드 2-18. 문자열 포매팅(format 함수)
a = '김판다'
f = 2  # 변수가 문자열이 아니어도 문자열 포매팅은 가능

# 문자열 '김판다 강사의 수업을 2회 수강하였다.' 생성
'{} 강사의 수업을 {}회 수강하였다.'.format(a, f)

'김판다 강사의 수업을 2회 수강하였다.'

문자열 포매팅을 익히면 코드가 간결해지고 복잡한 문자열 작업을 더 쉽게 처리할 수 있습니다. 다만 **입문자는 일단 문자열 연결 방식을 사용하고, 익숙해진 후 문자열 포매팅으로 전환**해도 괜찮습니다.

In [26]:
# 코드 2-19. 문자열 연결로 [코드 2-17]와 [코드 2-18] 결과 수행
a = '김판다'
f = 2

# 문자열 '김판다 강사의 수업을 2회 수강하였습니다.' 생성
a + ' 강사의 수업을 ' + str(f) + '회 수강하였다.'

'김판다 강사의 수업을 2회 수강하였다.'

> 이스케이프 문자와 이스케이프 시퀀스

- **이스케이프 문자**

 **이스케이프(escape) 문자는 백슬래시(`\`)로, 문자열 내에서 뒤따르는 문자를 특별한 방식으로 해석하도록 만드는 역할을 합니다.** 이는 문자 그대로의 의미를 확장하거나 변경하기 위한 기법입니다.

- **이스케이프 시퀀스**

 **이스케이프 시퀀스(escape sequence)는 이스케이프 문자(`\`)와 특정 문자의 조합으로, 특정 동작이나 특수 문자를 나타냅니다.** 예를 들어 개행 문자(`\n`)는 이스케이프 시퀀스이며 이스케이프 문자(`\`)와 문자 n의 조합으로, 줄 바꿈을 의미합니다.

 백슬래시 자체(`\`)는 이스케이프 문자로 동작하기 때문에, 이를 문자 그대로 표현할 때도 이스케이프 문자를 덧붙인 이스케이프 시퀀스(`\\`)를 사용해야 합니다. 이는 문자열 내에서 단일 백슬래시를 나타내기 위한 방법입니다.

- **파일 경로**에서 이스케이프 시퀀스 활용

 데이터 분석에서 파일 경로를 나타낼 때도 백슬래시를 사용해야 하는 경우가 많습니다. 파일 경로를 문자열로 저장하거나 불러올 때 백슬래시 대신 이스케이프 시퀀스(`\\`)를 사용합니다.

 ```python
url = 'C:\문서\data.csv'  # 에러 발생
url = 'C:\\문서\\data.csv'  # 해결 방법
```



### 2.4. 인덱싱과 슬라이싱

자료형을 깊이 이해하기 위해 인덱싱과 슬라이싱은 반드시 알아야 하므로 이 단원에서 다뤄 보겠습니다. 인덱싱과 슬라이싱은 데이터의 일부를 추출할 때 사용되는 매우 유용한 기법입니다. **인덱싱은 특정 위치의 단일 원소를 추출할 때 사용되고, 슬라이싱은 범위 내 여러 원소를 한 번에 추출할 때 사용됩니다.** 두 방법 모두 인덱스를 활용하여 원하는 원소를 선택합니다.

<img src=https://i.postimg.cc/YqDj7BmW/image.jpg, width=600>

[그림 2-4] 데이터 호출법: 인덱싱과 슬라이싱

#### 2.4.1. 인덱스

> 인덱스

**인덱스(integer location index)는 문자열이나 배열 내에서 각 원소의 위치를 나타내는 고유한 번호입니다.** 첫 번째 원소는 0부터 시작하며, 이후 순차적으로 정수가 증가합니다. 음수 인덱스도 사용할 수 있는데, 마지막 원소는 -1부터 시작하며, 그 이전 원소에는 순서대로 음의 정수가 할당됩니다.

<img src=https://i.postimg.cc/D0MWB9rL/2-5.png, width=600>

[그림 2-5] 인덱스

#### 2.4.2. 인덱싱

> 인덱싱

**인덱싱은 특정 위치의 단일 원소를 추출하는 기법**입니다. 대괄호를 사용하여 인덱스를 입력하면 해당 위치의 원소가 반환됩니다. 문자열을 예로 들어 설명하겠습니다.

<img src=https://i.postimg.cc/DwVH85Hw/2-6.jpg, width=600>

[그림 2-6] 인덱싱

첫 번째 문자는 인덱스 0을 가지며, 이후 순차적으로 1, 2, 3 순서로 인덱스가 할당됩니다. 문자열에 대괄호를 적용하고 대괄호 안에 특정 위치의 인덱스를 입력하면 해당 위치의 문자가 반환됩니다. 예를 들어 변수 `a`가 '254781'이라면, `a[3]`은 '7'을 반환합니다. 또한 음수 인덱스를 사용하면 문자열의 끝에서부터 문자를 참조할 수 있어 마지막에 가까운 원소를 선택할 때 편리합니다.


In [27]:
# 코드 2-20. 인덱싱
a = '254781'

# 변수 a에서 세 번째 글자 추출
print(a[2])  # 결과: '4'

# 변수 a에서 마지막 글자 추출
a[-1]  # 결과: '1'

4


'1'

#### 2.4.3. 슬라이싱

> 슬라이싱

**슬라이싱은 범위 내의 여러 원소를 한 번에 추출하는 기법**입니다. 슬라이싱 구문은 `a[start:end:step]`의 형식으로 작성되며, step이 생략되어 `a[start:end]` 형식으로 사용할 수 있습니다. **지정된 범위에서 시작 인덱스는 포함되지만, 마지막 인덱스는 포함되지 않습니다.** 예를 들어 변수 `a`가 '254781'이라면, `a[1:3]`은 인덱스 1부터 3 이전까지의 문자를 추출하므로 '54'가 반환됩니다.

<img src=https://i.postimg.cc/4yNLkhjN/image.png, width=600>

[그림 2-7] 슬라이싱

<br>

**슬라이싱의 시작 또는 끝 지점을 생략할 수 있습니다.** `a[:3]`는 문자열의 처음부터 인덱스 3 이전까지 가져오며, `a[4:]`는 인덱스 4부터 마지막까지 가져옵니다. 문자열 전체를 슬라이싱하고자 할 때는 `a[:]`를 사용하면 문자열을 그대로 반환합니다.

<br>

슬라이싱에서는 양수 인덱스와 음수 인덱스를 혼용할 수 있습니다. 예를 들어, `a[2:-1]`과 같이 사용하면 인덱스 2부터 -1 이전까지의 원소를 선택하므로 '478'이 반환됩니다. 인덱스 2부터 -1까지의 슬라이싱 개념이 직관적으로 받아들이기 어려울 수 있지만, 음수 인덱스도 위치만 나타낸다고 생각하면 보다 쉽게 이해할 수 있습니다. 양수와 음수 인덱스를 조합하여 문자열의 특정 부분을 편리하게 선택할 수 있습니다.



In [28]:
# 코드 2-21. 슬라이싱(1)
a = '254781'

# 두 번째부터 세 번째까지의 글자 추출 (인덱스 1~2)
print(a[1:3])  # 결과: '54'

# 세 번째부터 다섯 번째까지의 글자 추출 (인덱스 2~4)
a[2:5]  # 결과: '478'

54


'478'

In [29]:
# 코드 2-22. 슬라이싱(2)
a = '254781'
# 처음부터 세 번째까지의 글자 추출 (인덱스 처음~2)
print(a[:3])  # 결과: '254'

# 다섯 번째부터 마지막까지의 글자 추출 (인덱스 4~끝)
print(a[4:])  # 결과: '81'

# 전체 글자 추출 (전체 슬라이싱)
print(a[:])  # 결과: '254781'

# start는 양수 인덱스, end는 음수 인덱스를 활용해 추출 (인덱스 2~4)
a[2:-1]  # 결과: '478'

254
81
254781


'478'

> step을 활용한 슬라이싱

**슬라이싱할 때 step을 지정하면 특정 간격을 두고 요소를 선택합니다.** 슬라이싱 구문은 `a[start:end:step]` 형식으로 작성되며, step 값은 선택된 요소 간의 간격을 의미합니다. 예를 들어, `a[2:5]`는 '478'을 반환하지만, `a[2:5:2]`는 주어진 범위 내에서 2칸 간격으로 원소를 선택하므로 '48'만 반환됩니다.

<img src=https://i.postimg.cc/BQQykWCK/2-8-step.jpg, width=600>

[그림 2-8] step을 활용한 슬라이싱

<br>

**step에 음수를 입력하면 문자열이 역순으로 반환됩니다.** 예를 들어 step에 -1을 설정하여 `a[::-1]`의 코드를 사용하면 마지막 원소부터 처음 원소까지 모든 문자열이 역순으로 반환됩니다.

In [30]:
# 코드 2-23. step을 활용한 슬라이싱
a = '254781'

# 세 번째부터 다섯 번째까지, 두 칸씩 건너뛰며 추출 (인덱스 2~4, step 2)
print(a[2:5:2])  # 결과: '48'

# 처음부터 끝까지, 세 칸씩 건너뛰며 추출 (step 3)
a[::3]  # 결과: '27'

48


'27'

In [31]:
# 코드 2-24. 문자열을 역순으로 변환
a = '254781'

# 변수 a를 역순으로 추출 (step -1)
a[::-1]  # 결과: '187452'

'187452'

### 2.5. 불(bool)

불(bool) 또는 불리언(boolean) 자료형은 **True(참)**와 **False(거짓)**로 구성되며, 데이터 분석에서 필터링이나 조건 처리에 자주 사용됩니다.

`True`와 `False`는 **반드시 첫 글자를 대문자로 작성**하며 true나 false로 작성하면 오류가 발생합니다. 또한 **파이썬의 키워드로 정해져 있어 변수명이나 함수명으로 사용할 수 없습니다.** 키워드는 파이썬에서 특정 역할을 위해 정해진 미리 단어이며 자세한 내용은 이후 단원(4 단원)에서 다룹니다.



In [32]:
# 코드 2-25. 불(bool) 자료형 생성

# True를 생성하고 출력
print(True)  # 출력: True

# False를 생성하고 출력
False  # 출력: False

True


False

#### 2.5.1. 비교 연산

> 비교 연산

파이썬은 비교 연산의 결과로 불 자료형을 반환합니다. 파이썬에서 사용하는 비교 연산과 연산자는 다음과 같습니다.


| 비교 연산자 | 비교 연산                                |
|-------------|------------------------------------------|
| ==          | 같다(두 값이 같을 때 True)              |
| !=          | 다르다(두 값이 다를 때 True)            |
| >           | 크다(왼쪽 값이 클 때 True)              |
| >=          | 크거나 같다(왼쪽 값이 크거나 같을 때 True) |
| <           | 작다(왼쪽 값이 작을 때 True)            |
| <=          | 작거나 같다(왼쪽 값이 작거나 같을 때 True) |

[표 2-3] 파이썬의 비교 연산

**등호가 포함된 비교 연산자(예: `>=`)는 등호가 오른쪽에 위치합니다.** "여러분은 우등생이니까 우측에 등호가 위치한다."라고 기억하셔도 좋습니다.


In [33]:
# 코드 2-26. 비교 연산

# 정수 3이 정수 2보다 크거나 같은지 확인 후 출력
print(3 >= 2)  # 출력: True

# 정수 5와 문자열 '5'가 같은지 확인 후 출력
print(5 == '5')  # 출력: False

# 정수 0과 실수 0.0이 다른지 확인 후 출력
0 != 0.0  # 출력: False

True
False


False

#### 2.5.2. 논리 연산

**논리 연산은 조건들을 결합하거나 조건의 `True` 또는 `False`를 반전할 때 사용합니다.** 파이썬에서는 세 가지 주요 논리 연산자인 `and`, `or`, `not`을 제공합니다.

> 논리 연산

1. **and**: 조건이 모두 `True`일 때만 `True`를 반환합니다.

 ```python
True and True   # 결과: True
True and False  # 결과: False
```

2. **or**: 조건 중 하나라도 `True`이면 `True`를 반환합니다.

 ```python
True or False   # 결과: True
False or False  # 결과: False
```


3. **not**: 조건의 `True`와 `False`를 반전시킵니다.

 ```python
not True        # 결과: False
not False       # 결과: True
```

<br>

> 논리 연산 정리

논리 연산의 동작을 간단히 정리하면 다음과 같습니다

| 논리 연산자 | 연산                                                                 |
|-------------|----------------------------------------------------------------------|
| and         | 모든 값이 True일 때만 True를 반환하고, 그렇지 않으면 False를 반환       |
| or          | 모든 값이 False일 때만 False를 반환하고, 그렇지 않으면 True를 반환       |
| not         | True는 False로, False는 True로 변환                                  |

[표 2-4] 논리 연산의 간단 정리


In [34]:
# 코드 2-27. 논리 연산
a = 1

# 변수 a가 3보다 크거나(a > 3) 0과 같은지(a == 0) 확인 후 출력
(a > 3) or (a == 0)  # 출력: False

False

#### 2.5.3. 불 자료형의 산술 연산

> 불 자료형의 산술 연산

불 자료형은 산술 연산에도 활용됩니다. 파이썬은 **`True`를 1, `False`를 0으로 간주하여 산술 연산을 수행**합니다. 예를 들어, `True + True + False`는 2로 계산됩니다. 이러한 연산 결과는 `True`의 개수가 2개라고 파악하는 데 유용하여, 조건에 맞는 데이터의 개수를 효과적으로 찾을 수 있습니다.

In [35]:
# 코드 2-28. 불 자료형의 산술 연산

# True + True + False를 연산하고 출력
True + True + False  # 출력: 2

2

또한, **0과 1로 이루어진 배열의 평균은 배열에서 1의 비율을 의미**합니다. 이는 `True`와 `False`의 경우에도 동일하게 적용되며, 추후 데이터 분석 모듈에서 자주 활용됩니다.
```python
[0, 1, 1, 0]  # 평균: 0.5, 1의 비율: 0.5
```
자료형마다 평균을 구하는 방법이 다르기 때문에 이 시점에서는 불 자료형 배열에서 평균이 `True`의 비율을 나타낸다는 점을 기억해 두세요.


#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

> 논리 연산의 엄밀한 정리

파이썬의 논리 연산을 간단히 정리하면 [표 2-4]와 같지만, 이는 여러분의 이해를 돕기 위한 정리일 뿐, 엄밀한 정의는 아닙니다. 정확히 말하면, 파이썬의 논리 연산 동작은 다음과 같습니다.

| 논리 연산자 | 연산                                                                                   |
|-------------|----------------------------------------------------------------------------------------|
| and         | 첫 번째로 False로 평가되는 값을 반환. 모든 값이 True라면 마지막 값을 반환. |
| or          | 첫 번째로 True로 평가되는 값을 반환. 모든 값이 False라면 마지막 값을 반환. |
| not         | True는 False로, False는 True로 변환                                                    |

[표 2-5] 논리 연산의 엄밀한 정리

`and` 연산자는 왼쪽에서 오른쪽으로 평가하며, 첫 번째로 `False`로 평가되는 값을 반환하고, 모든 값이 `True`일 경우 마지막 값을 반환합니다. 반면, `or` 연산자는 첫 번째로 `True`로 평가되는 값을 반환하며, 모든 값이 `False`라면 마지막 값을 반환합니다. `not` 연산자는 동일하게 `True`를 `False`로, `False`를 `True`로 변환합니다.

엄밀한 정리는 이후 파이썬의 중급자가 되었을 때, 불(bool) 자료형이 아닌 다른 자료형의 논리 연산에서 쓰입니다. 따라서, 여러분처럼 불 자료형에만 논리 연산을 사용하는 입문 단계에서는 [표 2-4]와 같이 간단히 정리해도 충분합니다.

> 비트 연산자


| 논리 연산자 | 비트 연산자 |
|-------------|-------------|
| and         | &           |
| or          | \|          |
| not         | ~           |

[표 2-6] 논리 연산자와 비트 연산자


**비트 연산자는 숫자의 이진 표현(비트 단위)에서 연산을 수행하는 데 사용되며, 논리 연산자와는 목적과 동작이 다릅니다.** 다만, 일부 연산에서 비트 연산자가 논리 연산자와 유사하게 작동하기 때문에 혼동할 수 있습니다. **기본 파이썬**에서 불 자료형의 논리 연산을 수행할 경우, `and`, `or`, `not`을 사용하는 것이 적합합니다.

반면, **데이터 분석 모듈**에서는 `&`(비트 and), `|`(비트 or), `~`(비트 not)이 정의된 연산으로 사용되며, 이 경우 `and`, `or`, `not`을 사용하지 않습니다. 이러한 상황에서 중요한 것은 세부적인 동작보다는 **논리 연산자와 비트 연산자는 목적과 동작이 다르다**는 점을 기억하는 것입니다.



### 2.6. 리스트

파이썬에서는 정수와 실수 같은 단일 값을 나타내는 자료형을 **스칼라 자료형**이라고 하며, 리스트와 튜플처럼 여러 데이터를 담을 수 있는 자료형을 **컬렉션 자료형**이라고 합니다. **리스트는 가장 대표적이고 자주 사용되는 컬렉션 자료형**이고, 여러 값을 효율적으로 다루는 데 매우 유용합니다.


리스트는 대괄호(`[]`) 안에 데이터를 콤마(`,`)로 구분하여 생성합니다.

```python
my_list = [1, 2, 3, 4]  # 리스트 생성
```

In [36]:
# 코드 2-29. 리스트 생성

# 정수 1, 2, 3으로 구성된 리스트를 생성하고, 변수 a에 할당 후 출력
a = [1, 2, 3]
print(a) # 결과: [1, 2, 3]

# 빈 리스트 생성하고, 변수 b에 할당 후 출력
b = []
print(b)  # 결과: []

# 변수 a의 자료형 확인
type(a)  # 결과: list

[1, 2, 3]
[]


list

#### 2.6.1. 리스트로 변환하기

> 리스트로 변환하기

**`list` 함수는 문자열이나 배열을 리스트로 변환**합니다.

In [37]:
# 코드 2-30. 리스트로 변환

# 문자열 'abcd'를 리스트로 변환하고 출력
print(list('abcd'))  # 결과: ['a', 'b', 'c', 'd']

# range 함수로 [0, 1, 2, 3]의 리스트 생성
list(range(4))  # 결과: [0, 1, 2, 3]

['a', 'b', 'c', 'd']


[0, 1, 2, 3]

> range 함수

**`range` 함수는 연속된 정수의 배열을 생성**하는 데 사용되며, **특정 범위의 정수를 만들거나 반복문에서 활용**됩니다.

- 구문

 ```python
 range(start, stop, step)
```
 - start (선택): 범위의 좌측 경계이며, 기본값은 0입니다.
 - stop (필수): 범위의 우측 경계이며, 이 값은 포함되지 않습니다.
 - step (선택): 정수 간의 간격이며, 기본값은 1입니다.

- 특징

 `range`는 실제로 리스트를 생성하지 않고, 필요할 때 값을 생성하기 때문에 메모리를 절약합니다.

 ```python
range(1, 4)  # 출력: [1, 2, 3]이 아니라 range(1, 4)를 출력한다.
```

 모든 값을 생성하고 싶다면 `list` 함수를 통해 리스트로 변환합니다.

 ```python
list(range(1, 4))  # 출력: [1, 2, 3]
```



#### 2.6.2. 리스트의 연산

> 리스트 연결

파이썬은 **덧셈 연산자(`+`)를 사용해 리스트를 연결**합니다. 예를 들어, 리스트 `[1, 2]`과 `[3, 4]`를 `+` 연산으로 연결하면 `[1, 2, 3, 4]`를 얻습니다.

In [38]:
# 코드 2-31. 리스트 연결

# 리스트 [1, 2]와 리스트 [3, 4]를 연결
[1, 2] + [3, 4]  # 결과: [1, 2, 3, 4]

[1, 2, 3, 4]

🚨 리스트끼리만 연결이 가능하다는 점과 파이썬에서는 덧셈 연산자(`+`)로 리스트를 연결할 수 있지만, 뺄셈 연산자(`-`)를 사용해 리스트에서 일부 원소를 제거할 수는 없다는 점에 주의하세요.

> 리스트 반복

곱셈 연산자(`*`)를 사용해 리스트를 정수와 곱하면, 해당 리스트가 반복됩니다.

In [39]:
# 코드 2-32. 리스트 반복

# 리스트 [1, 2]를 3번 반복한 리스트 생성
[1, 2] * 3  # 결과: [1, 2, 1, 2, 1, 2]

[1, 2, 1, 2, 1, 2]

#### 2.6.3. 리스트의 인덱싱과 슬라이싱

> 인덱싱과 슬라이싱

문자열과 마찬가지로 **리스트도 인덱싱과 슬라이싱을 사용하여 특정 원소를 추출합니다.** 이 기법은 리스트의 일부를 손쉽게 추출할 수 있어 매우 유용합니다.

In [40]:
# 코드 2-33. 리스트의 인덱싱과 슬라이싱
c = [2, 5, 4, 7, 8, 1]

# 리스트 c의 두 번째 원소 반환
print(c[1])  # 출력: 5

# 리스트 c의 첫 세 원소 반환
print(c[:3])  # 출력: [2, 5, 4]

# 리스트 c를 역순으로 변환
c[::-1]  # 출력: [1, 8, 7, 4, 5, 2]

5
[2, 5, 4]


[1, 8, 7, 4, 5, 2]


> 리스트의 원소 변경하기

리스트는 인덱싱과 슬라이싱을 통해 **특정 원소를 선택하고 값을 할당하여 원소를 변경**합니다.

In [41]:
# 코드 2-34. 리스트의 원소 변경하기
d = [1, 2, 3, 4]

# 인덱싱을 사용해 리스트 d의 첫 번째 원소를 5로 변경
d[0] = 5
print(d)  # 출력: [5, 2, 3, 4]

# 슬라이싱을 사용해 리스트 d의 세 번째와 네 번째 원소를 6과 7로 변경
d[2:] = [6, 7]
d  # 출력: [5, 2, 6, 7]

[5, 2, 3, 4]


[5, 2, 6, 7]

이는 리스트가 데이터를 자유롭게 변경할 수 있는 **가변(mutable) 객체**이기 때문입니다. 가변성과 불변성의 개념은 이후 단원에서 더 자세히 다룰 예정입니다. 지금은 인덱싱과 슬라이싱을 통해 특정 원소를 선택하고 값을 할당하여 원소를 변경할 수 있으며, 그 이유는 리스트가 가변 객체이기 때문이라고 기억하시면 됩니다.

```python
# 문자열의 원소는 인덱싱으로 변경할 수 없다.
txt = 'abc'
txt[0] = 'd'  # 에러 발생: 문자열은 불변성(immutable)을 가진 객체
```

#### 2.6.4. 리스트를 다루는 함수

> 리스트 원소의 개수 확인하기

**`len` 함수는 리스트에 포함된 원소의 개수를 반환**합니다.

In [42]:
# 코드 2-35. 리스트 원소의 개수 확인하기
e = ['a', 'b', 'c']

# 리스트 e의 원소 개수 확인
len(e)  # 출력: 3

3


> 리스트에 원소 추가하기

**`append` 함수는 리스트의 끝에 원소를 추가**합니다. 이는 메서드이므로 리스트 객체 뒤에 호출하며, 호출 즉시 리스트 객체를 직접 변경합니다.

In [43]:
# 코드 2-36. 리스트에 원소 추가하기
e = ['a', 'b', 'c']

# 리스트 e에 'd' 추가
e.append('d')

# 기존 리스트를 변경하기 때문에 변수 e를 출력
e  # 출력: ['a', 'b', 'c', 'd']

['a', 'b', 'c', 'd']

> 리스트의 문자열 병합하기

**문자열의 `join` 메서드는 배열의 모든 문자열을 하나의 문자열로 병합**합니다. `join` 메서드는 구분자로 사용할 문자열이 주체가 되어 호출되며, 배열을 인수로 받아 동작합니다.

```python
sep.join(iterable)
```
- sep: 구분자로 작용할 문자열(separator).

- iterable: 리스트, 튜플, 문자열 등 반복 가능한 객체.







In [44]:
# 코드 2-37. 리스트의 문자열 병합하기
f = ['a', 'bc', 'def']

# 리스트 f의 문자열을 구분자 '/'로 연결하여 병합(예: 'a/bc/def')
'/'.join(f)  # 출력: 'a/bc/def'

'a/bc/def'

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

> 다양한 리스트 함수

- `append(x)`: 리스트 끝에 원소를 추가

  ```python
  a = [1, 2, 3]
  a.append(4)
  # 기존 리스트를 변경하기 때문에 변수 a를 출력
  a  # 출력: [1, 2, 3, 4]
```

- `extend(iterable)`: 다른 배열(iterable)의 모든 원소를 추가

  ```python
  a = [1, 2]
  a.extend([3, 4])  
  # 기존 리스트를 변경하기 때문에 변수 a를 출력
  a  # 출력: [1, 2, 3, 4]
```

- `insert(index, x)`: 지정된 위치에 원소를 삽입

  ```python
  a = [1, 2, 3]
  a.insert(1, 99)
  # 기존 리스트를 변경하기 때문에 변수 a를 출력
  a  # 출력: [1, 99, 2, 3]
```

- `remove(x)`: 리스트에서 첫 번째로 나타나는 x를 제거

  ```python
  a = [1, 2, 3, 2]
  a.remove(2)
  # 기존 리스트를 변경하기 때문에 변수 a를 출력  
  a  # 출력: [1, 3, 2]
```

- `pop(index=-1)`: 지정된 위치의 원소를 제거하고 반환

  ```python
  a = [1, 2, 3]
  print(a.pop())  # 출력: 3
  a  # 출력: [1, 2]
```

- `index(x, start=0, end=len(list))`: 특정 값의 첫 번째 인덱스를 반환

  ```python
  a = [1, 2, 3, 2]
  a.index(2)  # 출력: 1
```

- `count(x)`: 특정 값의 개수를 반환

  ```python
  a = [1, 4, 3, 4]
  a.count(4)  # 출력: 2
```

- `sort(key=None, reverse=False)`: 기존 리스트를 정렬

  ```python
  a = [3, 1, 2]
  a.sort()
  # 기존 리스트를 변경하기 때문에 변수 a를 출력
  a  # 출력: [1, 2, 3]
```

- `sorted(iterable, key=None, reverse=False)`: 정렬된 새 리스트를 반환

  ```python
 a = [3, 1, 2]
 sorted(a)  # 출력: [1, 2, 3]
```




- `reverse()`: 리스트를 역순으로 변환

  ```python
  a = [1, 2, 3]
  a.reverse()
  # 기존 리스트를 변경하기 때문에 변수 a를 출력
  a  # 출력: [3, 2, 1]
```

- `sum(list)`: 원소들의 합계를 반환 (수치형 데이터에서 사용)

  ```python
  a = [1, 2, 3]
  sum(a)  # 출력: 6
```

- `min(list)`: 최솟값을 반환

  ```python
  a = [1, 2, 3]
  min(a)  # 출력: 1
```

- `max(list)`: 최댓값을 반환

  ```python
  a = [1, 2, 3]
  max(a)  # 출력: 3
```

- `any(list)`: 하나라도 참이면 `True`, 그 외에는 `False`를 반환

  ```python
 a = [True, True, False]
 any(a)  # 출력: True
```

- `all(list)`: 모두 참이면 `True`, 그 외에는 `False`를 반환

  ```python
 a = [True, True, False]
 any(a)  # 출력: False
```

- `map(function, iterable)`: 리스트의 원소를 함수로 매핑

  ```python
  a = [1, 2, 3]
  list(map(str, a))  # 출력: ['1', '2', '3']

- `enumerate(iterable, start=0)`: 원소와 함께 인덱스를 반환

  ```python
  a = ['a', 'b', 'c']
  list(enumerate(a))  # 출력: [(0, 'a'), (1, 'b'), (2, 'c')]
```




### 특강. 데이터 분석 모듈 소개

데이터 분석 모듈은 데이터를 효율적으로 처리하기 위해 개발되었습니다. 그중 널리 사용되는 것은 **넘파이**와 **판다스**입니다. 넘파이는 고성능 행렬 연산에 특화되어 있고, **판다스는 표 형식 데이터를 다루기 쉽게 해줍니다.**

> 데이터 분석 모듈 판다스

특히 **판다스(Pandas)**는 데이터 정리, 탐색, 변환 작업을 간단하고 직관적으로 처리할 수 있어 데이터 분석 입문에 매우 유용합니다. 이제 판다스를 직접 사용해 그 강력함을 경험해 보겠습니다.

**🚨 주의 사항**

지금부터 판다스 라이브러리를 실습에 활용할 것입니다. 만약 여러분이 구글 코랩이 아닌 환경에서 실습하는 경우, **먼저 판다스 라이브러리를 사용하려면 설치해야 합니다.** 코랩 이용자가 아닌 경우 설치를 위해 다음 코드를 실행하거나, **8장 모듈**을 학습한 후 실습하는 것을 권장합니다.

```python
# 판다스 라이브러리 설치 (구글 코랩은 이미 판다스가 설치되어 있음)
!pip install pandas
```
**구글 코랩에서 실습하는 경우, 별도의 설치 없이 그대로 실습을 진행할 수 있습니다.**

> 판다스로 엑셀 파일의 데이터 불러오기

판다스는 표 형태의 데이터를 다루는 라이브러리이므로, **엑셀 데이터를 손쉽게 가져와 판다스의 데이터 프레임 클래스로 활용할 수 있습니다.** 불러온 엑셀 데이터는 변수에 저장하여 보다 편리하게 코딩할 수 있습니다.


실습에 사용할 엑셀 파일은 다음 URL에서 다운로드할 수 있습니다.

```
엑셀 파일 URL 링크 (주소창에 붙여 넣으면 엑셀 파일이 즉시 다운로드됩니다.)

https://github.com/panda-kim/excel/blob/main/module.xlsx?raw=true

```

또한, 다운로드하지 않고도 [참고 3]의 코드처럼 파일의 URL을 활용해 코랩에서 직접 불러올 수 있습니다.

In [45]:
# 참고 3. 엑셀 파일을 데이터 프레임으로 불러와 변수 df로 할당
import pandas as pd
pd.options.display.max_rows = 6  # 6행까지만 출력
url = 'https://github.com/panda-kim/excel/blob/main/module.xlsx?raw=true'
df = pd.read_excel(url, parse_dates=['일시'])
df

Unnamed: 0,일시,판매 금액
0,2022-06-01 00:01:21,1800
1,2022-06-01 00:01:42,1300
2,2022-06-01 00:03:31,1400
...,...,...
14997,2022-06-06 23:58:56,1900
14998,2022-06-06 23:59:00,1600
14999,2022-06-06 23:59:29,1100


엑셀의 시트를 표 형태의 데이터를 다루는 **데이터 프레임** 클래스로 불러와 변수 `df`에 할당했습니다. 이제 엑셀 데이터를 손쉽게 코딩에 활용할 수 있습니다.

> 판다스의 강력한 메서드 체험하기

판다스의 `resample` 함수를 사용하면 표 데이터를 지정된 주기로 손쉽게 집계할 수 있습니다. **[참고 4]**의 코드는 변수 df에서 판매 금액의 합을 3분 단위로 집계하는 예제입니다. 굉장히 간결한 코드로 해당 기능을 구현합니다.

In [46]:
# 참고 4. 변수 df에서 판매 금액의 합을 3분 단위로 집계
df.resample('3 min', on='일시').sum()

Unnamed: 0_level_0,판매 금액
일시,Unnamed: 1_level_1
2022-06-01 00:00:00,3100
2022-06-01 00:03:00,5700
2022-06-01 00:06:00,6900
...,...
2022-06-06 23:51:00,6000
2022-06-06 23:54:00,3900
2022-06-06 23:57:00,6200


여러분이 이 작업을 엑셀에서 수행한다면 상당히 번거로운 과정이 될 것입니다. 이처럼 판다스의 함수들은 복잡한 작업을 간결하게 처리할 수 있도록 강력한 기능을 제공합니다.


다만, 판다스의 강력한 함수들은 **판다스의 클래스(자료형)**에서만 동작합니다. 따라서 데이터 분석에서는 주로 모듈에서 제공하는 자료형을 사용하게 됩니다. 기본 파이썬 자료형도 간간히 활용되지만, 이는 보조 역할을 하며, 복잡한 기능을 구현할 때는 데이터 분석 모듈의 자료형을 사용합니다.

따라서 **기본 파이썬 자료형은 기초만 익히면 충분**하며, 여러분은 데이터 분석 모듈의 자료형을 중심으로 데이터를 다루게 될 것입니다.

### 2.7. 튜플

튜플(tuple)은 파이썬에서 리스트와 유사하게 여러 데이터를 하나의 구조로 저장하는 컬렉션 자료형입니다. **튜플과 리스트의 가장 큰 차이점은 불변성(immutable)으로, 이는 한 번 생성된 튜플의 내용을 변경할 수 없음을 의미합니다.** 이러한 불변성은 변하지 않아야 하는 데이터를 안전하게 저장하는 데 유용합니다.

> 튜플 생성

튜플은 소괄호 안에 데이터를 콤마(`,`)로 구분하여 생성합니다.

```python
a = (1, 2, 3)  # 소괄호를 사용한 튜플 생성
```

또한, 소괄호 없이 튜플을 생성할 수도 있습니다.

```python
b = 1, 2, 3    # 소괄호 없이 생성한 튜플
```


In [47]:
# 코드 2-38. 튜플 생성

# 정수 1, 2로 구성된 튜플 생성하고 변수 a에 할당 후 출력
a = (1, 2)
print(a)  # 결과: (1, 2)

# 정수 1, 2로 구성된 튜플을 소괄호 없이 생성하고 변수 b에 할당 후 출력
b = 1, 2
print(b)  # 결과: (1, 2)

# 변수 b의 자료형 확인
type(b)  # 결과: tuple

(1, 2)
(1, 2)


tuple

#### 2.7.1. 튜플 언패킹

> 튜플 언패킹

**튜플 언패킹**(tuple unpacking)은 **튜플에 담긴 값을 여러 변수에 동시에 할당하는 방법**으로, 코드를 간결하고 직관적으로 작성할 수 있습니다. 단, 변수의 개수와 튜플의 원소 개수가 반드시 일치해야 합니다.

```python
a, b = 1, 2
print(a)  # 출력: 1
print(b)  # 출력: 2
```

In [48]:
# 코드 2-39. 튜플 언패킹

# 변수 c와 d에 각각 1과 2를 할당한 후 출력
c, d = 1, 2
print(c)  # 출력: 1
print(d)  # 출력: 2

e = [1, 2, 3]
# 리스트 e의 첫 번째 원소와 마지막 원소를 맞교환해 변경하고 e를 출력
e[0], e[-1] = e[-1], e[0]
e  # 출력: [3, 2, 1]

1
2


[3, 2, 1]

#### 2.7.2. 튜플로 변환하기

> 튜플로 변환하기

**`tuple` 함수는 문자열이나 배열을 튜플로 변환합니다.**

In [49]:
# 코드 2-40. 튜플로 변환하기

# 리스트 [1, 2, 3]을 튜플로 변환하기
tuple([1, 2, 3])  # 출력: (1, 2, 3)

(1, 2, 3)

#### 2.7.3. 튜플의 연산
튜플도 리스트와 유사한 연산을 지원합니다.

> 튜플 연결

덧셈 연산자(`+`)를 사용하여 튜플을 연결합니다. 예를 들어, 튜플 (1, 2)와 (3, 4)를 `+` 연산으로 연결하면 (1, 2, 3, 4)가 생성됩니다.

> 튜플 반복

곱셈 연산자(`*`)를 사용하여 튜플을 정수와 곱하면, 해당 튜플을 반복합니다. 예를 들어, 튜플 (1, 2)에 3을 곱하면 (1, 2, 1, 2, 1, 2)가 생성됩니다.

In [50]:
# 코드 2-41. 튜플의 연산

f = (1, 2)
# 튜플 f와 튜플 (3, 4)를 연결하고 출력
print(f + (3, 4))  # 출력: (1, 2, 3, 4)

# 튜플 f를 3번 반복한 튜플 출력
f * 3  # 출력: (1, 2, 1, 2, 1, 2)

(1, 2, 3, 4)


(1, 2, 1, 2, 1, 2)

#### 2.7.4. 튜플의 인덱싱과 슬라이싱

> 인덱싱과 슬라이싱

리스트와 마찬가지로 **튜플도 인덱싱과 슬라이싱을 사용하여 특정 원소를 추출**합니다.

In [51]:
# 코드 2-42. 튜플의 인덱싱과 슬라이싱
g = ('a', 'b', 'c', 'd', 'e')

# 튜플 g의 세 번째 원소 반환
print(g[2])  # 출력: 'c'

# 튜플 g의 마지막 세 원소 반환
print(g[-3:])  # 출력: ('c', 'd', 'e')

# 튜플 g를 역순으로 변환
g[::-1]  # 출력: ('e', 'd', 'c', 'b', 'a')

c
('c', 'd', 'e')


('e', 'd', 'c', 'b', 'a')

주의할 점은, 튜플은 **불변성(immutable)**을 가진 자료형이기 때문에 인덱싱이나 슬라이싱을 통해 값을 변경할 수 없다는 것입니다. 값을 할당하려고 시도하면 에러가 발생합니다.

```python
a = (1, 2)
a[0] = 9  # 에러
```

#### 2.7.5. 불변성


> 불변성

**불변성(immutability)**은 데이터가 한 번 생성된 이후로 변경되지 않는 성질을 의미합니다. 파이썬에서 문자열, 정수, 튜플 등이 불변성을 가지는 대표적인 자료형입니다. 반면, 리스트, 딕셔너리, 집합은 가변성을 가진 자료형입니다.

불변성의 주요 장점은 데이터의 신뢰성과 안정성을 보장하는 데 있습니다. 데이터가 변경되지 않으므로, 예기치 못한 수정으로 인한 오류를 방지할 수 있습니다.

> 불변성과 가변성의 차이

**불변성을 가진 객체는 값을 변경하려고 할 때 기존 객체를 수정하는 대신, 변경된 내용을 반영한 새로운 객체를 생성합니다.** 반면, 가변성을 가진 객체는 상황에 따라 기존 객체를 직접 수정하거나, 필요에 따라 새로운 객체를 생성하여 변경 사항을 반영할 수 있습니다.

> 불변성과 가변성 정리

파이썬 입문자가 기억해야 할 불변성과 가변성의 차이를 정리하면 다음과 같습니다:

- **인덱싱으로 값 변경 가능 여부**

 - **가변성**을 가진 객체만 **인덱싱을 통해 값을 변경할 수 있습니다.**

 - **불변성**을 가진 객체는 인덱싱뿐 아니라 생성된 이후 값을 변경할 수 없습니다.

- **함수를 적용할 때 결과 차이**

 - **불변성**을 가진 객체는 함수를 적용할 때 **새로운 객체를 생성합니다.**

 - **가변성**을 가진 객체는 함수가 **기존 객체를 직접 변경하거나, 새로운 객체를 생성할 수 있습니다.**

- **딕셔너리와 집합에서의 활용**

 - **불변성**을 가진 객체만 **딕셔너리의 키(key)나 집합(set)의 원소로 사용할 수 있습니다.**

 - **가변성**을 가진 객체는 변경 가능성이 있으므로 딕셔너리의 키나 집합의 원소로 사용할 수 없습니다.


### 2.8. 딕셔너리

딕셔너리는 데이터를 **키(key)**와 **밸류(value)**의 쌍으로 저장하는 자료형으로, 고유한 키를 통해 각 데이터에 효율적으로 접근할 수 있는 구조를 갖추고 있습니다. 딕셔너리는 중괄호(`{}`)를 사용하여 정의하며, 키와 밸류는 콜론(`:`)으로 연결되고, 키와 밸류의 쌍은 콤마(`,`)로 구분됩니다.

<img src=https://i.postimg.cc/5yKxbgq9/2-9.png, width=600>

[그림 2-9] 딕셔너리의 구조

<br>

> 키의 특징

**키는 반드시 불변성을 가져야 하며, 중복될 수 없습니다.** 일반적으로 문자열이나 정수 등이 키로 사용됩니다. 컬렉션 자료형 중 불변성을 가진 튜플은 키로 사용할 수 있지만, 리스트는 가변성이 있으므로 키로 사용할 수 없습니다.

<br>

> 밸류의 특징

밸류에는 파이썬의 모든 자료형을 사용할 수 있습니다. 밸류는 중복이 허용됩니다.

In [52]:
# 코드 2-42. 딕셔너리 생성

# 딕셔너리 {'가': 1, '나': 2}를 생성하고 변수 a에 할당
a = {'가': 1, '나': 2}
print(a)  # 출력: {'가': 1, '나': 2}

# 딕셔너리 {'가': 1, '나': 2, '가': 3} 생성 및 출력
print({'가': 1, '나': 2, '가': 3})  # 출력: {'가': 3, '나': 2}

# 변수 a의 자료형 확인
type(a)  # 출력: dict

{'가': 1, '나': 2}
{'가': 3, '나': 2}


dict

#### 2.8.1. 딕셔너리로 변환

> 딕셔너리로 변환

**`dict` 함수를 사용하여 데이터를 딕셔너리로 변환**합니다. 변환하려는 입력 자료형은 키-밸류 쌍으로 변환이 가능한 형태여야 하기에, 튜플이나 리스트로 이루어진 2차원 컬렉션이어야 합니다. 즉, **각 항목이 두 개의 원소로 구성된 2차원 구조가 필요합니다.**

```python
# 각 항목이 두 개의 원소로 구성된 2차원 리스트
list1 = [['a', 1], ['b', 2], ['c', 1]]

# 딕셔너리로 변환
dict(list1)  # 결과: {'a': 1, 'b': 2, 'c': 1}
```



In [53]:
# 코드 2-43. 딕셔너리로 변환
b = [('가', 1), ('나', 2), ('가', 3)]

# 변수 b를 딕셔너리로 변환 후 출력
dict(b)  # 출력: {'가': 3, '나': 2}

{'가': 3, '나': 2}

#### 2.8.2. 딕셔너리 기본 조작

> 키 인덱싱

**딕셔너리는 키를 사용하여 원하는 데이터를 추출**합니다. 대괄호 안에 키를 입력하면 해당 키에 대응하는 밸류가 반환됩니다. 이러한 방식은 리스트나 튜플에서 위치를 기반으로 원소를 추출하는 인덱싱과 달리, 키를 기반으로 값을 추출하는 **키 인덱싱**(key indexing)이라고 합니다.

In [54]:
# 코드 2-44. 딕셔너리의 키 인덱싱
c = {'가': 1, '나': 2}

# 딕셔너리 c에서 키 '가'의 밸류를 추출
c['가']  # 출력: 1

1

> 딕셔너리의 원소 추가 및 수정

딕셔너리는 기존의 키를 사용해 밸류를 수정하거나, 새로운 키와 밸류를 추가할 수 있습니다. **특정 키를 사용해 값을 할당하면 해당 키의 밸류가 새로운 값으로 변경**됩니다. 만약 **존재하지 않는 키에 값을 할당하면, 새로운 키-밸류 쌍이 생성**됩니다.

In [55]:
# 코드 2-45. 딕셔너리의 원소 추가 및 수정
c = {'가': 1, '나': 2}

# 기존 키 '가'의 밸류를 4로 수정
c['가'] = 4

# 새로운 키 '다'와 밸류 3을 추가
c['다'] = 3

# 딕셔너리 c 출력
print(c) # 결과: {'가': 4, '나': 2, '다': 3}

{'가': 4, '나': 2, '다': 3}


정리하면 다음과 같습니다.

| 상황           | 키가 존재할 때       | 키가 존재하지 않을 때  |
|----------------|----------------------|-------------------------|
| `dict[키]`    | 인덱싱              | `KeyError` 발생         |
| `dict[키] = 값` | 기존 항목 수정      | 새로운 항목 생성        |

[표 2-7] 딕셔너리의 인덱싱, 항목 수정 및 생성

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

> 다양한 딕셔너리 함수

- `get(key, default=None)`

 키로 밸류를 조회하며, 키가 없으면 기본값을 반환합니다.

 ```python
a = {'x': 1, 'y': 2}
print(a.get('x'))         # 출력: 1
print(a.get('z', 0))      # 출력: 0 (키 'z'가 없으므로 기본값 0)
```

- `update([other_dict | iterable])`

 다른 딕셔너리나 키-밸류 쌍으로 현재 딕셔너리를 업데이트합니다.

 ```python
a = {'x': 1, 'y': 2}
a.update({'z': 3})        # 딕셔너리 추가
print(a)                  # 출력: {'x': 1, 'y': 2, 'z': 3}
```

- `pop(key, default=None)`

 지정한 키를 제거하고 밸류를 반환합니다.

 ```python
a = {'x': 1, 'y': 2}
value = a.pop('x')        # 키 'x' 제거, 밸류 반환
print(value)              # 출력: 1
print(a)                  # 출력: {'y': 2}
```

- `items()`

 키-밸류 쌍을 (key, value)의 튜플 형태 배열(iterable)로 반환합니다.

 ```python
a = {'x': 1, 'y': 2}
print(a.items())  # 출력: dict_items([('x', 1), ('y', 2)])
```

- `keys()`

 딕셔너리의 모든 키를 반환합니다.

 ```python
a = {'x': 1, 'y': 2}
print(a.keys())  # 출력: dict_keys(['x', 'y'])
```

- `values()`

 딕셔너리의 모든 밸류를 반환합니다.

 ```python
a = {'x': 1, 'y': 2}
print(a.values())  # 출력: dict_values([1, 2])
```

> 두 배열을 활용한 딕셔너리 생성

길이가 같은 두 개의 배열을 사용하여 하나는 **키(key)**로, 다른 하나는 **값(value)**으로 활용해 딕셔너리를 생성할 수 있습니다. 이를 구현할 때는 `zip` 함수를 사용합니다.

**zip 함수**

`zip` 함수는 여러 반복 가능한 객체를 병렬로 순회하며, **각 위치에 있는 원소를 하나의 튜플로 묶어주는 파이썬의 내장 함수**입니다. 이를 통해 두 개 이상의 배열이나 리스트에서 동일한 인덱스의 값들을 손쉽게 짝지을 수 있습니다.

```python
keys = ['a', 'b', 'c']
values = [1, 2, 3]
zip(keys, values)  # 결과는 ('a', 1), ('b', 2), ('c', 3)이지만 육안으로 확인 불가능
```

`zip` 함수는 `zip` 객체를 반환하고, `zip` 객체를 육안으로 확인할 때는 `list` 함수 등으로 변환해야 합니다.

```python
# zip 객체를 리스트로 변환하면 육안으로 확인 가능
list(zip(keys, values))  # 출력: [('a', 1), ('b', 2), ('c', 3)]
```

**`zip` 객체를 `dict` 함수에 전달하면, 짝지어진 튜플들을 키-밸류 쌍으로 변환하여 딕셔너리를 생성**합니다.

```python
# zip 객체는 2차원 구조이므로 딕셔너리로 변경 가능
dict(zip(keys, values))  # 출력: {'a': 1, 'b': 2, 'c': 3}
```

위 방법으로 두 개의 배열을 사용하여 딕셔너리를 생성합니다.





### 2.9. 집합

**집합(set) 자료형은 중복을 제거하고 집합 연산(교집합, 합집합, 차집합 등)을 수행하는 데 유용한 자료형입니다.**

집합의 주요 특징은 다음과 같습니다:

- **중복을 허용하지 않음**

 집합의 원소는 모두 고유해야 합니다.
예를 들어, {1, 2, 2, 3}은 중복이 제거되어 {1, 2, 3}으로 저장됩니다.

- **순서가 없음**

 집합은 순서를 유지하지 않으므로 인덱스를 통한 접근이 불가능합니다.
따라서 리스트와 달리 인덱싱으로 원소를 직접 가져올 수 없습니다.

- **집합 연산**

 합집합, 교집합 등의 집합 연산을 간편하게 수행합니다.

집합을 출력하면 정렬된 것처럼 보이는 이유는 원소의 순서를 유지하지 않기 때문입니다.
예를 들어, {3, 1, 2, 1}은 중복이 제거되고 순서 없이 저장되므로 {1, 2, 3}으로 출력됩니다.




#### 2.9.1. 집합 자료형 생성

> 집합 자료형 생성

파이썬에서 집합을 생성하는 방법은 다음과 같습니다:

- **중괄호 사용**

 예: {1, 2, 3}

 숫자 1, 2, 3을 원소로 가진 집합을 생성합니다.

- **`set` 함수 사용**

 예: set([1, 2, 3])

 리스트나 다른 반복 가능한 객체를 집합으로 변환합니다.

**🚨 주의 사항**

빈 중괄호 `{}`는 빈 딕셔너리를 생성하므로, 빈 집합을 만들려면 반드시 `set()`을 사용해야 합니다.

In [56]:
# 코드 2-46. 집합 생성
# 중괄호로 집합 {1, 2}를 생성하여 변수 a에 할당 후 출력
a = {1, 2}
print(a)  # 출력: {1, 2}

b = [3, 1, 2, 1]
# 리스트 b를 집합으로 변환 후 출력
print(set(b))  # 출력: {1, 2, 3}

# 빈 집합 자료형 생성 (반드시 set 함수 사용)
set()

{1, 2}
{1, 2, 3}


set()

#### 2.9.2. 집합 연산

> 집합 연산

파이썬의 집합 자료형(set)은 다양한 집합 연산을 지원합니다.

<img src=https://i.postimg.cc/htQwKcck/2-10.png, width=600>

[그림 2-10] 집합 연산

- **합집합**(union)

 두 집합의 모든 원소를 합친 새로운 집합을 반환합니다.

 `a | b` 또는 `a.union(b)`

- **교집합**(intersection)

 두 집합의 공통 원소로 구성된 집합을 반환합니다.

 `a & b` 또는 `a.intersection(b)`

- **차집합**(difference)

 첫 번째 집합에는 있지만 두 번째 집합에는 없는 원소들로 구성된 집합을 반환합니다.

 `a - b` 또는 `a.difference(b)`

- **대칭 차집합**(symmetric_difference)

 두 집합에 각각 존재하지만 공통적이지 않은 원소들로 구성된 집합을 반환합니다.

 `a ^ b` 또는 `a.symmetric_difference(b)`

In [57]:
# 코드 2-47. 집합 자료형의 집합 연산
a = {1, 2, 3}
b = {1, 2, 4}

# 집합 a와 b의 교집합 출력
print(a & b)  # 출력: {1, 2}

# 집합 a와 b의 합집합 출력
print(a | b)  # 출력: {1, 2, 3, 4}

# 집합 a와 b의 차집합 출력
a - b  # 출력: {3}

{1, 2}
{1, 2, 3, 4}


{3}

#### 2.9.3. 각 컬렉션 자료형의 용도

> 각 컬렉션 자료형의 용도

파이썬의 컬렉션 자료형의 용도를 정리하면 다음과 같습니다.

- **리스트**: 범용적으로 활용
- **튜플**: 불변 객체가 필요할 때
- **딕셔너리**: 키를 사용한 데이터 접근이 필요할 때
- **집합**: 집합 연산이 필요할 때

## Chapter 3. Null
**Null은 값이 없거나 정의되지 않은 상태를 나타내며**, 프로그래밍에서 매우 중요한 개념입니다. Null은 데이터를 처리하는 과정에서 값의 유무를 판단하거나, 특정 상태를 표현하기 위해 사용됩니다.

### 3.1. Null

> Null로 오해하기 쉬운 데이터

입문자들이 자주 혼동하는 개념 중 하나는 Null과 빈 문자열(`''`), 빈 리스트(`[]`), 빈 딕셔너리(`{}`) 등의 **빈 데이터**입니다. Null과 달리, 이러한 **빈 데이터는 길이가 0인 값이지만 값이 존재합니다.** 예를 들어, 빈 리스트는 데이터를 추가할 수 있는 공간을 제공하고, 빈 문자열은 문자 데이터를 저장할 준비가 된 객체입니다. 값이 없음을 나타내는 Null과는 사용 목적이 다릅니다.


> 파이썬의 Null

**파이썬에서 Null은 주로 `None`과 `NaN`을 사용합니다.** `None`은 값이 없음을 명시적으로 나타내는 객체로, 함수의 반환 값이 없거나 초기화되지 않은 변수를 표현할 때 사용합니다. 반면, `NaN`(Not a Number)은 주로 수학적 연산에서 정의되지 않은 값을 나타낼 때 사용합니다. 두 개념 모두 "값없음"을 의미하지만, 사용 목적이 다릅니다.

#### 3.1.1. None

> None

**`None`은 파이썬에서 값이 없음을 나타내는 상수**로, 다른 언어의 null 또는 nil과 유사합니다. `None`은 고유한 객체로, 키워드로 생성됩니다. 모든 `None` 값은 동일한 메모리 주소를 가지므로, 비교할 때는 `==` 대신 `is`를 사용하는 것이 권장됩니다.

`None`의 자료형은 `NoneType`입니다.

In [58]:
# 코드 3-1. None

# None을 생성하여 변수 a에 할당 후 출력
a = None
print(a)  # 출력: None

# 변수 a가 None인지 확인 (is 키워드 사용)
print(a is None)  # 출력: True

# 변수 a의 자료형 확인
type(a)  # 출력: NoneType

None
True


NoneType

#### 3.1.2. NaN

> NaN

`NaN`(Not a Number) 또는 `nan`은 **수학 연산에서 정의되지 않은 결과**를 나타내며, `float('nan')`으로 생성할 수 있습니다. 이는 주로 데이터 분석에서 결측값이나 비정상적인 수치를 표현하는 데 사용됩니다.

`NaN`의 자료형은 **실수(`float`)**이며, **수치형 데이터인 Null이 `NaN`입니다.**

In [59]:
# 코드 3-2. NaN

# NaN을 생성하여 변수 b에 할당 후 출력
b = float('nan')
print(b)  # 출력: nan

# 변수 b의 자료형 확인
type(b)  # 출력: float

nan


float

> NaN의 연산

- 모든 **산술 연산**에서 `NaN`을 반환합니다.

- 모든 **비교 연산**에서 `False`를 반환합니다.

`NaN`은 자기 자신과의 동등(`==`) 비교에서도 `False`를 반환합니다. 따라서 `NaN`을 탐지하려면 특별한 함수가 필요합니다. (예: 판다스 라이브러리의 `isna` 함수)

In [60]:
# 코드 3-3. NaN의 연산
b = float('nan')

# 변수 b와 2를 곱한 결과 출력
print(b * 2)  # 출력: nan

# 변수 b와 float('nan')의 동등 비교
b == float('nan')  # 출력: False

nan


False

#### 3.1.3. None과 NaN의 차이

> None과 NaN의 차이

- `None`: 값이 전혀 없음을 나타내는 고유한 객체이며 자료형은 `NoneType`입니다.

- `NaN`: 실수(`float`) 타입의 Null이기에 **산술 연산이 가능**해 주로 데이터 분석에서 사용합니다.

<img src=https://i.postimg.cc/c1nJ8HYD/2-11-None-Na-N.png, width=600>

[그림 3-1] `None`과 `NaN`의 차이

#### 심화

**👌참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

**🚨 주의 사항**

지금부터 판다스 라이브러리를 실습에 활용할 것입니다. 만약 여러분이 구글 코랩이 아닌 환경에서 실습하는 경우, **먼저 판다스 라이브러리를 사용하려면 설치해야 합니다.** 코랩 이용자가 아닌 경우 설치를 위해 다음 코드를 실행하거나, **8장 모듈**을 학습한 후 실습하는 것을 권장합니다.

```python
# 판다스 라이브러리 설치 (구글 코랩은 이미 판다스가 설치되어 있음)
!pip install pandas
```
**구글 코랩에서 실습하는 경우, 별도의 설치 없이 그대로 실습을 진행할 수 있습니다.**

> NaN의 확인

데이터 분석 모듈인 **판다스** 라이브러리에는 Null을 탐지하는 `isna` 함수가 있습니다. 이 함수는 `None`과 `NaN`을 모두 탐지할 수 있습니다.

In [61]:
# 코드 3-4. 판다스에서 Null 확인
# 주의: 구글 코랩이 아닌 환경에서 실습하는 경우 판다스 설치가 필수
import pandas as pd  # 데이터 분석 모듈 판다스 불러오기

# 변수 a에 NaN을 할당
a = float('nan')

# 판다스의 isna 함수로 a가 Null인지 확인
pd.isna(a)  # 출력: True

True

`isna` 함수는 `None`과 `NaN`에 대해 `True`를 반환합니다. 데이터 분석에서는 `NaN`의 존재를 확인하는 주된 이유가 Null의 유무를 파악하기 위함이므로, **`None`과 `NaN`의 구분할 실익이 없어 `isna` 함수를 사용해 Null을 탐지하는 것으로 충분합니다.**

`None`을 제외하고 `NaN`만을 확인하고 싶다면, 자료형이 **실수(`float`)**인 Null을 파악하는 방법을 사용합니다. 이때, 자료형을 확인하는 `isinstance` 함수를 추가로 사용합니다. 다만 실무에서 Null을 탐지하는 것으로 충분하기에 자주 사용하는 기법은 아닙니다.

In [62]:
# 코드 3-5. 판다스에서 NaN 확인

import pandas as pd  # 데이터 분석 모듈 판다스 불러오기

# 변수 a, b에 각각 NaN과 None 할당
a, b = float('nan'), None

# 판다스의 isna 함수와 자료형 확인으로 NaN인지 확인
print(pd.isna(a) and isinstance(a, float))  # NaN의 출력: True
print(pd.isna(b) and isinstance(b, float))  # None의 출력: False

True
False


## Chapter 4. 키워드

우리는 불 자료형 단원에서 `True`와 `False`, Null 단원에서는 `None`을 배웠습니다. 또한 논리 연산자 `and`, `or`, `not`도 배웠습니다. 이들은 모두 약속된 단어입니다. **키워드는 특정 데이터나 기능, 동작을 나타내는 약속된 단어**로, 파이썬의 주요 동작과 구조를 정의합니다. 이를 통해 코드의 흐름을 제어합니다. 또한 키워드는 특정 기능으로 약속된 단어이기에 변수명이나 함수명으로 사용할 수 없습니다.

### 4.1. 키워드

파이썬 키워드는 다음과 같은 주요 범주로 나눌 수 있습니다.

> 제어문

프로그램의 흐름을 제어하는 데 사용됩니다.
- if, elif, else: 조건에 따라 코드의 분기를 결정합니다.
- for, while: 반복 작업을 수행하는 반복문을 생성합니다.
- break, continue: 반복문 내 흐름을 조절합니다.

- try, except, finally: 예외 처리를 통해 프로그램의 안정성을 높입니다.

<br>

> 함수와 클래스 정의

코드 구조를 정의하는 데 사용됩니다.

- def: 함수를 정의합니다.

- class: 클래스를 정의합니다.

- return: 함수의 결과를 반환합니다.

- lambda: 이름 없는 함수(람다 함수 또는 익명 함수)를 생성합니다.

<br>

> 논리 연산

논리적 조건을 표현합니다.

- and, or, not: 논리 조건을 결합하는 연산을 수행합니다.

- is, in: 객체의 동일성 또는 포함 관계를 검사합니다.

<br>

> 기타 키워드

다양한 목적을 가진 키워드입니다.

- None: 값이 없음을 나타내는 특별한 상수입니다.

- True, False: 참과 거짓인 불(bool)을 나타냅니다.

- import, from, as: 모듈을 가져오고, 별칭을 지정하거나 부분적으로 가져올 때 사용됩니다.


<br>

이 단원에서는 `is`와 `in` 키워드를 배웁니다. 그 외의 키워드는 관련된 단원에서 학습합니다.


#### 4.1.1. 키워드 is

> 키워드 is

키워드 `is`는 **객체의 동일성을 확인**할 때 사용합니다.

```python
a = None  # 변수 a에 None을 할당
a is None  # 출력: True -> a는 None과 동일하다.
```
<br>

> is와 ==의 차이

- `==` 연산자: 두 값이 동일한지를 비교하며, 값이 같으면 `True`를 반환합니다.

- `is` 연산자: 두 변수가 동일한 객체를 가리키는지를 확인합니다. 같은 값이라도 다른 객체를 참조할 경우 `is`는 `False`를 반환합니다.

예)

```python
# 리스트 a와 b 생성
a = [1, 2, 3]
b = [1, 2, 3]

# 두 리스트의 값 비교
print(a == b)  # 출력: True (값이 같다)

# 두 리스트의 객체 비교
print(a is b)  # 출력: False (동일한 객체가 아니다)
```

변수 a와 b는 값은 동일하지만 서로 다른 객체입니다. 이때 동등 비교 연산자(`==`)를 사용하면 `True`를 반환하지만, 키워드 `is`를 사용하면 `False`를 반환합니다.

키워드로 생성된 데이터인 `True`, `False`, `None`은 모두 **고유 객체**이므로, 동등 비교 연산(`==`)보다는 `is`를 사용해 탐지하는 것이 더 엄밀합니다.



In [63]:
# 코드 4-1. 키워드 is
a = [1, 2]
b = [1, 2]

# 동등 비교 연산(==)으로 a와 b 비교 후 출력
print(a == b)  # 출력: True (값이 같다)

# 키워드 is로 a와 b 비교 후 출력
a is b  # 출력: False (동일한 객체가 아니다)

True


False

#### 4.1.2. 키워드 in과 not in

> in

키워드 `in`은 **대상이 컬렉션에 포함되어 있는지 검사**합니다. 예를 들어, 정수 3이 리스트 [3, 4, 5]의 원소인지 확인하려면 다음과 같은 코드를 사용합니다.

```python
3 in [3, 4, 5]  # 출력: True
```

결과는 `True` 또는 `False`로 반환되며, 포함될 때 `True`를 반환합니다.


In [64]:
# 코드 4-2. 키워드 in
c = 3

# c가 3, 4, 5 중 하나인지 키워드 in으로 확인
print(c in [3, 4, 5])  # 출력: True

# c가 3, 4, 5 중 하나인지 논리 연산자로 확인
(c == 3) or (c == 4) or (c == 5)  # 출력: True

True


True

값을 여러 대상에서 검사할 때, `in` 키워드를 사용하면 `or` 연산자를 사용하는 것보다 코드가 훨씬 간결합니다.

> not in

키워드 `not in`은 **대상이 컬렉션에 포함되지 않는지 검사**합니다. 이는 키워드 `in`의 반대 연산자로, 값이 컬렉션에 존재하면 `True`, 존재하지 않으면 `False`를 반환합니다. 예를 들어, 정수 3이 리스트 [3, 4, 5]의 원소가 아닌지 확인하려면 다음과 같은 코드를 사용합니다.

```python
3 not in [3, 4, 5]  # 출력: False
```

결과는 `True` 또는 `False`로 반환되며, 포함될 때 `False`를 반환합니다.


In [65]:
# 코드 4-3. 키워드 not in
d = 'banana'

# d가 'banana', 'tomato', 'apple' 중 하나인지 not in으로 확인
print(d not in ['banana', 'tomato', 'apple'])  # 출력: False

# 'banana'에 알파벳 'z'가 포함되어 있는지 not in으로 확인
'z' not in d  # 출력: True ('banana'에 'z'가 없음)

False


True

여기서 소개된 `is`, `in` 이외의 키워드는 관련 단원에서 학습합니다.

## Chapter 5. 제어문

**제어문은 프로그램의 흐름을 제어하는 핵심 구문**으로, 조건에 따라 코드의 실행 경로를 결정하거나 특정 작업을 반복적으로 수행할 수 있게 합니다. **제어문의 대표적인 예로는 조건문과 반복문이 있습니다.** 조건문은 주어진 조건이 `True`일 경우 특정 코드를 실행하고, `False`이면 해당 코드를 실행하지 않거나 대체 경로를 따릅니다. 반복문은 동일한 코드를 반복 실행하여 효율적으로 임무를 수행합니다.

> 제어문의 종류

파이썬의 제어문은 크게 조건문, 반복문, 그리고 예외 처리문으로 나눌 수 있습니다.

- **조건문**
 - 특정 조건에 따라 코드 실행 여부 결정
 - 키워드: `if`, `elif`, `else`

- **반복문**

 - 코드 반복 실행
 - 키워드: `for`, `while`

- **예외 처리문**

 - 실행 중에 발생할 수 있는 오류 처리
 - 키워드: `try`, `except`, `finally`



> 제어문의 구조

<img src=https://i.postimg.cc/C5zQK4Qs/5-1.png, width=600>

[그림 5-1] 제어문의 구조

파이썬 제어문은 **제어 파트**와 **do 파트**로 구성됩니다. **제어 파트는 코드의 실행 여부를 결정**하며, `if`, `for`와 같은 제어문 키워드로 시작하고 콜론(`:`)으로 끝납니다. **do 파트는 제어 조건이 만족할 때 실행되는 코드**로, 파이썬에서는 들여쓰기로 구분합니다. 일반적으로 **do 파트는 4칸의 들여쓰기**를 사용하여 가독성을 높이고, 코드의 계층 구조를 명확히 나타냅니다.


### 5.1. 조건문

**조건문은 특정 조건에 따라 다른 코드가 실행되도록 합니다.** 조건문은 데이터를 기반으로 논리적 결정을 내리고, 다양한 상황에서 적절한 동작을 수행하도록 설계됩니다. 파이썬에서는 `if`, `elif`, `else` 세 가지 주요 구문을 통해 조건을 처리합니다.

- **if**: 조건이 `True`일 때 실행.
- **else**: 모든 조건이 `False`일 때 실행.
- **elif**: 여러 조건을 설정.

#### 5.1.1. if 문

> if 문


**`if` 문은 특정 조건이 `True`일 때 실행**되는 조건문입니다.

예: 학생의 점수가 80점 이상일 경우 '합격' 메시지를 출력하는 코드입니다.

```python
score = 95  # 변수 score에 95를 할당

# score가 80 이상이면 '합격' 출력
if score >= 80:
    print('합격')  # 출력: '합격'
```


In [66]:
# 코드 5-1. if 문
score = 95  # 변수 score에 95를 할당

# score가 80 이상이면, 변수 grade에 'A'를 할당
if score >= 80:
    grade = 'A'

# 변수 grade 출력
grade  # 출력: 'A'

'A'

#### 5.1.2. else 문

> else 문

`else` 문은 일반적으로 `if` 문과 함께 쓰이며, **조건이 `False`일 때 실행**됩니다.

예: 점수가 80점 이상이면 '합격', 그렇지 않으면 '불합격' 메시지를 출력합니다.

```python
score = 75  # 변수 score에 75를 할당

# score가 80 이상이면 '합격', 그렇지 않으면 '불합격' 출력
if score >= 80:
    print('합격')  # 조건 만족 시 실행되는 코드
else:
    print('불합격')  # 조건 불만족 시 실행되는 코드
```

In [67]:
# 코드 5-2. else 문
score = 70  # 변수 score에 70을 할당

# score가 80 이상이면 grade에 'A', 아니면 'B'를 할당
if score >= 80:
    grade = 'A'
else:
    grade = 'B'

# 변수 grade 출력
grade  # 출력: 'B'

'B'

#### 5.1.3. elif 문

> elif 문

`elif` 문을 사용하면 **여러 조건을 설정**하여 각각 다른 코드를 실행할 수 있습니다.

예: 점수가 90점 이상이면 'A', 80점 이상 90점 미만이면 'B', 그 외의 경우에는 'C'를 출력합니다.

```python
score = 85  # 변수 score에 85를 할당

# 점수에 따라 등급 출력: 90 이상은 'A', 80 이상 90 미만은 'B', 그 외는 'C'
if score >= 90:
    print('A')  # 출력: 'A' (90 이상)
elif score >= 80:
    print('B')  # 출력: 'B' (80 이상 90 미만)
else:
    print('C')  # 출력: 'C' (조건 불만족 시)


In [68]:
# 코드 5-3. elif 문
score = 75  # 변수 score에 75를 할당

# score에 따라 grade를 할당: 80 이상 'A', 70 이상 80 미만 'B', 70 미만 'C'
if score >= 80:
    grade = 'A'
elif score >= 70:
    grade = 'B'
else:
    grade = 'C'

# 변수 grade 출력
grade  # 출력: 'B'

'B'

다양한 조건이 필요한 경우, 필요한 만큼 `elif` 문을 추가합니다.

예: 점수에 따라 등급을 세분화하여 'A', 'B', 'C', 'D', 'F'를 출력

```python
score = 75  # 변수 score에 75를 할당

# 점수에 따라 등급 출력
if score >= 90:
    print('A')  # 90 이상
elif score >= 80:
    print('B')  # 80 이상 90 미만
elif score >= 70:
    print('C')  # 70 이상 80 미만
elif score >= 60:
    print('D')  # 60 이상 70 미만
else:
    print('F')  # 60 미만
```

### 5.2. 반복문 기본

**반복문은 특정 조건이 만족하는 동안 코드를 반복 실행합니다.** 파이썬에는 `for` 문과 `while` 문이 있지만, 기본적인 `for` 문만으로도 데이터 분석 모듈에 필요한 대부분의 반복 작업을 수행할 수 있습니다.

#### 5.2.1. for 문

이 단원에서는 가장 널리 사용되는 반복문인 `for` 문을 학습합니다.

> for 문의 구조

<img src=https://i.postimg.cc/TY5Gb5ND/5-2-for.png, width=600>

[그림 5-2] for 문의 구조

파이썬의 `for` 문은 가장 널리 사용되는 반복문 중 하나로, **for 파트**와 **do 파트**로 구성됩니다. **for 파트**에서는 주어진 리스트나 반복 가능한(iterable) 객체의 **원소들이 순차적으로 반복 변수에 할당**됩니다. 이렇게 할당된 변수는 **do 파트**에서 사용되어 **지정된 코드를 수행**합니다.




> 반복문의 장점

반복문을 사용하면 코드를 간결하게 작성할 수 있습니다. 다음은 리스트의 각 원소의 자료형을 출력하는 반복문의 예시입니다.

````python
for i in ['a', 1, 3.1, 'b']:  # 각 원소가 순차적으로 대입되는 변수 i
    print(type(i))  # 반복 변수 i의 자료형을 출력
````

출력:
```python
<class 'str'>  # 'a'의 자료형을 출력
<class 'int'>  # 1의 자료형을 출력
<class 'float'>  # 3.1의 자료형을 출력
<class 'str'>  # 'b'의 자료형을 출력
```

위 코드에서 `i`는 리스트의 각 원소가 순차적으로 대입되는 **반복 변수**이며, **do 파트**에서 `print(type(i))`가 반복 실행됩니다. 만약 이 작업을 반복문 없이 수행하려면 코드가 다음과 같이 길어질 것입니다.

```python
# 반복문 없이 동일한 작업을 수행
print(type('a'))
print(type(1))
print(type(3.1))
print(type('b'))
```

In [69]:
# 코드 5-4. 반복문 기본
a = ['여러분은', '대단한', '인재입니다.']

# 리스트 a의 각 원소를 순서대로 출력
for i in a:
    print(i)  # 출력: '여러분은', '대단한', '인재입니다.' (각 행에 하나씩 출력)

여러분은
대단한
인재입니다.


#### 5.2.2. 완전히 동일한 반복

> 완전히 동일한 반복

완전히 동일한 작업을 반복해야 하는 경우라면 **do 파트에 반복 변수를 사용하지 않아도 됩니다.** 예를 들어, 'A'를 네 번 출력하려면 do 파트에는 `print('A')`만 수행하면 충분합니다. 이때 반복 변수가 do 파트에서 사용되지 않기 때문에, `for` 문에 지정할 배열은 단순히 길이가 4인 배열이면 됩니다. 보통 이런 경우 **`range` 함수를 사용해 반복문을 수행**합니다.

In [70]:
# 코드 5-5. 완전히 동일한 작업 반복

# 문자열 'A'를 5번 반복 출력
for i in range(5):
    print('A')  # 출력: 'A' (5줄)

A
A
A
A
A


#### 5.2.3. 이터러블

> 문자열 반복

`for` 문에서 복수의 데이터를 포함하는 컬렉션 자료형인 리스트를 지정하여 반복문을 수행하는 방식을 살펴보았습니다. **문자열**은 컬렉션 자료형은 아니지만, 반복 가능한(iterable) 객체이기 때문에 **반복문의 대상으로 사용할 수 있습니다.** 이 경우, 문자열의 각 문자를 순회하게 됩니다.


In [71]:
# 코드 5-6. 문자열 반복
b = '드라군'

# 문자열 b를 한 글자씩 출력
for i in b:
    print(i)  # 출력: '드', '라', '군' (각 행에 하나씩 출력)

드
라
군


> 이터러블

이처럼 **반복 가능한 객체**를 **이터러블(iterable)**이라고 합니다. 문자열뿐만 아니라, 반복 가능한 객체 중에서도 컬렉션이 아닌 데이터가 있습니다. 예를 들어, `range` 객체도 반복문은 수행하지만 컬렉션이 아닙니다.

`range` 함수는 데이터를 실제로 생성하지 않고 필요할 때 계산하여 제공하므로, 컬렉션이라고 부를 수 없습니다. 따라서 반복 가능한 객체를 표현할 때는 컬렉션은 부정확한 용어가 될 수 있기에, **이터러블**이라는 용어를 사용합니다.

여러분이 앞으로 코딩을 공부하시면서 **이터러블(iterable)**이라는 표현을 자주 접하게 될 것입니다. 이 개념을 잘 이해하고 활용하시기를 바랍니다.


| 자료형        | 컬렉션(Collection) | 이터러블(Iterable) | 시퀀스(Sequence) |
|-------------|------------------|------------------|------------------|
| `int` (정수)    | ❌               | ❌               | ❌               |
| `float` (실수)  | ❌               | ❌               | ❌               |
| `str` (문자열)  | ❌               | ✅               | ✅               |
| `bool` (불)     | ❌               | ❌               | ❌               |
| `list` (리스트)  | ✅               | ✅               | ✅               |
| `tuple` (튜플)  | ✅               | ✅               | ✅               |
| `dict` (딕셔너리) | ✅               | ✅               | ❌               |
| `set` (집합)    | ✅               | ✅               | ❌               |
| `range` (range 객체)      | ❌               | ✅               | ✅               |

[표 5-1] 컬렉션, 이터러블, 시퀀스

- **컬렉션**은 **복수의 데이터를 저장하는 자료형**을 뜻합니다. 참고로 `range` 객체는 데이터를 저장하지 않고 필요할 때 생성하여 반환하므로, 복수의 데이터를 다룰 수 있지만 컬렉션에는 포함되지 않습니다.

- **시퀀스**는 원소 간 순서를 유지하며, **인덱스를 활용한 위치 기반의 인덱싱과 슬라이싱이 가능한 대상**입니다. 딕셔너리는 키 인덱싱만 가능할 뿐, 위치 기반 인덱싱이 가능하지 않기에 시퀀스에는 포함되지 않습니다.

- **이터러블**은 **`for` 문에서 순회 가능한 대상**입니다. `for` 문의 반복 대상이 이터러블입니다.

이터러블, 컬렉션, 시퀀스를 정확히 구분하면 책이나 공식 문서 등의 학습에 도움이 됩니다.

### 5.3. 반복문 심화

이번 단원에서는 `for` 문을 활용한 배열의 매핑, **리스트 내포**(list comprehension), 다중 변수 `for` 문, 조건문과 결합한 반복문 등을 학습합니다.

#### 5.3.1. for 문으로 배열 매핑하기

> for 문으로 배열 매핑하기

**`for` 문을 사용하면 배열의 각 원소를 매핑하여 새로운 배열을 생성할 수 있습니다.** 예를 들어, 리스트 [1, 2, 3, 5]의 각 원소를 두 배로 매핑하여 [2, 4, 6, 10]이라는 새로운 배열을 생성할 수 있습니다.

In [72]:
# 코드 5-7. for 문으로 배열 매핑하기
c = [1, 2, 3, 5]
result = []  # 결과를 담을 빈 리스트 result 생성

# 리스트 c의 각 원소를 두 배로 매핑한 result 생성
for i in c:
    result.append(i * 2)  # 각 원소에 2를 곱해 result에 추가

# 변수 result 출력
result  # 출력: [2, 4, 6, 10]

[2, 4, 6, 10]

> for 문 작성 요령

**순회할 이터러블의 단일 원소에 적용되는 코드를 먼저 작성한 후, 이를 `for` 문으로 변환**하는 것이 효과적인 작성 요령입니다.

먼저 아래와 같이 이터러블의 단일 원소에서 적용되는 코드를 작성합니다.

```python
c = [1, 2, 3, 5]  # 주어진 리스트 (이터러블)
result = []  # 결과를 담을 빈 리스트
i = c[0]  # 이터러블의 단일 원소를 변수로 지정 (이후 for 파트로 변환)
result.append(i)  # result에 변수 i를 추가 (이후 do 파트로 변환)
```

위 코드를 먼저 작성한 뒤, 단일 원소를 변수 i로 지정하는 코드를 **for 파트**로 변환하고, 실행되는 코드를 **do 파트**로 변환합니다.

```python
c = [1, 2, 3, 5]  # 주어진 리스트 (이터러블)
result = []  # 결과를 담을 빈 리스트
for i in c:  # 단일 원소를 지정한 코드를 for 파트로 변환
    result.append(i)  # 실행되는 코드를 do 파트로 변환
```

#### 5.3.2. 리스트 내포

> 리스트 내포

**리스트 내포(list comprehension)**는 반복문과 조건문 등을 간결하게 표현하여 리스트를 생성할 수 있는 효율적인 기법입니다. 이 기법을 사용하면 코드의 가독성을 높이고, 더 짧고 명확한 코드로 동일한 작업을 수행할 수 있습니다.

**리스트 내포**라는 명칭은 반복문과 조건문이 리스트 생성 표현식 내부에 포함되어 작성된다는 구조적 특징에서 유래한 것입니다.

[코드 5-7]은 리스트 내포를 사용하여 변환할 수 있는 좋은 예제입니다.

In [73]:
# 코드 5-8. 코드 5-7을 리스트 내포로 수행
c = [1, 2, 3, 5]

# 리스트 c의 각 원소를 두 배로 매핑한 결과를 리스트 내포로 생성
[i * 2 for i in c]  # 출력: [2, 4, 6, 10]

[2, 4, 6, 10]

#### 5.3.3. 다중 변수 for 문
> 다중 변수 for 문

파이썬에서 2차원 이상의 이터러블을 순회할 때는 다중 변수 `for` 문을 활용하여 편리하게 값을 추출할 수 있습니다. 이를 위해 **튜플 언패킹**을 사용하면, 각 반복에서 요소를 개별 변수에 자동으로 할당할 수 있습니다. 예를 들어, 2차원 리스트를 반복 처리할 때 `for x, y in iterable:` 형태로 작성하면, 하위 리스트의 첫 번째 값은 반복 변수 `x`, 두 번째 값은 반복 변수 `y`에 할당됩니다. 이는 가독성을 높이고, 인덱싱 없이 직관적으로 데이터를 다룰 수 있도록 도와줍니다.

In [74]:
# 코드 5-9. 다중 변수 for 문
d = [[1, 2], [3, 4], [5, 6]]
result = []  # 결과를 담을 빈 리스트 result 생성

# 2차원 리스트 d에서 각 행의 합을 구해서 1차원 리스트로 변환
for i, j in d:
    result.append(i + j)  # i와 j의 합을 result에 추가

# 변수 result 출력
result  # 출력: [3, 7, 11]

[3, 7, 11]

#### 5.3.4. 조건문과 반복문의 결합

조건문과 반복문을 결합하면 다양한 작업을 효율적으로 수행할 수 있습니다.

> 조건에 따라 배열을 필터링하기

`for` 문과 `if` 문을 결합하면, 배열에서 특정 조건에 맞는 원소만 필터링할 수 있습니다.  예를 들어, 리스트 [1, 2, 3, 5]에서 홀수인 원소만 필터링하여 [1, 3, 5]를 얻을 수 있습니다.

In [75]:
# 코드 5-10. 조건에 따라 배열 필터링
c = [1, 2, 3, 5]
result = []  # 결과를 담을 빈 리스트 result 생성

# 리스트 c에서 홀수만 필터링하여 result에 추가
for i in c:
    if i % 2 == 1:  # i가 홀수인 경우
        result.append(i)  # i를 result에 추가

# 변수 result 출력
result  # 출력: [1, 3, 5]

[1, 3, 5]

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.


> if-else 문과 for 문의 결합

[코드 5-10]은 `if` 문만 포함된 `for` 문입니다. `if-else` 문이 `for` 문에 포함된 경우는 다음과 같습니다.

```python
# 주어진 리스트
c = [1, 2, 3, 5]
result = []  # 결과를 담을 빈 리스트 생성

# 리스트 c에서 홀수는 10배, 짝수는 그대로 유지한 result 생성
for i in c:
    if i % 2 == 1:  # i가 홀수인 경우
        result.append(i * 10)  # 10배 증가 후 result에 추가
    else:
        result.append(i)  # 그대로 result에 추가

result  # 출력: [10, 2, 30, 50]
```

예시의 코드는 리스트 [1, 2, 3, 5]에서 홀수는 10배 한 뒤 리스트에 추가하고, 짝수는 그대로 추가하여 [10, 2, 30, 50]을 반환합니다.

> 여러 리스트를 동시에 순회

여러 리스트를 동시에 순회하며 각 요소를 조작할 때는 `zip` 함수를 사용합니다. 예를 들어 `[1, 2, 3]`과 `[10, 20, 30]` 두 개의 리스트에서 같은 위치의 원소를 더해 `[11, 22, 33]`을 반환하려면, `zip` 객체를 **이터러블**로 활용합니다.


`zip` 함수는 여러 반복 가능한 객체를 병렬로 순회하며, 각 위치에 있는 원소를 하나의 튜플로 묶어주는 파이썬의 내장 함수입니다. `zip` 함수는 **2.8의 딕셔너리 단원**의 심화에 설명되어 있습니다.

```python
# 주어진 두 개의 리스트
a = [1, 2, 3]
b = [10, 20, 30]

# 결과를 담을 빈 리스트 생성
result = []

# zip 객체를 이터러블로 활용
for x, y in zip(a, b):
    result.append(x + y)

print(result)  # 출력: [11, 22, 33]
```

리스트 내포를 사용하면 보다 간결한 코드로 결과를 얻을 수 있습니다.

```python
# 주어진 두 개의 리스트
a = [1, 2, 3]
b = [10, 20, 30]

# zip 객체를 이터러블로 활용한 리스트 내포
result = [x + y for x, y in zip(a, b)]

print(result)  # 출력: [11, 22, 33]
```

`zip` 객체를 육안으로 확인하고 싶다면 리스트로 변환합니다. 두 리스트의 각 위치에 있는 원소를 하나의 튜플로 묶어줍니다.
```python
# 주어진 두 개의 리스트
a = [1, 2, 3]
b = [10, 20, 30]

# zip 객체를 리스트로 변환해 육안으로 확인
list(zip(a, b))  # 출력: [(1, 10), (2, 20), (3, 30)]
```

> 인덱스와 값을 동시에 순회

반복문을 사용할 때 리스트의 값뿐만 아니라 **인덱스**도 함께 필요할 때가 있습니다. 예를 들어, 리스트 `[10, 100, 1000]`에 각 인덱스를 더해 `[10, 101, 1002]`를 반환하려는 경우입니다. 이때 `enumerate` 함수를 **이터러블**로 활용하면 더욱 깔끔하고 효율적인 코드를 작성할 수 있습니다.

**enumerate 함수**

`enumerate` 함수는 반복 가능한(iterable) 객체를 입력으로 받아, **각 요소와 해당 요소의 인덱스를 (인덱스, 값) 형태의 튜플로 반환하는 파이썬 내장 함수입니다.** 이를 활용하면 리스트나 튜플을 순회할 때 인덱스를 별도로 관리하지 않아도 깔끔한 코드를 작성할 수 있습니다.

**리스트의 값에 인덱스를 더한 결과 반환**

값과 인덱스를 모두 반복 변수로 지정하기 위해 `enumerate` 함수를 적용한 결과(`enumerate` 객체)를 이터러블로 설정합니다. 아래 코드에서 인덱스는 반복 변수 `idx`로, 값은 반복 변수 `val`로 지정되어 순회합니다.

```python
# 주어진 리스트
a = [10, 100, 1000]

# # 결과를 담을 빈 리스트 생성
result = []

# 리스트의 값에 인덱스를 더한 결과 반환
for idx, val in enumerate(a): # enumerate 객체를 이터러블로 활용
    result.append(idx + val)

print(result)  # 출력: [10, 101, 1002]
```


리스트 내포를 사용하면 보다 간결한 코드로 결과를 얻을 수 있습니다.


```python
# 주어진 리스트
a = [10, 100, 1000]

# 리스트의 값에 인덱스를 더한 결과 반환 (리스트 내포, enumerate 객체 활용)
result = [idx + val for idx, val in enumerate(a)]

print(result)  # 출력: [10, 101, 1002]
```

**enumerate 함수 확인**

`enumerate` 객체를 육안으로 확인하고 싶다면 리스트로 변환합니다. 각 요소와 해당 요소의 인덱스를 (인덱스, 값) 형태의 튜플로 반환합니다.

```python
# 주어진 리스트
a = [10, 100, 1000]

# enumerate 객체를 리스트로 변환해 육안으로 확인
list(enumerate(a))  # 출력: [(0, 10), (1, 100), (2, 1000)]
```

**enumerate 함수의 시작 숫자 조정하기**

만약 시작 숫자를 0이 아닌 다른 정수로 설정하고 싶다면, `enumerate` 함수의 두 번째 인수를 사용합니다.

```python
# 주어진 리스트
a = [10, 100, 1000]

# enumerate 객체의 시작 숫자를 1로 조정하기
list(enumerate(a, 1))  # 출력: [(1, 10), (2, 100), (3, 1000)]
```




> 조건문을 포함한 for 문의 리스트 내포

**if 문을 포함한 for 문의 리스트 내포**

조건문을 포함한 `for` 문으로 리스트를 생성할 때도 리스트 내포를 사용할 수 있습니다. `if` 문이 포함된 `for` 문의 경우, 리스트 내포의 문법은 다음과 같습니다.

```python
[ 표현식 for 요소 in 리스트 if 조건문 ]
```



[코드 5-10]은 `if` 문이 포함된 `for` 문이며, 이를 리스트 내포로 변환하면 다음과 같습니다.

```python
c = [1, 2, 3, 5]
result = [i for i in c if i % 2 == 1]  # 리스트 내포를 사용한 필터링

result  # 출력: [1, 3, 5]
```


**if-else 문을 포함한 for 문의 리스트 내포**

`if-else` 문이 포함된 `for` 문의 경우, 리스트 내포의 문법은 다음과 같습니다.

```python
[ 표현식1 if 조건 else 표현식2 for 요소 in 리스트 ]
```

리스트 [1, 2, 3, 5]에서 홀수는 10배 한 뒤 리스트에 추가하고, 짝수는 그대로 추가하여 [10, 2, 30, 50]을 반환할 경우, 이를 리스트 내포로 표현하면 다음과 같습니다.

```python
c = [1, 2, 3, 5]
result = [i * 10 if i % 2 == 1 else i for i in c]  # 리스트 내포를 사용한 변환

result  # 출력: [10, 2, 30, 50]
```



> for 문으로 딕셔너리 생성

`for` 문을 사용해 리스트를 생성하는 것과 유사하게, 딕셔너리도 생성할 수 있습니다.

다음 코드는 리스트 `['바나나', '사과', '딸기']`를 순회하여, 리스트의 값을 키로, 인덱스를 밸류로 갖는 `{'바나나': 0, '사과': 1, '딸기': 2}` 딕셔너리를 생성합니다. 이때 인덱스를 사용하기 위해 `enumerate` 객체를 이터러블로 활용합니다.

```python
# 주어진 리스트
d = ['바나나', '사과', '딸기']

# 결과를 담을 빈 딕셔너리 생성
result = {}  

# for 문을 이용하여 딕셔너리 생성
for idx, key in enumerate(d):
    result[key] = idx  # 과일 이름을 키로, 인덱스를 밸류로 저장

result  # 출력: {'바나나': 0, '사과': 1, '딸기': 2}
```

딕셔너리를 생성할 때는 리스트 내포와 유사한 문법의 딕셔너리 내포를 사용하여 코드를 더욱 간결하게 작성할 수 있습니다.

```python
# 주어진 리스트
d = ['바나나', '사과', '딸기']

# 딕셔너리 내포로 딕셔너리 생성
result = {key: idx for idx, key in enumerate(d)}

result  # 출력: {'바나나': 0, '사과': 1, '딸기': 2}
```



> while 문

`while` 문은 조건이 `True`인 동안 코드 블록을 반복 실행하는 제어문입니다. 반복 횟수가 정해져 있지 않을 때 유용하게 사용할 수 있습니다.

**while 문의 기본 구조**
```python
while 조건:
    실행할 코드
```

조건이 `False`가 될 때까지 실행 블록이 반복됩니다.


아래 예제는 `nums` 리스트의 요소를 차례로 더하면서 합이 50을 초과할 때까지 반복하는 `while` 문을 보여줍니다.

```python
nums = [10, 20, 30, 40, 50]  # 주어진 리스트
total = 0  # 합계를 저장할 변수
i = 0  # 리스트의 인덱스를 뜻하는 변수

while total <= 50:  # 합계가 50 이하일 때 반복
    total += nums[i]  # 리스트의 값을 total에 더함
    i += 1  # 다음 인덱스로 이동

print(total)  # 최종 합계 출력: 60
```

실행 과정:

1. `total`이 50 이하인 동안 `nums` 리스트의 원소를 더합니다.

2. `i`를 증가시켜 리스트의 다음 원소를 참조합니다.

3. `total`이 50을 초과하면 반복문이 종료됩니다.

참고로 `+=`는 축약 할당 연산자로, `i += 1`은 `i = i + 1`과 동일한 의미를 가집니다.  **1단원 변수의 심화**에서 소개 되었습니다.

**while-break 문**

`break` 문은 `while` 문에서 즉시 반복을 종료하는 역할을 합니다. 특정 조건이 만족되면 반복을 중단하고, `while` 문을 빠져나올 수 있습니다.

예제: 특정 값을 초과하면 종료하기

아래 코드는 리스트의 요소를 더하다가 변수 `total`이 50을 초과하면 `break` 문을 사용해 반복을 종료합니다.

```python
nums = [10, 20, 30, 40, 50]  # 주어진 리스트
total = 0  # 합계를 저장할 변수
i = 0  # 리스트의 인덱스를 뜻하는 변수

# 무한 루프 실행
while True:
    total += nums[i]  # 현재 인덱스의 값을 합계에 추가
    i += 1  # 인덱스 증가

    # 합계가 50을 초과하면 루프 종료
    if total > 50:
        break

print(total)  # 최종 합계 출력: 60
```

실행 과정:

1. `while True`는 무한 반복을 의미합니다.

2. `total`이 50을 초과하면 `break` 문이 실행되어 반복문이 즉시 종료됩니다.

이처럼 `break` 문을 활용하면 `while` 문을 유연하게 제어할 수 있습니다.


### 특강. 반복문과 벡터화 연산

> 데이터 분석 모듈에서 문제 해결 방법

기본 파이썬에서는 반복문을 활용해 대부분의 문제를 해결하지만, 데이터 분석 모듈에서는 배열 단위로 연산을 수행하는 **벡터화 연산**을 사용합니다.

데이터 분석 모듈인 **판다스 라이브러리**의 해결 방법을 아래의 [코드 5-11]과 코드 [5-12]에서 확인할 수 있습니다.

**🚨 주의 사항**

지금부터 판다스 라이브러리를 실습에 활용할 것입니다. 만약 여러분이 구글 코랩이 아닌 환경에서 실습하는 경우, **먼저 판다스 라이브러리를 사용하려면 설치해야 합니다.** 코랩 이용자가 아닌 경우 설치를 위해 다음 코드를 실행하거나, **8장 모듈**을 학습한 후 실습하는 것을 권장합니다.

```python
# 판다스 라이브러리 설치 (구글 코랩은 이미 판다스가 설치되어 있음)
!pip install pandas
```
**구글 코랩에서 실습하는 경우, 별도의 설치 없이 그대로 실습을 진행할 수 있습니다.**

> 배열 매핑

배열을 매핑하는 `for` 문의 코드 [코드 5-7]

```python
# 코드 5-7. for 문으로 배열 매핑하기
c = [1, 2, 3, 5]
result = []  # 결과를 담을 빈 리스트 result 생성

# 리스트 c의 각 원소를 두 배로 매핑한 result 생성
for i in c:
    result.append(i * 2)  # 각 원소에 2를 곱해 result에 추가

# 변수 result 출력
result  # 출력: [2, 4, 6, 10]

```

데이터 분석 모듈 **판다스**에서 배열 매핑

In [76]:
# 코드 5-11. 판다스로 각 원소를 두 배로 매핑(코드 5-7과 비교)

# 판다스 라이브러리 불러오기
import pandas as pd

# 리스트 c로 시리즈 s 생성
c = [1, 2, 3, 5]
s = pd.Series(c, index=['A', 'B', 'C', 'D'])

# 시리즈 s 출력
print(s)

# 시리즈 s의 각 원소를 두 배로 매핑한 결과 출력(문제 해결 코드)
s * 2

A    1
B    2
C    3
D    5
dtype: int64


Unnamed: 0,0
A,2
B,4
C,6
D,10


> 각 행의 합 도출

다중 변수 `for` 문으로 각 행의 합을 구하는 [코드 5-9]

```python
# 코드 5-9. 다중 변수 for 문
d = [[1, 2], [3, 4], [5, 6]]
result = []  # 결과를 담을 빈 리스트 result 생성

# 2차원 리스트 d에서 각 행의 합을 구해서 1차원 리스트로 변환
for i, j in d:
    result.append(i + j)  # i와 j의 합을 result에 추가

# 변수 result 출력
result  # 출력: [3, 7, 11]
```

데이터 분석 모듈 **판다스**에서 각 행의 합 도출

In [77]:
# 코드 5-12. 판다스로 각 행의 합을 구해서 1차원으로 변환(코드 5-9와 비교)

# 판다스 라이브러리 불러오기
import pandas as pd

# 리스트 d로 데이터 프레임 df 생성
d = [[1, 2], [3, 4], [5, 6]]
df = pd.DataFrame(d, index=['A', 'B', 'C'], columns=['col1', 'col2'])

# 데이터 프레임 df 출력
print(df)

# df에서 각 행의 합을 구해서 1차원으로 변환(문제 해결 코드)
df.sum(axis=1)

   col1  col2
A     1     2
B     3     4
C     5     6


Unnamed: 0,0
A,3
B,7
C,11


[코드 5-11]과 [코드 5-12]에서 마지막 행인 **문제 해결 코드**만 주목합니다. 데이터 분석 모듈인 판다스의 **시리즈**나 **데이터 프레임** 클래스를 사용하면, `s * 2` 코드만으로 [코드 5-7]의 기능을 수행할 수 있으며, `df.sum(axis=1)` 코드만으로 [코드 5-9]의 기능을 수행할 수 있습니다.

이렇게 **배열 단위로 연산을 수행**하는 것이 **벡터화 연산**이며, 데이터 분석 모듈은 벡터화 연산을 통해 연산을 매우 간결하게 처리합니다. 따라서 데이터 분석만 수행하는 경우 반복문의 사용은 제한적입니다.

다만, 다양한 모듈을 사용하는 것이 목표라면 반복문은 여전히 강력한 도구로 활용됩니다.

## Chapter 6. 함수

**함수는 특정 입력값을 받아 처리한 후 결과를 반환하는 독립적인 코드 블록**입니다. 이는 프로그램에서 중복 작업을 최소화하고 구조를 명확하게 만드는 역할을 합니다. 함수를 사용하면 프로그램의 재사용성과 가독성이 향상되며, 코드 중복을 줄여 유지 및 보수가 쉬워집니다.

함수 단원에서 학습할 주요 개념은 다음과 같습니다.

- **함수의 주요 개념**
 - **생성과 호출 (키워드 def)**: 함수를 정의하고 실행
 - **매개변수와 인수**: 함수에 값을 전달하여 코드 수행
 - **기본값**: 매개변수에 별도의 인수가 전달되지 않을 때 사용
 - **lambda 함수**: 간단한 작업을 위한 익명 함수


### 6.1. 함수 기본

데이터 분석 모듈에서 타인이 생성한 함수를 자주 사용하게 되므로, 함수의 기본 개념을 이해하는 것이 중요합니다. 이를 위해 함수 정의와 호출 방법을 학습합니다.

#### 6.1.1. 함수 정의하기

**파이썬에서 함수는 `def` 키워드와 `lambda` 키워드로 정의**할 수 있습니다. `lambda` 함수는 이후에 학습하는 내용이기에, 먼저 `def`로 함수를 정의하는 방법을 알아보겠습니다.

> 함수 정의하기: def 키워드

`def` 키워드를 사용하여 함수를 정의합니다.

- `def` 파트: 함수명과 매개변수(parameter)를 설정하며, 콜론(`:`)으로 끝을 맺습니다.

- do 파트: 함수의 본문으로, 매개변수에 전달된 인수(argument)를 처리하는 코드 블록입니다. 이 부분은 **4칸 들여쓰기**로 작성해야 합니다.

함수는 일반적으로 결과를 반환하도록 설계되며, `return` 키워드를 사용하여 결과를 반환합니다.

<img src=https://i.postimg.cc/Hn4PMn0S/2025-01-11-213751.png, width=600>

[그림 6-1] 함수의 정의(def)

예시) `def` 파트에서 `add_one` 함수를 정의하고 매개변수로 `x`를 지정한 후, do 파트에서 `return x + 1`을 설정하면, 이 함수는 입력된 인수에 1을 더한 결과를 반환합니다.

In [78]:
# 코드 6-1. 함수 정의하기

# 입력값에 1을 더해 반환하는 함수 정의
def add_one(x):
    return x + 1

#### 6.1.2. 함수 호출하기

> 함수 호출하기

**함수를 호출하려면 함수명 뒤에 괄호를 열고 필요한 인수(argument)를 전달합니다.** 인수는 함수의 매개변수(parameter)에 대응하며, 여러 개를 전달할 경우 쉼표로 구분합니다. 함수는 호출되면 지정한 인수를 매개변수에 전달해 do 파트의 코드를 실행하고, `return` 키워드로 지정된 결과를 반환합니다.

<img src=https://i.postimg.cc/kghYKk8d/6-2.png, width=600>

[그림 6-2] 함수의 호출

예를 들어, `add_one(2)`의 코드는 `add_one` 함수를 호출하고 매개변수 `x`에 인수 2를 할당해, 결과로 3을 반환합니다. 또한, `add_one(x=2)`의 코드처럼 매개변수와 인수를 명시적으로 입력할 수도 있습니다. 매개변수와 인수의 개념에 대한 자세한 내용은 다음 단원에서 학습합니다.


In [79]:
# 코드 6-2. 함수 호출하기

# 입력값에 1을 더해 반환하는 함수 정의
def add_one(x):
    return x + 1

# 함수 add_one를 호출하고, 인수로 2를 입력해 결과 출력
add_one(2)  # 출력: 3

3

### 6.2. 매개변수와 인수

**매개변수(parameter)**와 **인수(argument)**의 개념은 함수에서 매우 중요합니다.


#### 6.2.1. 매개변수와 인수

> 매개변수와 인수


**매개변수는 함수의 입력값을 받기 위해 정의된 변수**이고, **인수는 실제로 매개변수에 전달되는 값**입니다. 입문자에게 다소 어려울 수 있지만, 이 개념을 이해하는 것은 함수 활용에 필수적입니다. 이를 쉽게 이해할 수 있도록 수학의 함수 개념과 비교해 설명하겠습니다.

<img src=https://i.postimg.cc/CM2L5Db1/6-3.png, width=600>

[그림 6-3] 매개변수와 인수

수학에서 함수 `f`가 정의되어 있습니다.

```
f(x, y) = 2x + y
```

이 함수에서 `f(2, 1)`을 계산할 때, `x`에 2를, `y`에 1을 대입하여 5라는 결과를 얻습니다. 여기서 `x`와 `y`는 입력값을 받기 위해 정의된 변수로, 이를 **매개변수**라고 합니다. 반면, `f(2, 1)`에서 2와 1은 각각 매개변수 `x`와 `y`에 전달되는 값이며, 이를 **인수**라고 합니다.

#### 6.2.2. 인수 전달 방식

> 인수 전달 방식

수학에서는 보통 매개변수를 생략하고 인수만 입력하여 `f(2, 1)`과 같이 표기합니다. 하지만 코딩에서는 `f(x=2, y=1)`처럼 매개변수와 인수를 함께 명시하는 경우가 많습니다. 이렇게 하면 함수 호출 시 매개변수의 순서를 정확히 따르지 않아도 되는 장점이 있습니다. 예를 들어, `f(y=1, x=2)`와 같이 순서를 바꿔서도 표현할 수 있습니다.

```
# f(x, y) = 2x + y일 때 x에 2, y에 1을 전달

f(2, 1) # x=2, y=1 (O)
f(x=2, y=1) # x=2, y=1 (O)
f(y=1, x=2) # x=2, y=1 (O)
f(1, 2) # x=1, y=2 이므로 (X)
```

`f(2, 1)`의 코드처럼 매개변수 없이 인수만 전달하는 것을 **위치 기반 인수(positional argument)**라고 하며, `f(x=2, y=1)`의 코드처럼 매개변수 이름과 함께 인수를 전달하는 것을 **키워드 기반 인수(keyword argument)**라고 합니다.

- **위치 기반 인수**: 순서에 따라 매개변수에 인수 전달. 예) `f(2, 1)`

- **키워드 기반 인수**: 매개변수를 지정해 인수 전달. 예) `f(x=2, y=1)`

In [80]:
# 코드 6-3. 키워드 기반 인수 전달

# 2x + y를 계산하는 함수 f 정의
def f(x, y):
    return (2 * x) + y

# 매개변수를 명시하여 x에 2, y에 1을 전달
f(x=2, y=1)  # 출력: 5

5

**키워드 기반 인수 전달은 생각보다 큰 장점입니다.** [코드 6-3]의 함수 `f`는 매개변수가 `x`와 `y` 두 개뿐이라 인수만 입력해도 큰 문제가 없지만, 파이썬에는 매개변수가 30개나 되는 함수들도 있습니다. 이렇게 매개변수가 많을 경우, 모든 인수를 매개변수 순서에 맞춰 일일이 입력하기는 어렵습니다. 하지만 파이썬에서는 필요한 일부만을 **매개변수=인수** 방식으로 전달할 수 있어 더욱 편리하게 함수를 호출할 수 있습니다.

```
# 함수 f(w, x, y, z)가 있을 때
f(3, 0, 1, 0) # 인수만 전달하면, 모든 인수를 순서에 맞게 입력
f(y=1, w=3) # y는 1, w는 3을 전달하고 나머지는 기본값을 전달
```

다만 인수를 입력하지 않은 매개변수에도 인수는 전달되어야 합니다. 이를 위해 함수를 정의할 때 인수를 입력하지 않아도 매개변수에 전달될 **기본값(default)**을 설정해 둘 수 있습니다. 기본값 설정에 대해서는 다음 장에서 더 자세히 학습할 예정입니다.

### 6.3. 기본값

**기본값(default)은 함수 생성 시 매개변수에 설정된 값으로, 매개변수에 별도의 인수가 전달되지 않을 때 사용됩니다.** 이 기능을 활용하면 필요한 매개변수에만 인수를 전달하고, 나머지에는 기본값을 적용하여 유연하게 함수 호출이 가능합니다.

#### 6.3.1. 기본값

> 기본값

기본값은 매개변수에 별도의 인수가 전달되지 않을 때 사용되는 값으로, **함수를 정의할 때 매개변수에 `=` 연산자를 사용해 지정합니다.** 이렇게 설정된 기본값은 함수 호출 시 해당 매개변수에 인수를 제공하지 않아도 자동으로 적용됩니다.


In [81]:
# 코드 6-4. 기본값

# 기본값: x=0, y=1, z=2를 가지는 함수 f 정의
def f(x=0, y=1, z=2):
    return x + (2 * y) + (3 * z)

# 함수 f를 호출하고 매개변수 y에만 인수 3을 전달하고 출력
f(y=3)  # 출력: 12 (x=0, y=3, z=2)

12

#### 6.3.2. 다양한 인수 전달 방식

> 다양한 인수 전달 방식

**함수를 호출할 때 위치 기반, 키워드 기반, 기본값을 혼용하여 인수를 전달할 수 있습니다.**

In [82]:
# 코드 6-5. 기본값을 활용한 다양한 함수 호출 방식

# 기본값: x=0, y=1, z=2를 가지는 함수 f 정의
def f(x=0, y=1, z=2):
    return x + (2 * y) + (3 * z)

# 다양한 함수 호출 방식 확인
print(f(1, 2, 3))  # 위치 기반 인수, 출력: 14

print(f(y=3, x=1, z=2))  # 키워드 기반 인수, 출력: 13

print(f(1, z=2, y=3))  # x는 위치 기반, y와 z는 키워드 기반, 출력: 13

print(f(y=3))  # y는 키워드 기반, x와 z는 기본값 사용, 출력: 12

print(f(2))  # x는 위치 기반, y와 z는 기본값 사용, 출력: 10

14
13
13
12
10


다만, 인수만으로 함수를 호출하면 코드가 간결해질 수 있지만, 각 인수의 역할이 명확하지 않아 코드의 의미가 모호해질 수 있습니다. 특히, 매개변수가 많은 함수는 매개변수를 함께 명시하여 호출하는 것이 대체로 더 적합합니다.

#### 6.3.3. 기본값 동적 할당

> 기본값 동적 할당

[코드 6-5]의 함수 `f`는 기본값으로 `x=0`, `y=1`, `z=2`와 같은 단일 값을 사용했습니다. 그러나 파이썬에서는 **기본값으로 None을 지정한 뒤, 함수 내부에서 조건문을 통해 필요한 기본값을 설정해** 더욱 유연하게 함수를 활용할 수 있습니다. 이를 통해 함수 호출 시 매개변수에 값이 전달되지 않은 경우에도 **동적으로 기본값을 처리**할 수 있습니다.

In [83]:
# 코드 6-6. 기본값 동적 할당

# 주문을 텍스트로 출력하는 함수 create_order 정의
def create_order(n, menu='백반', q=None):
    # 주문 수량 q가 지정되지 않으면 n으로 설정
    if q is None:
        q = n
    return menu + str(q)

# create_order 함수 사용 예시
print(create_order(3))  # 출력: '백반3'
print(create_order(2, '비빔밥'))  # 출력: '비빔밥2'
print(create_order(3, '김치찌개', 4))  # 출력: '김치찌개4'

백반3
비빔밥2
김치찌개4


정의된 `create_order` 함수는 식사 주문을 생성하는 함수로, 인원수 `n`, 주문할 메뉴 `menu`, 주문 수량 `q`를 매개변수로 받습니다. 매개변수 `n`에는 기본값이 없으며, 매개변수 `menu`는 기본값으로 '백반'이 설정되어 있고, 매개변수 `q`는 기본값으로 `None`이 설정되어 있습니다. 그리고 **함수 내부에서 `q`가 `None`일 경우 `q`에 `n`의 값이 할당**됩니다. 이를 통해 매개변수 `q`의 기본값에 입력된 인원수(`n`)가 동적으로 할당됩니다.

**기본값이 `None`인 경우는 종종 함수 내에서 동적으로 값을 할당하기 위한 의도로 사용됩니다.** 그러나 모든 경우에 `None`이 동적 할당을 의미하는 것은 아니며, 실제로 `None` 자체가 전달될 의도로 사용되기도 합니다. 따라서 각 함수의 동작을 정확히 이해하기 위해 해당 **함수의 공식 문서를 참고**하는 것이 중요합니다.

### 6.4. lambda 함수

`lambda` 함수는 `def` 키워드 외에 파이썬에서 함수를 정의할 수 있는 또 다른 방법입니다.

#### 6.4.1. lambda 함수 정의하기

> lambda 함수

**`lambda` 함수는 파이썬에서 함수를 정의하는 또 다른 방법입니다.** 일반적인 `def`로 정의한 함수와 동일한 기능을 제공하지만, 코드가 간결하고 함수명을 지정하지 않아도 되며, 줄 바꿈 없이 작성할 수 있어 특정 상황(함수의 인수로 다시 함수가 전달되는 상황)에서 효율적으로 사용할 수 있다는 장점이 있습니다.

<img src=https://i.postimg.cc/Nfpzx7f8/6-4-lambda.png, width=600>

[그림 6-4] lambda 함수

`lambda` 함수는 매개변수와 `return`에 입력될 반환 값만으로 구성되며, 함수명을 설정하지 않습니다.



In [84]:
# 코드 6-7. lambda 함수 정의
# 입력값에 1을 더하는 add_one 함수 정의
def add_one(x):
    return x + 1

# 입력값에 1을 더하는 lambda 함수 정의
lambda x: x + 1

<function __main__.<lambda>(x)>

#### 6.4.2. lambda 함수 활용하기
> lambda 함수에 인수 전달

`lambda` 함수도 인수를 전달받을 수 있습니다.

In [85]:
# 코드 6-8. lambda 함수에 인수 전달

# 입력값에 1을 더하는 lambda 함수를 정의하고 인수 2를 전달
(lambda x: x + 1)(2)  # 결과: 3

3

**그러나 `lambda` 함수는 직접 인수를 전달하는 용도로 사용하지는 않습니다.** 인수를 전달하는 목적이라면 `def`를 사용하여 함수를 정의하고, 함수명을 통해 호출하는 방식이 더 편리하며 가독성도 높기 때문입니다.

> lambda 함수를 사용하는 이유

**`lambda` 함수는 주로 다른 함수의 인수로 전달될 때 사용됩니다.** 한 줄로 간단히 정의할 수 있어 한 번만 사용할 간단한 함수를 즉석에서 정의하기에 적합합니다. 특히, 데이터 분석 모듈에서는 함수를 인수로 입력받는 다양한 함수가 많아 이럴 때 `lambda` 함수가 유용합니다.

#### 심화

**👌 참고 사항**

우리의 목표는 데이터 분석 입문을 위한 기본적인 파이썬 내용을 빠르고 효율적으로 학습하는 것이므로, **심화 내용은 지금 학습하지 않으셔도 괜찮습니다.** 이 내용은 더 깊이 학습하고자 하는 분들을 위해 참고용으로 제공된 것이며, 데이터 분석에 입문한 이후 학습하셔도 무방합니다.

> map 함수


`map` 함수는 반복 가능한(iterable) 자료형의 요소를 지정된 함수에 적용하여 새로운 결과를 반환하는 함수입니다. 주로 리스트나 튜플의 각 요소에 동일한 연산을 수행할 때 사용됩니다.

**map 함수의 기본 사용법**

```python
map(함수, 이터러블)
```

- **함수**: 리스트 또는 튜플 등 이터러블의 각 원소에 적용할 함수
- **이터러블**: 리스트, 튜플 등 반복 가능한 자료형


다음 코드로 `map` 함수를 사용해 **반복문 없이** 리스트의 모든 원소를 실수로 변환합니다. 정수인 리스트 [1, 2, 3, 5]를 실수인 리스트 [1.0, 2.0, 3.0, 5.0]으로 변환합니다.

```python
# 주어진 리스트
a = [1, 2, 3, 5]

# 리스트의 모든 원소에 각각 float 함수를 적용해 변환
result = map(float, a)

# map 객체를 리스트로 변환하고 출력
print(list(result))  # 출력: [1.0, 2.0, 3.0, 5.0]
```

결과는 `map` 객체를 반환하는데, 리스트나 튜플로 변환하면 육안으로 확인할 수 있습니다.


**map 함수에 lambda 함수 입력하기**

`map` 함수는 기본 파이썬에서 드물게 **다른 함수를 인수로 입력받는 함수**입니다.(모듈에는 다른 함수를 인수로 입력받는 함수가 다양하지만, 기본 파이썬에는 드뭅니다.) 따라서 `lambda` 함수의 용법을 확인하기에 좋은 함수입니다.

**`map` 함수에 사용자 정의 함수를 입력할 때 `lambda` 함수를 정의하여 `map` 함수에 입력**합니다. 아래 코드에서는 사용자 정의 함수를 `lambda`로 정의하여, 반복문을 사용하지 않고 각 원소를 2배로 매핑하는 결과를 얻을 수 있습니다.

```python
# 주어진 리스트
a = [1, 2, 3, 5]

# 리스트의 모든 원소에 각각 lambda 함수를 적용해 변환
result = map(lambda x: x * 2, a)  # 2를 곱한 값을 반환하는 사용자 정의 함수

# map 객체를 리스트로 변환하고 출력
print(list(result))  # 출력: [2, 4, 6, 10]
```

이처럼 다른 함수의 인수로 사용자 정의 함수를 입력할 때는 `lambda` 함수가 `def`보다 편리합니다.

### 특강. 함수 중심 모듈의 학습법

> 함수의 기본 개념이 중요한 이유

**데이터 분석 모듈**은 제어문 중심인 기본 파이썬과 달리 **함수 중심으로 문제를 해결**합니다. 다양한 기능을 함수로 제공하며, 이를 활용하면 코드를 더 직관적이고 간결하며 맞춤형으로 작성할 수 있습니다.

**함수 중심 모듈의 장점과 학습 방법**

- 함수 중심의 모듈은 코드를 효율적으로 작성할 수 있는 장점이 있습니다. 하지만 다양한 함수를 알아야 한다는 부담이 있을 수도 있습니다.

- 그러나 모든 함수를 암기할 필요는 없습니다. 중요한 것은 함수를 찾고 활용하는 방법을 익히는 것입니다.

📎 예를 들어, 엑셀의 VLOOKUP 기능을 데이터 분석 모듈 판다스를 사용해 구현하려는 상황이라면, 다음과 같은 순서로 필요한 함수를 찾아 사용합니다.

1. 검색이나 ChatGPT를 활용하여 적절한 함수 찾기

 → 예: "판다스 VLOOKUP 기능"과 같은 검색어 사용

2. 1의 답으로 `merge` 함수로 해당 기능이 구현 가능하다는 사실 확인

3. 함수의 공식 문서 또는 ChatGPT의 공식 문서 한글 요약을 읽고 이해한 후 사용

---

**공식 문서 요약 예시**

<img src=https://i.postimg.cc/NjWpnrsX/6-5-merge.png, width=600>

• 판다스 `merge`

데이터 베이스의 조인을 수행하는 함수. 주로 엑셀의 vlookup 방식의 병합을 수행한다.

```python
df.merge(right, how='inner', on=None)
```
- right: 병합할 객체를 지정한다.

- how: 병합 방식을 지정한다. 'left'가 vlookup 방식이다.

- on: 병합의 기준이 되는 열을 지정한다. 기본값은 양측에 공통으로 존재하는 열 이름을 기준으로 병합한다.

---

**공식 문서의 요약을 읽고 함수를 사용하기 위해서는 함수의 기본 개념이 필수입니다.** 여러분은 지금도 위 설명을 읽고 `merge` 함수의 매개변수가 `right`, `how`, `on`이며, `how`의 기본값이 'inner'인 것과 `on`의 기본값은 `None`이고 동적으로 할당된다는 기본적인 내용은 확인할 수 있습니다.

<br>

판다스 `merge` 함수의 공식 문서는 추후 판다스를 학습하고 읽으면 됩니다. 중요한 점은 코딩은 암기가 아니고 함수 역시 암기가 아니라는 점이며, **학습 후에는 공식 문서 등의 함수 설명서를 읽고 함수를 사용한다**는 점입니다. 함수의 설명서를 읽을 수 있어야 함수 중심 모듈에 적응할 수 있으며, 이를 위해 **함수의 기본 개념이 필수적입니다.**



## Chapter 7. 클래스

**클래스는 데이터(속성)와 기능(메서드)를 하나의 구조로 묶어 관리할 수 있도록 해주는 개념**입니다. 이를 통해 코드를 더욱 직관적이고 체계적으로 구성할 수 있으며, 재사용과 유지 및 보수가 용이합니다.

파이썬은 객체 지향 프로그래밍(OOP)을 지원하는 언어이며, 클래스는 객체 지향 프로그래밍의 핵심 개념 중 하나입니다. 다만, **데이터 분석 모듈에서는 여러분이 직접 클래스를 설계할 일이 드뭅니다.** 대부분 모듈에서 정의된 클래스를 사용하게 됩니다. 따라서 직접 클래스를 생성하는 방법을 숙달되는 것보다, **모듈의 클래스를 효과적으로 활용할 수 있도록 클래스의 개념을 이해하는 것이 중요**합니다.

### 7.1. 클래스 개념

데이터 분석 모듈에서는 다양한 클래스를 제공하며, 데이터 분석 모듈을 학습하기 위해 이번 단원에서는 **클래스, 객체, 인스턴스, 속성, 메서드의 용어 정리**가 필요합니다.

#### 7.1.1. 클래스와 객체

- **클래스**: 사용자 정의 자료형을 생성하는 틀

- **객체**: 해당 틀을 기반으로 생성된 개별적인 존재

> 클래스의 코드 예시

학생의 점수와 이름을 저장하는 사용자 정의 자료형 `StuRecord` 클래스를 정의하는 코드입니다.

```python
class StuRecord:
    def __init__(self, correct, name):
        self.score = correct * 10
        self.name = name

    def cheat(self):  
        self.score = 0  
```
클래스는 `class` 키워드를 사용하여 정의하며, **클래스명**은 `StuRecord`처럼 **카멜 표기법**을 따르는 것이 권장됩니다. **클래스 내부에서는 def 키워드를 사용하여 여러 함수를 정의**할 수 있으며, 이러한 함수들을 **메서드**라고 합니다.

클래스를 활용하면 데이터를 일정한 구조로 규격화하여 저장하고 관리할 수 있습니다.

> 객체 생성

**정의된 클래스를 클래스명으로 호출하고 필요한 인수를 전달하면 객체가 생성**됩니다.

```python
StuRecord(correct=6, name='김판다')
```

> 클래스와 객체 비유

클래스와 객체를 일상적인 개념으로 비유하면, 클래스는 데이터를 일정한 형식으로 저장하기 위한 틀이며, 객체는 그 틀을 이용해 만들어진 실제 데이터입니다.

예를 들어, 오피스 프로그램을 클래스로 생각할 수 있습니다. **엑셀, 워드와 같은 프로그램**은 각각 하나의 **클래스**에 해당합니다. **엑셀 파일, 워드 파일**은 해당 프로그램(클래스)으로 생성된 **객체**입니다. 즉, 엑셀 프로그램(클래스)에서 생성된 엑셀 파일은 엑셀 클래스의 객체이며, 워드 프로그램(클래스)에서 생성된 워드 파일은 워드 클래스의 객체입니다. 이처럼 클래스를 오피스 프로그램, 객체를 해당 오피스 프로그램으로 만든 파일이라고 생각하면 개념을 쉽게 이해할 수 있습니다.

<img src=https://i.postimg.cc/76sPxkQ3/7-1.jpg, width=600>

[그림 7-1] 클래스와 객체 비유

#### 7.1.2. 클래스와 객체 용어 정리

- **클래스**: 코드로 정의되어 사용자 정의 자료형을 생성하는 틀

- **객체**: 해당 틀을 기반으로 생성된 개별적인 존재

클래스와 객체의 개념은 위와 같지만, 프로그래밍 언어에서는 항상 엄격하게 구분되지 않습니다. 마치 엑셀 파일을 보낼 때 **"엑셀로 보내 드립니다."**라고 말하는 것처럼, 실무에서는 특정 클래스로 생성된 객체들을 통칭하여 그 클래스명으로 부르는 경우가 많습니다.

이러한 용어의 혼용은 입문자에게 혼동을 줄 수 있습니다. 따라서, 입문자가 쉽게 구분할 수 있도록 용어를 다음과 같이 치환할 수 있습니다.

> 클래스 용어 치환

**클래스의 첫 번째 의미**

클래스를 **코드로 정의한 틀**의 의미로 사용할 때는 마치 **함수처럼 클래스명을 호출하고, 매개변수에 인수를 전달**합니다.

```python
StuRecord(correct=6, name='김판다')
```

그래서 정의된 **틀의 의미로 사용할 때는 함수로 치환**해서 생각해도 됩니다. 이는 엄밀히 함수는 아니지만, 사용자에게 구분 실익이 없으며 보다 이해가 잘 될 것입니다.

따라서 **클래스를 정의된 틀이라는 의미로 사용**할 때, **함수**라고 생각해도 무방합니다. 클래스 자체는 엄밀히 함수가 아니지만, 객체를 생성할 때 호출하는 방식이 함수와 유사하기 때문에 사용자가 구분할 실익이 크지 않습니다. 이렇게 접근하면 클래스를 보다 직관적으로 이해할 수 있습니다. 이것이 클래스의 첫 번째 의미입니다.

📎 예시
```

DataFrame 클래스를 호출한다.

→ DataFrame 함수를 호출한다.
```
---

**클래스의 두 번째 의미**

또한 **클래스로 생성한 객체의 통칭**도 클래스라고 지칭합니다. 이는 마치 엑셀 파일을 보낼 때 "엑셀로 보내 드립니다."라고 말하는 것과 같습니다. 클래스의 두 번째 의미입니다. **객체의 통칭을 클래스로 지칭할 때는 자료형으로 치환**하면 직관적으로 이해할 수 있습니다.

📎 예시

```

판다스는 데이터 프레임 클래스를 사용한다.

→ 판다스는 데이터 프레임 자료형을 사용한다.

```

---

**두가지 클래스의 의미가 모두 포함된 문장**

아래의 예시 문장은 **두 가지 의미의 클래스**가 모두 사용되었습니다.


📎 예시

```

DataFrame **클래스**로 데이터 프레임 **클래스**를 생성한다.

→ DataFrame **함수**로 데이터 프레임 **자료형**을 생성한다.

```

일반적으로 `DataFrame`처럼 **카멜 표기법으로 표기된 클래스명이 등장할 때는 틀을 의미**하며, 이를 **함수로 치환**해 생각할 수 있습니다.

반면, 일반적인 문맥에서 "클래스"라는 단어가 사용될 때는 **특정 클래스로 생성된 객체의 통칭을 의미하는 경우가 많으며, 이때는 자료형으로 치환하는 것이 적절**합니다. 이렇게 읽으면 내용을 보다 직관적으로 이해할 수 있습니다.


> 객체 용어 치환

객체는 사용자 정의 자료형으로 생성된 개별 존재이기에, **객체**를 **"자료형인 대상"**으로 치환하면 문장이 보다 자연스럽고 명확하게 읽힙니다.

📎 예시
```
리스트 객체에 len 함수를 적용하면 원소의 개수를 반환한다.

→ 리스트 자료형인 대상에 len 함수를 적용하면 원소의 개수를 반환한다.
```

> 자료형과 클래스의 관계

클래스(객체의 통칭을 의미할 때)는 사용자가 정의한 자료형을 의미합니다. 엄밀히 살펴보면 파이썬이 미리 정의하여 제공하는 일부 클래스를 **자료형(기본 자료형)**이라고 부르는 것입니다. 예를 들어, `int`, `list`, `dict` 같은 기본 자료형도 사실상 클래스이며, 사용자가 `class` 키워드를 사용해 정의하는 클래스와 본질적으로 같은 개념입니다.

[코드 7-1]로 리스트의 자료형을 확인하면 `<class 'list'>`를 반환합니다. 즉 자료형이 클래스라는 의미입니다.

In [86]:
# 코드 7-1. 자료형과 클래스의 관계
# 리스트 생성
a = [1, 2]

# type 함수로 변수 a의 자료형 출력
print(type(a))  # 출력: <class 'list'>

<class 'list'>


> 클래스와 객체의 용어 치환 정리

클래스와 객체의 용어 치환을 정리하면 다음과 같습니다.

**클래스**

1. 코드로 정의되어 사용자 정의 자료형을 생성하는 틀 (주로 카멜 표기법, 예: `DataFrame`) → **함수**로 치환 가능
2. 1의 틀로 생성된 객체의 통칭 → **자료형**으로 치환 가능

**객체**

해당 틀을 기반으로 생성된 개별적인 존재 → **자료형인 대상**으로 치환 가능

#### 7.1.3. 인스턴스, 메서드, 속성

> 인스턴스

객체가 추상적인 개념이라면, **인스턴스**는 **메모리에서 생성된 구체적인 객체**를 의미하는 실질적 개념입니다. 다만, 인스턴스와 객체를 엄격하게 구분할 필요는 없습니다. 따라서, **인스턴스를 객체로 치환하여 이해해도 무방합니다.** 즉, 모든 인스턴스는 객체이므로, 일반적인 문맥에서는 객체라는 용어만 사용해도 충분합니다.



> 메서드와 속성

메서드(method)와 속성(attribute)은 클래스를 정의할 때 함께 정의되는 요소입니다.

- **메서드**: **클래스 내부에서 def 키워드를 사용하여 정의된 함수**를 의미합니다. 객체의 동작을 정의합니다.
- **속성**: **클래스 내부에서 정의된 변수로, 객체가 가지는 데이터를 저장**합니다.

예를 들어, 다음 코드에서 `__init__`와 `cheat` 는 메서드, `self.score`와 `self.name`은 속성입니다.

```python
class StuRecord:
    def __init__(self, correct, name):
        self.score = correct * 10
        self.name = name

    def cheat(self):  
        self.score = 0  
```

메서드는 객체 뒤에 붙여 사용하며 객체에 종속되는 함수이므로, 함수로 치환해도 됩니다.
속성은 객체 뒤에 붙여 사용하며 객체에 종속되는 변수이므로, 변수로 치환해도 됩니다.

**메서드의 예시**

메서드를 정의하는 것은 처음 접하는 내용이지만, 메서드의 활용은 지금까지 여러 번 소개되었습니다. 예를 들어, `replace` 메서드는 문자열 클래스(`str`)에 종속된 메서드이며, 문자열의 특정 부분을 다른 문자열로 치환하는 역할을 합니다.

```python
a = '코카콜라'
a.replace('코카', '펩시')  # 출력: '펩시콜라'
```
메서드는 객체에 종속되는 함수이기에 객체 뒤에 붙여 사용합니다.

**속성의 예시**

속성은 기본 파이썬에서는 거의 사용되지 않는 개념입니다. 그러나 모듈, 특히 데이터 분석 모듈에서는 속성이 자주 활용됩니다. 따라서, 데이터 분석을 다루면서 다양한 속성을 접하며 이해하는 것도 좋은 접근 방법입니다.


> 인스턴스, 메서드, 속성 용어 치환 정리

**인스턴스**

메모리에서 생성된 구체적인 객체 → **객체**로 치환 가능

**메서드**

객체에 종속되며, 클래스 내부에서 정의된 함수 → **함수**로 치환 가능

**속성**

객체에 종속되며, 클래스 내부에서 정의된 변수 → **변수**로 치환 가능

### 7.2. 클래스 실습

지금부터 클래스, 객체, 속성, 메서드의 생성과 활용을 실습합니다. 실제 데이터 분석 모듈에서 직접 클래스를 생성할 일은 없으며, 데이터 분석 모듈 입문자에게 가장 중요한 것은 클래스의 개념을 받아들이는 것입니다.

따라서, 클래스 **실습의 목적도 개념을 이해하는 것**임을 잊지 말아야 하며, 실습이 어렵다면 추후 데이터 분석 모듈에 입문한 후 다시 돌아와 학습하는 것도 좋은 방법입니다. **7.2 클래스 실습 단원의 전체 내용이 심화 과정**이므로 **데이터 분석 모듈 입문 만이 목적이라면 필수가 아닙니다.**

#### 7.2.1. 클래스 정의

> 클래스 정의

**`class` 키워드를 사용하여 클래스를 정의하며, 클래스명은 카멜 표기법을 따르는 것이 일반적**입니다.

```python
class 클래스명:
```

In [87]:
# 코드 7-2. StuRecord 클래스 정의
class StuRecord:  # 빈 클래스 정의
    pass

`StuRecord` 클래스는 학생의 성적을 저장하는 목적의 클래스입니다. [코드 7-2]로 `StuRecord` 클래스를 정의할 수 있지만, 데이터를 저장하거나 사용할 수 있는 기능이 전혀 없습니다. 이를 해결하기 위해 **생성자 메서드**(`__init__` 메서드)가 필요합니다.

#### 7.2.2. 생성자 메서드

> 생성자 메서드

클래스는 데이터를 저장하고 효율적으로 관리하는 것이 목적이므로, 객체를 만들 때 초기 데이터를 입력받아 저장할 수 있어야 합니다. 그러나 [코드 7-2]의 `StuRecord` 클래스는 데이터를 입력받을 수 없기 때문에 본래 클래스의 취지에 어긋납니다.

**생성자 메서드(`__init__` 메서드)**를 정의하면 객체가 생성될 때 자동으로 실행되며, 초기 데이터를 설정하는 역할을 합니다.

> 생성자 메서드 정의

생성자 메서드 역시 메서드의 일종이므로 클래스 내부에서 `def` 키워드를 사용하여 정의합니다. **생성자 메서드는 클래스가 입력받을 데이터를 매개변수로 지정**합니다.

다만, **모든 메서드는 객체가 첫 번째 인수로 자동 전달되므로, 첫 번째 매개변수로 항상 `self`를 설정해야 합니다.** `self`는 생성된 객체를 의미합니다.

아래의 [코드 7-3]은 객체를 생성할 때 클래스를 호출한 뒤 매개변수 `correct`와 `name`으로 데이터 전달받는 코드입니다. 매개변수 `correct`는 정답인 문제의 개수를 의미하고(전체가 10 문제인 시험), 매개변수 `name`은 학생의 이름입니다.

In [88]:
# 코드 7-3. StuRecord 클래스에 생성자 메서드 정의

# StuRecord 클래스 정의
class StuRecord:
    # 생성자 메서드 정의
    def __init__(self, correct, name):  # 매개변수 correct와 name에 인수 전달
        pass  # 현재는 아무 작업도 하지 않음

참고로, `__init__`처럼 특정한 기능을 수행하도록 정해진 메서드를 **특수 메서드**라고 하며, 이러한 메서드는 앞뒤를 \_\_(언더스코어 두 개)로 감싸서 정의됩니다.

> 객체 생성

[코드 7-3]의 `StuRecord` 클래스를 사용하여 객체를 생성할 때, 클래스를 호출하면서 매개변수 `correct`와 `name`에 데이터를 전달합니다.  김판다 학생은 6 문제에서 정답을 맞혔습니다.

In [89]:
# 코드 7-4. 코드 7-3의 StuRecord 클래스로 객체 생성
StuRecord(correct=6, name='김판다')

<__main__.StuRecord at 0x7e1610dd4090>

다만, 생성된 객체는 `<__main__.StuRecord at 0x7f5305b982d0>`와 같은 형태로 출력됩니다.

이 출력 값은 현재 실행 중인 파일(`__main__`)에서 정의된 `StuRecord` 클래스의 객체임을 나타내며, `0x7f5305b982d0`은 해당 객체가 저장된 메모리 주소를 의미합니다. 파이썬의 내장 클래스인 `zip`, `enumerate`, `map` 등도 동일한 방식으로 출력됩니다.

⭐
이는 객체의 출력 형식을 지정하는 `__repr__` 메서드를 정의하지 않았기 때문입니다.
추후 `__repr__` 메서드를 살펴보면서 출력 형식을 직접 지정하는 방법을 학습합니다.

#### 7.2.3. 속성

> 속성

**속성은 데이터를 저장하기 위해 클래스 내부에서 정의된 변수**입니다. 생성자 메서드에서 매개변수로 데이터를 전달받을 수 있지만, 이를 **속성으로 할당하지 않으면 객체 내부에 저장되지 않으므로 사용할 수 없습니다.** 따라서, 생성자 메서드 내부에서 속성을 할당해야 합니다.



> 속성의 할당

**속성은 객체에 종속된 변수이므로, 반드시 생성자 메서드 내부에서 `self.`을 붙여 정의해야 합니다.** 변수명은 자유롭게 지정할 수 있으나 일반적으로 생성자 메서드의 매개변수 이름과 동일한 변수명으로 속성을 설정합니다.

따라서, 속성을 할당하는 일반적인 방법은 다음과 같습니다.

```
self.속성명 = 값
```

[코드 7-5]는 생성자 메서드에서 속성을 할당합니다. 학생의 이름을 name 속성에 할당하고, 학생의 점수를 score 속성에 할당합니다. 전체가 10문제이므로, 정답인 문제의 개수에 10을 곱하면 점수가 됩니다.

In [90]:
# 코드 7-5. StuRecord 클래스에 생성자 메서드 정의하고 속성을 할당

# StuRecord 클래스 정의
class StuRecord:
    # 생성자 메서드 정의
    def __init__(self, correct, name):  # 매개변수 correct와 name에 인수 전달
        # 매개변수 name에 전달된 인수를 name 속성에 할당
        self.name = name
        # 매개변수 correct에 전달된 인수 * 10을 score 속성에 할당
        self.score = correct * 10

> 속성 참조

속성을 참조하려면 먼저 객체를 생성해야 합니다. [코드 7-5]에서 정의한 `StuRecord` 클래스로 객체 생성하고, 생성한 객체를 변수 `stu1`에 할당합니다. 김판다 학생은 6 문제에서 정답을 맞혔습니다.


In [91]:
# 코드 7-6. 코드 7-5의 StuRecord 클래스로 객체를 생성하고 변수 stu1에 할당
stu1 = StuRecord(correct=6, name='김판다')

생성된 객체의 속성에 저장된 데이터는 **객체에 점(.) 연산자를 사용한 후 속성명을 입력하여 참조**할 수 있습니다. 예를 들어, [코드 7-6]에서 변수 `stu1`에서 `self.score`에 저장된 속성을 참조하려면 `stu1.score` 코드를 사용합니다.

In [92]:
# 코드 7-7. 코드 7-6의 객체 stu1의 속성 참조

# 변수 stu1의 score 속성 참조
print(stu1.score)  # 출력: 60

# 변수 stu1의 name 속성 참조
print(stu1.name)  # 출력: 김판다

60
김판다


> 속성 변경

**속성은 변수이기에 값을 다시 할당하여 변경**할 수 있습니다. 예를 들어, `stu1.name`에 저장된 데이터를  '홍길동'으로 변경할 수 있습니다.

In [93]:
# 코드 7-8. 코드 7-6의 객체 stu1의 name 속성 변경

# 변수 stu1의 name 속성 참조
print(stu1.name)  # 출력: 김판다

# 변수 stu1의 name 속성을 '홍길동'으로 변경
stu1.name = '홍길동'

# 변수 stu1에서 변경된 name 속성 참조
print(stu1.name)  # 출력: 홍길동

김판다
홍길동


#### 7.2.4. 객체 표현 메서드

> 객체 표현 메서드

현재 생성된 객체는 `<__main__.MyFile at 0x7f5305b982d0>`와 같은 형태로 출력됩니다. **객체의 출력 형식을 지정하려면 객체 표현 메서드 `__repr__`을 정의해야 합니다.**
입력된 데이터를 객체 출력에서도 확인할 수 있도록, 속성을 활용하여 `__repr__`을 구현합니다.

In [94]:
# 코드 7-9. __repr__ 메서드로 객체의 출력 형식 지정

class StuRecord:  # StuRecord 클래스 정의
    def __init__(self, correct, name):  # 생성자 메서드 정의
        self.name = name  # name 속성 할당
        self.score = correct * 10  # score 속성 할당

    def __repr__(self):  # 객체 표현 메서드 정의
        # 객체 출력 형식 지정
        return f"StuRecord(score={self.score}, name='{self.name}')"

# StuRecord 객체 생성하고 변수 stu1으로 지정
stu1 = StuRecord(correct=6, name='김판다')

# 변수 stu1 출력
print(stu1)  # 출력: StuRecord(score=60, name='김판다')

StuRecord(score=60, name='김판다')


객체 표현 메서드를 정의하면 입력된 데이터를 확인하도록 출력을 지정할 수 있습니다.

⭐ [코드 7-9]의 객체 표현 메서드에서 `return f"StuRecord(score={self.score}, name='{self.name}')"`으로 표현된 코드는 **f-string** 기법을 사용하여 속성에 할당된 데이터가 포함된 문자열을 동적으로 생성해 반환하는 코드입니다. 이 기법을 활용하면, 객체의 `score` 속성과 `name` 속성에 저장된 데이터를 직접 문자열에 삽입하여 출력할 수 있습니다. **f-string** 기법에 대한 자세한 내용은 **2.3 문자열 단원의 심화** 내용에서 소개되었습니다.

#### 7.2.5. 메서드

**메서드는 클래스 내부에서 `def` 키워드를 사용하여 정의된 함수**입니다. 이제까지 클래스 내부에서 `def`로 정의한 생성자 메서드와 객체 표현 메서드는 모두 메서드입니다.

**메서드를 정의할 때 주의할 점은 매개변수를 설정할 때, 첫 번째 매개변수로 항상 `self`를 설정해야 한다는 것**입니다.


> 특수 메서드

생성자 메서드(`__init__`)와 객체 표현 메서드(`__repr__`)도 메서드의 일종입니다. 앞뒤에 __(언더스코어 두 개)가 붙은 메서드는 클래스 내부에서 특정한 역할이 미리 정해진 특수 메서드입니다.

> 사용자 정의 메서드

특수 메서드 외에도, 사용자가 원하는 동작을 구현하여 객체의 데이터를 변환하거나 처리하는 사용자 정의 메서드를 만들 수 있습니다. 이를 활용하면 데이터 조작 및 관리가 더욱 편리해집니다.

아래 [코드 7-10]과 같이 def 키워드를 사용하여 `cheat` 메서드를 정의하면, 객체의 `score` 속성에 저장된 데이터를 0으로 변경합니다. `cheat` 메서드는 부정행위를 적발하면 해당 학생의 점수를 0점으로 설정하는 메서드입니다.

In [95]:
# 코드 7-10. score 속성을 0으로 설정하는 cheat 메서드 활용

class StuRecord:  # StuRecord 클래스 정의
    def __init__(self, correct, name):  # 생성자 메서드 정의
        self.score = correct * 10  # score 속성 할당
        self.name = name  # name 속성 할당

    def __repr__(self):  # 객체 표현 메서드 정의
        return f"StuRecord(score={self.score}, name='{self.name}')"

    def cheat(self):  # 사용자 정의 메서드 cheat 정의
        self.score = 0  # score 속성을 0으로 재할당

# StuRecord 객체 생성하고 변수 stu1으로 지정
stu1 = StuRecord(correct=6, name='김판다')

# 변수 stu1 출력
print(stu1)  # 출력: StuRecord(score=60, name='김판다')

# score 속성을 0으로 변경하는 cheat 메서드를 변수 stu1에 적용
stu1.cheat()

# 변수 stu1 출력
print(stu1)  # 출력: StuRecord(score=0, name='김판다')

StuRecord(score=60, name='김판다')
StuRecord(score=0, name='김판다')


#### 7.2.6. 연산자 오버로딩

**연산자 오버로딩(Operator Overloading)은 기본 연산자(`+`, `-`, `*`, `/` 등)의 동작을 우리가 원하는 방식으로 재정의하는 기능**입니다. 그래서 객체의 연산이 클래스마다 서로 다르게 적용되는 경우가 많습니다. 예를 들어, 정수 객체에 `*`연산자를 사용하면 곱셈을 수행하지만, 리스트 객체에 `*`연산자를 사용하면 곱해진 정수만큼 반복합니다.

> 연산자 오버로딩 정의

**연산자 오버로딩은 클래스 내부에서 특수 메서드를 사용하여 정의**합니다. 예를 들어, `+` 연산자는 특수 메서드 `__add__`을 이용해 구현할 수 있습니다.

[코드 7-11]에서 `StuRecord` 클래스의 `+` 연산을 정의합니다. `+` 연산은 더해진 수치만큼 학생의 점수를 올려주는 연산으로 정의합니다.

In [96]:
# 코드 7-11. StuRecord 클래스에 + 연산자 오버로딩 적용

class StuRecord:  # StuRecord 클래스 정의
    def __init__(self, correct, name):  # 생성자 메서드 정의
        self.score = correct * 10  # score 속성 할당
        self.name = name  # name 속성 할당

    def __repr__(self):  # 객체 표현 메서드 정의
        return f"StuRecord(score={self.score}, name='{self.name}')"

    def __add__(self, n):  # + 연산자 오버로딩 정의
        self.score += n  # score 속성에 n을 더한 값을 재할당

# StuRecord 객체 생성하고 변수 stu1으로 지정
stu1 = StuRecord(correct=6, name='김판다')

# 변수 stu1 출력
print(stu1)  # 출력: StuRecord(score=60, name='김판다')

# stu1에 3을 더한 다음 stu1 출력
stu1 + 3
print(stu1) # 출력: StuRecord(score=63, name='김판다')

StuRecord(score=60, name='김판다')
StuRecord(score=63, name='김판다')


> 데이터 분석 모듈에서 비트 연산자

연산자 오버로딩을 정의하는 방법을 아는 것보다, **모듈의 클래스에서 다양한 연산자에 고유한 연산 방식을 정의해 두었다는 점을 이해하는 것이 더 중요**합니다. 이는 산술 연산뿐만 아니라 비교 연산과 논리 연산도 새롭게 정의할 수 있습니다.

특히, 데이터 분석 모듈에서 데이터프레임이나 시리즈 클래스에 비트 연산자(`&`, `|`, `~`)를 적용하여 고유한 연산을 수행할 수 있도록 정의해 둔 것 또한 연산자 오버로딩의 예시입니다. 이러한 연산자 오버로딩을 통해 비트 연산자로 정의된 연산은 `and`, `or`, `not` 키워드로 대체할 수 없으므로, 반드시 비트 연산자 `&`, `|`, `~` 연산자를 사용해야 한다는 점을 숙지해야 합니다.

⭐ 연산자 오버로딩에 대한 개념을 몰라도, **데이터 분석 모듈의 클래스인 데이터 프레임과 시리즈를 대상으로 `and`, `or`, `not` 논리 연산자를 적용하지 않는다**고 기억하면 됩니다.

#### 7.2.7. 상속

객체지향 프로그래밍에서 **상속(Inheritance)은 기존 클래스의 기능을 그대로 물려받아 새로운 클래스를 생성하는 개념**입니다. 이를 통해 코드 재사용성을 높이고, 기존 클래스를 확장하여 새로운 기능을 추가할 수 있습니다.

> 클래스 상속 방법

새로운 클래스를 생성할 때, **클래스의 인수로 기존 클래스를 입력하면 해당 클래스를 상속**할 수 있습니다.

```python
class 클래스명(부모 클래스):
```

[코드 7-12]로 `StuRecord` 클래스를 상속하여 `StuGrade` 클래스를 생성한 뒤, `StuGrade` 객체까지 생성하는 작업을 실습합니다.

In [97]:
# 코드 7-12. StuRecord 클래스를 상속한 StuGrade 클래스 생성

class StuGrade(StuRecord):  # StuRecord 클래스를 상속한 StuGrade 클래스
    pass  # 새로운 기능 추가 없이 부모 클래스 그대로 상속

# StuGrade 객체 생성 (StuRecord의 기능을 그대로 사용)
StuGrade(correct=6, name='김판다')

StuRecord(score=60, name='김판다')

> 상속의 장점

[코드 7-12]의 예시는 기존 클래스를 그대로 상속한 것이므로, 상속의 장점이 두드러지지는 않습니다. 그러나 기존 클래스의 연산자 오버로딩이나 메서드를 그대로 물려받으면서 일부만 수정할 수 있다는 점에서 상속은 매우 유용합니다.

👌 데이터 분석 모듈을 학습한 후 직접 클래스를 생성할 일이 있을 때, 기존 클래스를 확장하여 재사용하는 방식으로 상속을 활용할 수 있으며, 그때 상속을 학습해도 충분합니다.

#### 7.2.8. 클래스 실습 목적 정리

👌 우리가 클래스를 실습한 목적은 클래스에 대한 이해도를 높여, 데이터 분석 모듈의 클래스를 보다 쉽게 학습할 수 있도록 하기 위함입니다. **데이터 분석 모듈에서 알아두면 좋은 개념**은 아래와 같습니다. 현재 이해가 되지 않는 부분이 있다면, 데이터 분석 모듈을 학습하면서 자연스럽게 익혀도 늦지 않습니다.

> 데이터 분석 모듈 학습에 필요한 클래스 개념

1. **객체 생성**

 카멜 표기법인 클래스명을 호출하고, 생성자에 정의된 매개변수에 데이터를 입력하면 객체가 생성됩니다.

 ```python
# 판다스의 시리즈 클래스 생성 예시
import pandas as pd
s = pd.Series(data=[1, 2], index=['A', 'B'])
```

2. **속성 (attribute) 참조**

 속성은 클래스 내부에서 정의된 변수로 객체 내부에 저장된 데이터를 의미합니다. 객체에 점(`.`) 연산자와 함께 속성을 입력해 해당 속성을 참조합니다.

 ```python
# 판다스의 시리즈 클래스의 index 속성 불러오기
s.index  # 출력: Index(['A', 'B'], dtype='object')
```

3. **속성 (attribute) 재할당**

 속성은 변수이기 때문에 재할당으로 값을 수정할 수 있습니다.

 ```python
# 판다스의 시리즈 클래스의 index 속성 재할당하기
s.index  = ['가', '나']
s.index  # 출력: Index(['가', '나'], dtype='object')
```

4. **메서드 (methods)**

 메서드는 클래스 내부에서 정의된 함수로 객체에 종속된 함수입니다. 해당 클래스의 데이터를 변환하는 여러 기능을 지원하며, 해당 클래스에만 호출할 수 있습니다.

 ```python
# 판다스의 시리즈 클래스에 sum 메서드 호출하기
s.sum()  # 출력: 3
```

5. **연산자 오버로딩** (Operator Overloading)
 연산자는 클래스마다 다르게 정의될 수 있습니다. `+`, `-`와 같은 산술 연산자뿐만 아니라 `&`, `|`, `~`와 같은 비트 연산자도 클래스에 맞게 재정의할 수 있습니다. **비트 연산자 `&`, `|`, `~`으로 재정의된 연산을 논리 연산자 `and`, `or`, `not`으로 대체하려고 하면 안됩니다.**


6. **특수 메서드** (__로 감싸진 메서드)

 `__init__`, `__repr__`, `__add__` 같은 메서드는 특수한 역할이 부여된 메서드입니다. 속성에도 `__version__`과 같이 특수한 기능이 부여된 경우가 있습니다.

 ```python
# 모듈의 버전을 확인하는 특수 속성 __version__
pd.__version__  # 출력: 여러분의 판다스 버전이 출력됩니다.
```


7. **객체 출력 메서드** (`__repr__`)

 `print(객체명)` 코드를 실행했을 때 `<__main__.MyFile object at 0x12345678>`처럼 출력되는 것은 객체의 표현 방식이 정의되지 않았기 때문입니다. 기본 파이썬의 `map`, `zip` 객체 혹은 판다스의 그룹바이 객체가 이런 형태로 출력됩니다. `__repr__` 메서드를 정의하면 사람이 읽기 좋은 형태로 출력할 수 있습니다.
















## Chapter 8. 모듈

데이터 분석 모듈을 학습하기 전에, 모듈에 관련된 개념을 정리합니다.

### 8.1. 모듈

**모듈**은 **관련된 코드(함수, 클래스, 변수 등)를 하나의 파일로 묶어 놓은 파이썬 파일(.py) 또는 기능 단위로 제공되는 코드 집합**을 의미합니다. 이를 활용하면 코드를 재사용하고, 유지보수를 쉽게 할 수 있으며, 프로그램을 구조적으로 관리할 수 있습니다.

#### 8.1.1. 모듈 관련 용어 정리

> 용어 정리

모듈과 혼용하여 사용하는 용어들을 정리하겠습니다.

- **모듈**(module): 하나의 파일(.py)로 구성된 코드 꾸러미
- **패키지**(package): 여러 개의 모듈이 폴더로 구성된 코드 꾸러미
- **라이브러리**(Library): 여러 개의 패키지와 모듈을 포함한 코드 꾸러미

모듈, 패키지, 라이브러리는 규모에 따라 구분될 뿐이며, 모두 통칭하여 **모듈**이라는 용어로 사용되기도 하므로 엄격하게 구분할 필요는 없습니다. 데이터 분석 모듈에서는 주로 넘파이(NumPy) 라이브러리와 판다스(Pandas) 라이브러리를 사용하며, 이들은 규모가 크기 때문에 라이브러리로 분류됩니다.


#### 8.1.2. 모듈 설치 및 제거

> 모듈 설치 및 제거

기본적으로 모듈은 설치해야 사용할 수 있습니다. 다음 코드를 셀에 입력한 뒤 실행하면 모듈의 설치, 제거, 업데이트 및 버전 설정을 수행할 수 있습니다.

- 모듈 설치

 ```python
# 판다스 설치
!pip install pandas
```
- 모듈 제거

 ```python
# 판다스 제거
!pip uninstall pandas -y
```

- 모듈 최신 버전 업데이트

 ```python
# 판다스를 최신 버전으로 업데이트
!pip install --upgrade pandas

- 특정 버젼의 모듈 설치

 ```python
# 2.2.2 버전의 판다스 설치
!pip install pandas==2.2.2
```

다만, **판다스**나 **넘파이**와 같은 자주 쓰이는 모듈은 구글 코랩과 같은 파이썬 개발 환경에서는 이미 설치되어 있습니다. 따라서, 모듈이 설치되어 있지 않은 경우에만 위의 코드들을 사용하면 됩니다.


#### 8.1.3. 모듈 불러오기

키워드 `import`를 사용하여 모듈을 불러올 수 있습니다. 모듈을 불러오는 방법에는 여러 가지가 있으며, 상황에 따라 적절한 방식을 선택할 수 있습니다.

> 모듈 불러오기

가장 일반적인 방법은 **`import` 모듈명**을 사용하는 것입니다.

```python
import 모듈명
```
이 방법은 모듈 전체가 불러오기에, 모듈명과 함께 함수나 클래스를 호출해야 합니다. (예. `math` 모듈의 `factorial` 함수라면 `math.factorial`로 호출)


In [98]:
# 코드 8-1. math 모듈 불러오기
import math
math.factorial(5)  # 출력: 120

120

> 별칭

모듈명을 줄여서 사용하고 싶다면 별칭 형식을 사용합니다.

```python
import 모듈명 as 별칭
```

이 방법은 **긴 모듈명을 짧은 별칭으로 대체하여 코드 가독성을 높이는 데 유용**합니다. 해당 별칭을 사용해 모듈의 함수나 클래스를 호출합니다.

In [99]:
# 코드 8-2. math 모듈을 별칭 m으로 불러오기
import math as m
m.factorial(5)  # 출력: 120

120

> 특정 기능만 불러오기

모듈 전체를 불러오지 않고, 특정 기능(함수, 클래스, 변수 등)만 선택적으로 가져올 수도 있습니다.

```python
from 모듈명 import 기능명
```

이 경우, 모듈명을 붙이지 않고 바로 해당 기능을 사용할 수 있습니다.

In [100]:
# 코드 8-3. math 모듈의 factorial 함수만 불러오기
from math import factorial
factorial(5)  # 출력: 120

120

모듈을 불러오는 방법은 해당 모듈에서 일반적으로 사용하는 방식에 맞추는 것이 좋습니다. 예를 들어, 판다스는 보통 `import pandas as pd` 형태로 불러옵니다.

#### 8.1.4. 모듈 버전 확인

> 모듈 버전 확인

파이썬에서는 모듈의 버전을 확인할 때 `__version__` 속성을 사용합니다.
예를 들어, 판다스의 버전을 확인하려면 다음과 같이 실행합니다.

```python
# 판다스 버전 확인
pd.__version__
```

In [101]:
# 코드 8-4. 판다스 라이브러리를 불러와 버전 확인
import pandas as pd
pd.__version__  # 판다스 버전 출력

'2.2.2'

만약 버전 확인 결과가 책이나 강의에서 사용된 버전과 다르다면, 다음 코드를 사용하여 버전을 변경할 수 있습니다.

```python
# 2.2.2 버전의 판다스 설치
!pip install pandas==2.2.2
```

#### 8.1.5. 다양한 모듈 소개

> 다양한 모듈 소개

파이썬은 다양한 모듈을 지원합니다. 다음은 그 예시입니다.

- os: 운영 체제 기능 제공 (파일/디렉토리 관리, 환경 변수 등)

- sys: 파이썬 인터프리터와 관련된 기능 (명령행 인자, 표준 입출력 등)

- io: 파일, 스트림 작업을 위한 다양한 도구 제공

- glob: 파일 경로 패턴 매칭

- json: JSON 데이터 처리

- csv: CSV 파일 읽기/쓰기

- beautifulsoup: HTML 및 XML 문서 파싱(웹 크롤링에 유용)

- math: 기본 수학 함수 (삼각함수, 로그 등)

- statistics: 통계 함수 (평균, 분산, 중앙값 등)

- random: 난수 생성 및 무작위 선택

- decimal: 고정소수점 및 임의 정밀도 산술

- fractions: 분수 표현과 연산

- datetime: 날짜와 시간 조작

- time: 시간 측정 및 처리

- calendar: 달력 관련 기능

- re: 정규 표현식

- string: 문자열 관련 상수 및 유틸리티

- itertools: 반복자 생성기 및 조합 함수

- enum: 열거형 클래스


#### 8.1.6. 데이터 분석 모듈 소개

> 데이터 분석 모듈 소개

주요 데이터 분석 모듈은 다음과 같습니다.

- 판다스(Pandas): 표를 효율적으로 처리하고 분석할 수 있는 데이터 프레임과 시리즈를 제공합니다. 여러분이 가장 먼저 배울 라이브러리입니다.

- 넘파이(Numpy): 고성능 다차원 행렬과 행렬 연산을 지원하는 라이브러리입니다.


- 맷플롯립(Matplotlib): 데이터를 시각적으로 표현하기 위한 기본 그래프 도구를 제공합니다.

- 시본(Seaborn): 맷플롯립 기반으로 더욱 직관적이고 아름다운 데이터 시각화를 지원합니다.

> 데이터 분석 입문

데이터 분석을 학습하면 보통 넘파이(Numpy), 판다스(Pandas), 맷플롯립(Matplotlib), 시본(Seaborn)까지 모두 배우게 됩니다.
하지만 학습 순서가 중요합니다.

먼저, 맷플롯립과 시본은 시각화 라이브러리이므로 데이터를 처리할 수 있어야 제대로 활용할 수 있습니다.
따라서, **데이터를 다룰 수 있는 판다스나 넘파이부터 학습**하는 것이 좋습니다.

여러분이 **현재 행렬을 활용하여 데이터를 다룬다면, 넘파이부터 학습**하는 것이 좋습니다.
반면, **엑셀 등에서 표로 데이터를 다룬다면, 판다스부터 시작**하는 것이 적합합니다. 학생이라면 판다스부터 시작하는 것을 추천합니다.



> 파이썬의 엑셀, 판다스 라이브러리



<img src=https://i.postimg.cc/rwjGxqQ6/1.jpg, width=600>

이 책은 판다스의 기초부터 심화까지 모두 다룬, 판다스의 기본서입니다.

데이터 분석 입문은 탄탄한 기본서로 시작하시는 것을 추천드립니다.

[파이썬의 엑셀, 판다스 라이브러리 목차 확인](https://kimpanda.tistory.com/274)