# 1. 기초 문법 1: 변수, 자료형, 문자열

## 문법 설명

### 1. 변수 (Variable)

**정의**: 변수는 데이터를 저장하는 메모리 공간에 붙인 이름입니다.

**문법**:
```python
변수명 = 값
```

**특징**:
- 변수명은 영문자, 숫자, 언더스코어(`_`)로 구성
- 숫자로 시작 불가, 예약어 사용 불가
- 대소문자 구분

**할당 방법**:
- 단일 할당: `x = 10`
- 다중 할당: `x, y = 1, 2`
- 동일 값 할당: `a = b = c = 100`

---

### 2. 자료형 (Data Type)

Python의 기본 자료형은 다음과 같습니다:

| 자료형 | 타입명 | 예시 | 설명 |
|--------|--------|------|------|
| 정수 | `int` | `42`, `-10`, `0` | 정수 값 |
| 실수 | `float` | `3.14`, `-5.5`, `1.23e4` | 소수점이 있는 수 |
| 문자열 | `str` | `"Hello"`, `'World'` | 텍스트 데이터 |
| 불리언 | `bool` | `True`, `False` | 논리값 |
| None | `NoneType` | `None` | 값 없음을 나타냄 |

**타입 확인**: `type(값)` 또는 `type(변수명)`

**타입 변환**:
- `int(값)`: 정수로 변환
- `float(값)`: 실수로 변환
- `str(값)`: 문자열로 변환
- `bool(값)`: 불리언으로 변환

**불리언 변환 규칙**:
- `False`가 되는 값: `0`, `""`, `None`, `[]`, `{}`
- 그 외 모든 값은 `True`

---

### 3. 연산자 (Operators)

#### 3.1 산술 연산자

| 연산자 | 의미 | 예시 | 결과 |
|--------|------|------|------|
| `+` | 덧셈 | `10 + 3` | `13` |
| `-` | 뺄셈 | `10 - 3` | `7` |
| `*` | 곱셈 | `10 * 3` | `30` |
| `/` | 나눗셈 | `10 / 3` | `3.333...` |
| `//` | 몫 | `10 // 3` | `3` |
| `%` | 나머지 | `10 % 3` | `1` |
| `**` | 거듭제곱 | `10 ** 3` | `1000` |

#### 3.2 비교 연산자

| 연산자 | 의미 | 예시 | 결과 |
|--------|------|------|------|
| `==` | 같음 | `5 == 5` | `True` |
| `!=` | 다름 | `5 != 10` | `True` |
| `<` | 작음 | `5 < 10` | `True` |
| `<=` | 작거나 같음 | `5 <= 5` | `True` |
| `>` | 큼 | `5 > 10` | `False` |
| `>=` | 크거나 같음 | `5 >= 10` | `False` |

#### 3.3 논리 연산자

| 연산자 | 의미 | 설명 |
|--------|------|------|
| `and` | 논리곱 | 두 조건 모두 `True`일 때만 `True` |
| `or` | 논리합 | 하나라도 `True`이면 `True` |
| `not` | 논리부정 | `True` ↔ `False` 반전 |

**진리표**:
```
A     B     A and B   A or B   not A
True  True  True      True     False
True  False False     True     False
False True  False     True     True
False False False     False    True
```

---

### 4. 문자열 (String)

#### 4.1 문자열 생성

**문법**:
```python
"문자열"      # 큰따옴표
'문자열'      # 작은따옴표
"""여러 줄
   문자열"""  # 삼중 따옴표
```

#### 4.2 문자열 인덱싱 (Indexing)

**문법**: `문자열[인덱스]`

- 인덱스는 0부터 시작
- 음수 인덱스: `-1`은 마지막 문자, `-2`는 뒤에서 두 번째

**예시**:
```python
text = "Hello"
text[0]   # 'H' (첫 번째)
text[-1]  # 'o' (마지막)
```

#### 4.3 문자열 슬라이싱 (Slicing)

**문법**: `문자열[시작:끝:증가분]`

- `시작`: 포함 (기본값: 0)
- `끝`: 제외 (기본값: 끝까지)
- `증가분`: 건너뛸 칸 수 (기본값: 1)

**예시**:
```python
text = "Python"
text[0:3]    # "Pyt" (0~2번)
text[:3]     # "Pyt" (처음부터 2번까지)
text[3:]     # "hon" (3번부터 끝까지)
text[::2]    # "Pto" (2칸씩)
text[::-1]   # "nohtyP" (역순)
```

#### 4.4 주요 문자열 메서드

| 메서드 | 설명 | 예시 | 결과 |
|--------|------|------|------|
| `strip()` | 양쪽 공백 제거 | `"  hi  ".strip()` | `"hi"` |
| `upper()` | 대문자 변환 | `"hello".upper()` | `"HELLO"` |
| `lower()` | 소문자 변환 | `"HELLO".lower()` | `"hello"` |
| `replace(old, new)` | 문자열 치환 | `"hi".replace("h", "H")` | `"Hi"` |
| `split(sep)` | 문자열 분리 | `"a,b,c".split(",")` | `["a", "b", "c"]` |
| `join(iterable)` | 문자열 결합 | `", ".join(["a", "b"])` | `"a, b"` |
| `find(sub)` | 부분 문자열 찾기 | `"hello".find("ll")` | `2` (없으면 `-1`) |
| `count(sub)` | 부분 문자열 개수 | `"banana".count("a")` | `3` |
| `startswith(prefix)` | 접두사 확인 | `"hello".startswith("he")` | `True` |
| `endswith(suffix)` | 접미사 확인 | `"hello".endswith("lo")` | `True` |

#### 4.5 f-string (포맷 문자열)

**문법**: `f"문자열 {표현식} 문자열"`

**기본 사용**:
```python
name = "홍길동"
age = 25
f"이름: {name}, 나이: {age}"  # "이름: 홍길동, 나이: 25"
```

**포맷 지정자**:
- 소수점: `f"{pi:.2f}"` → 소수점 2자리
- 천단위 구분: `f"{amount:,}"` → `1,234,567`
- 퍼센트: `f"{ratio:.1%}"` → `85.6%`
- 자릿수 맞추기: `f"{num:05d}"` → `00042`

---
## 실습 시작

아래 실습을 통해 위 문법들을 직접 사용해봅니다.

---

## 1.1 변수(Variable)와 할당

변수는 데이터를 저장하는 이름표입니다. Python에서는 `=` 연산자로 값을 할당합니다.

In [None]:
# 변수 할당

In [None]:
# 여러 변수를 한 줄에 할당

In [None]:
# 같은 값을 여러 변수에 할당

### 변수 이름 규칙
- 영문자, 숫자, 언더스코어(`_`)만 사용 가능
- 숫자로 시작할 수 없음
- 예약어(if, for, class 등) 사용 불가
- 대소문자 구분

In [None]:
# 좋은 변수명 예시

---
## 1.2 기본 자료형 (Data Types)

Python의 기본 자료형: `int`, `float`, `str`, `bool`, `None`

### 1.2.1 숫자형: int (정수), float (실수)

In [None]:
# 정수 (integer)

In [None]:
# 실수 (float)

In [None]:
# 타입 확인

### 1.2.2 문자열: str (string)

In [None]:
# 문자열 생성 - 작은따옴표, 큰따옴표 모두 가능

In [None]:
# 여러 줄 문자열 - 삼중 따옴표 사용

### 1.2.3 불리언: bool (True/False)

In [None]:
# 불리언 값

In [None]:
# 비교 연산 결과는 불리언

### 1.2.4 None 타입

`None`은 "값이 없음"을 나타내는 특별한 값입니다.

In [None]:
# None 사용

In [None]:
# None 체크

### 1.2.5 타입 변환 (Type Casting)

In [None]:
# 문자열 → 정수

In [None]:
# 정수 → 실수

In [None]:
# 숫자 → 문자열

In [None]:
# 불리언 변환 - False가 되는 값들

In [None]:
# 불리언 변환 - True가 되는 값들

---
## 1.3 연산자 (Operators)

### 1.3.1 산술 연산자

### 1.3.2 비교 연산자

### 1.3.3 논리 연산자

In [None]:
# 실제 조건 조합
# 두 조건 모두 만족

In [None]:
# 하나라도 만족

---
## 1.4 문자열 다루기

### 1.4.1 문자열 인덱싱 (Indexing)

문자열의 각 문자는 인덱스(위치)로 접근할 수 있습니다.
```
  0   1   2   3   4   5 
+---+---+---+---+---+---+
| H | e | l | l | o | ! |
+---+---+---+---+---+---+
 -6  -5  -4  -3  -2  -1
```

### 1.4.2 문자열 슬라이싱 (Slicing)

`문자열[시작:끝:증가분]` - 시작 인덱스부터 끝 인덱스 **직전**까지

In [None]:
# 증가분(step) 사용

### 1.4.3 주요 문자열 메서드

In [None]:
# 공백 제거

In [None]:
# 대소문자 변환

In [None]:
# 문자열 치환

In [None]:
# 문자열 분리 (split)

In [None]:
# 공백으로 분리

In [None]:
# 문자열 결합 (join)

In [None]:
# 문자열 검색

In [None]:
# 문자 개수 세기

### 1.4.4 f-string (포맷 문자열)

Python 3.6+에서 사용 가능한 가장 편리한 문자열 포맷팅 방법입니다.

In [None]:
# 기본 사용법

In [None]:
# 표현식 사용

In [None]:
# 숫자 포맷팅

In [None]:
# 자릿수 맞추기

In [None]:
# 천단위 구분자

In [None]:
# 퍼센트 표시

---
## 1.5 실습: 설문 응답 텍스트 정리 함수 만들기

AI 데이터 전처리의 첫 단계! 설문 응답 텍스트를 정리하는 함수를 만들어봅니다.

### 실습 목표
1. 불필요한 공백 제거
2. 불용어(의미 없는 단어) 제거
3. 특정 단어 치환
4. 키워드 카운트

### Step 1: 공백 정리 함수

In [None]:
def clean_whitespace(text):
    # 앞뒤 공백 제거
    # 중복 공백을 단일 공백으로 (split 후 join 활용)
# 테스트

### Step 2: 불용어 제거 함수

In [None]:
def remove_stopwords(text, stopwords):
# 테스트

### Step 3: 단어 치환 함수

In [None]:
def replace_words(text, replacements):
# 테스트

### Step 4: 키워드 카운트 함수

In [None]:
# 샘플 설문 응답 데이터
def count_keyword(texts, keyword):
# 테스트

### Step 5: 통합 텍스트 정리 함수

In [None]:
def clean_text(text, stopwords=None, replacements=None):
    # 1. 공백 정리
    # 2. 불용어 제거 (제공된 경우)
    # 3. 단어 치환 (제공된 경우)

In [None]:
# 설정