In [1]:
import platform

platform.python_version()

'3.11.3'

## 유니코드(Unicode)와 아스키코드(ASCII)
- 컴퓨터에서 문자를 표현하는 데 사용되는 두 가지 주요 문자 인코딩 방식입니다. 
- 이들은 문자와 숫자 간의 대응 관계를 정의하여 컴퓨터에서 텍스트를 표현하고 처리하는 데 사용됩니다.

### 아스키코드(ASCII):

- 아스키코드는 American Standard Code for Information Interchange의 약자로, 미국 표준 협회(ANSI)에서 개발한 문자 인코딩 방식입니다.
- 아스키코드는 7비트(128개의 값)로 구성되어 있으며, 0부터 127까지의 숫자를 사용하여 알파벳, 숫자, 특수 문자 등을 표현합니다.
- 주로 영어 알파벳과 일부 특수 문자를 다루기 위해 사용됩니다. 예시: 문자 'A'는 아스키 코드에서 65로 표현됩니다.

### 유니코드(Unicode):

- 유니코드는 전세계의 모든 문자를 하나의 통일된 문자 집합으로 표현하기 위한 국제 표준입니다.
- 유니코드는 다양한 언어의 문자를 포함하며, 다양한 스크립트(알파벳, 음절 등)와 특수 기호를 지원합니다.
- UTF-8, UTF-16, UTF-32 등의 인코딩 방식이 유니코드 문자를 컴퓨터에서 저장하고 전송하기 위해 사용됩니다.
- 예시: 문자 'A'는 유니코드에서 U+0041로 표현되며, UTF-8로 인코딩하면 1바이트로 표현됩니다.

### 차이점 요약:

- 아스키코드는 영어 알파벳과 일부 특수 문자를 표현하기 위한 7비트 문자 인코딩입니다.
- 유니코드는 전 세계의 모든 문자를 포함하는 국제 표준 문자 집합으로, 다양한 스크립트와 특수 문자를 지원합니다.

## 문자 인코딩 방식
- 텍스트 문자를 컴퓨터에서 표현하고 저장하기 위한 규칙과 방법을 정의하는 방식을 말합니다. 
- 컴퓨터는 숫자로 데이터를 다루기 때문에 문자를 이진수로 변환하여 저장하거나 전송해야 합니다. 
- 다양한 문자 인코딩 방식이 개발되어 왔으며, 각 방식은 문자와 이진수 간의 대응 관계를 정의합니다.

# 1. 유니코드 문자열(str) 과 바이트 문자열(bytes)

- 파이썬은 문자가 없고 모든 것을 문자열로 처리
- 문자열에는 유니코드와 바이트 문자열(아스키코드)이 있음


## 데이터 타입은 "변경 불가능한" (Immutable) 또는 "변경 가능한" (Mutable) 유형으로 분류. 

### 변경 불가능한 (Immutable) 타입:
- 변경 불가능한 타입은 한 번 생성되면 그 값을 변경할 수 없는 데이터 타입을 의미합니다. 즉, 해당 객체가 생성된 이후에는 수정할 수 없습니다. 

- 숫자 (int, float), 문자열 (str), 튜플 (tuple), 불린 (bool), frozenset변경 불가능한 객체를 수정하려면 새로운 객체를 생성해야 합니다. 
- 예를 들어, 문자열의 경우 문자열을 변경하려면 새로운 문자열을 생성하여 변경하는 것이 아니라, 변경된 부분만 포함하는 새로운 문자열을 생성해야 합니다.

### 변경 가능한 (Mutable) 타입:
- 변경 가능한 타입은 값을 변경할 수 있는 데이터 타입을 의미합니다. 즉, 객체가 생성된 후에도 내부의 데이터를 수정할 수 있습니다. 변경 가능한 타입의 예시로는 다음이 있습니다:

- 리스트 (list), 딕셔너리 (dict)집합 (set), 사용자 정의 클래스 (클래스가 변경 가능하게 설계된 경우) 변경 가능한 객체는 객체 내부의 데이터를 수정하여 원본 객체의 값이 변경될 수 있습니다.



## 1-1 문자열 처리

- 문자열은 기본이 변경 불가
- 그래서 문자열을 변경할 때는 새로운 객체를 생성한다. 

## 1-1-1  문자열 리터럴 처리 

- 문자열에는 유니코드문자열(str), 바이트 문자열(bytes)
- 그외 이스케이프 문자를 일반 문자처럼 처리하는 로우 문자열이 있다 

### 한줄 문자열 처리

In [2]:
s1 = "문자열1"               # 문자열리터럴을 변수에 할당 
s2 = '문자열'

### 문자열의 길이

In [3]:
len(s1), len(s2)           # 문자열의 길이를 확인 

(4, 3)

In [4]:
type(s1)                  # 문자열 타입확인 

str

In [5]:
s1.__class__              # 문자열 타입확인 

str

### 한줄 바이트 문자열

In [6]:
b1 = b"abc"
b2 = b'abc'

###  바이트 문자열의 길이

In [7]:
len(b1), len(b2)

(3, 3)

In [8]:
type(b1)

bytes

### 로우 문자열 

- 공백문자 등을 그대로 출력할 때 사용

In [9]:
r"문자열1 \n" , '문자열 \n'             # 문자열 앞에 r(raw) 붙여서 원시문자열 즉 내부의 모든 것(이스케이프 문자, 편집문자)을 문자로 처리 

('문자열1 \\n', '문자열 \n')

### 여러줄 문자열 처리

In [10]:
                                   # 여러 줄 문자열 처리 
ss1 = """                                 
라인 1
라인 2
"""

In [11]:
print(ss1)

                                 
라인 1
라인 2



In [12]:
ss2 = '''
라인1
라인2
'''

In [13]:
print(ss2)


라인1
라인2



## 1-2 문자열 인코드 : 바이트 문자열로 변환

In [14]:
s = "문자열"

In [15]:
s, s.__class__

('문자열', str)

In [16]:
b = s.encode()               # 바이트 문자열로 변환 

In [17]:
b, b.__class__               # 바이트 타입 확인 
                             # 바이트 문자열은 문자열 앞에 b(bytes)가 붙음 

(b'\xeb\xac\xb8\xec\x9e\x90\xec\x97\xb4', bytes)

## 1-3 문자열 디코드 : 유니코드 문자열로 변환

In [18]:
ss = b.decode()

In [19]:
ss, ss.__class__

('문자열', str)

## 1-4 문자열을 클래스로 생성하기 

- 클래스를 사용해서 생성하기 

In [39]:
# 작은따옴표로 문자열 생성
str_example_1 = 'Hello, World!'

# 큰따옴표로 문자열 생성
str_example_2 = "Python Programming"

# 여러 줄 문자열 생성
multiline_str = """
This is a multiline
string example.
"""


In [40]:
print(str(str_example_1))
print(str(str_example_2))
print(str(multiline_str))

Hello, World!
Python Programming

This is a multiline
string example.



In [42]:
print(bytes(str_example_1.encode()))
print(bytes(str_example_2.encode()))
print(bytes(multiline_str.encode()))

b'Hello, World!'
b'Python Programming'
b'\nThis is a multiline\nstring example.\n'


## 1-5 파이썬에서 표준 입출력 

- input() 함수: 사용자로부터 키보드로 입력을 받는 함수입니다. 사용자가 입력한 값을 문자열로 반환합니다.
- print() 함수는 값을 화면에 출력하는 함수입니다. 여러 개의 값을 쉼표로 구분하여 출력할 수 있습니다.

### 표준입력 처리 

In [45]:
name = input("Enter your name: ")
print("Hello,", name)

Enter your name: 가을이
Hello, 가을이


### 표준 출력 처리 

In [46]:
age = 25
height = 175.5
print("Age:", age, "Height:", height)


Age: 25 Height: 175.5


### 표준입출력 처리 

In [47]:
name = input("Enter your name: ")
age = input("Enter your age: ")

print("Name:", name)
print("Age:", age)

Enter your name: 가을이
Enter your age: 33
Name: 가을이
Age: 33


# 2. 문자열 메서드 

In [20]:
for i in dir(str) :
    print(i, end=", ") if not i.startswith("_") else _

capitalize, casefold, center, count, encode, endswith, expandtabs, find, format, format_map, index, isalnum, isalpha, isascii, isdecimal, isdigit, isidentifier, islower, isnumeric, isprintable, isspace, istitle, isupper, join, ljust, lower, lstrip, maketrans, partition, removeprefix, removesuffix, replace, rfind, rindex, rjust, rpartition, rsplit, rstrip, split, splitlines, startswith, strip, swapcase, title, translate, upper, zfill, 

## 정렬 처리 

In [21]:
s11 =  "가나다라마바사"

In [22]:
ls = [*sorted(s11)]               # 동적 처리를 하므로 리스트에 넣어서 실행시킴 

In [23]:
ls

['가', '나', '다', '라', '마', '바', '사']

In [24]:
"".join(ls)                       # 리스트를 다시 문자열로 연결

'가나다라마바사'

## 역정렬 

In [25]:
[*reversed(s11)]

['사', '바', '마', '라', '다', '나', '가']

## 인덱스로 하나의 원소  선택하기

In [26]:
s11[0]

'가'

In [27]:
len(s11)

7

In [28]:
try :
    s11[7]                           # 문자열 인덱스보다 큰 수를 넣으면 예외 발생함 
except Exception as e :
    print(e)

string index out of range


## 슬라이스로 부분 문자열 처리하기

In [29]:
sl = slice(1,4)             # 특정 범위를 지정 

In [30]:
s11[sl]                     # 특정 범위를 선택하면 특정 영역의 배열을 가져옴 

'나다라'

In [31]:
s11[1:4]

'나다라'

In [32]:
s11[1:100]                 # 슬라이스는 범위가 인덱스를 넘어도 예외없이 현재 모든 것을 조회

'나다라마바사'

# 3. 포매팅 처리 

- 출력을 위해 문자열 포매팅 처리 방식 확인 

## 포매팅(Formatting)

- 문자열을 원하는 형식에 맞게 조작하거나 삽입하는 과정을 말합니다. 
- 프로그래밍에서 문자열 포매팅은 출력 메시지를 만들거나 변수 값을 문자열로 변환할 때 자주 사용됩니다. 
- 파이썬에서는 문자열 포매팅을 위한 여러 가지 방법이 제공됩니다.

## 3-1 포매팅 처리 비교

## 3-1-1 문자열 포맷 메서드 (str.format()):

- 중괄호 {} 안에 순서나 이름을 지정하여 값을 삽입하는 방식입니다.

In [33]:
name = "Bob"
age = 25
message = "My name is {} and I am {} years old.".format(name, age)
print(message)

My name is Bob and I am 25 years old.


## 3-1-2 % 연산자 포매팅:
- C 스타일의 포맷팅 방식으로, % 연산자를 사용하여 값을 삽입합니다.

In [34]:
name = "Charlie"
age = 40
message = "My name is %s and I am %d years old." % (name, age)
print(message)

My name is Charlie and I am 40 years old.


## 3-1-3 f-문자열 (f-strings):
- 파이썬 3.6 이상에서 도입된 기능으로, 문자열 안에서 중괄호 {} 안에 변수나 표현식을 넣을 수 있습니다. 
- f 또는 F 접두사를 사용하여 문자열을 정의하고 중괄호 내부에 변수나 표현식을 넣으면 해당 값으로 치환됩니다.

In [35]:
name = "Alice"
age = 30
message = f"My name is {name} and I am {age} years old."
print(message)

My name is Alice and I am 30 years old.


### f-string을 사용한 딕셔너리 값 삽입:
- f-문자열 내부에서 중괄호 안에 딕셔너리 키를 사용하여 값 삽입도 가능합니다.

In [36]:
person = {"name": "David", "age": 28}
message = f"My name is {person['name']} and I am {person['age']} years old."
print(message)

My name is David and I am 28 years old.


### f 문자열에 직접 표현식 처리 

In [37]:
bags = 3
apples_in_bag = 12

print(f'There are total of {bags * apples_in_bag} apples')

There are total of 36 apples


## 3-1-4 문자열 포맷코드 사용하기

## 포맷코드 종류 
- s: 문자열 포맷 코드, 문자열 값을 삽입할 때 사용됩니다.
- d: 정수 포맷 코드, 정수 값을 삽입할 때 사용됩니다.
- f: 부동 소수점 포맷 코드, 부동 소수점(실수) 값을 삽입할 때 사용됩니다.
- x 또는 X: 16진수 포맷 코드, 정수 값을 16진수로 표현할 때 사용됩니다. %X는 대문자 16진수로 표현됩니다.
- o: 8진수 포맷 코드, 정수 값을 8진수로 표현할 때 사용됩니다.
- %%: % 기호 표현, 단순히 % 기호를 문자열에 포함시킬 때 사용됩니다.
- n.mf: 너비와 정밀도 지정, n은 전체 필드 너비를, m은 소수점 이하 자릿수를 지정합니다. 
    예를 들어, %10.2f는 전체 필드 너비가 10이고 소수점 이하 2자리까지 표시하는 부동 소수점 값을 의미합니다.

### 문자열 포맷코드 적용 

In [38]:
name = "Alice"
age = 30
height = 175.5

message = f"My name is {name}, I am {age:d} years old, and my height is {height:.2f} cm."
print(message)
## 정수일 경우는 b,o,x 로 진법을 표시 가능 
message = f"My name is {name}, I am {age:b} years old, and my height is {height:.2f} cm."
print(message)

My name is Alice, I am 30 years old, and my height is 175.50 cm.
My name is Alice, I am 11110 years old, and my height is 175.50 cm.


### 로우 문자열도 처리

In [44]:
bbb = r"문자열1 \n" , '문자열 \n'   
message = f"My raw sting is {bbb}."
print(message)

My raw sting is ('문자열1 \\n', '문자열 \n').
