- 본 문서는 개인적으로 Python의 기본 내용 중에서도 자주 햇갈리는 부분과, 파이썬이라는 언어 자체에 대해 알아두면 좋은 개념들을 정리하고자 만들게 되었습니다.   
- 따라서 Python의 모든 개념을 포괄하고 있지는 않습니다. 따라서 파이썬 자체가 처음이신 분들은 [파이썬 코딩도장](https://dojang.io/course/view.php?id=7) 등의 다른 자료로 먼저 공부하시고 이를 리마인드하고 정리하는 용도로 본 문서를 활용하시면 좋을 것 같습니다.
- https://github.com/uoneway/python_note 에 지속적으로 업데이트 할 예정입니다.

본 문서 작성을 위해 다음의 자료들을 기본으로 다양한 자료들을 참고하였습니다.
- [Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython 2nd Edition by Wes McKinney](https://github.com/wesm/pydata-book)
- [The Python Language Reference](https://docs.python.org/3/reference/index.html)
- [The Python Standard Library](https://docs.python.org/3/library/index.html#library-index)

In [1]:
# notebook에서 마지막 명령문이 아니더라도 실행된 결과를 출력하도록 해주도록 해주는 명령어입니다.
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Python- Basics

- 파이썬(Python)은 귀도 반 로섬(Gudi Van Rossum)이 1990년 개발한 프로그래밍 언어이다.
- 인터프리트 방식의 스크립트 언어와 객체 지향 언어, 두 가지 성격을 절묘하게 결합시킨 언어이다.
- 최근 데이터분석과 머신러닝의 대중화로 이 분야에서 가장 많이 쓰는 Python은 그야말로 대세가 되어가고 있다.
![title](./img/langague_trend.png)

## Everything in Python is an object
파이썬의 숫자, 문자열, 자료구조, 함수, 클래스, 모듈 등은 모두 객체(object)이다! 이러한 consistency of object model는 파이썬을 flexible한 언어로 만들어준다.

예를 들어 다음과 같이 함수도 일종의 변수처럼 다뤄줄 수 있다. 함수도 객체이기 때문이다.

In [2]:
def plus(a, b):
    return a + b

def minus(a, b):
    return a - b

l = [plus, minus]
a = l[0](1, 2)
b = l[1](1, 2)
print(a, b)
# 3, -1

3 -1


#### object vs instance

a = Cookie() 이렇게 만든 a는 객체이다. 그리고 a 객체는 Cookie의 인스턴스이다. 
즉 인스턴스라는 말은 특정 객체(a)가 어떤 클래스(Cookie)의 객체인지를 관계 위주로 설명할 때 사용한다. "a는 인스턴스"보다는 "a는 객체"라는 표현이 어울리며 "a는 Cookie의 객체"보다는 "a는 Cookie의 인스턴스"라는 표현이 훨씬 잘 어울린다.

### Attributes and methods
객체이기에 각 객체들은 당연히 Attributes와 methods를 가지고 있습니다.
- `dir(object)`: 인자(오브젝트)의 모든 속성과 메소드를 보여줍니다. 
- `hasattr(object, attr)`: 해당 object가 특정 attribute를 가지고 있는지 확인할 수 있습니다. 

In [3]:
s = 'abc'
dir(s)[:5] # 많아서 5개만 출력

['__add__', '__class__', '__contains__', '__delattr__', '__dir__']

In [4]:
class my_class():
    def __init__(self, x):
        self.a = x

cls = my_class(2)

# cls에 b라는 멤버가 있는지 확인
hasattr(cls, 'a')

# cls에서 a변수의 값 가져오기
getattr(cls, 'a')

# cls의 a라는 변수에 값 9 설정하기
setattr(cls, 'a', 9)
print(cls.a)

True

2

9


### Variables: Dynamic references
Python에서 변수는 특정 객체가 저장되어 있는 메모리 주소(Object reference)값(보다 정확하게는 메모리 주소를 의미하는 고유 ID 값)에 불과합니다.

In [95]:
a_int = 1
id(a_int)

140735537389968

#### 주의! 값 복사하기: `=`, `.copy()`, `deepcopy()`

물론 모든 변수가 주소를 가지고 있지만,   
그 주소가 가리키는 메모리 부분에 저장되는 방식이 type마다 다르기에,   
값을 복사할 때는 주의가 필요합니다.

- 그냥 =로 복사해도 괜찮은 타입들: int, float, tuple, string
- 복사할 때 주의해야하는 타입들: list, class 
(하지만 이런것들도, 메모리 지정해서 앞 방식처럼 저장할 수 있다)

 메모리는 크게 두 가지로 나눠져 있고
- int형 변수가 가리키는 해당 메모리 영역에 직접 값을 저장하고 있으나, 
- list형 변수가 가리키는 해당 메모리 영역에 또 다른 위치를 가리키는 주소를 또 저장하고 있음

함수 호출 시, call-by-value vs call by reference와도 유사함

In [96]:
# int형일 경우, 해당 주소가 가리키는 영역에 값을 그대로 저장하므로  = 로 대입해도 값이 그대로 복사됨
a_int = 1
b_int = a_int
b_int is a_int
a_int+=1
b_int

True

1

In [98]:
#하지만 list 같은  경우, 
# a를 하면 값을 복사하는게 아니라 a와 b가 같은 객체를 가리키게 됨. copy() 사용
a_list = [1,2,3]
b_list = a_list
b_list is a_list
a_list[0] = 10
b_list

True

[10, 2, 3]

In [99]:
a_list = [1,2,3]
b_list = a_list.copy()
b_list is a_list
a_list[0] = 10
b_list

False

[1, 2, 3]

In [92]:
from copy import deepcopy

a_list = [[1,2],3]
b_list = a_list.copy()
a_list[0][0] = 10
b_list

[[10, 2], 3]

In [94]:
from copy import deepcopy

a_list = [[1,2],3]
b_list = deepcopy(a_list)
a_list[0][0] = 10
b_list

[[1, 2], 3]

### Python is strongly typed langauge
앞에서 언급했듯이 변수는 단순한 주소값을 의미합니다. 따라서 그 자체에 이 변수가 가리키고 있는 값에 대한 타입 정보도 가지고 있지 않습니다.

하지만 그렇다고 해서 파이썬이 타입이 없는 언어라고 생각하면 안됩니다.    
Object reference인 변수는 타입을 가지고 있지 않지만, 변수가 가리키고 있는 object 자체는 타입을 가지고 있기 때문입니다.
- `type()`: 해당 변수 타입을 확인할 수 있음

In [6]:
s = 'hello'
type(s)

str

참고로 변수의 type을 확인하여 분기처리를 할 경우,   
numpy 변수형 등과의 호환성을 고려하여 isinstance(<var>, int)를 쓰는게 좋습니다. 

### 비교: ==, is

- 변수(가 가리키는 객체의) value(값)가 동일한지 보려면 ==, 변수가 실제 동일한 객체를 가리키고 있는지 보려면 is를 사용해야 함

In [7]:
a = [1, 2, 3]
b = a
c = list(a)
print(a == b)
print(a == c)
print(a is b)
print(a is not c)
print(id(a), id(b), id(c))

True
True
True
True
1422142899784 1422142899784 1422143490312


#### is None, == True 로 하자

None, True, False는 파이썬 내부상수(singleton object)이다. 
- 즉 only ever exists one으로 어떤 연산을 통해 특정 변수가 이 값들을 같게 됐다면 모두 메모리 동일영역을 가리키는 동일 id값을 가진 변수가 되는것
- 따라서 이들에 대해 is와 == 는 동일하게 작동함. 
- 그러나 관례상 is None으로, 추후 numpy와의 호환성을 위해 == True로 사용하는게 좋음   
(추후 numpy를 쓰다보면 numpy의 bool은 기본 파이썬과 별도의 타입(numpy.bool_)을 가지고 있어서 'is True'가 의도치않게 False로 리턴될 수 있음)

In [8]:
a = 1 == 1  # True
b = 2 == 2  # True
print(id(a), id(b))
print(a == True, a is True)

140735536867664 140735536867664
True True


## type 다루기

### 주의!: 변수타입 비교 시, `isinstance(<var>, int)`
변수 타입 비교할 때, 여러 방법들을 생각할 수 있음.
하지만 변수 타입이 순수 python 뿐만 아니라, 추후 numpy의 자료형도 있는데 거의 유사하게 쓰임에도 불구하고 어떤 방식으로 비교하냐에 따라 결과가 달라지기에 `isinstance()`를 이용하도록 한다.   
참고: https://stackoverflow.com/questions/3501382/checking-whether-a-variable-is-an-integer-or-not

`isinstance()`는 python int형을 상속받은 타입인지 아닌지를 보여주는 함수

In [11]:
s = 'hello'
# 아래 같이는 사용하지 않도록
type(s) == str
type(s) is str
type(s) == 'str'
type(s) == 'str'

True

True

False

False

In [12]:
isinstance(s, str)
isinstance(s, (str, float)) # tuple로 둘중 하나에 속하는지 체크할 수 있음.

True

True

#### Type casting

In [13]:
fval = '3'
type(fval)

int(fval)
float(fval)
bool(fval)
str(fval)

type(fval)
list(fval)
tuple(fval)
set(fval)
dict(a = fval)  # a를 'a'로 하면 안됨

str

3

3.0

True

'3'

str

['3']

('3',)

{'3'}

{'a': '3'}

아래 같은 경우 다른 언어는 오류 안띄우기도 하는데 python은 에러 띄움
a / b 와 같은 명확한 상황이 아닌 한, 명시적으로 형변환 해야함

In [14]:
'5' + 5

TypeError: can only concatenate str (not "int") to str

In [15]:
a = 4.5
b = 2
# String formatting, to be visited later
print('a is {0}, b is {1}'.format(type(a), type(b)))
a / b

a is <class 'float'>, b is <class 'int'>


2.25

#### Duck typing
- 실제로 쓸 때는 어떤 형인지 보다 특정 behavior이 가능한 형태인지가가 더 중요할 때가 많음   
(오리처럼 걸어가면 오리다)
- mutable한지 안한지, sequence인지(iterable) 아닌지 등?

다양한 타입의 인풋을 받을 함수 작성할 수 있다.
흔하게 쓰는 예가 sequence타입인 (list, tuple, ndarray),iterator 등을 인자로 받아서
리스트가 아니면 리스트로 변환해 주는거

In [16]:
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError: # not iterable
        return False

In [17]:
print(isiterable('a string'))
print(isiterable([1, 2, 3]))
print(isiterable(5))

True
True
False


In [18]:
#리스트가 아닌 경우는 리스트로 변환해주기. 이후에 리스트 관련한 함수 쓸테니..
x="aaa"
if not isinstance(x, list) and isiterable(x):
    x = list(x)

참고로 list와 str는 유사하게 작동하는 data type이다. 서로 변환도 다음과 같이 가능하다.
- `list = str.split()` : 문자열 => 리스트, 공백시 스페이스 기준
- `” “.join( list )` : 리스트에서 문자열으로

In [19]:
time_str = "10:34:17"
time_list = time_str.split(':')
print(time_list)

['10', '34', '17']


In [20]:
':'.join(time_list)  # 쉽게 list가 인자로 들어감에 주의하기!!

'10:34:17'

### True, False, None 등.   
대문자로 시작하고 나머지는 소문자라고 생각하기

In [22]:
True, False, None 

(True, False, None)

## 기타 Python 관련 사소한 것들

### slicing: [start:stop]

In [21]:
#아래는 ab가 아니라 a임. 두번쨰 항목에서 멈춘다 로 이해!
a="abc"
a[0:2]

'ab'

### print() 함수

우선 시작하기 전에 결과를 살펴보기 위해 사용하는 print() 함수의 사용법을 살펴보자

In [23]:
print(1, 2, "hello") # 여러개 출력(기본 공백으로 띄움)
print(1, 2, "hello", sep='') # 공백 없이 출력
print(1, 2, "hello", sep=',')
print()
print(1, 2, sep='\n') #여러줄 출력.역슬래시임!
print('1\n2') # 위와 동일

1 2 hello
12hello
1,2,hello

1
2
1
2


사실 print는 출력 맨 마지막에 자동으로 /n을 붙여줌. 

In [24]:
# 아래 두 명령어는 완전히 동일함
print('hello')
print('hello', end='\n')

hello
hello


In [25]:
# 이를 바꿔주려면 end argument를 지정해주면 됨 빈 문자열 지정으로 한 줄에 출력되도록 함
print(1, end='')
print(2, end='')
print(3)

123


In [26]:
# user_input = input("값을 입력해주세요: ")

### 파일 입출력

In [12]:
# 파일에 쓰기
file = open('file.txt', 'a') # 파일에 기존 텍스트 유지하고 추가모드(a)로 열기, 없다면 새로 생성함. 
                            # 쓰기모드(w)로 열면 계속 덮어쓰기함
file.write('First File \n') # 문자열 저장
file.write('Second Line \n') # 문자열 저장
file.close() # 파일객체를 반드시 닫아줘야지, 다른 프로그램에서 해당 파일을 사용할 수 있음!!

In [13]:
# 파일 읽기
file = open('file.txt', 'r') # 파일을 읽기모드(r)
text = file.read() # 파일에서 내용 읽기
print(text)
file.close() # 파일객체닫기


my first fileFirst File 
Second LineFirst File 
Second Line


####  with 사용
파일객체를 한 번 open해서 이용 후에는 반드시 닫아줘야지, 다른 프로그램에서 해당 파일을 사용할 수 있음   
이게 너무 중요하기에 with를 이용

In [15]:
with open('file.txt', 'r') as file:
     text = file.read()
     print(text)

my first fileFirst File 
Second LineFirst File 
Second Line


#### 모드
- w,r,a
    - r(기본): 읽기모드로 열기. 커서는 파일 맨 처음으로
    - w: 쓰기모드로 열기. 해당 이름을 가진 파일이 존재하는 경우, 기 내용 삭제하고 열림(없으면 새로 만듦. 모두 동일)
    - x: 쓰기모드로 열기. 해당 이름을 가진 파일이 존재하는 경우, 오류 발생
    - a: 쓰기모드로 열기. 해당 이름을 가진 파일이 존재하는 경우, 기 내용 보존하고 맨 뒤에 커서 위치
- t, b
    - t(기본): 텍스트 파일 모드로 열기
    - b: 바이너리 파일 모드로 열기
- w+, r+, a+: 쓰기모드에 대해서 동시에 읽을수 있게 하거나, 반대로 읽기모드에 대해 추가로 쓸 수 있도록 파일 열기

In [None]:
with open('file.txt', 'wb') as f: # binary 쓰기 모드로 열기. 음성, 영상 등등
    pass

with open('file.txt', 'wt') as f: # text 쓰기 모드로 열기(w와 동일). 
    pass

In [None]:
# 쓰기와 읽기 동시에 하기 `+`
# 하지만 w+와 r+가 기존 파일 내용을 삭제하냐 안하냐의 차이가 있음
# 쓰기 모드로 열기(읽기도 가능). 기존 파일 내요을 삭제 후 열기. 열어서 쓰던거를 읽을 수 있다


with open('file.txt', 'w+') as f: # 쓰기 모드로 열기(읽기도 가능). 기존 파일 내요을 삭제 후 열기. 열어서 쓰던거를 읽을 수 있다
    pass

with open('file.txt', 'r+') as f: # Opens a file for reading and writing, placing the pointer at the beginning of the file.
    pass

In [33]:
with open('file.txt', 'w') as file:
    file.write("first line \n")
    file.write("second line \n")

#### 한 줄 단위로 받아오기: `readline()`, `readlines()`

In [34]:
# 한 줄씩 받아오기
with open('file.txt', 'r') as f:
    while True:
        line = f.readline()
        if not line: break
        print(line)

first line 

second line 



In [37]:
# 모두 리스트로 받아오기
with open('file.txt', 'r') as f:
    lines = f.readlines()
# print(lines)
for line in lines:
    print(line)


['first line \n', 'second line \n']
first line 

second line 



### 외장 함수 이용하기와 from/import문

#### Python 계층구조: package > module > class > attribute, method

- module이란 .py 확장자를 가진 파일 하나를 의미합니다.    
영단어 의미상 module을 method로 착각할 수 있는데 그러지 않도록 주의합니다.
- package는 이 파일들(module)을 가지고 있는 폴더를 의미합니다. 기본적으로 `__init.py`라는 이름의 파일을 가지고 있습니다.

이를 가져와서 이용하기 위해 `from <package(폴더)명>.<module(파일)명> import <함수 또는 class 명>`을 사용합니다.


#### from imports 문

In [9]:
# some_module.py
PI = 3.14159 
def f(x):
    returnx+2

In [None]:
import some_module  # module 전체 가져오기 
from some_module import *  # 위와 동일

import some_package.some_module  # 특정 패키지(폴더) 내 module 전체 가져오기. 이렇게 하위 폴더는 점으로 접근가능

from some_module import f, PI  # module 내 일부 가져오기
result = some_module.f(5)
pi = some_module.PI

from some_module import f as ff, PI as pi  # module 내 일부를 가져와 약어 지정해주기
r1 = ff(6)
r2 = sm.f(pi)

#### 내장 함수(builtin-function). 모듈의 method
만약 import문 없이 직접 작성하지 않은 함수를 쓰고 있다면, 그 함수는 python 최상위 기본 내장함수(Built-in Functions)임을 의미합니다.

In [None]:
a="abc"
len(a) #builtin-function
a.strip() #strip도 내장함수임. string의 메소드기에 이런 형식으로 부르는 것으로 <module명>.<class명>으로 햇갈리지 않도록

#### 다른 경로에 있는 파일을 import 하는 방법

만약 다른 경로에 있는 .py 파일을 import하고 싶다면 다음을 참조
https://codechacha.com/ko/how-to-import-python-files/

In [None]:
# 실행파일과 동일 경로에 있는 파일 import
from . import my_module  # 이 때 from . 은 생략가능
# 하위 폴더 내 파일. 실행파일과 폴더가 동일한 경로에 위치할 때
from my_dir import my_module

##### 다른 경로 파일
해당 파일이 위치한 경로 또는 하위 경로가 아닌 경우에는 from/import문으로 접근할 수 없습니다.   
이 때는 os.path에 원하는 폴더 path를 추가해줘야 합니다. 이는 `sys.path.append('경로')`구문을 통해 가능합니다.

가장 자주 쓰일 실행 파일의 상위 폴더를 참조해야 할 때는 
실행파일 경로의 상위 경로를 구하는 코드는 `os.path.dirname(os.path.abspath(os.path.dirname(__file__)))`를 인자값으로 전달하면 됩니다.

In [None]:
import sys
sys.path.append('../upper_dir/my_module')  # 특정 경로 폴더를 os.path로 추가하기
sys.path.append(os.path.dirname(os.path.abspath(os.path.dirname(__file__)))) # 상위 폴더를 os.path로 추가하기

import my_module

## Control Flow

### if, elif, and else

In [36]:
x=1
if x < 0:
    print('negative')
elif x == 0:
    pass ; #아무것도 안적으면 오류남. python이 괄호를 쓰지 않기에, 코드 작성하기 전에 pass 넣어두면 테스트 가능
else:
    print('Positive')

Positive


chain comparisons:

In [37]:
4 > 3 > 2 > 1

True

#### Ternary expressions
[on_true] if [expression] else [on_false]

In [38]:
x = 5
'Non-negative' if x >= 0 else 'Negative'

'Non-negative'

아래와 같이 많이 변수에 값 할당할 때 씀. 볼 때 min = (a if a < b else b ) 처럼 봐야함

In [39]:
a, b = 10, 20
min = a if a < b else b 
min

10

Ternary expressions와 복합 대입 연산자(Assignment Operators) 함께 쓰지 않도록 주의

In [40]:
# 의도와 다른 결과가 나올 수 있음
hp1 = 100
hp2 = 100
damage = 150

hp1 = hp1 - damage if hp1 >= damage else 0 #옳은 문장
hp2 -= damage if hp2 >= damage else 0 # 틀린문장
print(hp1, hp2)

0 100


tuples, Dictionary and lambda 등을 이용해서 동일한 효과를 줄 수 있다?

In [41]:
a, b = 10, 20
  
# Use tuple for selecting an item . False일떄 값을 앞에 쓴다?
print( (b, a) [a < b] ) 
  
# Use Dictionary for selecting an item 
print({True: a, False: b} [a < b]) 
  
# lamda is more efficient than above two methods 
# because in lambda  we are assure that 
# only one expression will be evaluated unlike in 
# tuple and Dictionary 
print((lambda: b, lambda: a)[a < b]()) 

10
10
10


### do-while loops in python?
python에는 do while문이 없다. 다음과 같이 대체 방식을 이용하자   
https://woogyun.tistory.com/519

## 예외처리: try / except

### 에러 예시: IndexError, ValueError

In [2]:
# IndexError
l = []
l[0]

IndexError: list index out of range

In [3]:
# ValueError
text = 'abc'
number = int(text)

ValueError: invalid literal for int() with base 10: 'abc'

In [4]:
# ModuleNotFoundError
import your_module

ModuleNotFoundError: No module named 'your_module'

### try / except문 사용 예시

에러가 발생할 것 같은 코드를 try안에 넣고 except 뒤에 발생할 수 있는 에러의 이름을 적어두면, 에러 발생시 프로그램이 멈추지 않고 별도 처리가 가능하다.  
https://wayhome25.github.io/python/2017/02/26/py-12-exception/

In [None]:
text = '100%'

try :
    number = int(text) # 에러가 발생할 가능성이 있는 코드
except ValueError :  # 에러 종류
    print('{}는 숫자가 아닙니다.'.format(text))  #에러가 발생 했을 경우 처리할 코드
finally:
    print('try/except문 종료')  # 에러가 발생하든 발생하지 않든 실행됨

보통은 if문을 사용하는 것이 좋으나 try 문으로만 해결이 가능한 문제도 있다.

In [6]:
# if 문
def safe_pop_print(list, index):
    if index < len(list):
        print(list.pop(index))
    else:
        print('{} index의 값을 가져올 수 없습니다.'.format(index))

safe_pop_print([1,2,3], 5) # 5 index의 값을 가져올 수 없습니다.

try:
    import your_module
except ImportError:
    print('모듈이 없습니다.')

5 index의 값을 가져올 수 없습니다.
모듈이 없습니다.


이름을 모르면 이름을 적지않아도 되나, 가능하면 적어주는게 좋다.

In [None]:
# 모든 에러 처리
try:
    list = []
    print(list[0])  # 에러가 발생할 가능성이 있는 코드

    text = 'abc'
    number = int(text)
except:
    print('에러발생')

# 에러 이름 확인
try:
    list = []
    print(list[0])  # 에러가 발생할 가능성이 있는 코드

except Exception as ex: # 에러 종류
    print('에러가 발생 했습니다', ex) # ex는 발생한 에러의 이름을 받아오는 변수
    # 에러가 발생 했습니다 list index out of range

### 에러를 직접 일으키기 - raise
올바른 값을 넣지 않으면 에러를 발생시키고 적당한 문구를 표시합니다. 주로 사용자에게 가이드를 주기 위한 용도로 사용합니다.

In [None]:

def rsp(mine, yours):
    allowed = ['가위','바위', '보']
    if mine not in allowed:
        raise ValueError  # 이건 예약어?
    if yours not in allowed:
        raise ValueError

try:
    rsp('가위', '바')
except ValueError:
    print('잘못된 값을 넣었습니다!')

### 에러를 위한 클래스 직접 만들기

In [3]:
class MyError(Exception):
    def __init__(self, msg):
        super().__init__(msg)

In [4]:
raise MyError("My error is occured")

MyError: My error is occured

In [23]:
condition = False

while True: 
    # do somethings 
    if condition: continue 
    break

# Scalar Types = single value

* None : The Python “null” value (only one instance of theNoneobject exists)
* str : String type; holds Unicode (UTF-8 encoded) strings
* bytes : Raw ASCII bytes (or Unicode encoded as bytes)
* float : Double-precision (64-bit) floating-point number (note there is no separatedoubletype) 
* bool : A True or False value
* int : Arbitrary precision signed integer

## Booleans: True/False
True/False는 대문자, and/or/not은 소문자

In [42]:
True and False 
True or False
not False

False

True

True

숫자 자료형은 0이면 False,   
나머지는 True

In [43]:
a = 0
bool(a)

b = -10
bool(b)

False

True

str, list, tuple, set, dict 등 collection은   
요소가 있으면 True, 요소가 없으면 False     
그래서 str이 '' 빈값인지, list 등이 비어있는지 등을 확인할 때 `if my_list: ` 등의 방식을 이용

In [44]:
a = ''   # str
bool(a)

a = 'hello python' # str
bool(a)

bool([]) # list
bool([1,2,3]) # list

False

True

False

True

### Binary operators and comparisons

#### (and, or, not) VS (|, &, ~)
- 파이썬에서는 논리연산자로 and, or, not을 사용함. |, &, ~는 bitwise연산자이고 
- ||,&& 라는 표현은 없음

In [45]:
print(4 and 2)
print(4 & 2)

# 인자가 integer가 아니고 True나 False인 경우는 and나 &나 동일하게 작동
# True가 1, False가 0이니까... 하지만 햇갈리니... 
print(True & False)

# 결론적으로 다음과 같이 기억
True and False # True/False 일때는 and/or

2
0
False


False

단 set 연산(intersection, union)할때는 &/|를 사용해야 함! 이 때 and 쓰면 결과가 이상하게 나옴

In [46]:
set1 = {'a','b','c'} ; set2 = {'b','c','d'}
set1 & set2 

{'b', 'c'}

비교연산자 연속해서 쓸수도 있음

In [100]:
a = 2
if 0<a<10:
    print(f"{a}는 한 자리 숫자입니다.")

2는 한 자리 숫자입니다.


## Numeric types
- 버림 나눗셈(floor division)
a // b : a에서 b를 나누며 소수점 이하는 버림

- 나머지
a % b : a에서 b를 나누었을 때 나머지를 구함

- 거듭제곱
a ** b : a를 b번 곱함

- 행렬 곱셈
a @ b : 행렬 a와 b를 곱함

In [47]:
print(3 ** 3)
print(3^3)

27
0


In [48]:
print( 5 / 2)
print( 5 //2) #몫 (나머지 버림))
print( 5 % 2) #나머지

2.5
2
1


In [49]:
6e-5

6e-05

## Strings

### 선언

' ', " ", ''' ''', """ """ 다 가능

In [50]:
c = """
This is a longer string that
spans multiple lines
"""

In [51]:
c.count('\n')

3

\는 escape 문자. \n 나 유니코드 문자 같은 특수 문자 나타내기 위해 사용.
근데 일일히 붙여주기 어려우면 아래같이 r을 붙여주면 그대로 나옴(raw)

In [52]:
s = '12\\34'
print(s)

12\34


In [53]:
s = r'this\has\no\special\characters'
s

'this\\has\\no\\special\\characters'

### string은 immutable
따라서 다음 문자열 다루기에서 문자열을 수정한다는 건,    
사실 해당 문자열이 수정된다기 보다는 수정된 문자열을 리턴해주는것.

In [54]:
a = 'this is a string'
a[10] = 'f'

TypeError: 'str' object does not support item assignment

In [55]:
b = a.replace('string', 'longer string')
print(b)
print(a) #a는 안바뀜

this is a longer string
this is a string


### 문자열 다루기
https://www.kdnuggets.com/2020/01/python-string-processing-primer.html
정리하기

#### 문자열 indexing, slicing

In [56]:
s = 'python'
s[:3]

'pyt'

In [57]:
len('aaa')

3

#### 문자열 연산

In [58]:
'i'+' am'

'i am'

In [59]:
print("=" * 50)



#### 문자 찾기: `.count()`, `.find()`, `.index()`

In [60]:
a = "aaabb"
a.count('b') # 'b'개수

a.find('b') #없을 시 -1
a.rfind('b') #오른쪽에서부터 문자열 위치 찾기
a.index('b') #없을 시 error띄움
a.rindex('b') #없을 시 error띄움

2

3

4

3

4

#### 문자열 수정하기: `.strip()`, `.replace()`

In [61]:
import string
a = "  AAAbb  "

#str 양옆 특정문자 삭제하기. 아무것도 안넣으면 공백 삭제
a.lstrip()
a.rstrip()
a.strip()
', python.'.strip(string.punctuation) #string 모듈의 punctuation에는 모든 구두점이 들어있음(공백은 빠져있음)
string.punctuation

'AAAbb  '

'  AAAbb'

'AAAbb'

' python'

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [62]:
a.replace("AAA", "cc") #문자열 바꾸기

#문자 변환 테이블 이용해서 문자별 바꾸기 
table = str.maketrans('Ab', '15')
"AAAbb".translate(table)

'  ccbb  '

'11155'

#### 대소문자 변환: `upper()`, `lower()`

In [63]:
a = "  AAAbb  "
a.upper()
a.lower()

'  AAABB  '

'  aaabb  '

#### 문자열 분리/연결하기

In [64]:
'apple, pear, grape, pineapple, orange'.split(', ') #비워두면 공백으로 분리

['apple', 'pear', 'grape', 'pineapple', 'orange']

In [65]:
','.join("AAAbb") #콤마를 a문자열 사이사에에 넣어준다. 순서주의

l = ['a','b','c','d']
','.join(l)   #보통은 이렇게 str을 가진 list를 하나로 합쳐줄 때 이용함!

'A,A,A,b,b'

'a,b,c,d'

### String formatting

In [66]:
name = '홍길동' 
age = 30 
d = {'name':'홍길동', 'age':30}

s1 = f'Hi, I am {name}, {age}.' #  'f' 라는 접두사를 붙여 f-string쓴다는걸 명시
s2 = f'나는 {age+1}살이다.' # 표현식(문자열 안에서 변수와 +, -와 같은 수식을 함께 사용하는 것) 지원
s3 = f'나는 {d["name"]}이고 {d["age"]}살이다.' #dictionary 사용
s4 = f'{{ and }}' #f 문자열에서 { } 표시하기(두 번 써주기)
print(s1,s2,s3,s4, sep='\n')

Hi, I am 홍길동, 30.
나는 31살이다.
나는 홍길동이고 30살이다.
{ and }


In [67]:
s1 = f'{"hi":<10}'  # 너비10에서 왼쪽 정렬
s2 = f'{"hi":>10}'  # 오른쪽 정렬
s3 = f'{"hi":^10}'  # 가운데 정렬
s4 = f'{"hi":=^10}'  # 가운데 정렬하고 '=' 문자로 공백 채우기
s5 = f'{"hi":!<10}'  # 왼쪽 정렬하고 '!' 문자로 공백 채우기
print(s1,s2,s3,s4,s5,sep='\n')

hi        
        hi
    hi    
====hi====
hi!!!!!!!!


In [68]:
y = 3.42134234
s1 = f'{y:0.4f}'  # 소수점 4자리까지만 표현
s2 = f'{y:10.4f}'  # 소수점 4자리까지 표현하고 총 자리수를 10으로 맞춤(오른쪽정렬)
print(s1,s2,sep='\n')

#기존 %방식에서 먹혔던 f 말고s,c,d,o,x,%%, -(왼쪽정렬) 다 안먹힘

3.4213
    3.4213



- %s	문자열(String)
- %c	문자 1개(character)
- %d	정수(Integer)
- %f	부동소수(floating-point)
- %o	8진수
- %x	16진수
- %%	Literal % (문자 % 자체)

문자열 안에도, 밖에도 % 적어줌

In [69]:
#전체 길이가 10개인 문자열 공간에서 대입되는 값을 오른쪽으로 정렬, 소수점 4째자리까지
print("%10.4f" % 3.12345)
print("%-10.4f" % 3.12345) #왼쪽정렬
print("%10.4d" % 3.12345) # 이렇게 하면 안되겠지
print("%d" % 3.12345)

# 정수 부분을 나타내려면 %d를 사용하고, 3.234를 삽입하려면 %f를 사용해야 한다. 
# 하지만 %s를 사용하면 편함. 자동으로 % 뒤에 있는 값을 문자열로 바꾸기 때문이다.
print("%s" % 3.12345)

#두개 넣기
print("%d %s" % (3.12345, '오늘')) 

    3.1235
3.1235    
      0003
3
3.12345
3 오늘


In [70]:
template = '{0:.2f} {1:s} are worth US${2:d}'
template.format(4.5560, 'Argentine Pesos', 1)

'4.56 Argentine Pesos are worth US$1'

### Encoding
- Unicode는 전세계 문자열을 숫자와 대응시킨 문자코드
- 이 숫자를 어떠한 이진법(bytes)으로 바꾸어서 컴퓨터가 알아들을 수 있게 하는 것이 encoding.
- 이 이진법 변환 방식이 UTF-8, UTF-16 등이 있는것.
https://norux.me/31

https://redscreen.tistory.com/163


In [71]:
val = 'español'
print(type(val))

val_utf8 = val.encode('utf-8')
print(val_utf8)
print(type(val_utf8))

decoded = val_utf8.decode('utf8')
print(decoded)

<class 'str'>
b'espan\xcc\x83ol'
<class 'bytes'>
español


## Handling Missing Data
- Python에는 missing data(NA:not available)로 `None`과 `NaN`(np.nan)이 있다.

In [72]:
import numpy as np
import pandas as pd

In [73]:
ar_nan = np.array([10, 20, np.nan, 40])
ar_none = np.array([10, 20, None, 40])
df_nan = pd.DataFrame(ar_nan, columns=['df_nan'])
df_none = pd.DataFrame(ar_none, columns=['df_none'])

#### np.nan과 none 차이
- ndarray일 때, nan이 들어있으면, 연산결과로 nan 리턴. none이 들어가있으면 연산 자체 오류발생
- df일때, nan과 none 모두를 제외한 나머지를 알아서 계산

In [74]:
print(len(ar_nan), len(ar_none)) #둘다 갯수에는 포함됨

print(ar_nan.mean()) # ar_none.sum()는 오류남
print(df_nan.mean(), '\n', df_none.mean())

4 4
nan
df_nan    23.333333
dtype: float64 
 df_none    23.333333
dtype: float64


#### missing data 찾기

- scalar일때는 `is None`
- To detect NaN values numpy uses `np.isnan().`
    - 근데 string열에서 비어있는 값은 np.isnan()쓰면 type error남(float에만 적용가능)
    - `string is np.nan` 으로 해주기
- To detect NaN values pandas uses either .isna() or .isnull().
- https://datascience.stackexchange.com/questions/37878/difference-between-isna-and-isnull-in-pandas

In [75]:
# None은 연산의 대상이 되지 않는다(에러)

np.isnan(ar_nan) # np.isnan(ar_none)  # (예외)
df_nan.isnull()
df_none.isnull()
np.isnan(df_nan.loc[2,'df_nan']) 
# df_nan.loc[2,'df_nan'] is np.nan 는 오류나네..

array([False, False,  True, False])

Unnamed: 0,df_nan
0,False
1,False
2,True
3,False


Unnamed: 0,df_none
0,False
1,False
2,True
3,False


True

In [76]:
a = None
a is None
b = 5
b is not None

True

True

In [77]:
def add_and_maybe_multiply(a, b, c=None):
    result = a + b

    if c is not None:
        result = result * c

    return result

## Dates and times

In [78]:
from datetime import datetime, date, time
dt = datetime(2011, 10, 29, 20, 30, 21)
dt.day
dt.minute

29

30

In [79]:
dt.date()
dt.time()

datetime.date(2011, 10, 29)

datetime.time(20, 30, 21)

In [80]:
dt.strftime('%m/%d/%Y %H:%M')

'10/29/2011 20:30'

In [81]:
datetime.strptime('20091031', '%Y%m%d')

datetime.datetime(2009, 10, 31, 0, 0)

In [82]:
dt.replace(minute=0, second=0)

datetime.datetime(2011, 10, 29, 20, 0)

In [83]:
dt2 = datetime(2011, 11, 15, 22, 30)
delta = dt2 - dt
delta
type(delta)

datetime.timedelta(days=17, seconds=7179)

datetime.timedelta

In [84]:
dt
dt + delta

datetime.datetime(2011, 10, 29, 20, 30, 21)

datetime.datetime(2011, 11, 15, 22, 30)

### 