# **Python 기초**

이 수업에서는 Python에 대해서 다음과 같은 내용을 다룬다.

  - 기본 데이터 타입과 연산
  - 컨테이너(container): `List`, `Dictionary`, `Set`, `Tuple`
  - 함수(function)와 클래스(class)
  
커맨드라인에 다음의 명령어로 현재 시스템에 설치된 파이썬 버전을 확인할 수 있음: `python --version`

In [None]:
!python --version

Python 3.8.10


## 기본 데이터 타입

다른 프로그래밍 언어들처럼 파이썬에도 정수, 실수, 불리언, 문자열 같은 기본 자료형이 있다.

#### Numbers

파이썬의 정수형(Integers)과 실수형(floats) 데이터 타입은 다른 언어와 거의 유사하다.





In [None]:
x = 3
print(type(x))     # Python의 built-in 함수인 `type`함수를 이용하여 데이터의 타입을 확인할 수 있다.

<class 'int'>


In [None]:
print(x + 1)   # Addition
print(x - 1)   # Subtraction
print(x * 2)   # Multiplication
print(x ** 3)  # Exponentiation

4
2
6
27


In [None]:
x += 1
print(x)
x *= 2
print(x)

4
8


In [None]:
y = 2.5
print(type(y))
print(y, y + 1, y * 2, y ** 2)

print(int(y))       # 정수로 타입 캐스팅    (int)y
print(float(x))     # 실수로 타입 캐스팅

print(int(y)/x)     # 피연산자가 둘 다 정수지만 결과는 실수이다.
print((int(y)//x))  # //는 몫을 구하는 연산이다.
print(int(y) % x)   # %는 나머지를 구하는 연산이다.

<class 'float'>
2.5 3.5 5.0 6.25
2
8.0
0.25
0
2


Python에는

- 증감 단항연산자(`x++`, `x--`)가 없으며,
- 지수연산자 `**`가 제공된다.
- 또한 Python 3에서는 나눗셈에서 피연산자가 모두 정수인 경우에도 결과는 실수가 된다.
- 몫을 구하는 연산자는 `//`이며, 나머지 연산자는 `%`이다.
- 파이썬은 long 정수형과 복소수 데이터 타입도 지원한다. 자세한 사항은 [문서](https://docs.python.org/3.7/library/stdtypes.html#numeric-types-int-float-long-complex)를 참조하라.

#### Booleans

논리연산자는 기호(`&&`, `||`, `~`) 대신 영어 단어(`and`, `or`, `not`)를 사용한다.

In [None]:
t, f = True, False    # 이렇게 동시에 여러 변수에 치환할 수 있다.
print(t)
print(type(t))

True
<class 'bool'>


In [None]:
print(t and f) # Logical AND;
print(t or f)  # Logical OR;
print(not t)   # Logical NOT;
print(t != f)  # Logical XOR;

False
True
False
True


#### Strings
파이썬은 문자열을 표현하고 처리하는 다양한 기능을 지원한다:

In [None]:
word = "it's"
print(word)
hello = 'hello'   # String literals can use single quotes
world = "world"   # or double quotes; it does not matter
print(hello, len(hello))

it's
hello 5


In [None]:
hw = hello + ' ' + world  # String concatenation
print(hw)

hello world


In [None]:
age = 12
str = '{} is a {} years old boy.'.format('John', age)
print(str)

John is a 12 years old boy.


문자열 객체에는 유용한 메소드들이 많다; 예를 들어:

In [None]:
s = "hello"
print(s.capitalize())  # Capitalize a string
print(s.upper())       # Convert a string to uppercase; prints "HELLO"
print(s.replace('l', '(ell)'))  # Replace all instances of one substring with another
print('  hello world '.strip())  # Strip leading and trailing whitespace

Hello
HELLO
he(ell)(ell)o
hello world


문자열 내에서 substring을 검색하는 다양한 메서드들을 제공한다.

In [None]:
print(s)
print('ell' in s)
print(s.find('el'))
print(s.find('elm'))
print(s.index('el'))
print(s.index('elm'))

hello
True
1
-1
1


ValueError: ignored

In [None]:
s = 'hello world!'
print(s.count('l'))

3


문자열을 분할(tokenizing)하는 다양한 기능을 제공한다.

In [None]:
str = '10,20,30,400'
print(str.split(','))
print(str.split(',', maxsplit=2))
print(',1,2,,3,'.split(','))

['10', '20', '30', '400']
['10', '20', '30,400']
['', '1', '2', '', '3', '']




모든 문자열 메소드는 [문서](https://docs.python.org/3.7/library/stdtypes.html#string-methods)에서 찾아볼 수 있다.

## 컨테이너 (container)

파이썬은 다음과 같은 컨테이너 타입을 지원한다.
- 리스트(list)
- 딕셔너리(dictionary)
- 집합(set)
- 튜플(tuple)

## 리스트(List)

### 리스트의 생성과 기본 연산들

리스트는 파이썬에서 배열 같은 존재이다. 하지만 배열과 달리 **크기 변경이 가능**하고 **서로 다른 자료형**일지라도 하나의 리스트에 저장될 수 있다:

In [None]:
empty = []        # Create an empty list
print(len(empty)) # the length of a list
xs = [3, 1, 2]    # Create a list of length 3
print(len(xs))

print(xs[0])  # indexing
print(xs[1])
print(xs[2])

xs[0] = 5

print(xs[-1])     # Negative indices count from the end of the list; prints "2"
print(xs[-2])
print(xs[-3])

0
3
3
1
2
2
1
5


리스트에 저장된 값을 변경하거나, 리스트에 새로운 원소를 추가(`append`, `insert`)하고 삭제(`pop`, `remove`)하는 여러 방법들을 제공한다.

In [None]:
xs[2] = ['foo', 'boo']    # Lists can contain elements of different types
print(xs)

[5, 1, ['foo', 'boo']]


In [None]:
xs[3] = 1

IndexError: ignored

In [None]:
xs.append('bar') # Add a new element to the end of the list
print(xs)

[5, 1, ['foo', 'boo'], 'bar']


In [None]:
xs.insert(1, 'orange')      # 특정 위치에 원소 삽입하기
print(xs)

[5, 'orange', 1, ['foo', 'boo'], 'bar']


In [None]:
xs = [3, 'orange', 1, 'foo', 'bar', 10, 0.5]
x = xs.pop()      # Remove and return the last element of the list
print(x, xs)

x = xs.pop(3)
print(xs)

del xs[4]
print(xs)

xs.remove(1)
print(xs)
xs.remove('bar')
print(xs)

0.5 [3, 'orange', 1, 'foo', 'bar', 10]
[3, 'orange', 1, 'bar', 10]
[3, 'orange', 1, 'bar']
[3, 'orange', 'bar']
[3, 'orange']


리스트를 복사하여 새로운 리스트를 만들 수 있다.

In [None]:
thelist = ["apple", "banana", "cherry"]
newlist = thelist

thelist[0] = 'orange'
print(newlist)  # thelist와 newlist는 동일한 리스트 객체를 참조한다.

copiedlist = thelist.copy()  # 리스트를 복제한다.
copiedlist[0] = 'melon'
print(thelist)
print(copiedlist)

thislist = ["apple", "banana", "cherry"]
mylist = list(thislist)  # 새로운 리스트를 생성한다.
mylist[0] = 'strawberry'
print(thislist)
print(mylist)

['orange', 'banana', 'cherry']
['orange', 'banana', 'cherry']
['melon', 'banana', 'cherry']
['apple', 'banana', 'cherry']
['strawberry', 'banana', 'cherry']


두개 이상의 리스트를 하나의 리스트로 합칠 수 있다.

In [None]:
list1 = ["a", "b" , "c"]
list2 = [1, 2, 3]
list3 = list1 + list2
print(list3)

['a', 'b', 'c', 1, 2, 3]


In [None]:
list1 = ["a", "b", "c"]
list2 = [1, 2, 3]
list1 += list2
print(list1)

['a', 'b', 'c', 1, 2, 3]


In [None]:
list1 = ["a", "b" , "c"]
list2 = [1, 2, 3]

list1.extend(list2)
print(list1)

['a', 'b', 'c', 1, 2, 3]


리스트의 리스트는 2차원 배열과 같은 역할을 한다.

In [None]:
ys = [[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]  # 4*3 크기의 이차원 배열처럼 사용한다.
print(len(ys))
print(ys)
print(ys[1])
print(ys[2][2])
# print(ys[1, 2])       # Error

for r in ys:
  print(r)

for r in ys:
  for v in r:
    print(v)

4
[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]
[4, 5, 6]
9
[1, 2, 3]
[4, 5, 6]
[7, 8, 9]
[10, 11, 12]
1
2
3
4
5
6
7
8
9
10
11
12


좀 더 자세한 사항은 [문서](https://docs.python.org/3.7/tutorial/datastructures.html#more-on-lists)를 참조하라.

### 리스트 슬라이싱(slicing)



리스트의 한 원소에 접근하는 것 이외에도, 파이썬은 리스트를 잘라낸 일부분에 접근하는 간결한 문법을 제공한다. 이를 **슬라이싱**이라고 한다.

슬라이싱의 기본 형태는 `x[start:end:step]`이다. `start는 슬라이싱을 시작할 위치, `end는 끝낼(exclusive) 위치, 그리고 `step`은 몇개씩 건너뛸지를 지정한다. `step`은 생략될 수 있고, 그 경우 `step=1`로 간주된다.

In [None]:
# nums = [0, 1, 2, 3, 4]
nums = list(range(5))    # range is a built-in function that creates a list of integers
print(nums)         # Prints "[0, 1, 2, 3, 4]"
print(nums[2:4])    # Get a slice from index 2 to 4 (exclusive); prints "[2, 3]"
print(nums[2:])     # Get a slice from index 2 to the end; prints "[2, 3, 4]"
print(nums[:2])     # Get a slice from the start to index 2 (exclusive); prints "[0, 1]"
print(nums[:])      # Get a slice of the whole list; prints ["0, 1, 2, 3, 4]"
print(nums[:-2])    # Slice indices can be negative; prints ["0, 1, 2]"

print(nums[1::2])   # prints [1, 3]

nums[2:4] = [8, 9]  # Assign a new sublist to a slice
print(nums)         # Prints "[0, 1, 8, 9, 4]"

print(nums[::2])    # Prints [0, 8, 4]

print(nums[-1::-1]) # prints [4, 9, 8, 1, 0]

[0, 1, 2, 3, 4]
[2, 3]
[2, 3, 4]
[0, 1]
[0, 1, 2, 3, 4]
[0, 1, 2]
[1, 3]
[0, 1, 8, 9, 4]
[0, 8, 4]
[4, 9, 8, 1, 0]


리스트를 치환하면 새로운 리스트가 생성되지 않지만, 리스트를 슬라이싱하면 새로운 리스트가 생성된다.

In [None]:
a = [1, 2, 3, 4]
b = a             # a와 b는 동일한 리스트 객체를 참조한다.
c = a[:]          # c는 a의 복사본을 참조한다. 즉, a와 c는 별개의 리스트 객체이다.
b[0] = 0
c[1] = 0
print(a)
print(b)
print(c)

[0, 2, 3, 4]
[0, 2, 3, 4]
[1, 0, 3, 4]


### 원소의 존재 검사와 반복문

아래와 같이 리스트에 특정 원소가 존재하는지 검사할 수 있고, 또한 반복문에서 리스트의 요소들을 반복해서 조회할 수 있다.

In [None]:
animals = ['cat', 'dog', 'monkey']
if 'dog' in animals:
  print("Yes, 'dog' is in the list.")

for animal in animals:
    print(animal)

Yes, 'dog' is in the list.
cat
dog
monkey


만약 반복문 내에서 리스트 각 요소의 인덱스에 접근하고 싶다면, `enumerate` 함수를 사용하라:

In [None]:
animals = ['cat', 'dog', 'monkey']
for idx, animal in enumerate(animals):
    print('#{}: {}'.format(idx + 1, animal))

#1: cat
#2: dog
#3: monkey



### 리스트의 정렬



리스트는 정렬을 위한 `sort` 메서드를 제공한다.

In [None]:
cars = ['Ford', 'BMW', 'Volvo']
print(cars)
cars.sort() # in-place sort
print(cars)
cars.sort(reverse=True)
print(cars)

['Ford', 'BMW', 'Volvo']
['BMW', 'Ford', 'Volvo']
['Volvo', 'Ford', 'BMW']


파이선은 리스트를 정렬하는 `sorted` 함수를 제공한다. 리스트의 원본을 보존하고 정렬된 리스트를 얻고 싶을 때 사용한다.

In [None]:
cars = ['Ford', 'Mitsubishi', 'BMW', 'VW']
result = sorted(cars)  # 원본 리스트를 보존하고 정렬된 새로운 리스트를 반환한다.
print(result)
print(cars)

['BMW', 'Ford', 'Mitsubishi', 'VW']
['Ford', 'Mitsubishi', 'BMW', 'VW']


기본적인(default) 기준이 아닌 다른 기준으로 정렬하고자 할 때에는 정렬에 사용할 custom key를 정의할 수 있다.

In [None]:
# A function that returns the length of the value:
def myFunc(e):
  return len(e)

cars = ['Ford', 'Mitsubishi', 'BMW', 'VW']
cars.sort(key=myFunc)
# cars.sort(key=lambda k: len(k))
print(cars)

['VW', 'BMW', 'Ford', 'Mitsubishi']


In [None]:
words = "This is a test string from Andrew".split()
sorted(words, key=str.lower)

['a', 'Andrew', 'from', 'is', 'string', 'test', 'This']

물론 Python은 custom comparator를 이용하는 보다 generic한 정렬 기능을 제공한다. 그 내용은 생략한다.

### 예: Quicksort

Python으로 직접 정수 리스트를 정렬하는 Quicksort 알고리즘을 구현해보자.

In [None]:
def partition(arr):
    x = arr[len(arr)-1]             # pivot element
    i = -1                          # position of the last element that is less than or equal to pivot
    for j in range(len(arr)-1):     # iterate over elements except pivot
        if arr[j] <= x:
            i += 1
            arr[i], arr[j] = arr[j], arr[i]     # swap
    arr[i+1], arr[len(arr)-1] = arr[len(arr)-1], arr[i+1]
    return i+1

def quicksort(arr):
    if len(arr) <= 1:
        return arr

    q = partition(arr)
    left = arr[:q]
    right = arr[q+1:]

    return quicksort(left) + [arr[q]] + quicksort(right)

data = [ 3, 6, 8, 10, 1, 2, 1 ]
print(quicksort(data))

[1, 1, 2, 3, 6, 8, 10]


### 리스트 컴프리헨션(List Comprehension)

예를 들자면 하나의 리스트에 저장된 모든 숫자의 제곱으로 구성되는 다른 리스트를 구성하는 다음의 코드를 보라:

In [None]:
nums = [0, 1, 2, 3, 4]
squares = []
for x in nums:
    squares.append(x ** 2)
print(squares)

[0, 1, 4, 9, 16]


리스트 comprehension을 이용해 이 코드를 간단하게 만들 수 있다:



In [None]:
# nums = [0, 1, 2, 3, 4]
squares = [x**2 for x in range(5)]
print(squares)

[0, 1, 4, 9, 16]


또한 리스트 comprehension에 조건을 추가할 수도 있다:

In [None]:
# nums = [0, 1, 2, 3, 4, 5, 6]
even_squares = [x ** 2 for x in range(10) if x % 2 == 0]
print(even_squares)

[0, 4, 16, 36, 64]


In [None]:
words = ['hello', 'python', 'and', 'numpy', 'they', 'are', 'really', 'fun']
selected = [str for str in words if 'e' in str]
print(selected)

longstrs = [str.capitalize() for str in words if len(str) > 4]
print(longstrs)

['hello', 'they', 'are', 'really']
['Hello', 'Python', 'Numpy', 'Really']


In [None]:
# nums = [0, 1, 2, 3, 4, 5, 6]
even_squares = [x ** 2 if x % 2 == 0 else -1 for x in range(10) ]
print(even_squares)

[0, -1, 4, -1, 16, -1, 36, -1, 64, -1]


### Quicksort Revisited

In [None]:
def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

print(quicksort([3,6,8,10,1,2,1]))

[1, 1, 2, 3, 6, 8, 10]


### <font color=”blue”> **예제:**  
 </font>



Stackoverflow에서는 매년 개발자들을 대상으로 설문조사를 한다. 조사 결과는 [여기](https://insights.stackoverflow.com/survey)에서 다운로드 받을 수 있다.

2021년 설문 결과를 요약한 `survey_results_public.csv` 파일을 읽어 온다. Python은 `csv` 파일을 쉽게 읽고 처리하기 위한 다양한 방법을 제공하지만 일단 여기에서는 단순한 텍스트 파일로 다루어보자.

In [None]:
# 이 노트북을 Google colab에서 실행할 경우에는 데이터 파일을 google drive에 저장한 후 google drive를 mount해 주어야 한다.
# 이 일은 로컬 머신에서 실행할 때는 불필요하다.

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
file_path = '/content/drive/MyDrive/DataScience2023/chap01_python/data/stack-overflow-developer-survey-2021/survey_results_public.csv'  # for colab

In [None]:
f = open(file_path, 'r', encoding='utf-8')   # 파일을 open한다.

In [None]:
headline = f.readline()           # 파일의 첫 라인을 읽는다. 첫 라인은 테이블의 head이다.
print(headline)
columns = headline.split(',')
print(columns)
print(len(columns))

ResponseId,MainBranch,Employment,Country,US_State,UK_Country,EdLevel,Age1stCode,LearnCode,YearsCode,YearsCodePro,DevType,OrgSize,Currency,CompTotal,CompFreq,LanguageHaveWorkedWith,LanguageWantToWorkWith,DatabaseHaveWorkedWith,DatabaseWantToWorkWith,PlatformHaveWorkedWith,PlatformWantToWorkWith,WebframeHaveWorkedWith,WebframeWantToWorkWith,MiscTechHaveWorkedWith,MiscTechWantToWorkWith,ToolsTechHaveWorkedWith,ToolsTechWantToWorkWith,NEWCollabToolsHaveWorkedWith,NEWCollabToolsWantToWorkWith,OpSys,NEWStuck,NEWSOSites,SOVisitFreq,SOAccount,SOPartFreq,SOComm,NEWOtherComms,Age,Gender,Trans,Sexuality,Ethnicity,Accessibility,MentalHealth,SurveyLength,SurveyEase,ConvertedCompYearly

['ResponseId', 'MainBranch', 'Employment', 'Country', 'US_State', 'UK_Country', 'EdLevel', 'Age1stCode', 'LearnCode', 'YearsCode', 'YearsCodePro', 'DevType', 'OrgSize', 'Currency', 'CompTotal', 'CompFreq', 'LanguageHaveWorkedWith', 'LanguageWantToWorkWith', 'DatabaseHaveWorkedWith', 'DatabaseWantToWorkWith', 'Platfor

In [None]:
data = f.readlines()          # 파일의 나머지 모든 라인을 읽어온다. 라인들의 리스트로 저장된다.
f.close()

print(len(data))
print(data[0].split(','))
print(len(data[0].split(',')))

83439
['1', 'I am a developer by profession', '"Independent contractor', ' freelancer', ' or self-employed"', 'Slovakia', 'NA', 'NA', '"Secondary school (e.g. American high school', ' German Realschule or Gymnasium', ' etc.)"', '18 - 24 years', '"Coding Bootcamp;Other online resources (ex: videos', ' blogs', ' etc)"', 'NA', 'NA', '"Developer', ' mobile"', '20 to 99 employees', 'EUR European Euro', '4800', 'Monthly', 'C++;HTML/CSS;JavaScript;Objective-C;PHP;Swift', 'Swift', 'PostgreSQL;SQLite', 'SQLite', 'NA', 'NA', 'Laravel;Symfony', 'NA', 'NA', 'NA', 'NA', 'NA', 'PHPStorm;Xcode', 'Atom;Xcode', 'MacOS', 'Call a coworker or friend;Visit Stack Overflow;Go for a walk or other physical activity;Google it', 'Stack Overflow', 'Multiple times per day', 'Yes', 'A few times per month or weekly', '"Yes', ' definitely"', 'No', '25-34 years old', 'Man', 'No', 'Straight / Heterosexual', 'White or of European descent', 'None of the above', 'None of the above', 'Appropriate in length', 'Easy', '62268

위에서 마지막 라인의 결과를 보면 테이블의 하나의 셀에 콤마(,)가 포함된 항목(예: Student, full-time)이 있어서 이렇게 `split` 메서드를 이용하여 `csv` 파일을 파싱할 수는 없다는 것을 알수 있다.

Python은 csv 파일을 처리하기 위해서 `csv` 패키지를 제공한다.

In [None]:
import csv

with open(file_path, 'r') as f:    # with clause
  csvreader = csv.reader(f)
  header = next(csvreader)
  print(len(header))
  print(header)

  count = 0
  for row in csvreader:
    count += 1
    if len(row) != 48:
      print(len(row))

  print(count)


48
['ResponseId', 'MainBranch', 'Employment', 'Country', 'US_State', 'UK_Country', 'EdLevel', 'Age1stCode', 'LearnCode', 'YearsCode', 'YearsCodePro', 'DevType', 'OrgSize', 'Currency', 'CompTotal', 'CompFreq', 'LanguageHaveWorkedWith', 'LanguageWantToWorkWith', 'DatabaseHaveWorkedWith', 'DatabaseWantToWorkWith', 'PlatformHaveWorkedWith', 'PlatformWantToWorkWith', 'WebframeHaveWorkedWith', 'WebframeWantToWorkWith', 'MiscTechHaveWorkedWith', 'MiscTechWantToWorkWith', 'ToolsTechHaveWorkedWith', 'ToolsTechWantToWorkWith', 'NEWCollabToolsHaveWorkedWith', 'NEWCollabToolsWantToWorkWith', 'OpSys', 'NEWStuck', 'NEWSOSites', 'SOVisitFreq', 'SOAccount', 'SOPartFreq', 'SOComm', 'NEWOtherComms', 'Age', 'Gender', 'Trans', 'Sexuality', 'Ethnicity', 'Accessibility', 'MentalHealth', 'SurveyLength', 'SurveyEase', 'ConvertedCompYearly']
83439


<font color=”blue”> **문제 1**: 국적이 `'South Korea'`인 응답자가 몇 명인지 세어 보자. 테이블의 4번째 컬럼이 국적이다.

In [None]:
with open(file_path, 'r') as f:
  csvreader = csv.reader(f)
  header = next(csvreader)

  count = 0
  for row in csvreader:
    if row[3] == 'South Korea':
      count += 1
print(count)

189


<font color=”blue”> **문제 2**: Python을 사용하는 응답자가 몇 명인지 세어보자. 17번째 컬럼(`LanguageHaveWorkedWith`)이 사용하는 언어이고, 응답자는 복수의 언어를 선택할 수 있다. 언어명들은 세미콜론(;)으로 구분되어 있다.

In [None]:
with open(file_path, 'r') as f:
  csvreader = csv.reader(f)
  header = next(csvreader)

  count_total = 0
  count_python = 0
  for row in csvreader:
    count_total += 1
    if 'Python' in row[16] or 'python' in row[16]:
      count_python += 1

  print('{} of total {} responders have worked with Python.'.format(count_python, count_total))

39792 of total 83439 responders have worked with Python.


## 딕셔너리(Dictionary)

Java의 맵(map)과 유사하게 파이썬의 딕셔너리는 `(key, value)` 쌍을 저장한다.

In [None]:
d = {'cat': 'cute', 'dog': 'furry'}  # Create a new dictionary with some data

print(d['cat'])       # 키(key)로 인덱싱하여 값(value)을 엑세스할 수 있다.
print('cat' in d)     # Check if a dictionary has a given key; prints "True"

cute
True


In [None]:
d['fish'] = 'wet'     # Set an entry in a dictionary
print(d['fish'])      # Prints "wet"

d['cat'] = 'jsdgf'
print(d)

wet
{'cat': 'jsdgf', 'dog': 'furry', 'fish': 'wet'}


In [None]:
# print(d['monkey'])  # KeyError: 'monkey' not a key of d
print(d.get('monkey'))

None


In [None]:
print(d.get('monkey', 'N/A'))  # Get an element with a default; prints "N/A"
print(d.get('fish', 'N/A'))    # Get an element with a default; prints "wet"

N/A
wet


In [None]:
del d['fish']        # Remove an element from a dictionary
print(d.get('fish', 'N/A')) # "fish" is no longer a key; prints "N/A"

N/A


딕셔너리는 key를 이용하여 쉽게 반복(iterate)할 수 있다.

In [None]:
d = {'person': 2, 'cat': 4, 'spider': 8}
print(d.items())
for animal, legs in d.items():
    print('A {} has {} legs'.format(animal, legs))

for item in d:
  print(item)

dict_items([('person', 2), ('cat', 4), ('spider', 8)])
A person has 2 legs
A cat has 4 legs
A spider has 8 legs
person
cat
spider


리스트 comprehensions과 유사한 딕셔너리 comprehensions을 통해 손쉽게 딕셔너리를 만들 수 있다.

In [None]:
nums = [0, 1, 2, 3, 4]
even_num_to_square = {x: x ** 2 for x in nums if x % 2 == 0}
print(even_num_to_square)

{0: 0, 2: 4, 4: 16}


딕셔너리에 관한 더 세부적인 사항은 [문서](https://docs.python.org/2/library/stdtypes.html#dict)를 참조하라.



<font color=”blue”> **문제 3**: 위의 Stackoverflow 설문 결과에서 각 국가별 응답자의 수를 모두 카운트해보자.

Python은 카운팅을 위한 편리하고 특별한 클래스 `Counter`를 제공하지만 여기에서는 그냥 Dictionary를 이용해서 카운팅을 해보자.

In [None]:
import csv

counter = {}
with open(file_path, 'r') as f:
  csvreader = csv.reader(f)
  header = next(csvreader)

  for row in csvreader:
    if row[3] not in counter:
      counter[row[3]] = 0

    counter[row[3]] += 1

print(counter)

{'Slovakia': 252, 'Netherlands': 1772, 'Russian Federation': 1474, 'Austria': 808, 'United Kingdom of Great Britain and Northern Ireland': 4475, 'United States of America': 15288, 'Malaysia': 333, 'India': 10511, 'Sweden': 1196, 'Spain': 1485, 'Germany': 5625, 'Peru': 147, 'Turkey': 1054, 'Canada': 3012, 'Singapore': 339, 'Brazil': 2254, 'France': 2708, 'Switzerland': 922, 'Malawi': 11, 'Israel': 913, 'Poland': 1805, 'Ukraine': 770, 'Viet Nam': 386, 'Portugal': 530, 'Italy': 1666, 'Bulgaria': 402, 'Greece': 603, 'Iran, Islamic Republic of...': 900, 'Ireland': 386, 'Georgia': 161, 'Uzbekistan': 68, 'Hungary': 478, 'Belgium': 697, 'Pakistan': 838, 'Nigeria': 409, 'Albania': 73, 'Bangladesh': 704, 'Romania': 650, 'Sri Lanka': 396, 'Lithuania': 208, 'Slovenia': 235, 'Croatia': 250, 'Czech Republic': 792, 'Denmark': 599, 'Armenia': 92, 'Lebanon': 113, 'Bahrain': 28, 'Egypt': 521, 'Nepal': 337, 'Colombia': 381, 'Indonesia': 632, 'Australia': 1646, 'Turkmenistan': 13, 'Morocco': 204, 'Chile':

In [None]:
print(sorted(counter))
# print(counter.sort())   # Not working

['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola', 'Argentina', 'Armenia', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bhutan', 'Bolivia', 'Bosnia and Herzegovina', 'Botswana', 'Brazil', 'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Cambodia', 'Cameroon', 'Canada', 'Cape Verde', 'Central African Republic', 'Chad', 'Chile', 'China', 'Colombia', 'Congo, Republic of the...', 'Costa Rica', 'Croatia', 'Cuba', 'Cyprus', 'Czech Republic', "Côte d'Ivoire", 'Democratic Republic of the Congo', 'Denmark', 'Djibouti', 'Dominica', 'Dominican Republic', 'Ecuador', 'Egypt', 'El Salvador', 'Estonia', 'Ethiopia', 'Fiji', 'Finland', 'France', 'Gambia', 'Georgia', 'Germany', 'Ghana', 'Greece', 'Guatemala', 'Guinea', 'Guyana', 'Haiti', 'Honduras', 'Hong Kong (S.A.R.)', 'Hungary', 'Iceland', 'India', 'Indonesia', 'Iran, Islamic Republic of...', 'Iraq', 'Ireland', 'Isle of Man', 'Israel', 'Italy', 'Jam

In [None]:
print(sorted(counter.items()))

[('Afghanistan', 65), ('Albania', 73), ('Algeria', 46), ('Andorra', 12), ('Angola', 27), ('Argentina', 587), ('Armenia', 92), ('Australia', 1646), ('Austria', 808), ('Azerbaijan', 64), ('Bahamas', 7), ('Bahrain', 28), ('Bangladesh', 704), ('Barbados', 12), ('Belarus', 165), ('Belgium', 697), ('Belize', 5), ('Benin', 15), ('Bhutan', 5), ('Bolivia', 48), ('Bosnia and Herzegovina', 130), ('Botswana', 6), ('Brazil', 2254), ('Brunei Darussalam', 1), ('Bulgaria', 402), ('Burkina Faso', 4), ('Burundi', 5), ('Cambodia', 35), ('Cameroon', 38), ('Canada', 3012), ('Cape Verde', 6), ('Central African Republic', 3), ('Chad', 2), ('Chile', 230), ('China', 1055), ('Colombia', 381), ('Congo, Republic of the...', 12), ('Costa Rica', 77), ('Croatia', 250), ('Cuba', 34), ('Cyprus', 56), ('Czech Republic', 792), ("Côte d'Ivoire", 17), ('Democratic Republic of the Congo', 10), ('Denmark', 599), ('Djibouti', 3), ('Dominica', 1), ('Dominican Republic', 104), ('Ecuador', 103), ('Egypt', 521), ('El Salvador', 

In [None]:
def a(kv):
  return kv[1]

# print(sorted(counter.items(), key=a, reverse=True))

print(sorted(counter.items(), key=lambda kv : kv[1], reverse=True))

[('United States of America', 15288), ('India', 10511), ('Germany', 5625), ('United Kingdom of Great Britain and Northern Ireland', 4475), ('Canada', 3012), ('France', 2708), ('Brazil', 2254), ('Poland', 1805), ('Netherlands', 1772), ('Italy', 1666), ('Australia', 1646), ('Spain', 1485), ('Russian Federation', 1474), ('Sweden', 1196), ('China', 1055), ('Turkey', 1054), ('Switzerland', 922), ('Israel', 913), ('Iran, Islamic Republic of...', 900), ('Pakistan', 838), ('Austria', 808), ('Czech Republic', 792), ('Ukraine', 770), ('Bangladesh', 704), ('Belgium', 697), ('Mexico', 695), ('Romania', 650), ('Indonesia', 632), ('Greece', 603), ('Norway', 602), ('Denmark', 599), ('Argentina', 587), ('South Africa', 571), ('Portugal', 530), ('Finland', 528), ('New Zealand', 522), ('Egypt', 521), ('Hungary', 478), ('Japan', 429), ('Nigeria', 409), ('Bulgaria', 402), ('Sri Lanka', 396), ('Viet Nam', 386), ('Ireland', 386), ('Philippines', 382), ('Colombia', 381), ('Singapore', 339), ('Nepal', 337), (

<font color=”blue”> **문제 4**: 위의 Stackoverflow 설문 결과에서 각 프로그래밍 언어별 응답자의 수를 모두 카운트하여, 각 언어의 사용 비율, 즉 각 언어별로 전체 응답자의 몇 퍼센트가 그 언어를 사용하는지 계산하여 비율이 높은 언어부터 순서대로 출력해보자.

In [None]:
# Left as an exercise


## 집합(Set)

집합은 순서가 없는 서로 다른 원소들의 모임이다

In [None]:
animals = {'cat', 'dog'}
print('cat' in animals)   # Check if an element is in a set; prints "True"
print('fish' in animals)  # prints "False"


True
False


In [None]:
animals.add('fish')      # Add an element to a set
print('fish' in animals)
print(len(animals))       # Number of elements in a set;

True
3


In [None]:
animals.add('cat')       # Adding an element that is already in the set does nothing
print(len(animals))
animals.remove('cat')    # Remove an element from a set
print(len(animals))

3
2


집합의 원소들간에는 순서가 없으므로 다음과 같이 집합의 원소들을 iterate할 때 항상 동일한 순서로 iterate되다고 가정해서는 않된다.

In [None]:
animals = {'cat', 'dog', 'fish'}
for idx, animal in enumerate(animals):
    print('#{}: {}'.format(idx + 1, animal))

#1: cat
#2: fish
#3: dog


리스트와 마찬가지로 다음과 같이 set comprehension을 지원한다.

In [None]:
from math import sqrt
print({int(sqrt(x)) for x in range(30)})

{0, 1, 2, 3, 4, 5}


## 튜플(Tuple)

튜플은 immutable한 리스트이다. 즉, 한 번 생성된 튜플은 값을 변경할 수 없다. 그점을 제외하고 튜플은 리스트와 매우 유사하지만 중요한 차이가 한가지 있다. **튜플은 딕셔너리의 key로 사용될 수 있지만 리스트는 그렇지 않다.**

In [None]:
d = {(x, x + 1): x for x in range(10)}  # Create a dictionary with tuple keys
t = (5, 6)       # Create a tuple
print(type(t))
print(d[t])
print(d[(1, 2)])

<class 'tuple'>
5
1


In [None]:
t[0] = 1 # Not working since tuple is immutable

TypeError: ignored

## 함수(Function)

키워드 def를 사용하여 다음과 같이 함수를 정의한다.

In [None]:
def sign(x):
    if x > 0:
        return 'positive'
    elif x < 0:
        return 'negative'
    else:
        return 'zero'

for x in [-1, 0, 1]:
    print(sign(x))

negative
zero
positive


다음과 같이 optional argument와 그것의 default 값을 지정할 수 있다.

In [None]:
def hello(name, loud=False):
    if loud:
        print('HELLO, {}'.format(name.upper()))
    else:
        print('Hello, {}!'.format(name))

hello('Bob')
hello('Fred', loud=True)

Hello, Bob!
HELLO, FRED


Python의 함수는 다른 변수에 치환될 수 있고, 매개변수로 넘겨질 수 있다. 소위 '1급 시민'(First Class Citizen)이다.

In [None]:
myfunc = hello
myfunc('John')

Hello, John!


In [None]:
def process(func):
  func('John')

process(hello)

Hello, John!


## Lambda

Lambda는 한 마디로 '익명의 함수'를 정의하는 규칙이다. 함수를 정의할 때는 코드 상의 여러 곳에서 반복적으로 호출될 것을 염두에 두는 것이 일반적이다. 반면 오직 한 번만 호출되는 함수가 있다면 이를 함수로 정의하는 것은 다소 번거롭다고 할 수 있다. 이럴 경우 lambda를 이용하면 코드를 간결하게 할 수 있다.

In [None]:
my_list = [1, 2, 3, 4, 5, 6]

# Python의 map 함수는 하나의 iterable 객체(리스트, 튜플 등)와 iterable의 각 원소에 적용될
# 하나의 함수를 받아서 iterable의 각 원소에 그 함수를 적용한 결과를
# 하나의 map 객체로 반환한다.
# print(map(lambda x: x*2, my_list))
new_list = list(map(lambda x: x*2, my_list))
print(new_list) # [2, 4, 6, 8, 10, 12]

[2, 4, 6, 8, 10, 12]


In [None]:
my_list = [18, -3, 5, 0, -1, 12]

# Python의 filter 함수는 하나의 iterable 객체와 iterable의 각 원소에 적용될
# 하나의 함수를 받아서 iterable의 각 원소에 그 함수를 적용한 결과가 True인 원소들만을 선택하여
# 하나의 map 객체로 반환한다.
new_list = list(filter(lambda x: x > 0, my_list))
print(new_list) # [18, 5, 12]

[18, 5, 12]


In [None]:
words = ['hello', 'bye', 'morning', 'afternoon', 'today']
print(sorted(words))
print(sorted(words, key=lambda s: len(s)))

['afternoon', 'bye', 'hello', 'morning', 'today']
['bye', 'hello', 'today', 'morning', 'afternoon']


## 클래스(Class)

Python에서는 다음과 같이 클래스를 정의한다.

In [None]:
class Greeter:

    # Constructor
    def __init__(self, name):
        self.name = name  # Create an instance variable

    # Instance method
    def greet(self, loud=False):
        if loud:
          print('HELLO, {}'.format(self.name.upper()))
        else:
          print('Hello, {}!'.format(self.name))

g = Greeter('Fred')  # Construct an instance of the Greeter class
g.greet()            # Call an instance method; prints "Hello, Fred"
g.greet(loud=True)   # Call an instance method; prints "HELLO, FRED!"

Hello, Fred!
HELLO, FRED
