# Pandas를 활용한 데이터 분석

## 강의를 시작하며
본 파일에는 'Pandas를 활용한 데이터 분석' 강의를 진행하며 활용한 주제들이 표시되어 있습니다.

우선 강의를 수강하며 스스로 주어진 문제에 적합한 코드를 작성해보세요.
또한 복사본을 하나 만들어 강의가 끝난 뒤에도 스스로 채워넣으며 복습용으로 활용하여도 좋습니다.

본 강의는 학생 중심의 학습 환경을 조성하기 위하여 학습자 중심의 학습과 학습자-교수자 간 적극적인 상호 소통을 지향합니다.
강의 중 모르는 부분이 있다면 교수자에게 편히 질문해주시기 바랍니다.

---
# 0. 파이썬 실습 환경 구성
본 파일은 Python 3 설치 환경을 필요로 합니다.

# 1. 파이썬 기초 복습 (1) - 자료형, 자료 입출력

In [1]:
# 교수자용 참고자료)
# 유용한 파이썬 기초 정리 블로그: https://dev-ku.tistory.com/category/BackEnd/Python?page=3

## 1-1. 자료형

다양한 자료형의 변수를 선언해봅시다.

<참고> 강의 교안 중 자료형 정리

* 불변형 자료형: 정수형, 실수형, 문자열, 튜플, 불형
* 변형 자료형: 리스트, 딕셔너리

In [2]:
# 교수자 참고사항) 불변형/변형 자료형의 구분은 변경 가능한지의 여부로 구분하며, 확인하는 방법은 연산 후 id(변수)가 바뀌는지 & iterable한지로 확인할 수 있다.

In [3]:
# 파이썬 기초 - print 함수: 괄호 안의 내용 (변수)를 출력하기
print('Hello World')

Hello World


In [4]:
# 정수형 변수
var = 1 # 파이썬은 자동으로 변수의 형식을 인식하고 부여함
print(var)
print(type(var))

1
<class 'int'>


In [5]:
# 실수형 변수
var = 1.0
print(var)
print(type(var))

1.0
<class 'float'>


In [6]:
# 이진수 
var = bin(1)
print(var)
print(type(var))

0b1
<class 'str'>


In [7]:
# 문자형 변수
var = '1'
print(var)
print(type(var))

1
<class 'str'>


In [8]:
# 불형 변수
var = True
print(var)
print(type(var))

# 불형은 숫자로도 표현 가능
var = bool(1)
print(var)
print(type(var))
# 퀴즈) 1은 True, 0은 False, 그렇다면 0과 1이 아닌 다른 숫자들은?
# 답안) True

True
<class 'bool'>
True
<class 'bool'>


파이썬에서는 자료형의 형식을 강제로 지정하고 변경할 수 있습니다.

In [9]:
# 정수형 변수 생성하기
var = 1

# 실수형으로 변환하기
print(float(var))
print(type(float(var)))

# 실수형 변수를 반올림하기
print(round(float(var) + 0.1))

# 문자형으로 변환하기
print(str(var))
print(type(str(var)))

# 불형으로 변환하기
print(bool(var))
print(type(bool(var)))

# 정수형으로 다시 변환하기
print(int(var))

1.0
<class 'float'>
1
1
<class 'str'>
True
<class 'bool'>
1


### 1-1-1. 수치형
지금부터는 수치형 (numeric) 자료형에 대해 배워보겠습니다.<br>
수치형 자료형의 종류로는 정수 (integer), 실수 (float), 그리고 복소수 (complex) 자료형이 있습니다.

In [10]:
# 정수형
print(type(-30))

# 실수형
print(type(-0.123))

# 복소수형
print(type(1 + 3j))

<class 'int'>
<class 'float'>
<class 'complex'>


수치형 데이터에는 다양한 파이썬 기본 산술 연산자가 적용 가능합니다.

In [11]:
# 수치형 데이터 연산자 알아보기

# 예시 데이터 생성하기
a = 2
b = 3

# 더하기
print(a + b)

# 빼기
print(a - b)

# 곱하기
print(a * b)

# 나누기
print(a / b)

# 제곱하기
print(a ** b)

# 나눗셈의 몫 구하기
print(a // b)

# 나눗셈의 나머지 구하기
print(a % b)

5
-1
6
0.6666666666666666
8
0
2


기본 산술연산자에 등호를 응용하면 다양한 할당 연사자를 만들 수 있습니다.

In [12]:
# 수치형 데이터 연산자 알아보기

# 예시 데이터 생성하기
a = 2
b = 3
print(a, b) # (2, 3)

# 더하기에 등호 응용: +=
a += b # a = a + b
print(a, b) # (5, 3)

# 빼기에 등호 응용: -=
a -= b # a = a - b
print(a, b) # (2, 3)

# 곱하기에 등호 응용: *=
a *= b # a = a * b
print(a, b) # (6, 3)

# 나누기에 등호 응용: /=
a /= b # a = a / b
print(a, b) # (2.0, 3) # 2.0 나오는 이유: Python 3부터는 division의 기본값이 true division이다. 참고) https://peps.python.org/pep-0238/

# 제곱하기에 등호 응용: **=
a **= b # a = a ** b
print(a, b)

# 몫 구하기에 등호 응용: %=
a %= b # a = a % b
print(a, b)

# 나머지 구하기에 등호 응용: //=
a //= b # a = a // b
print(a, b)

2 3
5 3
2 3
6 3
2.0 3
8.0 3
2.0 3
0.0 3


### 1-1-2. 부동소수점 실수형
'float'형 또는 부동소수점 실수형에 대해 조금 더 알아봅시다. (IEEE 754 국제표준 기준)

*<참고>* 강의 교안 중 부동소수점 표현 형식 도표

유효숫자를 활용하여 실수를 표현하는 방식은 아래와 같습니다.

$[유효숫자] e [지수] = [유효숫자] \times 10^{[지수]}$

In [13]:
# '[유효숫자]e[지수]' 표현방식을 활용하여 부동소수점 실수형 변수 표현하기
print(118e2)
print(118e-2)
print(-118625e-3)

11800.0
1.18
-118.625


In [14]:
# 유효숫자 e 지수를 활용하여 부동소수점 실수형 변수 표현하기
print(123e2)

12300.0


In [15]:
# 부동소수점 특징: 32bit 표현방식이므로 유효숫자가 너무 클 경우 소수점 이하를 표현하지 못함
print(0.1)
print(0.2)
print(0.3)
print(0.1 + 0.2 == 0.3)
# 이유: 0.1은 이진법으로 표현할 시 0.00

0.1
0.2
0.3
False


$0.1$은 십진법으로는 $0.1$로 표현 가능하지만, 이진법으로는 $0.000110011001100110011001100110011001100⋯_{(2)}$와 같이 표현해야 합니다.<br>
float라는 32bit 저장공간에 무한한 수를 저장할 수 없으므로, 해당 수를 어림하여 저장합니다.

In [16]:
# 노트북 인터페이스에서 결과가 소수점 50자리까지 보이도록 지정
%precision 50
0.1

0.10000000000000000555111512312578270211815834045410

In [17]:
# 원래대로 복구
%precision %r
0.1

0.1

그렇다면 0.1 + 0.2 == 0.3의 값이 `True`를 반환할 수 있도록 표현하는 방법은?

In [18]:
# 방안. round 활용
round(0.1 + 0.2, 5) == round(0.3, 5)

True

즉, 자료형의 형태에 따라 계산 결과가 달라질 수 있으므로, 자료형을 지정할 때에는 주의하여 지정해야 합니다.

In [19]:
# 실수를 정수로 변환하기
print(int(7.777))

7


In [20]:
# 정수를 실수로 변환하기
print(float(7))

7.0


IEEE 754 표준에 따르면 우리는 '숫자가 아닌 값'과 '무한대의 값'을 표현할 수 있습니다.<br>
이는 각각 `NaN`(Not a Number), 그리고 `Inf`(Infinity)라고 표현합니다.<br>
파이썬에서는 다음과 같이 표현할 수 있습니다.

In [21]:
# NaN
print(float('NaN')) # 대소문자 구분 없음

nan


In [22]:
# Inf
print(float('Inf')) # 대소문자 구분 없음

inf


In [23]:
# -Inf
print(float('-Inf')) # 대소문자 구분 없음

-inf


### 1-1-3. 문자열
'string'형 또는 문자열 자료형에 대해 조금 더 알아봅시다.

In [24]:
# 문자열 표현 방법
print('string')
print('''string''')
print("string")
print("""string""")
print("'string'")
print('"string"')

string
string
string
string
'string'
"string"


파이썬 문자열 자료형을 사용할 때에는 이스케이프 코드 (escape code)를 사용하여 특정 문자를 문자열에 포함시킬 수 있습니다.

<참고> 강의 교안 중 이스케이프 코드 도표

In [25]:
# 이스케이프 코드 활용 예시
print('Hello world 1\nHello world 2')

Hello world 1
Hello world 2


문자열 자료형은 문자열 내에 특정 값을 대입할 수 있게 하는 기능을 제공하는데, 이를 포매팅 (formatting)이라고 합니다.

<참고> 강의 교안 중 포맷 코드 도표

In [26]:
# 포맷 코드 활용 예시
number = 3
day = 'five'

# 방법 1
sentence = 'I ate %d apple, and I was sick for %s days.' % (number, day)
print(sentence)

# 방법 2
sentence = 'I ate {} apple, and I was sick for {} days.'.format(number, day) # {}는 형식에 얽매이지 않음
print(sentence)

I ate 3 apple, and I was sick for five days.
I ate 3 apple, and I was sick for five days.


문자열 자료형은 아래와 같은 연산이 가능합니다.

In [27]:
# 문자열 자료형의 연산
a = 'string'; b = 'text'

# 더하기 (concatenate)
print(a + b)

# 곱하기 (반복)
print(a * 2)

# 문자열의 길이 계산
print(len(a))

stringtext
stringstring
6


문자열의 또 다른 특징으로는

1. 접근 또는 인덱싱 (indexing), 그리고
2. 특정 구간 추출 또는 슬라이싱 (slicing)

이 가능하다는 점입니다.

In [28]:
# 문자열 인덱싱 예시
a = 'string'
print(a[0])
print(a[-1])

# 문자열 슬라이싱 예시
b = '971231-2******'
print(b[0:2])
print(b[2:4])
print(b[4:6])
print(b[7:8])

# 불변형 자료형이므로 인덱싱을 통한 assignment는 불가능
# 오류 예시
# print(a[1] = 'p')

s
g
97
12
31
2


문자열에서 사용할 수 있는 주요 내장 메서드는 아래와 같습니다.

In [29]:
# 문자열 관련 메서드 알아보기
a = ' sTring Text '

# 괄호 안의 문자열이 객체 문자열에서 몇 번 나오는지 반환
print(a.count('t'))

# 괄호 안의 문자열이 객체 문자열에서 어느 위치에 있는지 탐색하고 첫 결과 반환
print(a.find('T'))

# 괄호 안의 문자열을 모두 대문자로 변환
print(a.upper()) 

# 괄호 안의 문자열을 모두 소문자로 변환
print(a.lower())

# 좌우의 공백 제거
print(a.strip())

# 특정 문자열을 다른 문자열로 대체
print(a.replace('T', 'p'))

# 괄호 내의 문자열을 기준으로 쪼개서 리스트로 반환, 입력 값이 없을 경우 공백을 기준으로 나눔
print(a.split())

# 괄호 내의 문자열 사이에 앞에 객체로 지정한 문자열을 삽입
print((',').join(a))

# 참고: 문자열 내 문자는 수정/삭제가 불가
# 오류 예시
# del a[0]

1
2
 STRING TEXT 
 string text 
sTring Text
 spring pext 
['sTring', 'Text']
 ,s,T,r,i,n,g, ,T,e,x,t, 


### 1-1-4. 리스트
'list'형 또는 리스트 자료형에 대해 조금 더 알아봅시다.

리스트는 `[]`으로 둘러싸인 데이터의 시퀀스입니다.<br>
파이썬에서는 여러 자료형을 섞어서 리스트로 선언할 수 있음을 참고해주시기 바랍니다.

In [30]:
# 리스트 예시
# 빈 리스트
print([])

# 일반적인 리스트
print([0, True, '2', 3])

# 리스트 안에 리스트
print([1, [2], [3, 4]])

[]
[0, True, '2', 3]
[1, [2], [3, 4]]


문자열과 같은 방식으로 리스트도 연산이 가능하고 인덱싱과 슬라이싱이 가능합니다.<br>
다만 문자열과의 차이점은 리스트는 mutable (변형) 자료형이라는 점이므로, 인덱싱을 통해 원소를 변경할 수 있습니다.

In [31]:
# 리스트 자료형의 연산
a = [1, 2, 3]; b = [4, 5, 6]

# 더하기 (concatenate)
print(a + b)

# 곱하기 (반복)
print(a * 2)

# 인덱싱을 통한 리스트 원소의 수정
a[0] = 'one'
print(a)

# 인덱싱을 통한 리스트 원소의 삭제
del a[0]
print(a)

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 1, 2, 3]
['one', 2, 3]
[2, 3]


리스트와 관련해 사용할 수 있는 주요 함수는 아래와 같습니다.

In [32]:
# 리스트 관련 함수 알아보기
a = [0, True, 2, '3', [4, 5], 6]
b = ['a', 'b', 'A']

# 리스트의 길이 계산
print(len(a))

# 리스트의 합계
print(sum(a[0:3]))
# 오류 예시
# print(sum(a)) # 문자열 자료형은 합계 계산이 불가능함

# 리스트의 최대값
print(max(a[0:3]))
print(max(b))

# 리스트의 최소값
print(min(a[0:3]))
print(min(b))

6
3
2
b
0
A


리스트에서 사용할 수 있는 주요 내장 메서드는 아래와 같습니다.

In [33]:
# 리스트 관련 메서드 알아보기
a = [2, 0, True, '3', [4, 5], 6]
b = a[0:3]

# 처음으로 등장한 괄호 안의 원소를 객체 리스트에서 삭제
a.remove('3')
print(a)

# 괄호 안의 원소가 객체 리스트에서 등장하는 횟수를 반환
print(a.count(6))

# 오름차순 정렬
b.sort()
print(b)

# 리스트의 순서를 반대로 바꿈
a = [2, 0, True, '3', [4, 5], 6]
a.reverse()
print(a)

[2, 0, True, [4, 5], 6]
1
[0, True, 2]
[6, [4, 5], '3', True, 0, 2]


### 1-1-5. 튜플과 집합
'tuple'형 또는 튜플 자료형, 그리고 'set'형 또는 집합 자료형에 대해 조금 더 알아봅시다.

튜플은 `()`로 둘러싸인 데이터의 시퀀스이며 불변형 자료형입니다.<br>
성질은 리스트와 거의 유사하여 인덱싱과 슬라이싱이 가능하나, 수정/변경/삭제는 불가능합니다.

In [34]:
# 튜플 예시
# 빈 튜플
print(())

# 일반적인 튜플
print((1, '2', (3, 4)))

# 튜플 안에 튜플
print((1, [2], (3, 4)))

()
(1, '2', (3, 4))
(1, [2], (3, 4))


다음은 튜플의 연산입니다. 불변형이라는 점을 빼고는 리스트와 거의 동일한 것을 확인할 수 있습니다.

In [35]:
# 튜플 자료형의 연산
a = (1, 2, 3); b = (4, 5, 6)

# 더하기 (concatenate)
print(a + b)

# 곱하기 (반복)
print(a * 2)

# 인덱싱을 통한 리스트 원소의 수정과 삭제가 불가능
# 오류 예시
# a[0] = 'one'
# del a[0]

(1, 2, 3, 4, 5, 6)
(1, 2, 3, 1, 2, 3)


튜플은 리스트를 다룰 수 있는 파이썬 함수와 리스트 내장 메서드 중 데이터를 수정/변경/삭제하는 것을 제외하고 모두 동일하게 사용 가능합니다. 

In [36]:
# 튜플 관련 함수 알아보기
a = (0, True, 2, '3', [4, 5], 6)
b = ('a', 'b', 'A')

# 튜플의 길이 계산
print(len(a))

# 튜플의 합계
print(sum(a[0:3]))
# 오류 예시
# print(sum(a)) # 문자열 자료형은 합계 계산이 불가능함

# 튜플의 최대값
print(max(a[0:3]))
print(max(b))

# 튜플의 최소값
print(min(a[0:3]))
print(min(b))

6
3
2
b
0
A


In [37]:
# 튜플 관련 내장 메서드 알아보기
a = (2, 0, True, '3', [4, 5], 6)
b = a[0:3]

# 괄호 안의 원소가 객체 튜플에서 등장하는 횟수를 반환
print(a.count(6))

# 튜플에서는 사용 불가능한 리스트 내장 메서드: 수정/추가/삭제
# a.remove('3')
# b.sort()
# b.reverse()

1


집합은 `set()`를 통해 변수로 선언이 가능하고, 집합의 원소들이 `{}`로 둘러싸인 데이터의 시퀀스로 표현됩니다.<br>
집합의 원소에는 순서가 없고 중복을 허용하지 않습니다.

In [38]:
# 집합 예시
a = set('samsung')
print(a)

{'a', 'g', 'u', 'n', 's', 'm'}


다음은 집합 관련 내장 메서드를 살펴보겠습니다.

In [39]:
# 집합 관련 내장 메서드 알아보기
a = set('samsung')
b = set(['a', 'b'])

# 괄호 내 원소를 집합에 추가
a.add(1.1)
print(a)

# 주어진 시퀀스 내 원소들을 집합의 원소로 추가
a.update([3.14, True])
print(a)

# 괄호 내 원소를 집합에서 제거
a.remove(True)
print(a)

# 교집합
print(a & b) # 또는 a.intersection(b)

# 합집합
print(a | b) # 또는 a.union(b)

# 차집합
print(a - b) # 또는 a.difference(b)

{'a', 1.1, 'g', 'u', 'n', 's', 'm'}
{'a', 1.1, 3.14, True, 'g', 'u', 'n', 's', 'm'}
{'a', 1.1, 3.14, 'g', 'u', 'n', 's', 'm'}
{'a'}
{'a', 1.1, 3.14, 'g', 'u', 'n', 's', 'm', 'b'}
{1.1, 3.14, 'g', 'u', 'n', 's', 'm'}


### 1-1-6. 딕셔너리 (dictionary)
'dictionary' 또는 딕셔너리 자료형은 데이터가 key-value (키-값)의 쌍을 이루어 저장되는 자료구조입니다.<br>
딕셔너리는 key를 통해 인덱싱하는 것이 특징이며, 집합의 원소처럼 key의 순서는 없고 key의 중복은 허용되지 않습니다.

딕셔너리는 `dict()` 함수를 사용하거나 직접 {key1: value1, key2:value2, $\cdot$}의 형태로 선언할 수 있습니다.<br>
딕셔너리의 key로는 문자열, 정수, 실수, 불 자료형을 사용할 수 있습니다.<br>
딕셔너리의 value로는 리스트, 딕셔너리를 포함한 모든 자료형을 사용할 수 있고, key를 통해 해당 key에 쌍을 이루는 value를 찾을 수 있습니다.

In [40]:
# 딕셔너리 예시
# 빈 딕셔너리
print({}) # 또는 print(dict())

# 일반적인 딕셔너리
print({True:1, 'b':2, 3.1:4})

# 딕셔너리 안에 딕셔너리
print({True:1, 'b':2, 3:{'a':1, 'b':2}})

{}
{True: 1, 'b': 2, 3.1: 4}
{True: 1, 'b': 2, 3: {'a': 1, 'b': 2}}


딕셔너리는 다음 방법을 활용하여 선언이 가능합니다.
* 딕셔너리 = dict(키1 = 값1, 키2 = 값2)
* 딕셔너리 = dict(zip([키1, 키2], [값1, 값2]))
* 딕셔너리 = dict([(키1, 값1), (키2, 값2)])
* 딕셔너리 = dict({키1: 값1, 키2: 값2})

In [41]:
# 딕셔너리 생성 방법 4가지
'''
아래 예시와 같은 딕셔너리를 생성해보세요. *'key': value 순으로 나열됨

예시:
{'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}

'''

# 방법 1.
dict1 = dict(attack = 6, armor = 0, range = 4, attack_speed = 15) # 단, 키에 따옴표를 사용하지 않아야 함 
print(dict1)

# 방법 2.
dict2 = dict(zip(['attack', 'armor', 'range', 'attack_speed'], [6, 0, 4, 15]))
print(dict2)

# 방법 3.
dict3 = dict([('attack', 6), ('armor', 0), ('range', 4), ('attack_speed', 15)])
print(dict3)

# 방법 4.
dict4 = dict({'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15})
print(dict4)

{'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}
{'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}
{'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}
{'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}


다음은 딕셔너리 관련 내장 메서드를 살펴보겠습니다.

In [42]:
# 딕셔너리 관련 내장 메서드 알아보기
a = {'attack': 6, 'armor': 0, 'range': 4, 'attack_speed': 15}

# 딕셔너리의 모든 key를 반환
print(a.keys())

# 딕셔너리의 모든 value를 반환
print(a.values())

# 딕셔너리의 모든 key-value 쌍을 반환 (tuple 형태로 반환)
print(a.items())

# X in Y: 해당 key(X)가 딕셔너리(Y)에 있는지 찾고, 그 결과를 논리값으로 반환
print('attack' in a)

# 딕셔너리를 비우기
a.clear()
print(a)

dict_keys(['attack', 'armor', 'range', 'attack_speed'])
dict_values([6, 0, 4, 15])
dict_items([('attack', 6), ('armor', 0), ('range', 4), ('attack_speed', 15)])
True
{}


### 1-1-7. 불 (boolean)
'boolean' 또는 불 자료형은 `True` 또는 `False`의 논리값만을 가지는 이진 자료형입니다.<br>
파이썬에서는 다양한 자료형을 `bool()` 함수를 통해 불 자료형 변수로 변환할 수 있습니다.

In [43]:
# 불형 예시
a = bool(1)
print(a)

True


그러면 다양한 자료형을 불형으로 변환해봅시다.

In [44]:
# 정수형: 0 그리고 그 외
print(bool(0))
print(bool(2))

# 실수형: 0.0 그리고 그 외
print(bool(0.0))
print(bool(0.1))

# 문자열: '' 그리고 그 외
print(bool(''))
print(bool(' '))

# 리스트 / 딕셔너리 / 튜플: [] / {} / () 그리고 그 외
print(bool([]))
print(bool(['']))

# None
print(bool(None))

False
True
False
True
False
True
False
True
False


불 자료형의 연산은 다음과 같습니다.

In [45]:
# and 논리 연산
print(True and False) # 둘 다 True면 True를 반환, 그 외에는 False를 반환

# or 논리 연산
print(True or False) # 둘 중 하나가 True면 True를 반환, 그 외에는 False를 반환

# not 논리 연산
print(not False)

False
True
True


<심화><br>
위 불 자료형의 연산에 쓰인 세 가지 논리 연산자 외에도 XOR (exclusive OR) 연산자를 정의할 수 있습니다.

변수 a와 변수 b의 XOR 논리 연산은 a와 b가 같은 논리값이면 `True`를 반환, 그 외에는 (즉, 서로 다른 논리값이면) `False`를 반환합니다.

실습: XOR 연산자는 파이썬 기본 함수로 정의되어있지 않습니다.<br>
이를 직접 만들어봅시다.

In [46]:
# 실습: 주어진 변수 a와 b에 대해 XOR 연산자 만들기
a = True; b = False

# 답안
print((a and not b) or (not a and b)) # note: 각 조건은 ()로 묶어주는 것을 확인!

# 그 외에도 가능한 방법
# bool(a) ^ bool(b)
# bool(a) != bool(b)

True


## 1-2. 자료 입출력

### 1-2-1. 자료 쓰고 읽기

지금부터는 기본 파이썬 문법으로 파일을 새로 만들고 문장을 작성하는 방법을 배워보도록 합시다.

파일을 만들고 작성하는 데에는 파이썬 open 함수를 사용할 수 있습니다.<br>
`open()` 함수의 인자는 아래 설명된 것을 참고하며 이해하시면 좋겠습니다.
* `r`: 읽기 전용 (수정 불가)
* `w`: 파일을 새로 만들고, 기존 파일이 존재하면 덮어쓰기
* `a`: `write()` 괄호 안에 적은 새 내용을 기존 파일 마지막에 추가(append)하기

In [47]:
# 파일 만들고 문장 쓰기 예시
file = open('테스트 파일.txt', 'w')
file.write('First line.\n')
file.write('Second line.')
file.close()

작성된 파일을 읽는 방법에는 아래의 함수들을 사용할 수 있습니다.
* `readline()`: 줄바꿈, 개행을 뜻하는 이스케이프 코드 `\n`을 기준으로 앞에서부터 하나의 문장을 선택
* `readlines()`: 개행을 기준으로 문장을 리스트에 넣어 반환
* `read()`: 파일의 전체 내용을 문자열로 반환

In [48]:
# 파일 읽기 예시
# 방법 1.
file = open('테스트 파일.txt', 'r')
print(file.readline())
print(file.readline())
print(file.readline())
file.close()

First line.

Second line.



In [49]:
# 파일 읽기 예시
# 방법 2.
file = open('테스트 파일.txt', 'r')
print(file.readlines())
file.close()

['First line.\n', 'Second line.']


In [50]:
# 파일 읽기 예시
# 방법 3.
file = open('테스트 파일.txt', 'r')
text = file.read()
file.close()

print(text)

First line.
Second line.


<심화> 위 방식에 `with`문을 사용하여 파일 읽기를 실행할 수 있습니다.

```
with <expression> as <variable>:

<block>
```

만약 방법 3.에서 `text = file.read()` 줄에서 에러가 발생하면 file을 닫을 수 없게 됩니다.<br>
하지만 위와 같은 `with`문의 형식을 취하면 에러가 발생하더라도 file을 자동으로 닫아주는 장점이 있습니다.

In [51]:
# 파일 읽기 예시
# 방법 4.
with open('테스트 파일.txt', 'r') as f:
    print(f.readlines())

['First line.\n', 'Second line.']


In [52]:
# 교수자용 참고자료) https://ybworld.tistory.com/116

### 1-2-2. 예외 처리

위에 묘사한 상황과 비슷하게, 파이썬에서 에러가 발생하였을 때에도 코드가 비정상적으로 종료되지 않고 에러에 대응하는 방법을 제시하여 코드가 정상적으로 종료될 수 있도록 하는 것을 '예외 처리'라고 합니다.

먼저 파이썬의 `try-except` 구조를 통해 예외 처리하는 방법을 배워봅시다.

In [53]:
# try-except 예외 처리
try:
    num = int('one')
    print(num)
except ValueError:
    print('에러 발생')

에러 발생


In [54]:
# 구체적인 에러 내용을 as를 활용하여 변수로 받을 수도 있음
try:
    num = int('one')
    print(num)
except ValueError as e:
    print(e)

invalid literal for int() with base 10: 'one'


In [55]:
# except 문을 여러 번 사용할 수도 있음
line = None
try:
    with open('a.txt', 'r') as file:
        line = file.readline()
        num = int('one')
        res = 200 / num
except (IOError, ValueError) as e:
    print('IOError or ValueError', e)
except ZeroDivisionError as e:
    print('ZeroDivisionError', e)

IOError or ValueError [Errno 2] No such file or directory: 'a.txt'


다음은 예외 발생 여부와 상관없이 항상 코드가 실행되게끔 하는 `finally` 문을 사용해봅시다.

In [56]:
# 반드시 실행하는 finally 문
try:
    num = int('one')
    print(num)
except ValueError as e:
    print(e)
finally:
    print('finally') # 위 코드에서 try 문이나 except 문 중 어디에 걸리더라도 반드시 실행

invalid literal for int() with base 10: 'one'
finally


# 2. 파이썬 기초 복습 (2) - 조건문, 반복문, 사용자정의 함수

## 2-1. 조건문

파이썬에서 조건문은 주어진 조건을 만족할 때 특정 명령을 수행하도록 만드는 기능을 가지고 있습니다.

조건문을 사용하는 방법은 다음과 같습니다.
* 조건문 이후에는 콜론이 있어야 함
* 조건문에 해당하는 수행 명령어는 들여쓰기로 구분되어 있어야 함
* 최소 한 줄 이상의 수행 명령어가 있어야 함<br>
(아무런 행동을 하지 않을 때에는 pass 명령어를 기입함)

조건문을 사용할 때 공통적으로 유의할 점은 다음과 같습니다.
* 조건문 내에서 정의된 변수는 제어문 내에서만 활용하는 것이 좋습니다.
    - 조건문이 거짓일 경우 변수가 선언되지 않는데, 이후 조건문 밖에서 해당 변수를 사용하려고 하면 해당 변수가 선언되어있지 않으므로 오류가 발생합니다.
* 조건문을 사용시 들여쓰기에 주의하세요.
* 조건문에도 불 연산이 포함될 수 있습니다.

### 2-1-1. if 문

조건문은 `if` 문을 사용하여 만들 수 있습니다.<br>
`if` 문의 구조는 다음과 같습니다.
```
if 조건:
    명령
```

In [57]:
# if 문 예시
a = 20
if a > 15:
    print('a는 15보다 큽니다.')
print('===============')

a = 10
if a > 15:
    print('a는 15보다 큽니다.')
print('===============')

a는 15보다 큽니다.


`if` 문을 사용할 때 유의할 점은 다음과 같습니다.
* 명령 앞에 들여쓰기는 필수입니다.

### 2-1-2. else 문
`if` 문을 활용하여 조건문을 생성하였을 때에는 `if` 문의 조건이 거짓일 경우가 있습니다.<br> 이처럼 `if` 문이 거짓일 경우에만 특정 명령을 수행하기 위해 우리는 `else` 문을 활용할 수 있습니다.

`if` 문과 `else` 문을 함께 사용한 조건문의 구조는 다음과 같습니다.
```
if 조건:
    명령
else:
    명령
```

In [58]:
# else 문 예시
a = 10
if a > 15:
    print('a 는 15 보다 큽니다.')
else:
    print('a 는 15 보다 작습니다.')
print('===============')

a 는 15 보다 작습니다.


`else` 문을 사용할 때 유의할 점은 다음과 같습니다.
* 명령 앞에 들여쓰기는 필수입니다.
* `else` 단독으로 쓸 수 없고 `if`와 함께 써야 합니다.
* 짝을 이루는 `if` 와 `else` 는 동일한 수준의 들여쓰기가 필수입니다.
* `else` 에는 `if` 와 달리 조건이 붙지 않습니다.


### 2-1-3. elif 문
`if` 문과 `else` 문을 활용하여 조건문을 생성하였더라도 `if` 문의 조건을 조금 더 세분화하고 싶을 경우가 있습니다.<br> 이럴 경우, `elif` 문을 사용하여 `if` 문이 거짓이고 직전의 `elif` 까지 전부 거짓일 경우엔만 특정 명령을 수행하도록 코드를 만들 수 있습니다.

`if` 문과 `elif` 문, 그리고 `else` 문을 모두 함께 사용한 조건문의 구조는 다음과 같습니다. (`elif` 문을 두 번 사용한 예시)
```
if 조건:
    명령
elif 조건:
    명령
elif 조건:
    명령
else:
    명령
```

In [59]:
# elif 문 예시
a = 18
if a > 20:
    print('a 는 20 보다 큽니다.')
elif a > 18:
    print('a 는 20 이하 18 초과입니다.')
elif a > 16:
    print('a 는 18 이하 16 초과입니다.')
else:
    print('a 는 15 보다 작습니다.')
print('===============')

a 는 18 이하 16 초과입니다.


`elif` 문을 사용할 때 유의할 점은 다음과 같습니다.
* 명령 앞에 들여쓰기는 필수입니다.
* `elif` 단독으로 쓸 수 없고 `if`와 함께 써야 합니다.
* 짝을 이루는 `if`, `elif`, `else` 는 동일한 수준의 들여쓰기가 필수입니다.
* 하나씩만 써야하는 `if`, `else`와 달리 `elif`는 다회 사용이 가능합니다.


## 2-2. 반복문

파이썬에서 반복문은 명령을 반복 수행하는 기능을 가지고 있습니다.<br>
그 종류로는 `for` 문과 `while` 문이 있습니다.

### 2-2-1. for 문
`for` 문은 시퀀스 형태의 데이터의 아이템을 순차적으로 대입하여 명령을 반복하는 기능을 수행합니다.

`for` 문의 구조는 다음과 같습니다.
```
for 변수 in 시퀀스:
    명령
```
즉, 변수 값이 할당된 이후 들여쓰기 된 명령어를 수행하는 형태를 띱니다.<br>
변수 값을 할당하는 시퀀스 형태의 데이터로는 보통 리스트, 문자열 또는 `range()`를 많이 사용합니다.

*참고:* `range()`란? https://docs.python.org/3/library/functions.html#func-range
`range(start, stop)`은 `start` 정수에서 시작해 `stop` 정수보다 1 작은 정수까지의 시퀀스를 의미합니다.<br>
`range(stop)`은 `0`에서 시작해 `stop` 정수보다 1 작은 정수까지의 시퀀스를 의미합니다.

In [60]:
# for 문 예시
for i in range(10):
    print(i)

0
1
2
3
4
5
6
7
8
9


`for` 문의 시퀀스로는 리스트, `range()` 외에도 다양한 형태의 item을 활용할 수 있습니다.

* 튜플
* 문자열
* 딕셔너리의 key 그리고 value
* `enumerate()`

In [61]:
# 리스트를 활용한 for 문 예시
for i in [1, 2, 3]:
    print(i)

1
2
3


In [62]:
# 튜플을 활용한 for 문 예시
for i in (1, 2, 3):
    print(i)

1
2
3


In [63]:
# 문자열을 활용한 for 문 예시
for i in 'list':
    print(i)

l
i
s
t


In [64]:
# 딕셔너리를 활용한 for 문 예시
dict_1 = {'a': 1, 'b': 2, 3: 4}

# 딕셔너리 key를 활용
for key in dict_1.keys():
    print(key)

# 딕셔너리 value를 활용
for value in dict_1.values():
    print(value)

# 딕셔너리 item (key, value 쌍)을 활용
for key, value in dict_1.items():
    print(key, value)

a
b
3
1
2
4
a 1
b 2
3 4


In [65]:
# enumerate() 함수를 활용한 for 문 예시
a = [1, 2, 3]
for idx, x in enumerate(a):
    print(idx, x) # x = a[idx]

0 1
1 2
2 3


### 2-2-2. while 문
`while` 문은 특정 조건문과 해당 조건문이 만족될 때 지정된 명령을 반복 수행합니다.<br>
수행할 명령어를 모두 수행한 뒤 특정 조건문을 판별하고, 이 값이 거짓이 될 때까지 반복하는 특징이 있습니다.<br>
그리고 `if` 문과 유사하게 조건문의 뒤에는 콜론이 들어가고 수행 명령어는 들여쓰기로 구분됩니다.

`while` 문의 구조는 다음과 같습니다.
```
while 변수 in 시퀀스:
    명령
```
즉, `for` 문과 다르게 `while` 문은 구조상 조건밖에 없습니다.<br>
따라서 해당 조건문을 거짓으로 만들 수 있어야 `while` 문이 멈출 수 있고, 그렇지 않다면 무한 반복에 빠지게 됩니다.

In [66]:
# while 문 예시
i = 0
while i < 10:
    print(i)
    i += 1

0
1
2
3
4
5
6
7
8
9


문제: `for` 문 vs. `while` 문?

* `for` 문은 조건문의 반복 횟수를 반복용 인덱스를 뽑는 시퀀스의 원소 갯수로 정할 수 있기 때문에, 몇 번 반복할 지 아는 반복문을 생성할 때 주로 사용합니다.
* `while` 문은 구조상 조건문만 주어지기 때문에, 몇 번 반복할 지 모르는 반복문을 생성할 때 주로 사용합니다.

### 2-2-3. break와 continue
`break`는 반복문 내에서 특정 조건문을 만족하는 때에 전체 반복문을 종료시키는 용도로 사용합니다.

In [67]:
# for 문 내 break 용례
for i in range(2, 1000):
    if i > 9:
        break
    print('구구단', i, '단입니다.')
print('구구단 출력을 마칩니다.')

구구단 2 단입니다.
구구단 3 단입니다.
구구단 4 단입니다.
구구단 5 단입니다.
구구단 6 단입니다.
구구단 7 단입니다.
구구단 8 단입니다.
구구단 9 단입니다.
구구단 출력을 마칩니다.


`continue`는 반복문이 실행되는 도중 현재 요소의 반복문 실행을 중지하고 다음 요소로
넘어가서 반복문을 계속 실행하는 용도로 사용합니다.

In [68]:
# for 문 내 continue 용례
for i in range(2, 10):
    if i == 5:
        print(i, '단은 모르겠습니다.')
        continue
    print('구구단', i, '단입니다.')
print('구구단 출력을 마칩니다.')

구구단 2 단입니다.
구구단 3 단입니다.
구구단 4 단입니다.
5 단은 모르겠습니다.
구구단 6 단입니다.
구구단 7 단입니다.
구구단 8 단입니다.
구구단 9 단입니다.
구구단 출력을 마칩니다.


In [69]:
# 실습: for 문 활용하여 구구단 만들기
for dan in range(2, 10):
    print('구구단', dan, '단을 출력합니다')
    for i in range(2, 10):
        print(dan, 'x', i, '=', dan * i)
    print('')

구구단 2 단을 출력합니다
2 x 2 = 4
2 x 3 = 6
2 x 4 = 8
2 x 5 = 10
2 x 6 = 12
2 x 7 = 14
2 x 8 = 16
2 x 9 = 18

구구단 3 단을 출력합니다
3 x 2 = 6
3 x 3 = 9
3 x 4 = 12
3 x 5 = 15
3 x 6 = 18
3 x 7 = 21
3 x 8 = 24
3 x 9 = 27

구구단 4 단을 출력합니다
4 x 2 = 8
4 x 3 = 12
4 x 4 = 16
4 x 5 = 20
4 x 6 = 24
4 x 7 = 28
4 x 8 = 32
4 x 9 = 36

구구단 5 단을 출력합니다
5 x 2 = 10
5 x 3 = 15
5 x 4 = 20
5 x 5 = 25
5 x 6 = 30
5 x 7 = 35
5 x 8 = 40
5 x 9 = 45

구구단 6 단을 출력합니다
6 x 2 = 12
6 x 3 = 18
6 x 4 = 24
6 x 5 = 30
6 x 6 = 36
6 x 7 = 42
6 x 8 = 48
6 x 9 = 54

구구단 7 단을 출력합니다
7 x 2 = 14
7 x 3 = 21
7 x 4 = 28
7 x 5 = 35
7 x 6 = 42
7 x 7 = 49
7 x 8 = 56
7 x 9 = 63

구구단 8 단을 출력합니다
8 x 2 = 16
8 x 3 = 24
8 x 4 = 32
8 x 5 = 40
8 x 6 = 48
8 x 7 = 56
8 x 8 = 64
8 x 9 = 72

구구단 9 단을 출력합니다
9 x 2 = 18
9 x 3 = 27
9 x 4 = 36
9 x 5 = 45
9 x 6 = 54
9 x 7 = 63
9 x 8 = 72
9 x 9 = 81



## 2-3. 사용자정의 함수

파이썬에서는 사용자가 자주 사용될 기능을 임의로 함수로 선언할 수 있습니다.

함수를 정의하는 구조는 아래와 같습니다.
```
def 함수명(var1, var2, ...):
    명령
```

함수를 정의할 때에는 함수를 사용할 때 변수(var)가 가지는 기본값(default)을 설정할 수 있습니다.
```
def 함수명(var1 = default1, var2 = default2, ...):
    명령
```

정의된 함수를 사용하는 구조는 아래와 같습니다.
```
함수명(var1, var2, ...)
```

In [70]:
# 사용자 정의 함수 예시 1
# 숫자 n을 숫자 d로 나누었을 때 몫과 나머지를 계산하는 함수 만들기

# 함수 정의
def division(n, d):
    quotient = n // d
    remainder = n % d
    return quotient, remainder

# 함수 실행
print(division(10, 3))

(3, 1)


In [71]:
# 사용자 정의 함수 예시 2
# 반지름이 주어졌을 때 원의 넓이를 구하는 함수를 정의하고 실행하기

# 함수 정의
pi = 3.14
def circle_area(r):
    return r**2 * pi

# 함수 실행
print(circle_area(3))

28.26


In [72]:
# 사용자 정의 함수 예시 3
# 구구단을 출력하는 함수

# 함수 정의
def printDan(dan):
    print('구구단', dan, '단을 출력합니다.')
    for i in range(2, 10):
        print(dan, 'x', i, '=', dan * i)
        # 참고: 본 함수는 return이 없이 부산물로 print를 뱉어내는 함수

# 함수 실행
printDan(3) # 참고: print(printDan(3)) 하면 return 값은 None이 나온다.

구구단 3 단을 출력합니다.
3 x 2 = 6
3 x 3 = 9
3 x 4 = 12
3 x 5 = 15
3 x 6 = 18
3 x 7 = 21
3 x 8 = 24
3 x 9 = 27


이번에는 사용자 정의 함수의 인자를 추가하는 실습을 해보도록 하겠습니다.

In [73]:
# 실습
'''
printDan 함수는 원래 x 9 까지만 출력한다.
이를 어디까지 출력할지 정할 수 있도록 함수에 인자를 추가해보자. (인자가 총 2개 필요함)
'''

# 답안

# 함수 정의
def printDan(dan, max = 10): # max: 구구단 'dan' 단을 'max'째까지 출력 
    print('구구단', dan, '단을 출력합니다.')
    for i in range(2, max + 1):
        print(dan, 'x', i, '=', dan * i)

# 함수 실행
printDan(dan = 3, max = 6)

구구단 3 단을 출력합니다.
3 x 2 = 6
3 x 3 = 9
3 x 4 = 12
3 x 5 = 15
3 x 6 = 18


추가적인 사용자 정의 함수의 특징입니다.

1. 여러 변수가 있을 경우, `return`을 맨 마지막에 넣어서 원하는 값만을 반환할 수 있도록 만들 수 있습니다.
2. `return` 값을 tuple의 형태로 여러 개의 원소로 반환도 가능합니다.
3. 입력 인자의 갯수를 모를 때에는 `*args`로 정의가 가능합니다.
4. 간단한 함수의 경우 `lambda` 함수로 정의하여 한 줄로 표현하여 사용이 가능합니다.
    - `lambda` 인자: 표현식
    - e.g. `lambda (x, y: x + y) (1, 2) -> 3`
    - `map()` (리스트의 요소를 지정된 함수로 처리해주는 함수)와 `filter()` (특정 조건으로 걸러서 특정 조건에 부합하는 요소들을 반환하는 함수)와 자주 함께 사용합니다.

In [74]:
# 특징 1. return으로 원하는 값만 반환
def summation(num):
    sum = 0
    var = 0
    for i in range(num):
        sum += i + 1
        var += i + 1
    return sum

print(summation(5))

15


In [75]:
# 특징 2. tuple 형태의 return
def sum_mul(num):
    sum = 0
    mul = 1
    for i in range(num):
        sum += i + 1
        mul *= i + 1
    return sum, mul

print(sum_mul(5))

(15, 120)


In [76]:
# 특징 3. *args 입력 인자
def sum_many(*args):
    sum = 0
    for i in args:
        sum += i
    return sum

print(sum_many(1, 2, 3))
print(sum_many(1, 3, 5, 7, 9))

6
25


In [77]:
# 특징 4. lambda 함수

# x + y 함수
print((lambda x, y: x + y)(1, 2))

# x ** 2를 range(5)에 map한 뒤 리스트로 반환하기
print(list(map(lambda x: x ** 2, range(5))))

# range(5)에서 3보다 작은 시퀀스를 리스트로 반환하기
print(list(filter(lambda x: x < 3, range(5))))

3
[0, 1, 4, 9, 16]
[0, 1, 2]


# 3. 판다스 (Pandas) 패키지 및 자료구조 소개

## 3-1. 판다스 설치 및 import

In [78]:
# Pandas 설치 및 import하기
!pip install pandas
import pandas as pd

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## 3-2. 판다스 데이터 구조 소개

판다스 패키지는 시리즈 (Series) 클래스와 데이터프레임 (DataFrame) 클래스를 제공합니다.

In [79]:
# 예시 데이터프레임 생성하기
df_census = pd.DataFrame([['Adams', 20, 'Marketing Manager'],
                   ['Baker', 35, 'Sales Manager'],
                   ['Clark', 30, 'Software Engineer']],
                   columns = ['Name', 'Age', 'Job'])
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [80]:
# 데이터프레임 타입 체크하기
print(type(df_census)) # DataFrame

# 데이터프레임 내 Job 열 타입 체크하기
print(type(df_census.Job)) # Series

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


## 3-3. 시리즈 클래스
시리즈는 1차원 데이터의 시퀀스를 저장하는 자료구조입니다.<br>
시리즈는 파이썬 list를 사용하여 생성할 수 있습니다.

In [81]:
# 예시 리스트 생성하기
list_1 = ['Adams', 'Baker', 'Clark']
list_2 = [20, 35, 30]
list_3 = ['Marketing Manager', 'Sales Manager', 'Software Engineer']

In [82]:
# 예시 리스트로부터 시리즈 생성하기
series_1 = pd.Series(list_1) # 또는 pd.core.series.Series(list_1)
series_2 = pd.Series(list_2)
series_3 = pd.Series(list_3)
print(series_1)

0    Adams
1    Baker
2    Clark
dtype: object


In [83]:
# 시리즈의 값 type을 강제로 지정하기
print(pd.Series(list_2, dtype = 'float'))

0    20.0
1    35.0
2    30.0
dtype: float64


In [84]:
# 시리즈에 인덱스 부여하기
series_1_with_index = pd.Series(list_1,
                                index = ["First", "Second", "Third"])
print(series_1_with_index)

# 인덱스에 접근하기
print(series_1_with_index.index)

# 데이터에 접근하기
print(series_1_with_index.values)

First     Adams
Second    Baker
Third     Clark
dtype: object
Index(['First', 'Second', 'Third'], dtype='object')
['Adams' 'Baker' 'Clark']


시리즈는 파이썬 리스트에 적용되는 인덱싱이 가능합니다.

In [85]:
# 시리즈에 인덱싱하기
print(series_1_with_index[2]) # 기본 인덱싱
print(series_1_with_index[series_1_with_index == 'Baker']) # 조건 인덱싱
print(series_1_with_index['First':'Second']) # 범위 인덱싱

# 시리즈에 연산하기
print(series_2 / 10) # 브로드캐스팅 적용; NumPy 패키지 학습 때 상세히 다룰 예정

Clark
Second    Baker
dtype: object
First     Adams
Second    Baker
dtype: object
0    2.0
1    3.5
2    3.0
dtype: float64


## 3-4. 데이터프레임 클래스

데이터프레임은 2차원 데이터를 저장하는 자료구조입니다.

2차원 데이터는 데이터를 표 형태로 표현하는 관계형 데이터 모델의 데이터 양식입니다.<br>
이는 우리에게 친숙한 엑셀 스프레드시트가 해당 형식을 띄고 있는 데이터 양식이며, 제조 현장 데이터 취합에 주로 사용되는 RDBMS (relational database management system)의 자료 형식이기도 합니다.

데이터프레임을 생성하는 방법 중 하나는 리스트를 input으로 직접 넣는 방식입니다.

In [86]:
# 관심 리스트 생성하기
list_1 = [['One', 2, 'Three'],
          [4, 'Five', 6],
          ['Seven', 8, 'Nine']]

# 리스트로부터 데이터프레임 생성하기
df_list = pd.DataFrame.from_records(list_1) #pd.DataFrame(list_1)와 동일함
print(df_list)

       0     1      2
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


In [87]:
# 행/열 이름을 지정하여 리스트로부터 데이터프레임 생성하기
df_list = pd.DataFrame.from_records(list_1,
                                    index=['R1', 'R2', 'R3'],
                                    columns=['C1', 'C2', 'C3'])
print(df_list)


       C1    C2     C3
R1    One     2  Three
R2      4  Five      6
R3  Seven     8   Nine


데이터프레임을 생성하는 다른 방법은 시리즈를 활용하는 방식입니다.

In [88]:
# 예시 시리즈 생성하기
series_1 = pd.Series(['One', 2, 'Three'])
series_2 = pd.Series([4, 'Five', 6])
series_3 = pd.Series(['Seven', 8, 'Nine'])

# 예시 시리즈로 데이터프레임 생성하기
df_series = pd.DataFrame.from_records([series_1, series_2, series_3])
print(df_series)

       0     1      2
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


데이터프레임을 생성하는 또 다른 방법은 딕셔너리를 활용하는 방식입니다.

In [89]:
# 예시 딕셔너리 생성하기
dict_1 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
          {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
          {'Name': 'Clark', 'Age': 30, 'Job': 'Software Engineer'}] # 열이름만 지정됨; pd.DataFrame(dict_1)와 동일함

# 예시 딕셔너리로 데이터프레임 생성하기
df_dict_1 = pd.DataFrame.from_dict(dict_1) # 열이름만 지정됨; pd.DataFrame(dict_1)와 동일함
print(df_dict_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [90]:
# 예시 딕셔너리 생성하기 (value에 리스트가 들어가는 예시)
dict_2 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}

# 예시 딕셔너리로 데이터프레임 생성하기
df_dict_2 = pd.DataFrame.from_dict(dict_2) # 기존 key가 열이름으로 설정; 행이름은 설정 불가
print(df_dict_2)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [91]:
# 예시 딕셔너리에 행이름 (index)와 열이름 (columns)을 지정하여 생성하기 
dict_3 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}

# 예시 딕셔너리로 데이터프레임 생성하기
df_dict_3 = pd.DataFrame.from_dict(dict_3,
                    orient = 'index', # 데이터를 행방향으로 인식하도록 설정; 기존 key가 행이름으로 설정
                    columns = ['Name', 'Age', 'Job']) # 추가로 열이름을 설정할 수 있게 됨
print(df_dict_3)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


데이터프레임에서는 열 값의 type을 강제로 지정할 수 있습니다.

In [92]:
# 데이터프레임의 값 type을 강제로 지정하기
df_dict_4 = pd.DataFrame.from_dict(dict_2,
                                   dtype = 'object')
print(df_dict_4)
print(df_dict_4.Age) # 기존 int64 값이 object 형태로 변경된 것을 확인

    Name Age                Job
0  Adams  20  Marketing Manager
1  Baker  35      Sales Manager
2  Clark  30  Software Engineer
0    20
1    35
2    30
Name: Age, dtype: object


**심화**

딕셔너리로 데이터프레임을 생성할 때 주의해야 할 점은, 딕셔너리에는 순서가 없다는 점입니다.

따라서 key: value 꼴의 딕셔너리를 사전에 정의한 순서대로 활용하고 싶을 경우, collections 모듈의 OrderedDict 클래스를 활용합니다.

In [93]:
# 심화: OrderedDict를 활용하여 딕셔너리의 순서까지 유지하여 데이터프레임을 생성하기
from collections import OrderedDict
ordereddict_1 = OrderedDict(
    [
        ('C3', ['One', 4, 'Seven']),
        ('C2', [2, 'Five', 8]),
        ('C1', ['Three', 6, 'Nine'])
    ]
    )

# 예시 딕셔너리로 데이터프레임 생성하기
df_dict_5 = pd.DataFrame.from_dict(ordereddict_1,
                                   dtype = 'object')
print(df_dict_5)

      C3    C2     C1
0    One     2  Three
1      4  Five      6
2  Seven     8   Nine


# 4. 판다스 기본 문법 및 자료 입출력

## 4-1. 데이터프레임 저장하기 / 읽어오기

데이터프레임을 저장하고, 저장된 데이터프레임을 불러오는 방법입니다.

In [94]:
# 데이터프레임 저장하기
# 참고) csv파일을 다른 프로그램에서 열고 있을 경우 .to_csv()로 저장되지 않음
dict_1 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
    {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
    {'Name': 'Clark', 'Age': 30, 'Job': 'Software Engineer'}]
df_dict_1 = pd.DataFrame.from_dict(dict_1)
df_dict_1.to_csv('df_census.csv',
                 index = False,
                 header = True) # index와 header를 True / False로 지정하는 것의 차이를 실습으로 익히기

# 데이터프레임 불러오기
df_census = pd.read_csv('df_census.csv')
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [95]:
# 데이터프레임 저장할 때 NaN 값을 fill_value로 대체하기
dict_2 = [{'Name': 'Adams', 'Age': 20, 'Job': 'Marketing Manager'},
    {'Name': 'Baker', 'Age': 35, 'Job': 'Sales Manager'},
    {'Name': 'Clark', 'Age': 30, 'Job': None}] # 빈칸을 의도적으로 만들어놓음
df_dict_2 = pd.DataFrame.from_dict(dict_2)
df_dict_2.to_csv('df_census_with_nan.csv',
                 na_rep = 'fill_value',
                 index = False,
                 header = True) # index와 header를 True / False로 지정하는 것의 차이를 실습으로 익히기

# 데이터프레임 읽어오기
df_census = pd.read_csv('df_census_with_nan.csv')
print(df_census)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30         fill_value


## 4-2. 인터넷에서 오픈소스 CSV 데이터 불러오기

이번에는 인터넷에서 open-source 데이터를 불러오는 방법입니다.
예시로 UCI ML repository의 winequality-red.csv 파일을 불러오겠습니다.

In [96]:
# Vinho Verde 레드와인 품질 데이터 불러오기
'''
주소: 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
'''
wine_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep = ';')
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

주어진 데이터프레임의 다양한 정보들을 뽑아볼 수 있습니다.

In [97]:
# 데이터프레임 기초통계량 확인하기
print(wine_data.describe())

       fixed acidity  volatile acidity  citric acid  residual sugar  \
count    1599.000000       1599.000000  1599.000000     1599.000000   
mean        8.319637          0.527821     0.270976        2.538806   
std         1.741096          0.179060     0.194801        1.409928   
min         4.600000          0.120000     0.000000        0.900000   
25%         7.100000          0.390000     0.090000        1.900000   
50%         7.900000          0.520000     0.260000        2.200000   
75%         9.200000          0.640000     0.420000        2.600000   
max        15.900000          1.580000     1.000000       15.500000   

         chlorides  free sulfur dioxide  total sulfur dioxide      density  \
count  1599.000000          1599.000000           1599.000000  1599.000000   
mean      0.087467            15.874922             46.467792     0.996747   
std       0.047065            10.460157             32.895324     0.001887   
min       0.012000             1.000000         

In [98]:
# 데이터프레임 행/열 정보 확인하기
print(wine_data.index)
print(wine_data.columns)

RangeIndex(start=0, stop=1599, step=1)
Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object')


In [99]:
# 데이터프레임 행/열 정보 확인하기
print(wine_data.index)
print(wine_data.columns)

RangeIndex(start=0, stop=1599, step=1)
Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object')


In [100]:
# 데이터프레임 형태, 차원수, 길이 확인하기
print(wine_data.shape)
print(wine_data.ndim)
print(wine_data.size)

(1599, 12)
2
19188


In [101]:
# 데이터프레임 원소별 결측여부 확인하기
print(wine_data.isnull())

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0             False             False        False           False      False   
1             False             False        False           False      False   
2             False             False        False           False      False   
3             False             False        False           False      False   
4             False             False        False           False      False   
...             ...               ...          ...             ...        ...   
1594          False             False        False           False      False   
1595          False             False        False           False      False   
1596          False             False        False           False      False   
1597          False             False        False           False      False   
1598          False             False        False           False      False   

      free sulfur dioxide  

In [102]:
# 데이터프레임 열별 결측여부 확인하기
print(wine_data.isnull().sum(axis = 0))

# 데이터프레임 행별 결측여부 확인하기
print(wine_data.isnull().sum(axis = 1))

fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64
0       0
1       0
2       0
3       0
4       0
       ..
1594    0
1595    0
1596    0
1597    0
1598    0
Length: 1599, dtype: int64


## 4-3. 인터넷에서 오픈소스 데이터베이스 데이터 불러오기 

Pandas를 활용하면 오픈소스 데이터베이스에서 데이터를 불러올 수도 있습니다.<br>
다만, 이를 위해서는 추가 라이브러리가 필요하니, 아래 안내에 따라 설치해주시면 됩니다.

In [103]:
# 라이브러리 설치하기
!pip install pandas-datareader
!pip install yfinance

# 관련 라이브러리 불러오기
from pandas_datareader import data as pdr # 참고) https://pandas-datareader.readthedocs.io/en/latest/remote_data.html
import yfinance as yf
import datetime

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [104]:
# 데이터베이스에서 데이터 불러오기 예시 1: Federal Reserve Economic Data (FRED) 데이터베이스에서 미국 경제지표 시계열 데이터 불러오기

# 시계열 데이터의 처음과 끝 날짜를 지정하기
dt_start = datetime.datetime(2022, 1, 1) # "2022, 1, 1" 이라고 넣어줘도 됨
dt_end = datetime.datetime(2023, 3, 10) # "2023, 3, 10" 이라고 넣어줘도 됨

# FRED 데이터베이스에서 미국 국가총생산 데이터를 가져오기
df_gdp = pdr.get_data_fred(["GDP"],
                           dt_start,
                           dt_end)

print(df_gdp.tail())

                  GDP
DATE                 
2022-01-01  24740.480
2022-04-01  25248.476
2022-07-01  25723.941
2022-10-01  26144.956


In [105]:
# FRED 데이터베이스에서 미국 소비자 가격 지수(CPIAUCSL), 식료품 및 연료를 제외한 소비자 가격 지수(CPILFESL) 데이터를 가져오기
df_inflation = pdr.get_data_fred(["CPIAUCSL", "CPILFESL"],
                                 dt_start,
                                 dt_end)
print(df_inflation.tail())

            CPIAUCSL  CPILFESL
DATE                          
2022-10-01   297.987   299.333
2022-11-01   298.598   300.261
2022-12-01   298.990   301.460
2023-01-01   300.536   302.702
2023-02-01   301.648   304.070


In [106]:
# 데이터베이스에서 데이터 불러오기 예시 2: Yahoo Finance 데이터베이스에서 2023년 3월 초 삼성전자 주가 데이터 불러오기

# 시계열 데이터의 처음과 끝 날짜를 지정하기
dt_start = datetime.datetime(2023, 3, 1) # "2023, 3, 1" 이라고 넣어줘도 됨
dt_end = datetime.datetime(2023, 3, 10) # "2023, 3, 10" 이라고 넣어줘도 됨

In [107]:
# 삼성전자 KS관련 주가 자료를 Yahoo Finance에서 불러오기
yf.pdr_override() # Yahoo 데이터 제공 방식이 변경됨에 따라 pandas_datareader만으로는 수집이 불가하여 yfinance 라이브러리를 통해 데이터 획득 방식을 크롤링으로 변경
y_symbols = ['005930.KS'] # 삼성전자 코드
df_stock = pdr.get_data_yahoo(y_symbols,
                              start = dt_start,
                              end = dt_end)
print(df_stock)

[*********************100%***********************]  1 of 1 completed
               Open     High      Low    Close  Adj Close    Volume
Date                                                               
2023-03-02  60900.0  61800.0  60500.0  60800.0    60800.0  13095682
2023-03-03  61000.0  61200.0  60500.0  60500.0    60500.0  10711405
2023-03-06  61100.0  61600.0  60800.0  61500.0    61500.0  13630602
2023-03-07  61400.0  61400.0  60700.0  60700.0    60700.0  11473280
2023-03-08  60100.0  60500.0  59900.0  60300.0    60300.0  14161857
2023-03-09  60500.0  60800.0  59900.0  60100.0    60100.0  14334499


# 5. Data processing (1)

## 5-1. 인덱스로 행 필터하기

In [108]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


파이썬 리스트를 인덱싱하는 방법과 동일하게 행 인덱스를 사용하여 1행부터 2행까지 순차적으로 선택하는 예제입니다.
참고로, 1행은 두번째 행을 의미합니다.

In [109]:
# 데이터프레임 인덱싱하기
print(df_1[1:3])

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


연속적이지 않은 데이터를 인덱싱을 하는 방법으로는 .loc 메서드와 .iloc 메서드가 있습니다.

In [110]:
# .loc 메서드 활용하여 0행, 2행을 인덱싱하기
print(df_1.loc[[0, 2]])

    Name  Age                Job
0  Adams   20  Marketing Manager
2  Clark   30  Software Engineer


In [111]:
# .iloc 메서드 활용하여 0행, 2행을 인덱싱하기
print(df_1.iloc[[0, 2]])

    Name  Age                Job
0  Adams   20  Marketing Manager
2  Clark   30  Software Engineer


두 방법의 차이는 무엇일까요?

바로 .loc은 인덱스의 레이블을 인자로 받는 반면 .iloc은 인덱스의 위치 정수를 인자로 받는다는 점입니다.

In [112]:
# 행 인덱스를 명시한 예시 데이터프레임 생성하기
dict_2 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_2 = pd.DataFrame.from_dict(dict_2,
                              orient = 'index')
print(df_2)

        0   1                  2
R1  Adams  20  Marketing Manager
R2  Baker  35      Sales Manager
R3  Clark  30  Software Engineer


In [113]:
# .loc 메서드 활용하여 인덱싱하기
#print(df_2.loc[[0, 2]]) # 오류 발생

In [114]:
# .iloc 메서드 활용하여 인덱싱하기
print(df_2.iloc[[0, 2]])

        0   1                  2
R1  Adams  20  Marketing Manager
R3  Clark  30  Software Engineer


## 5-2. 조건에 따라 행 필터하기
특정 열의 값에 따른 조건을 충족하는 행만 선택하여 추출할 수 있습니다.

In [115]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [116]:
# 조건문을 전달하여 인덱싱하기
df_1_cond = df_1[df_1.Age > 25] # Age 열을 뽑고 싶을 때는 .Age를 활용
print(df_1_cond)

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [117]:
# 다중 조건문을 전달하여 인덱싱하기
df_1_multi_cond = df_1[(df_1.Age < 25) & (df_1.Name == 'Adams')]
print(df_1_multi_cond)

    Name  Age                Job
0  Adams   20  Marketing Manager


In [118]:
# 쿼리 메서드를 활용하여 인덱싱하기
df_1_queried = df_1.query('Age > 25')
print(df_1_queried)

    Name  Age                Job
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


## 5-3. 인덱스로 열 필터하기

In [119]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


앞에서 보셨던 .iloc 메서드를 활용하면 1열부터 2열까지 열을 선택할 수 있습니다. 참고로, 1열은 두번째 열을 의미합니다.

In [120]:
# .iloc 메서드 활용하여 인덱싱하기
df_1.iloc[:, 1:3]

Unnamed: 0,Age,Job
0,20,Marketing Manager
1,35,Sales Manager
2,30,Software Engineer


.iloc 메서드는 연속적이지 않은 인덱스에 대해서도 인덱싱을 할 수 있습니다.
이는 열을 필터하는 데에도 마찬가지입니다.

In [121]:
# .iloc 메서드 활용하여 불연속 인덱싱하기
df_1.iloc[:, [0, 2]]

Unnamed: 0,Name,Job
0,Adams,Marketing Manager
1,Baker,Sales Manager
2,Clark,Software Engineer


## 5-4. 열 이름으로 열 필터하기

데이터에서 추출하고 싶은 열 이름을 알고 있다면 이를 필터링에 바로 활용하는 방법도 있습니다.

In [122]:
# Vinho Verde 레드와인 품질 데이터 불러오기
'''
주소: 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'
'''
wine_data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep = ';')
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

In [123]:
# 관심 열 추출하기: 와인에서 pH농도와 알코올 함량 보기
# 리스트 인덱싱을 활용하기
wine_data_filtered = wine_data[['pH', 'alcohol']]
print(wine_data_filtered)

        pH  alcohol
0     3.51      9.4
1     3.20      9.8
2     3.26      9.8
3     3.16      9.8
4     3.51      9.4
...    ...      ...
1594  3.45     10.5
1595  3.52     11.2
1596  3.42     11.0
1597  3.57     10.2
1598  3.39     11.0

[1599 rows x 2 columns]


In [124]:
# 관심 열 추출하기: 데이터프레임의 filter 메서드를 활용하기
print(wine_data.filter(items = ['pH', 'alcohol']))

        pH  alcohol
0     3.51      9.4
1     3.20      9.8
2     3.26      9.8
3     3.16      9.8
4     3.51      9.4
...    ...      ...
1594  3.45     10.5
1595  3.52     11.2
1596  3.42     11.0
1597  3.57     10.2
1598  3.39     11.0

[1599 rows x 2 columns]


filter 메서드를 사용하더라도 원본 데이터프레임은 변하지 않습니다.

In [125]:
# filter 메서드 사용 후 원본 데이터 체크하기
print(wine_data)

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0               7.4             0.700         0.00             1.9      0.076   
1               7.8             0.880         0.00             2.6      0.098   
2               7.8             0.760         0.04             2.3      0.092   
3              11.2             0.280         0.56             1.9      0.075   
4               7.4             0.700         0.00             1.9      0.076   
...             ...               ...          ...             ...        ...   
1594            6.2             0.600         0.08             2.0      0.090   
1595            5.9             0.550         0.10             2.2      0.062   
1596            6.3             0.510         0.13             2.3      0.076   
1597            5.9             0.645         0.12             2.0      0.075   
1598            6.0             0.310         0.47             3.6      0.067   

      free sulfur dioxide  

## 5-5. 지정 문자열을 포함하는 행 /열 필터하기

filter 메서드에서 like 인자를 활용하면 원하는 문자열을 이름에 포함하는 행 / 열을 보여줄 수 있습니다.

In [126]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [127]:
# 행 이름 중 지정한 문자열을 가진 행 필터하기
df_1.filter(like = '0', axis = 0)

Unnamed: 0,Name,Age,Job
0,Adams,20,Marketing Manager


In [128]:
# 열 이름 중 지정한 문자열을 가진 열 필터하기
df_1.filter(like = 'o',axis = 1)

Unnamed: 0,Job
0,Marketing Manager
1,Sales Manager
2,Software Engineer


심화) filter 메서드에는 정규 표현식을 활용한 필터도 가능합니다.

In [129]:
# 예시) 지정한 문자열로 시작하는 열 이름을 가진 열 필터하기
df_1.filter(regex = '^N', axis = 1)

Unnamed: 0,Name
0,Adams
1,Baker
2,Clark


In [130]:
# 교수자용 참고자료) 파이썬 정규표현식 참고자료: https://wikidocs.net/4308

# 6. Data processing (2)

## 6-1. 인덱스로 행 삭제하기

제외하고 싶은 행의 인덱스를 .drop 메서드에 리스트 인자로 명시하여 행을 삭제할 수 있습니다.

In [131]:
# 행, 열 이름을 명시한 예시 데이터프레임 생성하기
dict_1 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1,
                              orient = 'index',
                              columns = ['Name', 'Age', 'Job'])
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


In [132]:
# 제외하고 싶은 행 이름을 .drop 메서드의 인자로 제공하기
df_1.drop(['R2'])

Unnamed: 0,Name,Age,Job
R1,Adams,20,Marketing Manager
R3,Clark,30,Software Engineer


drop 메서드를 활용하더라도 원본 데이터프레임은 변하지 않습니다.

In [133]:
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


특정 행을 삭제한 데이터프레임을 저장하려면 새로 저장 (또는 덮어쓰기)하는 방법이 있습니다.

반면에, inplace 인자는 행 삭제의 결과가 원본 데이터프레임에 바로 반영됩니다.

In [134]:
# 행, 열 이름을 명시한 예시 데이터프레임 생성하기
dict_1 = {'R1': ['Adams', 20, 'Marketing Manager'],
          'R2': ['Baker', 35, 'Sales Manager'],
          'R3': ['Clark', 30, 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1,
                              orient = 'index',
                              columns = ['Name', 'Age', 'Job'])
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R2  Baker   35      Sales Manager
R3  Clark   30  Software Engineer


In [135]:
# 제외하고 싶은 행 이름을 .drop 메서드의 인자로 제공하기
df_1.drop(['R2'], inplace = True)
print(df_1)

     Name  Age                Job
R1  Adams   20  Marketing Manager
R3  Clark   30  Software Engineer


.iloc을 활용하여 행을 필터할 때처럼 위치 정수를 명시하여 행을 삭제하는 방법도 가능합니다.

In [136]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [137]:
# 데이터프레임의 index 메서드 활용하여 인덱스를 명시하고 삭제하기
df_1_dropped = df_1.drop(df_1.index[[0, 2]])
print(df_1_dropped)

    Name  Age            Job
1  Baker   35  Sales Manager


## 6-2. 조건에 따라 행 삭제하기

필터와 마찬가지로 특정 열의 값에 따른 조건을 충족하는 행만 선택하여 추출할 수 있습니다.

In [138]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [139]:
# 조건에 따라 행 삭제하기
print(df_1[df_1.Age != 30])

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager


## 6-3. 열 삭제하기

특정 열을 삭제하고 싶을 때에는 .drop 메서드를 활용하면 됩니다.
이때 axis 인자에 1을 넣어주어야 해당하는 열이 삭제됩니다.

In [140]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [141]:
# 지정한 열 이름에 해당하는 데이터프레임의 열 삭제하기
df_1_dropped = df_1.drop('Age', axis = 1)
print(df_1_dropped)

    Name                Job
0  Adams  Marketing Manager
1  Baker      Sales Manager
2  Clark  Software Engineer


## 6-4. 열 추가 / 변경하기

In [142]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


새로운 열을 추가하려면 데이터프레임에 존재하지 않는 새로운 이름을 인덱싱한 값에 기본값을 할당하여 추가할 수 있습니다.

In [143]:
# 데이터프레임에 새로운 열 추가하기
df_1['Height'] = 0 # 기본값을 0 으로 할당하기
print(df_1)

    Name  Age                Job  Height
0  Adams   20  Marketing Manager       0
1  Baker   35      Sales Manager       0
2  Clark   30  Software Engineer       0


또한 기존에 존재하는 데이터프레임 열에 대한 논리값이나 논리 연산 결과를 새로운 열로 생성할 수도 있습니다.

In [144]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [145]:
# 논리 연산을 활용하여 새로운 열 생성하기
df_1['Is_Engineer'] = (df_1['Age'] < 30) # Age 30 미만 여부
print(df_1)

    Name  Age                Job  Is_Engineer
0  Adams   20  Marketing Manager         True
1  Baker   35      Sales Manager        False
2  Clark   30  Software Engineer        False


아래는 기존에 있는 두 열을 활용해 새로운 값을 계산하고 저장하는 예제입니다.

키와 몸무게를 활용하여 BMI를 계산하고 이를 새로운 열에 저장합니다.

In [146]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Height(m)': [1.85, 1.75, 1.70],
          'Weight(kg)': [80, 55, 65],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Height(m)  Weight(kg)                Job
0  Adams       1.85          80  Marketing Manager
1  Baker       1.75          55      Sales Manager
2  Clark       1.70          65  Software Engineer


In [147]:
# Height와 Weight를 활용하여 BMI 계산하기 (BMI = W/(H^2))
df_1['BMI'] = df_1['Weight(kg)'] / df_1['Height(m)'] ** 2
print(df_1)

    Name  Height(m)  Weight(kg)                Job        BMI
0  Adams       1.85          80  Marketing Manager  23.374726
1  Baker       1.75          55      Sales Manager  17.959184
2  Clark       1.70          65  Software Engineer  22.491349


또한 for-loop을 활용한 조건문을 적용하여 새로운 열을 추가할 수도 있습니다.

실습을 통해 BMI로 데이터프레임 내 사람들의 비만 여부를 판단해봅시다.

In [148]:
# 실습: BMI에 조건을 적용하여 구분하기
category = []

for row in df_1['BMI']:
    if row >= 25:
        category.append('Obesity')
    elif row >= 23:
        category.append('Overweight')
    elif row >= 18.5:
        category.append('Normal weight')
    else:
        category.append('Underweight')
        
df_1['BMI category'] = category
print(df_1)

    Name  Height(m)  Weight(kg)                Job        BMI   BMI category
0  Adams       1.85          80  Marketing Manager  23.374726     Overweight
1  Baker       1.75          55      Sales Manager  17.959184    Underweight
2  Clark       1.70          65  Software Engineer  22.491349  Normal weight


## 6-5. apply 메서드 활용하기

apply 메서드를 사용하시면 사용자가 정의한 함수를 활용해 데이터프레임의 열 값을 변경할 수 있습니다.

In [149]:
# 예시 데이터프레임 생성하기
dict_1 = {'Name': ['Adams', 'Baker', 'Clark'],
          'Age': [20, 35, 30],
          'Job': ['Marketing Manager', 'Sales Manager', 'Software Engineer']}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

    Name  Age                Job
0  Adams   20  Marketing Manager
1  Baker   35      Sales Manager
2  Clark   30  Software Engineer


In [150]:
# 사용자 정의 함수 만들기
def is_manager(row):
    if "Manager" in row:
        return 'Manager'
    else:
        return 'Engineer'

In [151]:
# apply 메서드를 활용하여 데이터프레임 열 값을 변경하기
df_1.Job = df_1.Job.apply(is_manager)
print(df_1)

    Name  Age       Job
0  Adams   20   Manager
1  Baker   35   Manager
2  Clark   30  Engineer


아래 예제를 통해 apply 메서드를 사용하여 전화번호 데이터프레임 중 지역번호를 추출해봅시다.

In [152]:
# 예시 전화번호 데이터프레임 생성하기
df_phone_number = [{'전화번호': '031-123-4567'},
                   {'전화번호': '032-555-5555'},
                   {'전화번호': '033-999-9999'}]
df_1 = pd.DataFrame(df_phone_number, columns = ['전화번호'])
print(df_1)

           전화번호
0  031-123-4567
1  032-555-5555
2  033-999-9999


In [153]:
# 사용자 정의 함수: 지역번호 추출
def extract_local_number(row):
    return row.split('-')[0]

In [154]:
# apply 메서드를 활용해 지역번호 추출하기
df_1['지역번호'] = df_1['전화번호'].apply(extract_local_number)
print(df_1)

           전화번호 지역번호
0  031-123-4567  031
1  032-555-5555  032
2  033-999-9999  033


apply 메서드의 키워드 인자를 사용하면, 사용자 정의 함수에 파라미터를 전달할 수 있습니다.

In [155]:
# 지역번호를 안내하는 멘트 만들기
def generate_sentence(local_number, sentence_start = '지역번호는 ', sentence_end = '입니다'):
    return sentence_start + str(local_number) + sentence_end

In [156]:
# apply 메서드를 활용하여 안내멘트 열 생성하기
df_1['안내멘트'] = df_1['지역번호'].apply(generate_sentence, sentence_end = '이에요')
print(df_1)

           전화번호 지역번호          안내멘트
0  031-123-4567  031  지역번호는 031이에요
1  032-555-5555  032  지역번호는 032이에요
2  033-999-9999  033  지역번호는 033이에요


apply 메서드의 axis 키워드 인자를 사용하면 행과 열의 방향을 정할 수 있습니다.

In [157]:
# 예시 데이터프레임 생성하기
dict_1 = {'A': [1, 2, 3, 4, 5],
          'B': [3, 3, 3, 3, 3],
          'C': [5, 10, 15, 20, 25]}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

   A  B   C
0  1  3   5
1  2  3  10
2  3  3  15
3  4  3  20
4  5  3  25


In [158]:
# Python 기본 sum 함수를 모든 열에 적용하기
print(df_1.apply(sum)) # default: axis = 0

A    15
B    15
C    75
dtype: int64


In [159]:
# Python 기본 sum 함수를 모든 행에 적용하기
print(df_1.apply(sum, axis = 1))

0     9
1    15
2    21
3    27
4    33
dtype: int64


apply 메서드에 lambda 표현식을 활용하여 인자를 전달할 수도 있습니다.

In [160]:
# lambda 표현식을 활용하여 간단한 함수 구현하기: 모든 값에 1 더하기
print(df_1.apply(lambda x: x + 1))

   A  B   C
0  2  4   6
1  3  4  11
2  4  4  16
3  5  4  21
4  6  4  26


기본 `lambda` 함수처럼 조건문을 활용하는 방식도 가능합니다.

In [161]:
# lambda 표현식을 활용하여 간단한 함수 구현하기: 열 이름이 'A' 또는 'B'인 조건을 만족할 때 해당 열의 모든 값을 제곱하기
print(df_1.apply(lambda x: x**2 if x.name in ['A', 'B'] else x))

    A  B   C
0   1  9   5
1   4  9  10
2   9  9  15
3  16  9  20
4  25  9  25


## 6-6. map 메서드 활용하기

`map` 메서드를 활용하면 `apply` 메서드와 동일한 방식으로 열 값을 추가하거나 변경할 수 있습니다.

In [162]:
# 예시 전화번호 데이터프레임 생성하기
df_phone_number = [{'전화번호': '031-123-4567'},
                   {'전화번호': '032-555-5555'},
                   {'전화번호': '033-999-9999'}]
df_1 = pd.DataFrame(df_phone_number, columns = ['전화번호'])
print(df_1)

           전화번호
0  031-123-4567
1  032-555-5555
2  033-999-9999


In [163]:
# 사용자 정의 함수: 지역번호 추출
def extract_local_number(row):
    return row.split('-')[0]

In [164]:
# map 메서드를 활용해 지역번호 추출하기
df_1['지역번호'] = df_1['전화번호'].map(extract_local_number)
print(df_1)

           전화번호 지역번호
0  031-123-4567  031
1  032-555-5555  032
2  033-999-9999  033


파라미터로 딕셔너리를 전달하면 컬럼값을 쉽게 원하는 값으로 변경 가능합니다.  
기존의 컬럼값은 딕셔너리의 key로 사용되고, 해당되는 value의 값으로 컬럼값이 변경됩니다.

In [165]:
# map 메서드를 활용해 지역번호 열의 값을 지역명으로 변경하기
df_1['지역번호'] = df_1['지역번호'].map({'031': '경기', '032': '인천', '033': '강원'})
print(df_1)

           전화번호 지역번호
0  031-123-4567   경기
1  032-555-5555   인천
2  033-999-9999   강원


## 6-7. applymap 메서드 활용하기
데이터프레임 전역에 동일한 함수를 적용하고 싶을 경우 사용할 수 있는 메서드입니다.

In [166]:
# 예시 데이터프레임 생성하기
dict_1 = {'A': [1.1, 2.4, 2.8, 4.42, 5.1],
          'B': [3.0, 2.8, 3.1, 3.2, 2.6],
          'C': [5.1, 10.1, 15.2, 19.8, 24.8]}
df_1 = pd.DataFrame.from_dict(dict_1)
print(df_1)

      A    B     C
0  1.10  3.0   5.1
1  2.40  2.8  10.1
2  2.80  3.1  15.2
3  4.42  3.2  19.8
4  5.10  2.6  24.8


In [167]:
# 데이터프레임 전역에 동일한 함수 적용하기
df_1 = df_1.applymap(round)
print(df_1)

   A  B   C
0  1  3   5
1  2  3  10
2  3  3  15
3  4  3  20
4  5  3  25


# 7. Data processing (3) - 데이터 병합 및 분할하기

## 7-1. append 메서드 - 데이터프레임에 행 추가하기

기본 파이썬 리스트의 내장 `append` 메서드와 동일하게 데이터프레임에 행을 append 또는 덧붙일 수 있습니다.

In [168]:
# 예시 데이터프레임 생성하기
friend_dict_list = [{'Name': 'John', 'Midterm': 95, 'Final': 85},
         {'Name': 'Jenny', 'Midterm': 85, 'Final': 80},
         {'Name': 'Nate', 'Midterm': 10, 'Final': 30}]
df_1 = pd.DataFrame(friend_dict_list, columns = ['Name', 'Midterm', 'Final'])
print(df_1)

    Name  Midterm  Final
0   John       95     85
1  Jenny       85     80
2   Nate       10     30


In [169]:
# 추가할 새로운 데이터프레임 (1행) 생성하기
df_2 = pd.DataFrame([['Ben', 50, 50]], columns = ['Name', 'Midterm', 'Final'])
print(df_2.head())

  Name  Midterm  Final
0  Ben       50     50


In [170]:
# append()로 기존 예시 데이터프레임에 새로운 데이터프레임을 이어붙이기 (append)
print(df_1.append(df_2, ignore_index = True))

    Name  Midterm  Final
0   John       95     85
1  Jenny       85     80
2   Nate       10     30
3    Ben       50     50


  print(df_1.append(df_2, ignore_index = True))


단, 판다스 데이터프레임에 `append()`를 쓰는 방식은 곧 deprecate될 (즉, 중요도가 떨어져 더 이상 사용되지 않고 향후 사라질) 예정입니다.<br>
판다스 버젼 1.4.0부터 `append()` 메서드 대신 `concat()` 메서드를 쓰도록 안내하고 있습니다.

## 7-2. concat 메서드 - 두개의 데이터프레임 합치기

다수의 데이터프레임을 다루다보면 데이터프레임을 하나로 합쳐야 하는 상황이 있습니다.

이때 사용할 수 있는 판다스 메서드는 앞에서 보신 append 그리고 concat가 있습니다.

먼저 append 메서드를 보겠습니다. append를 활용하여 두번째 데이터프레임 (인자)를 첫번째 데이터프레임 (객체)의 데이터프레임의 마지막 행에 이어 추가합니다.

In [171]:
# 예시 데이터프레임 생성하기
list_1 = [{'Name': 'John', 'Job': "teacher"},
          {'Name': 'Nate', 'Job': "student"},
          {'Name': 'Fred', 'Job': "developer"}]
list_2 = [{'Name': 'Ed', 'Job': "dentist"},
          {'Name': 'Jack', 'Job': "farmer"},
          {'Name': 'Ted', 'Job': "designer"}]
df_1 = pd.DataFrame(list_1, columns = ['Name', 'Job'])
df_2 = pd.DataFrame(list_2, columns = ['Name', 'Job'])

In [172]:
# append를 활용하여 두번째 데이터프레임을 첫번째 데이터프레임의 마지막 행에 이어 합치기
result = df_1.append(df_2, ignore_index=True)
print(result)

   Name        Job
0  John    teacher
1  Nate    student
2  Fred  developer
3    Ed    dentist
4  Jack     farmer
5   Ted   designer


  result = df_1.append(df_2, ignore_index=True)


다음은 concat 메서드를 보겠습니다. append와의 차이점은 concat를 활용하면 행으로 합치는 것뿐만 아니라 열로 합치는 것도 가능합니다.

먼저 concat를 활용하여 두번째 데이터프레임 (인자)를 첫번째 데이터프레임 (객체)의 마지막 행에 이어 합쳐보겠습니다.

In [173]:
# 예시 데이터프레임 생성하기
list_1 = [{'Name': 'John', 'Job': "teacher"},
          {'Name': 'Nate', 'Job': "student"},
          {'Name': 'Fred', 'Job': "developer"}]
list_2 = [{'Name': 'Ed', 'Job': "dentist"},
          {'Name': 'Jack', 'Job': "farmer"},
          {'Name': 'Ted', 'Job': "designer"}]
df_1 = pd.DataFrame(list_1, columns = ['Name', 'Job'])
df_2 = pd.DataFrame(list_2, columns = ['Name', 'Job'])

In [174]:
# concat를 활용하여 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 행으로 합치기
frames = [df_1, df_2]
result = pd.concat(frames, ignore_index = True)
print(result)

   Name        Job
0  John    teacher
1  Nate    student
2  Fred  developer
3    Ed    dentist
4  Jack     farmer
5   Ted   designer


다음은 두번째 데이터프레임 (인자)를 첫번째 데이터프레임 (객체)의 마지막 열에 이어 합쳐보겠습니다.

In [175]:
# 예시 데이터프레임 생성하기
list_1 = [{'Name': 'John', 'Job': "teacher"},
          {'Name': 'Nate', 'Job': "student"},
          {'Name': 'Jack', 'Job': "developer"}]
list_2 = [{'Age': 25, 'Country': "U.S"},
          {'Age': 30, 'Country': "U.K"},
          {'Age': 45, 'Country': "Korea"}]
df_1 = pd.DataFrame(list_1, columns = ['Name', 'Job'])
df_2 = pd.DataFrame(list_2, columns = ['Age', 'Country'])

In [176]:
# concat를 활용하여 두번째 데이터프레임을 첫번째 데이터프레임의 새로운 열로 합치기
frames = [df_1, df_2]
result = pd.concat(frames, axis = 1, ignore_index = True)
print(result)

      0          1   2      3
0  John    teacher  25    U.S
1  Nate    student  30    U.K
2  Jack  developer  45  Korea


## 7-3. groupby 메서드 - 정보 요약을 위해 그룹별로 묶기

종종 주어진 판다스 데이터프레임에서 통계 또는 집계 결과를 얻어야 할 상황이 있습니다.<br>
그럴 때 유용하게 사용할 수 있는 메서드로는 `groupby()` 메서드가 있습니다.

In [177]:
# 예시 데이터프레임 생성하기: 이름, 전공, 성별 데이터
student_list = [{'Name': 'John', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Nate', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Abraham', 'Major': "Physics", 'Sex': "male"},
                {'Name': 'Brian', 'Major': "Psychology", 'Sex': "male"},
                {'Name': 'Janny', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Yuna', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Jeniffer', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Edward', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Zara', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'Wendy', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Sera', 'Major': "Psychology", 'Sex': "female"}]
df_1 = pd.DataFrame(student_list, columns = ['Name', 'Major', 'Sex'])
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female


In [178]:
# groupby를 활용해 전공별로 데이터프레임 묶기
groupby_major = df_1.groupby('Major')
print(groupby_major.groups) # 딕셔너리 형태로 반환

{'Computer Science': [0, 1, 6, 7], 'Economics': [4, 5, 9], 'Physics': [2], 'Psychology': [3, 8, 10]}


전공별로 묶은 데이터를 보면 한눈에 성별 분포를 파악할 수 있습니다.

In [179]:
# 전공별로 묶은 데이터프레임을 펼쳐보아 성별 분포를 확인하기
for name, group in groupby_major:
    print(name + ": " + str(len(group)))
    print(group)
    print()

Computer Science: 4
       Name             Major     Sex
0      John  Computer Science    male
1      Nate  Computer Science    male
6  Jeniffer  Computer Science  female
7    Edward  Computer Science    male

Economics: 3
    Name      Major     Sex
4  Janny  Economics  female
5   Yuna  Economics  female
9  Wendy  Economics  female

Physics: 1
      Name    Major   Sex
2  Abraham  Physics  male

Psychology: 3
     Name       Major     Sex
3   Brian  Psychology    male
8    Zara  Psychology  female
10   Sera  Psychology  female



In [180]:
# groupby를 활용해 전공별로 묶은 데이터를 counting을 위한 데이터프레임으로 만들기
df_major_cnt = pd.DataFrame({'count': groupby_major.size()}).reset_index()
df_major_cnt

Unnamed: 0,Major,count
0,Computer Science,4
1,Economics,3
2,Physics,1
3,Psychology,3


아래의 출력을 통해, 이 학교의 남녀 성비가 균등하다는 정보를 알 수 있습니다.

In [181]:
# groupby를 활용해 성별별로 묶은 데이터를 펼쳐보기
groupby_Sex = df_1.groupby('Sex')

for name, group in groupby_Sex:
    print(name + ": " + str(len(group)))
    print(group)
    print()

female: 6
        Name             Major     Sex
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female

male: 5
      Name             Major   Sex
0     John  Computer Science  male
1     Nate  Computer Science  male
2  Abraham           Physics  male
3    Brian        Psychology  male
7   Edward  Computer Science  male



In [182]:
# groupby를 활용해 성별별로 묶은 데이터를 counting을 위한 데이터프레임으로 만들기
df_Sex_cnt = pd.DataFrame({'count': groupby_Sex.size()}).reset_index()
df_Sex_cnt

Unnamed: 0,Sex,count
0,female,6
1,male,5


`groupby()` 메서드를 활용하면 그룹별 통계량을 확인할 수 있습니다.<br>
* 유의사항: 통계 결과는 통계 계산이 가능한 수치형 데이터에 대해서만 산출합니다.

In [183]:
# 예시 데이터프레임 불러오기: 레스토랑 종사자의 팁 수령액 데이터
tip_data = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
df_1 = pd.DataFrame(tip_data)
print(df_1)

     total_bill   tip     sex smoker   day    time  size
0         16.99  1.01  Female     No   Sun  Dinner     2
1         10.34  1.66    Male     No   Sun  Dinner     3
2         21.01  3.50    Male     No   Sun  Dinner     3
3         23.68  3.31    Male     No   Sun  Dinner     2
4         24.59  3.61  Female     No   Sun  Dinner     4
..          ...   ...     ...    ...   ...     ...   ...
239       29.03  5.92    Male     No   Sat  Dinner     3
240       27.18  2.00  Female    Yes   Sat  Dinner     2
241       22.67  2.00    Male    Yes   Sat  Dinner     2
242       17.82  1.75    Male     No   Sat  Dinner     2
243       18.78  3.00  Female     No  Thur  Dinner     2

[244 rows x 7 columns]


In [184]:
# 평균 계산하기
print(df_1.groupby('sex').mean(numeric_only = True))

        total_bill       tip      size
sex                                   
Female   18.056897  2.833448  2.459770
Male     20.744076  3.089618  2.630573


In [185]:
# 분산 계산하기
print(df_1.groupby('sex').var())

        total_bill       tip      size
sex                                   
Female   64.147429  1.344428  0.879177
Male     85.497185  2.217424  0.913931


`groupby()`로 생성한 객체에 `agg()` 메서드를 활용하면 다양한 통계량을 한 번에 구할 수도 있습니다.<br>
적용할 수 있는 통계함수의 목록은 아래와 같습니다.

|**함수**|**내용**     |
|-------|-------------|
|count  |데이터의 개수 |
|sum    |합계         |
|mean   |평균         |
|median |중앙값       |
|var    |분산         |
|std    |표준편차      |
|min    |최소값        |
|max    |최대값        |
|unique |고유값        |
|nunique|고유값의 개수 |
|prod   |곱           |
|first  |첫번째 값     |
|last   |마지막 값     |

`groupby().agg()` 를 활용하여 다중으로 통계량을 산출하는 예시를 만들어봅시다.

In [186]:
# 다중으로 기초통계량 계산하기
print(df_1.groupby('sex').agg(['mean', 'var']))

       total_bill                  tip                size          
             mean        var      mean       var      mean       var
sex                                                                 
Female  18.056897  64.147429  2.833448  1.344428  2.459770  0.879177
Male    20.744076  85.497185  3.089618  2.217424  2.630573  0.913931


  print(df_1.groupby('sex').agg(['mean', 'var']))


In [187]:
# 열별로 다른 통계량 산출하기
print(df_1.groupby('sex').agg({'total_bill': 'mean', 
                       'tip': ['sum', 'var'],
                       'size': 'median'
                      }))

       total_bill     tip             size
             mean     sum       var median
sex                                       
Female  18.056897  246.51  1.344428    2.0
Male    20.744076  485.07  2.217424    2.0


## 7-4. duplicated 메서드와 drop_duplicates 메서드 - 중복 데이터 확인 및 제외하기
이번에는 중복된 데이터를 확인하고 제외하는 방법에 대해 알아보겠습니다.

In [188]:
# 예시 데이터프레임 생성하기: 이름, 전공, 성별 데이터
student_list = [{'Name': 'John', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Nate', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Abraham', 'Major': "Physics", 'Sex': "male"},
                {'Name': 'Brian', 'Major': "Psychology", 'Sex': "male"},
                {'Name': 'Janny', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Yuna', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Jeniffer', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Edward', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Zara', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'Wendy', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Sera', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'John', 'Major': "Computer Science", 'Sex': "male"}]
df_1 = pd.DataFrame(student_list, columns = ['Name', 'Major', 'Sex'])
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female
11      John  Computer Science    male


`duplicated()` 메서드를 활용해 중복된 데이터를 확인할 수 있습니다.

In [189]:
# 중복된 데이터 확인하기
df_1.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11     True
dtype: bool

`drop_duplicates()` 메서드를 활용해 중복된 데이터를 제외할 수 있습니다.

In [190]:
# 중복된 데이터 제외하기
df_1 = df_1.drop_duplicates()
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Sera        Psychology  female


In [191]:
# 예시 데이터프레임 생성하기: 이름, 전공, 성별 데이터
student_list = [{'Name': 'John', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Nate', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Abraham', 'Major': "Physics", 'Sex': "male"},
                {'Name': 'Brian', 'Major': "Psychology", 'Sex': "male"},
                {'Name': 'Janny', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Yuna', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Jeniffer', 'Major': "Computer Science", 'Sex': "female"},
                {'Name': 'Edward', 'Major': "Computer Science", 'Sex': "male"},
                {'Name': 'Zara', 'Major': "Psychology", 'Sex': "female"},
                {'Name': 'Wendy', 'Major': "Economics", 'Sex': "female"},
                {'Name': 'Nate', 'Major': None, 'Sex': "male"},
                {'Name': 'John', 'Major': "Computer Science", 'Sex': None}]
df_1 = pd.DataFrame(student_list, columns = ['Name', 'Major', 'Sex'])
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Nate              None    male
11      John  Computer Science    None


`duplicated()` 메서드를 사용하면, 지정한 열 내에서 중복된 데이터가 존재한다면 `True` 논리값을 반환합니다.

In [192]:
# 한 열에 대해 중복 데이터 여부 표시하기
print(df_1.duplicated(['Name']))

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10     True
11     True
dtype: bool


`drop_duplicates()` 메서드를 활용해 중복된 값을 제거할 때에, `keep` 인자를 지정하여 중복된 값들 중 어떤 값을 대표값으로 취하여 살릴 지를 설정할 수 있습니다.

참고로 `keep` 인자의 기본 default 값은 `first`로 설정되어 있습니다.

In [193]:
# 중복된 값 제거하기
print(df_1.drop_duplicates(['Name'], keep = 'last'))

        Name             Major     Sex
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Nate              None    male
11      John  Computer Science    None


그리고 `drop_duplicates()` 메서드를 사용하더라도 원본 데이터에는 변함이 없습니다.

In [194]:
# 원본 데이터 확인하기
print(df_1)

        Name             Major     Sex
0       John  Computer Science    male
1       Nate  Computer Science    male
2    Abraham           Physics    male
3      Brian        Psychology    male
4      Janny         Economics  female
5       Yuna         Economics  female
6   Jeniffer  Computer Science  female
7     Edward  Computer Science    male
8       Zara        Psychology  female
9      Wendy         Economics  female
10      Nate              None    male
11      John  Computer Science    None


## 7-5. 결측치 처리하기

다수의 인공지능 알고리즘은 결측치가 있는 데이터에 대해 작동하지 않는다는 단점이 있습니다.
따라서 이번에는 데이터에 결측치가 있을 때 처리하는 방법에 대해 실습하겠습니다.

우선 데이터프레임을 생성하고 결측치를 `None`으로 할당하겠습니다.

In [195]:
# 예시 데이터프레임 생성하기
school_id_list = [{'Name': 'John', 'Job': "teacher", 'Age': 40},
                  {'Name': 'Nate', 'Job': "teacher", 'Age': 35},
                  {'Name': 'Yuna', 'Job': "teacher", 'Age': 37},
                  {'Name': 'Abraham', 'Job': "student", 'Age': 10},
                  {'Name': 'Brian', 'Job': "student", 'Age': 12},
                  {'Name': 'Janny', 'Job': "student", 'Age': 11},
                  {'Name': 'Nate', 'Job': "teacher", 'Age': None},
                  {'Name': 'John', 'Job': "student", 'Age': None}]
df_1 = pd.DataFrame(school_id_list, columns = ['Name', 'Job', 'Age'])
df_1

Unnamed: 0,Name,Job,Age
0,John,teacher,40.0
1,Nate,teacher,35.0
2,Yuna,teacher,37.0
3,Abraham,student,10.0
4,Brian,student,12.0
5,Janny,student,11.0
6,Nate,teacher,
7,John,student,


In [196]:
# 데이터프레임의 전반적인 정보 보기
print(df_1.info()) # Age 열에서 non-null 개수가 다른 열보다 2개 적음을 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    8 non-null      object 
 1   Job     8 non-null      object 
 2   Age     6 non-null      float64
dtypes: float64(1), object(2)
memory usage: 320.0+ bytes
None


In [197]:
# 개별 원소의 결측치 여부 확인하기
# 방법 1.
print(df_1.isna())

    Name    Job    Age
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
5  False  False  False
6  False  False   True
7  False  False   True


In [198]:
# 개별 원소의 결측치 여부 확인하기
# 방법 2.
print(df_1.isnull())

    Name    Job    Age
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
5  False  False  False
6  False  False   True
7  False  False   True


`fillna()` 메서드를 활용하면 결측치를 대체하여 채워넣을 값 (fill_value)을 임의로 할당하여 결측된 부분을 메울 수 있습니다.<br>
우선 fill_value를 0으로 설정해봅시다.

In [199]:
# fillna() 메서드로 결측치 채워넣기
tmp = df_1
tmp['Age'] = tmp['Age'].fillna(0)
print(tmp)

      Name      Job   Age
0     John  teacher  40.0
1     Nate  teacher  35.0
2     Yuna  teacher  37.0
3  Abraham  student  10.0
4    Brian  student  12.0
5    Janny  student  11.0
6     Nate  teacher   0.0
7     John  student   0.0


하지만 모든 상황에서 결측치를 단순하게 0으로 대체하는 것은 좋은 선택이 아닐 수 있습니다.<br>
많은 경우에, 주어진 데이터에서 보다 많은 정보를 취합한 뒤 이를 대표하는 fill_value를 지정하는 것이 종종 더 나은 결과를 가져다줍니다.

예시로 우리는 위에서 다룬 예시 데이터프레임을 선생님과 학생이라는 그룹으로 데이터를 구분할 수 있습니다.<br>
결측치를 그룹별로 나눠 해당 그룹에서 관측된 값들의 대표값으로 결측치를 대체한다면 더 좋은 결과를 얻을 수 있습니다.

In [200]:
# Age 열에서 발생한 결측치를 teacher, student의 그룹별 평균으로 각각 다르게 대체하기
df_1['Age'].fillna(df_1.groupby('Job')['Age'].transform("median"), inplace = True)
print(df_1)

      Name      Job   Age
0     John  teacher  40.0
1     Nate  teacher  35.0
2     Yuna  teacher  37.0
3  Abraham  student  10.0
4    Brian  student  12.0
5    Janny  student  11.0
6     Nate  teacher   0.0
7     John  student   0.0


## 7-6. 데이터의 고유값 (unique) 확인하기
데이터프레임 열에 중복되는 여러 값이 있을 때, 데이터에 어떤 종류의 고유값들이 있는지 확인할 수 있습니다.

In [201]:
# 예시 데이터프레임 생성하기
job_list = [{'Name': 'John', 'Job': "teacher"},
            {'Name': 'Nate', 'Job': "teacher"},
            {'Name': 'Fred', 'Job': "teacher"},
            {'Name': 'Abraham', 'Job': "student"},
            {'Name': 'Brian', 'Job': "student"},
            {'Name': 'Janny', 'Job': "developer"},
            {'Name': 'Nate', 'Job': "teacher"},
            {'Name': 'Obrian', 'Job': "dentist"},
            {'Name': 'Yuna', 'Job': "teacher"},
            {'Name': 'Rob', 'Job': "lawyer"},
            {'Name': 'Brian', 'Job': "student"},
            {'Name': 'Matt', 'Job': "student"},
            {'Name': 'Wendy', 'Job': "banker"},
            {'Name': 'Edward', 'Job': "teacher"},
            {'Name': 'Ian', 'Job': "teacher"},
            {'Name': 'Chris', 'Job': "banker"},
            {'Name': 'Philip', 'Job': "lawyer"},
            {'Name': 'Janny', 'Job': "basketball player"},
            {'Name': 'Gwen', 'Job': "teacher"},
            {'Name': 'Jessy', 'Job': "student"}]
df_1 = pd.DataFrame(job_list, columns = ['Name', 'Job'])

원하는 열에 `unique()` 함수를 사용하면 중복 없이 해당 열에 있는 모든 고유값들을 출력할 수 있습니다.

In [202]:
# 열 고유값 출력하기
print(df_1.Job.unique())

['teacher' 'student' 'developer' 'dentist' 'lawyer' 'banker'
 'basketball player']


마지막으로 각 고유값에 몇 개의 원본 데이터가 대응하는지 `value_counts()` 함수로 확인할 수 있습니다.

In [203]:
# 열 고유값 별 대응 데이터 개수 출력하기
print(df_1.Job.value_counts())

teacher              8
student              5
lawyer               2
banker               2
developer            1
dentist              1
basketball player    1
Name: Job, dtype: int64
