# 기초데이터과학 (01분반)

## 03-1. 데이터 가공: pandas 활용

### Acknowledgement
#### 이 자료는 다음 서적의 내용을 바탕으로 작성되었음

- 파이썬 라이브러리를 활용한 데이터 분석. 한빛미디어
- 쉽게 배우는 파이썬 데이터 분석. 이지스 퍼블리싱

### pandas
- 고수준의 자료구조와 파이썬에서 빠르고 쉽게 사용할 수 있는 데이터 분석 도구를 포함하는 라이브러리
  - 다른 산술 계산 도구인 NumPy와 SciPy, 분석 라이브러리인 statsmodels와 scikit-learn, 시각화 도구인 matplotlib과 함께 많이 사용
- NumPy의 배열 기반 계산 스타일을 많이 차용
  - for 문을 사용하지 않고 데이터를 처리하는 것
  - 배열 기반의 함수를 제공하는 것 등
- NumPy와 차이점
  - pandas는 표 형식의 데이터나 다양한 형태의 데이터를 다루는데 초점을 맞춰 설계됨
  - NumPy는 단일 배열 데이터를 다루는데 특화됨

In [9]:
import pandas as pd
from pandas import Series, DataFrame

### pandas 데이터 구조
- Series
  - 일련의 객체를 담을 수 있는 1차원 배열 같은 데이터 구조
- DataFrame
  - 표 같은 형식의 데이터 구조

#### Series
- 어떤 NumPy 자료형이라도 담을 수 있음
- 배열의 데이터와 연관된 이름을 붙일 수 있는 index 속성을 가짐
  - 데이터의 index를 지정하지 않으면 기본 인덱스로 정수 0에서 N-1(N은 데이터의 길이)까지 숫자로 지정
- 배열 데이터는 values 속성으로 액세스 가능
- Series 객체 생성
  - 간단하게는 배열 데이터로 생성 가능

In [10]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

- Series 객체를 출력했을 때 왼쪽은 인덱스, 오른쪽의 그에 해당하는 값을 표현

In [13]:
# values 속성으로 배열 데이터를 액세스할 수 있음
obj.values

# print(obj.values)

array([ 4,  7, -5,  3], dtype=int64)

In [17]:
# index 속성으로 인덱스를 확인할 수 있음
obj.index

# print(obj.index)

RangeIndex(start=0, stop=4, step=1)

- 각각의 데이터를 지칭하는 인덱스를 지정하여 Series 객체를 생성하는 경우

In [19]:
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
obj2['a']

-5

In [11]:
obj2['d']

4

In [12]:
obj2[['c','a','d']] # ['c','a','d']는 인덱스의 배열

c    3
a   -5
d    4
dtype: int64

In [13]:
obj2[1:4] # 리스트의 슬라이싱 연산과 유사

b    7
a   -5
c    3
dtype: int64

- 인덱스-값 연결은 불리언 배열을 사용해서 값을 걸러 내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 연산을 수행해도 유지됨

In [16]:
obj2[obj2 > 0] # 불리언 배열을 이용해 값을 걸러 내는 예제

d    4
b    7
c    3
dtype: int64

In [18]:
obj2>0

d     True
b     True
a    False
c     True
dtype: bool

In [19]:
obj2[[True,True,False,True]]

d    4
b    7
c    3
dtype: int64

In [20]:
obj2[[True,False,False,False]]

d    4
dtype: int64

In [21]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [22]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

- Series 객체는 고정 길이의 정렬된 dictionary라고 볼 수 있음
  - 인덱스 값에 데이터 값을 매핑하고 있으므로 dictionary와 비슷
  - Series 객체는 파이썬의 dictionary 객체를 인자로 받아야 하는 함수에서 이를 대체하여 사용할 수 있음
- 파이썬 dictionary 객체를 이용하여 Series 객체를 생성할 수 있음
  - dictionary의 키 값이 Series의 인덱스 값이 됨

In [3]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3
# dictionary 객체로 Series 객체를 생성하는 경우 dictionary의 키 값이 Series의 인덱스 값이 됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [4]:
# 인덱스를 직접 지정하고 싶다면 원하는 순서대로 인덱스를 직접 넘겨줄 수도 있음

states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- sdata의 값 중 3개만 들어감, 'California'에 대한 값은 없기 때문에 NaN으로 표시됨
  - NaN은 pandas에서 누락된 값 혹은 NA 값으로 취급됨
- Utah에 대한 값은 인덱스로 사용한 states 배열에 포함되어 있지 않으므로 결과에 포함되지 않음

- pandas의 isnull, notnull 함수
  - 누락된 데이터를 찾을 때 사용

In [27]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [5]:
obj4['California'] = 43000 # 인덱스를 이용하여 새로운 값을 할당할 수 있음
obj4

California    43000.0
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

- items() 메소드
  - Series 객체에 있는 요소를 튜플 형태, (index, value)로 반환함

In [6]:
for i, v in obj4.items():
    print('%s : %d' %(i,v))

California : 43000
Ohio : 35000
Oregon : 16000
Texas : 71000


- Series 객체의 덧셈 연산
  - index의 순서가 다르더라도 같은 index의 값끼리 덧셈 수행

In [None]:
import pandas as pd

# A, B, C, D 네 회사의 1차년도 매출액과 2차년도 매출액이 주어졌다고 가정

sales = {'A': 5000000, 'B': 7100000, 'C': 3600000, 'D': 4050000}
year1 = pd.Series(sales)

year2 = pd.Series([3500000, 5500000, 4000000, 6000000], index=['B','D','C','A'])

total = year1 + year2
print(total)

A    11000000
B    10600000
C     7600000
D     9550000
dtype: int64


- 기본적인 통계 함수
  - sum(), mean(), median(), var(), std(), count(), max(), min(), argmax(), argmin()

In [11]:
print('네 회사의 2년간 매출액 합계: ', total.sum())
print('네 회사의 2년간 매출액 평균: ', total.mean())
print('네 회사의 2년간 매출액 최대값: ', total.max())
print('네 회사의 2년간 매출액 최소값: ', total.min())
print(total.argmax())
print('2년간 매출액이 가장 많은 회사: ', total.index[total.argmax()])
print(total.argmin())
print('2년간 매출액이 가장 적은 회사: ', total.index[total.argmin()])

네 회사의 2년간 매출액 합계:  38750000
네 회사의 2년간 매출액 평균:  9687500.0
네 회사의 2년간 매출액 최대값:  11000000
네 회사의 2년간 매출액 최소값:  7600000
0
2년간 매출액이 가장 많은 회사:  A
2
2년간 매출액이 가장 적은 회사:  C


#### DataFrame
- 표와 같은 자료 구조
- 여러 개의 행(row)과 열(column)로 구성됨
  - 각 열은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있음
- 행과 열에 대한 인덱스를 가지고 있음

- DataFrame 객체 생성
  - dictinary 값으로 리스트를 사용

In [9]:
import pandas as pd

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [10]:
# 원하는 열의 순서로 DataFrame 객체 생성
pd.DataFrame(data, columns=['year', 'state', 'pop']) 

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [11]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six']) 

# 행에 대한 인덱스는 index, 열에 대한 인덱스는 columns로 설정

frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [12]:
frame2['state'] # 열에 대한 인덱스로 해당 열에 대한 데이터만 추출

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [13]:
frame2.state # 위와 동일. 열의 값을 속성처럼 이용

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [7]:
frame2['debt'] = 16.5 # 열 인덱스로 스칼라 값을 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [8]:
import numpy as np

frame2['debt'] = np.arange(6.) # 열 인덱스로 배열 값을 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [17]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val
frame2['debt'] = val # Series 객체를 할당. DataFrame의 인덱스에 맞춰 값이 할당되며 존재하지 않는 인덱스에는 누락값으로 할당
frame2

two    -1.2
four   -1.5
five   -1.7
dtype: float64

### 데이터 파악하기
- 데이터가 주어졌을 때 먼저 하는 일은 데이터의 전반적인 구조를 파악하는 것
  - 어떤 변수들이 있는가? 몇 행으로 구성되는가? 등을 살펴보면서 데이터의 특징에 대한 감을 잡을 수 있음

- 데이터를 파악할 때 사용하는 함수
  - head(): 앞부분 출력
  - tail(): 뒷부분 출력
  - shape : 행, 열 개수 출력
  - info(): 변수 속성 출력
  - describe(): 요약 통계량 출력 


In [15]:
import pandas as pd

# pandas의 read_csv() 함수: csv 파일을 읽어서 DataFrame 객체를 생성
exam = pd.read_csv('exam.csv') 

- head(): 데이터 앞부분 확인하기

In [16]:
exam.head() # 데이터의 처음 5행 출력

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [17]:
exam.head(10) # 괄호에 숫자를 입력하면 해당 행까지 출력

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


- tail(): 데이터 뒷부분 확인하기

In [18]:
exam.tail() # 데이터의 마지막 5행 출력

Unnamed: 0,id,nclass,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [19]:
exam.tail(10) # 뒤에서 10행까지 출력

Unnamed: 0,id,nclass,math,english,science
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


- shape: 데이터가 몇 행, 몇 열로 구성되는지 알아보기

In [20]:
exam.shape # shape은 함수가 아니라 DataFrame의 속성임

(20, 5)

- info(): 변수 속성 파악하기

In [21]:
exam.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


- describe(): 요약 통계량 구하기

In [23]:
exam.describe()

Unnamed: 0,id,nclass,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


### 변수명 바꾸기
- 변수명이 복잡하거나 기억하기 어려운 문자로 되어 있는 경우 쉬운 단어로 변경하면 데이터를 다루기 수월해짐

- DataFrame의 rename() 함수 이용

In [24]:
# 데이터 프레임 만들기

df_raw = pd.DataFrame({'var1': [1,2,1],
                       'var2': [2,3,2]})
df_raw

Unnamed: 0,var1,var2
0,1,2
1,2,3
2,1,2


In [25]:
# 데이터 프레임 복사본 만들기

df_new = df_raw.copy()

df_new

Unnamed: 0,var1,var2
0,1,2
1,2,3
2,1,2


- 데이터를 변형하는 작업을 할 때는 원본을 직접 사용하기보다 복사본을 만들어 사용하는 것이 바람직함
  - 작업 중 오류가 발생하더라도 원 상태로 복구 가능
  - 데이터를 비교하면서 변형되는 과정 검토 가능

In [26]:
# 변수명 바꾸기

df_new = df_new.rename(columns = {'var2': 'v2'}) # var2를 v2로 수정

df_new

Unnamed: 0,var1,v2
0,1,2
1,2,3
2,1,2


### 파생 변수 만들기
- 데이터에 들어 있는 변수만 이용해 분석할 수도 있지만, 변수를 조합하거나 새 변수를 만들어 분석하는 것도 가능
  - 예를 들어 여러 과목의 시험 점수를 조합해 전과목 평균 점수를 나타내는 변수를 만들어 분석할 수 있음
  - 기존의 변수를 변형해 만든 변수를 파생 변수라고 함

In [27]:
df = pd.DataFrame({'var1': [4,3,8],
                  'var2': [2,6,1]})
df

Unnamed: 0,var1,var2
0,4,2
1,3,6
2,8,1


- var1과 var2 변수의 값을 더한 var_sum이라는 파생 변수를 만들어 df에 추가하기

In [29]:
df['var_sum'] = df['var1'] + df['var2']

df

Unnamed: 0,var1,var2,var_sum
0,4,2,6
1,3,6,9
2,8,1,9


- var1과 var2 변수의 평균을 계산하여 var_mean이라는 파생 변수를 만들어 df에 추가하기

In [30]:
df['var_mean'] = (df['var1'] + df['var2']) / 2

df

Unnamed: 0,var1,var2,var_sum,var_mean
0,4,2,6,3.0
1,3,6,9,4.5
2,8,1,9,4.5


### 연습문제
-  위에서 사용한 exam.csv 파일을 읽어 DataFrame 객체를 생성하고 변수명을 변경하기
  - math를 math_score로 변경
  - english를 english_score로 변경
  - science를 science_score로 변경
  
- math, english, science 점수의 평균을 계산하고 이를 mean_score 파생 변수로 만들어 DataFrame에 추가하기

In [23]:
import pandas as pd

exam = pd.read_csv('exam.csv') 

# 변수명 변경
exam = exam.rename(columns={"math" : "math_score"})
exam = exam.rename(columns={"english" : "english_score"})
exam = exam.rename(columns={"science" : "science_score"})


# 평균 점수 파생 변수 만들기
exam["mean_score"] = (exam["math_score"]+exam["english_score"]+exam["science_score"])/3
exam

Unnamed: 0,id,nclass,math_score,english_score,science_score,mean_score
0,1,1,50,98,50,66.0
1,2,1,60,97,60,72.333333
2,3,1,45,86,78,69.666667
3,4,1,30,98,58,62.0
4,5,2,25,80,65,56.666667
5,6,2,50,89,98,79.0
6,7,2,80,90,45,71.666667
7,8,2,90,78,25,64.333333
8,9,3,20,98,15,44.333333
9,10,3,50,98,45,64.333333
