<a href="https://colab.research.google.com/github/yuneun92/personal_study/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pandas 개요**

Pandas는 Numpy 기반으로 개발된 데이터 분석 도구

# **Pandas 데이터 구조**

## 1. Series
  **1차원 데이터를 다루는 데 유용**
판다스에서 시리즈(Series)는 여러개의 레이블이 있는 값을 들고 있는 일차원 배열이다. 리스트와 비슷하지만, 시리즈는 값 하나하나마다 레이블을 갖고 있다는 점이 다르다. 판다스 시리즈에서 데이터 레이블은 인덱스(index)라고도 불린다.

## 2. DataFrame
  **2차원 데이터를 다루는 데 유용**
데이터 테이블. 여러 개의 컬럼을 갖고 있으며 각각의 컬럼은 다른 데이터 형식의 값들을 담고 있을 수 있다. 행과 열이 있다. DataFrame은 Series의 모음이다.

- column 별로 같은 data type이어야 함. 


#**Series**

In [1]:
import pandas as pd

In [2]:
obj = pd.Series([1,2,3,4])

Series를 출력하면 왼쪽에 인덱스, 오른쪽에 값이 표시된다.

위 예시에서는 레이블을 입력하지 않았기 때문에 디폴트로 0부터 시작하는 숫자가 레이블이 된다.

Series의 값과 레이블(인덱스)을 따로 볼 수도 있다.

    print(obj.values)
    print(obj.index)

In [3]:
print(obj.values)
obj.values

[1 2 3 4]


array([1, 2, 3, 4])

In [4]:
print(obj.index)
obj.index

RangeIndex(start=0, stop=4, step=1)


RangeIndex(start=0, stop=4, step=1)

레이블을 지정해서 시리즈를 만들 수 있다.

    obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [5]:
obj2 = pd.Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])

# 인덱스와 시리즈의 개수가 동일하지 않으면 오류

In [6]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

딕셔너리처럼 시리즈도 인덱싱을 할 수 있다. 이때 레이블이 키 역할을 한다.

    obj2['a']

In [7]:
obj2['a']

-5

딕셔너리에서 시리즈를 만드는 것도 가능하다.

    sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
    obj3 = pd.Series(sdata)
    obj3

In [8]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}


In [9]:
obj3 = pd.Series(sdata)
obj3

# dictionary의 key가 인덱스가 되고 value가 시리즈가 됨

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

딕셔너리에서 특정 쌍만 시리즈로 만들고 싶다면 인덱스를 지정할 수 있다.

    states = ['California', 'Ohio', 'Oregon', 'Texas']
    obj4 = pd.Series(sdata, index=states)
    obj4

이 예시에서 Oregon이란 인덱스에 해당하는 값은 없기 때문에 NaN(Not a Number)이 발생한다. 이는 결측치(missing data)를 나타내기 위해 pandas에서 가장 자주 쓰이는 방식이다.

In [10]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index = states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [11]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

pandas는 결측치를 검사하는 방법도 제공한다.

    pd.isnull(obj4)

    pd.notnull(obj4)

    obj4.isnull()

In [12]:
pd.isnull(obj4)
# 결측치면 True, 아니면 False

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [13]:
pd.notnull(obj4)
# 결측치가 아닐 때 True

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [14]:
obj4.isnull()

# pd.과 obj4. 모두 가능 => 편한 대로 사용

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

시리즈끼리 더하거나 빼는 등 연산을 할 수 있다. 이 때 같은 레이블에 해당하는 값끼리 연산이 수행된다.

    obj3 + obj4

In [15]:
obj3 + obj4

# 같은 레이블에 속하는 것들끼리만 연산이 가능: 
# 한쪽에서 NaN 값이었던 California의 경우 게산이 불가하기 때문에 여전히 NaN으로 나옴

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

시리즈와 그 인덱스에 이름을 붙일 수도 있다.

    obj4.name = 'population'
    obj4.index.name = 'state'

    obj4

In [16]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [17]:
obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

# **DataFrame**

데이터프레임(DataFrame)은 직사각형 모양의 데이터 테이블을 나타내고 컬럼으로 이루어져 있다. 데이터프레임은 시리즈의 모음으로 생각할 수 있다.

데이터프레임은 데이터 분석에서 가장 자주 쓰이는 데이터 구조이다.

리스트를 이용해서 직접 값을 넣을 수도 있고, dictionary를 사용해서 DataFrame을 만들 수도 있다. (데이터 프레임을 만드려면 dictionary 안에 리스트가 포함되어 있어야 함. 이때 dictionary의 key는 컬럼명이 되고 컬럼 안에 value로 제시된 리스트 값들이 들어가는 것)

    data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
                'year': [2000, 2001, 2002, 2001, 2002, 2003],
                'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
    frame = pd.DataFrame(data)

    frame

In [127]:
import pandas as pd

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
                'year': [2000, 2001, 2002, 2001, 2002, 2003],
                'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


####**일부 보기**
데이터프레임이 너무 클 때는, 데이터의 일부분만 보는 것이 좋을 때도 있다. 이때, 데이터프레임의 앞의 일부만 보기 위해 head라는 메서드를 쓸 수 있다.

    frame.head()

In [124]:
frame.head(3)

# () 안에 아무 것도 지정하지 않으면 앞의 5개를, 지정하면 n개 만큼의 데이터를 보여줌

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


뒤의 일부를 보기 위해서는 tail을 쓴다.

    frame.tail()

In [125]:
frame.tail(3)

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


데이터프레임에서 사용할 컬럼과 그 순서를 지정할 수 있다.

    pd.DataFrame(data, columns=['year', 'state', 'pop'])

In [128]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

# 순서를 제시하면 그에 따라 데이터 프레임을 만듦. 

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


컬럼 뿐 아니라 사용할 인덱스까지 지정할 수 있다. 해당하는 인덱스가 없다면 NaN이 된다.

    frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
          index=['one', 'two', 'three', 'four', 'five', 'six'])

    frame2

In [129]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
      index=['one', 'two', 'three', 'four', 'five', 'six'])

frame2

# 표시하라고 한 debt의 경우 자료가 없음 => nan 값으로 표현됨. 
# 행과 컬럼으로 모두 데이터에 접근할 수 있음. 

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


데이터프레임에서 컬럼은 다음과 같은 방식으로 접근 가능하다. 데이터프레임의 컬럼은 시리즈 데이터 구조이다.

    frame2['state']

    frame2.state

In [130]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [131]:
frame2.state

# 컬럼 이름에 띄어쓰기가 들어가는 경우 이 방법으로는 호출할 수 없고 위 방법으로만
# 호출할 수 있음에 유의

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

데이터프레임의 행은 loc이라는 메서드로 접근할 수 있다.

    frame2.loc['three']

In [132]:
frame2.loc['three']

# 이렇게 호출한 특정 인덱스 시리즈의 이름은 인덱스의 이름이 됨. 

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

컬럼에 새로운 값을 집어넣어 변경할 수 있다.

    frame2['debt'] = 16.5

In [134]:
frame2['debt'] = 16.5

In [135]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


    val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
    frame2['debt'] = val
    frame2

In [136]:
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])
frame2['debt'] = val
frame2

# 값을 지정하지 않은 인덱스의 debt는 여전히 NaN, 지정한 수만 들어감

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


존재하지 않는 컬럼에 할당(assign)해서 새로운 컬럼을 만들 수 있다.

    frame2['eastern'] = frame2.state == 'Ohio'
    frame2

In [137]:
frame2.state == 'Ohio'

one       True
two       True
three     True
four     False
five     False
six      False
Name: state, dtype: bool

In [138]:
frame2['eastern'] = frame2.state == 'Ohio'

# 지정된, state가 Ohio인 시리즈만 True

In [139]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


####**열 갱신, 추가, 삭제**
1. 기존 열 변경

  - df['기존열이름']=df['기존열이름']*100
  #해당 열 원래 숫자값에 모두 100배
  - df['기존열이름'] =[기존열에 넣을 새로운 요소 리스트에 나열]
  #완전히 바꾸기

2. 새로운 열 추가

  df['새로만들열이름'] = data컬랙션(set, list, tuple ...)

3. 기존 열 삭제

  del df['기존열이름']

####**DataFrame에 함수 적용**

1. df.apply(함수, axis=0): axis가 0일 경우(또는 생략) 컬럼 단위로 함수를 수행, axis가 1일 경우 row 단위로 함수 수행

2. df.applymap(함수): 각각 요소별로 함수 적용

In [143]:
a = pd.DataFrame([[1,2,3,4],[5,6,7,8]], 
                 columns=['col1', 'col2', 'col3', 'col4'])

a

Unnamed: 0,col1,col2,col3,col4
0,1,2,3,4
1,5,6,7,8


In [144]:
a.apply(sum) # 열 별로

col1     6
col2     8
col3    10
col4    12
dtype: int64

In [148]:
a.apply(sum, axis = 1)

0    10
1    26
dtype: int64

In [150]:
a.apply(lambda x: x[0]*x[1], axis = 0)

col1     5
col2    12
col3    21
col4    32
dtype: int64

In [151]:
a.applymap(lambda x: x**3)

Unnamed: 0,col1,col2,col3,col4
0,1,8,27,64
1,125,216,343,512


# **데이터 선택하기**

####**Series에서 데이터 선택하기**

시리즈(Series)에서 인덱싱하는 방법에는 여러가지가 있다.

- 레이블
- 레이블 모음
- 레이블의 순서(번호)
- 값이 특정 조건을 만족하는 경우

데이터프레임에서는 행과 열 각각을 인덱싱할 수 있다. 

    import numpy as np

    obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

    obj['b']

    obj[1]


In [33]:
import numpy as np

In [34]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [35]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [36]:
obj['b']

1.0

In [37]:
obj[1]

#순서로 지정해서도 인덱싱 가능

1.0

시리즈에서는 여러개의 레이블로 인덱싱을 할 수도 있다.

    obj[['c', 'a', 'd']]

    obj[2:4]

    obj[[1, 3]]

In [38]:
obj[['c', 'a', 'd']]

# 여러 개를 가져오기 위해 리스트로 인덱싱 할 수 있음. 

c    2.0
a    0.0
d    3.0
dtype: float64

In [39]:
obj[2:4]

# 순서대로 셌을 때 3번째 4번째 인자를 가져옴

c    2.0
d    3.0
dtype: float64

In [40]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

특정 조건에 해당하는 값을 인덱싱할 수 있다.

    obj2[obj2 > 0]

In [41]:
obj2[obj2 > 0]

# [] 안이 True가 되는 값만 인자로 가져옴

d    4
b    7
c    3
dtype: int64

인덱싱한 부분을 특정 값으로 세팅(set)할 수도 있다.

    obj[['b', 'a', 'd']] = 5

In [42]:
obj[['b', 'a', 'd']] = 5
#원하는 부분을 특정 값으로 세팅

In [43]:
obj

a    5.0
b    5.0
c    2.0
d    5.0
dtype: float64

#### **DataFrame**

데이터프레임(DataFrame)에서 인덱싱 방법 역시 시리즈(Series)와 비슷하다. 데이터프레임은 열(column)로 인덱싱하는 경우가 더 많기 때문에 문법은 열(column) 인덱싱이 더 쉽게 되어 있다.

- 방법

  [열 하나에 접근하기]
  1. df['컬럼이름']
  2. df.컬럼이름

  [여러 개의 컬럼에 접근하기]
  df.[['컬럼이름1', '컬럼이름2']]

  [특정 행들에 접근하기]
  df[숫자1:숫자2]
  
  [특정 행 하나에 접근하기]
  df.iloc[숫자]
    - 마찬가지로 숫자1:숫자2로 여러 행에 접근 가능함


    data = pd.DataFrame(np.arange(16).reshape((4, 4)),
        index=['Ohio', 'Colorado', 'Utah', 'New York'],
        columns=['one', 'two', 'three', 'four'])

    data

    data['two']

    data[['three', 'one']]

In [44]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
    index=['Ohio', 'Colorado', 'Utah', 'New York'],
    columns=['one', 'two', 'three', 'four'])


In [45]:
data[['three', 'one']]

# 하나만 가져오면 결과가 시리즈, 여러 개를 가져오면 데이터프레임이 됨. 

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


특정 조건을 만족하는 값만 인덱싱할 수도 있다.

    data < 5
    data[data['three'] > 5]

In [46]:
data[data['three'] < 5]

# True가 되는 열만 가져옴. 

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3


- **.values**: 데이터만 numpy array 형식으로 접근 가능
- **.columns**: Column의 이름
- **.index**: Row의 이름


In [None]:
print(frame2.values)
print(frame2.columns) #컬럼값을 지정해 그에 해당하는 column만 출력 가능
print(frame2.index) #인덱스값을 지정할 경우 그에 해당하는 row만 출력 가능

[[2000 'Ohio' 1.5 nan True]
 [2001 'Ohio' 1.7 -1.2 True]
 [2002 'Ohio' 3.6 nan True]
 [2001 'Nevada' 2.4 -1.5 False]
 [2002 'Nevada' 2.9 -1.7 False]
 [2003 'Nevada' 3.2 nan False]]
Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')
Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')


.loc 또는 .iloc을 쓰면 행(row)과 열(column)을 모두 인덱싱할 수 있다.

- .loc: 축(axis)의 레이블(label)을 이용해 인덱싱한다. 
- .iloc: 축(axis)의 순서를 이용해 인덱싱한다. 

행 인덱싱

    data.loc['Ohio']

In [47]:
data.loc['Ohio']

one      0
two      1
three    2
four     3
Name: Ohio, dtype: int64

행과 열 동시 인덱싱

    data.loc['Colorado', ['two', 'three']]

In [48]:
data.loc['Colorado', ['two', 'three']]

# 첫번째는 행, 두번째 인자는 열에 관한 내용 

two      5
three    6
Name: Colorado, dtype: int64

순서로 인덱싱하고 싶을 때는 .iloc을 사용한다.

    data.iloc[2, [3, 0, 1]]

In [49]:
data.iloc[2, [3, 0, 1]]

four    11
one      8
two      9
Name: Utah, dtype: int64

# **데이터 불러오기, 내보내기**


#### **데이터 불러오기**

먼저 불러올 데이터를 생성해 보자. csv는 형식이 단순하기 때문에 파이썬의 파일 쓰기 기능으로도 간단히 csv 파일을 생성할 수 있다.

In [50]:
f = open("ex1.csv", "w")
f.write("a,b,c,d,message\n")
f.write("1,2,3,4,hello\n")
f.write("5,6,7,8,world\n")
f.write("9,10,11,12,foo\n")
f.close()

판다스의 read_csv 함수로 파일을 읽어보자.

    df = pd.read_csv('ex1.csv')

In [51]:
import pandas as pd

df = pd.read_csv("ex1.csv")

In [52]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


csv에서 컬럼 이름이 표시되는 첫번째 줄을 헤더(header)라고 부른다. 헤더가 없는 csv 파일도 있다. 

In [53]:
f = open("ex2.csv", "w")
f.write("1,2,3,4,hello\n")
f.write("5,6,7,8,world\n")
f.write("9,10,11,12,foo\n")
f.close()

이 경우 read_csv에서 헤더가 없다고 표시해주거나 헤더를 직접 지정할 수 있다.

    pd.read_csv('ex2.csv', header=None)

    pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

In [54]:
pd.read_csv('ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [55]:
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


sep 파라미터를 이용해서 구분자(separator)를 지정해줄 수도 있다. 디폴트 값은 쉼표이다.

    pd.read_csv("ex1.csv", sep=',')

In [56]:
pd.read_csv("ex1.csv", sep=",")

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


간혹 csv 파일의 인코딩이 표준인 utf-8이 아닌 경우도 있다. 이 경우 인코딩을 지정해주어야 한다.

    pd.read_csv("ex3.csv", encoding="...")

특히 맥/리눅스와 윈도우 사이에 파일을 주고받을 때 깨지는 경험을 해본 적 있을 것이다. 윈도우의 기본 인코딩이 utf-8이 아니기 때문이다.

참고로 한글판 윈도우에서 흔히 쓰이는 인코딩 방식은 cp949이다.

In [57]:
f = open("ex3.csv", "w", encoding="cp949")
f.write("하나,둘,셋,넷,문자\n")
f.write("1,2,3,4,hello\n")
f.write("5,6,7,8,world\n")
f.write("9,10,11,12,foo\n")
f.close()

    pd.read_csv("ex3.csv", encoding='cp949')

In [58]:
pd.read_csv("ex3.csv", encoding='cp949')

Unnamed: 0,하나,둘,셋,넷,문자
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### **데이터 내보내기**

csv 형식으로 데이터를 저장하고 싶을 때는 `to_csv` 메서드를 이용한다.

    data = pd.read_csv('ex1.csv')

    data.to_csv('out.csv')



In [59]:
data = pd.read_csv('ex1.csv')

In [60]:
data.to_csv('out.csv')

In [61]:
!ls

ex1.csv  ex2.csv  ex3.csv  out.csv  sample_data


sep 파라미터를 사용해서 구분자(separator)를 바꿀 수 있다.

    data.to_csv('out.csv', sep='|')

In [62]:
data.to_csv("out.csv", sep='|')

In [63]:
!cat out.csv

|a|b|c|d|message
0|1|2|3|4|hello
1|5|6|7|8|world
2|9|10|11|12|foo


판다스에서 csv를 쓸 때 기본적으로 행과 열 레이블을 모두 저장한다. 옵션으로 인덱스와 헤더를 저장하지 않을 수 있다.

    data.to_csv("out.csv", index=False, header=False)

In [64]:
data.to_csv('out.csv', index=False, header=False)

In [65]:
!cat out.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


조심해야 할 점은 만약 데이터테이블에 행 레이블이 없다면 판다스는 디폴트로 csv에 기본 인덱스인 숫자값들을 적는다는 것이다. 이렇게 저장된 데이터를 read_csv로 다시 읽어들였을 때 판다스가 행 레이블을 컬럼으로 잘못 해석해서 불필요한 컬럼이 들어온다. 이를 막기 위해 직접 지정한 인덱스가 없는 경우에는 인덱스를 저장하지 않는 것이 좋다.

    # 데이터를 불러올 때 불필요한 컬럼 생성
    data.to_csv('out.csv')
    pd.read_csv('out.csv')

    # 저장한 데이터와 불러온 데이터가 일치함
    data.to_csv('out.csv', index=False)
    pd.read_csv('out.csv')

In [66]:
data.to_csv('out.csv', index=False)

In [67]:
pd.read_csv('out.csv')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


# **데이터 가공하기(Data manipulation)**

#### **결측값(missing values) 처리**

많은 경우에 데이터에는 결측값(missing values)이 생길 수 있다. 특정 조건에서 실험이 수행되지 않았거나, 기록이 누락된 경우들은 흔하게 일어난다.

결측값을 어떻게 처리해야 하는지는 데이터와 상황에 따라서 다르다. 일반적으로 결측치는 제거하거나, 다른 값으로 채워넣을 수 있다.

판다스에서는 결측치를 확인하는 방법도 제공한다.

    data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])

    data.isnull()

    data.notnull()

In [68]:
import numpy as np
data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])


In [69]:
data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

다음은 결측치를 제거하여 처리하는 방법이다.

    from numpy import nan as NA
    data = pd.Series([1, NA, 3.5, NA, 7])

    data.dropna()

이는 다음과 같다.

    data[data.notnull()]

In [70]:
from numpy import nan as NA
data = pd.Series([1, NA, 3.5, NA, 7])

In [71]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

데이터프레임에서도 같은 방식으로 결측값을 제거할 수 있다.

```python
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
      [NA, NA, NA], [NA, 6.5, 3.]])

cleaned = data.dropna()
cleaned
```

In [72]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],
      [NA, NA, NA], [NA, 6.5, 3.]])

In [73]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [74]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


`dropna`는 기본적으로 하나라도 결측값이 있으면 행을 삭제한다. 모든 값이 결측값일 때만 삭제하기 위해서는 `how='all'` 파라미터를 사용한다.


    data.dropna(how='all')



In [75]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


결측값에 다른 값을 채워넣는 것도 한 방법이다. `fillna`라는 함수를 사용한다.


    data.fillna(0)

In [76]:
data.fillna(0)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,0.0,0.0
2,0.0,0.0,0.0
3,0.0,6.5,3.0


컬럼마다 다른 값으로 결측값을 채워넣고 싶다면 다음과 같이 `fillna`에 딕셔너리를 넣을 수 있다.


    data.fillna({1: 0.5, 2: 0})

In [77]:
data.fillna({1: 0.5, 2:0})

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,0.5,0.0
2,,0.5,0.0
3,,6.5,3.0


흔히 쓰이는 방법 중 하나는 각 컬럼의 평균값으로 결측값을 채워넣는 것이다. 이 때는 다음과 같이 할 수 있다.

    data.fillna(data.mean())

In [78]:
data.fillna(data.mean())

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,6.5,3.0
2,1.0,6.5,3.0
3,1.0,6.5,3.0


#### **중복값(duplicated values) 처리**

중복값은 여러 이유로 생길 수 있다. 판다스에서 중복값은 다음과 같이 확인 가능하다.

```python
data = pd.DataFrame(
  {'k1': ['one', 'two'] * 3 + ['two'], 
  'k2': [1, 1, 2, 3, 3, 4, 4]})

data.duplicated()
```

In [79]:
data = pd.DataFrame(
  {'k1': ['one', 'two'] * 3 + ['two'], 
  'k2': [1, 1, 2, 3, 3, 4, 4]})

In [80]:
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [81]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

중복값을 제거하고 싶을 때는 `drop_duplicates()`를 쓴다.

    data.drop_duplicates()

In [82]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


기본적으로 판다스는 모든 컬럼의 값이 동일해야 중복값으로 판단한다. 직접 중복값 판단의 기준이 되는 컬럼을 지정해줄 수 있다.


    data.drop_duplicates(['k1'])



In [83]:
data.drop_duplicates(['k1'])

Unnamed: 0,k1,k2
0,one,1
1,two,1


기본적으로 drop_duplicates는 중복값 중 첫번째 값을 남긴다. 마지막 값을 남기고 싶다면 `keep` 파라미터를 사용한다.

    data.drop_duplicates(['k1', 'k2'], keep='last')

In [84]:
data.drop_duplicates(['k1', 'k2'], keep='last')

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
6,two,4


#### **데이터 변형하기(Data transformation)**

데이터 분석을 하다보면 데이터셋에 담긴 값을 새로운 데이터로 변형할 일이 많다. 

아래는 데이터프레임의 하나의 컬럼을 다른 컬럼으로 변환 시키는 방법

In [85]:
data = pd.DataFrame(
    {'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 'Bacon',
              'pastrami', 'honey ham', 'nova lox'],
     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})

In [86]:
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [87]:
data['food']

0          bacon
1    pulled pork
2          bacon
3       Pastrami
4    corned beef
5          Bacon
6       pastrami
7      honey ham
8       nova lox
Name: food, dtype: object

시리즈(Series)의 `map` 메서드는 함수나 딕셔너리 같은 객체를 받아서 한 값을 다른 값으로 매핑해준다.

참고로, 여기서 `lower()`는 문자열을 소문자로 바꿔주는 파이썬 문자열의 메서드이다.

    data['food'].map(lambda x: meat_to_animal[x.lower()])

In [88]:
meat_to_animal = {
      'bacon': 'pig',
      'pulled pork': 'pig',
      'pastrami': 'cow',
      'corned beef': 'cow',
      'honey ham': 'pig',
      'nova lox': 'salmon'
}

In [89]:
data['food'].map(lambda x: meat_to_animal[x.lower()])

0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object

이렇게 만들어진 새로운 시리즈(Series)를 기존 데이터프레임에 새로운 열(column)로 추가하면 데이터 변형이 끝난다.

    data['animal'] = data['food'].map(lambda x: meat_to_animal[x.lower()])

In [90]:
data['animal'] = data['food'].map(lambda x: meat_to_animal[x.lower()])

In [91]:
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


데이터베이스에 새로운 컬럼을 추가하는 용도의 `assign`이라는 메서드도 유용하게 쓰인다. 이 메서드는 새로운 컬럼 이름에 해당하는 파라미터에 데이터베이스에 적용할 함수를 넣어서 만들 수 있다. 이때 람다(lambda) 함수가 흔히 쓰인다.


`map`과 `assign`은 자주 같이 쓰임!!!!

    data.assign(animal = lambda df: df['food'].map(lambda x: meat_to_animal[x.lower()]))

In [92]:
data.assign(animal = lambda df: df['food'].map(lambda x: meat_to_animal[x.lower()]))

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


#### **값 교체하기(Replacing)**

잘못 측정되거나 오류에 해당하는 값을 다른 값으로 교체해야 할 경우가 있다. 이 때 판다스의 `.replace()` 메서드를 쓸 수 있다.

    data = pd.Series([1., -999., 2., -999., -1000., 3.])

    data.replace(-999, np.nan)

In [93]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])

In [94]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

# **데이터 합치기**

#### **merge**

merge 또는 join 연산은 두개 이상의 데이터프레임을 키(key)를 이용해 연결한다.


In [95]:
import pandas as pd

df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                    'data2': range(3)})

In [96]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [97]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


df1과 df2의 조인(join)은 many-to-one 조인에 해당한다. df1의 데이터는 키 컬럼에 a와 b 값을 여러개 갖고 있지만 df2는 키 컬럼에 각 값을 하나씩만 갖고 있다.

다음 함수를 이용해 조인을 할 수 있다.

    pd.merge(df1, df2)

In [98]:
pd.merge(df1, df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


위 예시에서 조인을 할 때 어떤 컬럼을 기준으로 합칠 것인지 지정하지 않았다. 기준 컬럼을 지정하지 않으면 판다스는 자동으로 겹치는 컬럼 이름을 기준으로 삼는다. 하지만 어떤 컬럼이 기준인지 직접 명시해주는 편이 좋다.

    pd.merge(df1, df2, on='key')

In [99]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


기준이 되는 컬럼의 이름이 각기 다르면 따로 명시해줄 수 있다.



    pd.merge(df3, df4, left_on='lkey', right_on='rkey')

  


In [100]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})

df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'],
                    'data2': range(3)})

In [101]:
df4

Unnamed: 0,rkey,data2
0,a,0
1,b,1
2,d,2


In [102]:
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


위 예시에서 merge 결과에 c와 d에 해당하는 값이 빠져있는 것을 볼 수 있다. 기본적으로 merge는 이너 조인(inner join)을 수행한다. 즉, 두 데이터프레임에 공통적으로 들어있는 키에 대해서면 merge를 하는 것이다. 하지만 다른 방식으로도 merge를 할 수 있다. `left`, `right`, `outer` 옵션이 있다.

In [103]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


이제 many-to-many join에 대해 알아보자. many-to-many join이란 두 데이터프레임 모두 기준이 되는 컬럼에 같은 값이 여러번 들어 있는 경우이다. 이 때 merge는 키가 되는 값들의 모든 경우의 수를 계산한다.

    pd.merge(df1, df2, on='key', how='left')


In [104]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                    'data1': range(6)})

df2 = pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],
                    'data2': range(5)})

In [105]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [106]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [107]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


왼쪽 데이터프레임에 b가 세개 있었고 오른쪽 데이터프레임에 b가 두개 있었기 때문에, 결과에는 b가 들어있는 행이 6개가 된다.


#### concat

데이터를 합치는 또다른 방법은 단순히 데이터를 한쪽으로 쌓는 것이다. 이는 시리즈와 데이터프레임에 모두 적용된다. 이때, 판다스에는 인덱스가 존재하기 때문에 판다스는 자동으로 인덱스에 맞춰서 데이터를 쌓는다.

    pd.concat([s1, s2, s3])

In [108]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

In [109]:
s3

f    5
g    6
dtype: int64

In [110]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

기본적으로 concat은 0번 축(axis)을 기준으로 한다. 0번 축이란 행(row) 축을 말한다. 시리즈를 0번 축으로 쌓으면 또다른 시리즈가 된다. 반면에 1번 축(axis), 즉 열(column) 축으로 쌓으면 데이터프레임이 된다.

    pd.concat([s1, s2, s3], axis=1)

In [111]:
pd.concat([s1, s2, s3], axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


시리즈와 마찬가지로 데이터프레임에서도 concat 연산을 할 수 있다.

    




In [112]:
import numpy as np

df1 = pd.DataFrame(np.arange(6).reshape(3, 2), 
                       index=['a', 'b', 'c'],
                       columns=['one', 'two'])

df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'],
                    columns=['three', 'four'])

In [113]:
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [114]:
df2

Unnamed: 0,three,four
a,5,6
c,7,8


    pd.concat([df1, df2], axis=1)

In [115]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


# **데이터 그룹화하기**

다음 데이터프레임에서 key1의 레이블에 따라 data1의 평균을 구하고 싶다고 가정해보자.

In [116]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'],
                   'key2' : ['one', 'two', 'one', 'two', 'one'],
                   'data1' : np.random.randn(5),
                   'data2' : np.random.randn(5)})

In [117]:
df

Unnamed: 0,key1,key2,data1,data2
0,a,one,-0.605036,-0.600181
1,a,two,0.829622,1.253639
2,b,one,0.327903,-1.427977
3,b,two,0.795813,-1.490055
4,a,one,-0.343614,0.785795


판다스에서는 다음과 같이 할 수 있다.

    df['data1'].groupby(df['key1']).mean()

In [118]:
df['data1'].groupby(df['key1']).mean()

key1
a   -0.039676
b    0.561858
Name: data1, dtype: float64

위 코드의 결과는 `key1` 열의 유니크한 값들로 인덱스가 붙어 있다. 결과로 나온 시리즈의 인덱스가 `key1`이라는 이름을 갖고 있는 이유는 `df['key1']`가 `key`이라는 이름을 갖고 있었기 때문이다.


그룹화하는 기준을 열 두개로 둘 수도 있다.

    means = df['data1'].groupby([df['key1'], df['key2']]).mean()

In [119]:
df['data1'].groupby([df['key1'], df['key2']]).mean()

key1  key2
a     one    -0.474325
      two     0.829622
b     one     0.327903
      two     0.795813
Name: data1, dtype: float64

그룹을 묶는 기준이 같은 데이터프레임에 있는 경우, 열(column)이 아닌 컬럼 이름만 groupby에 인자로 주어도 된다.

    df.groupby('key1').mean()

In [120]:
df.groupby('key1').mean()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,-0.039676,0.479751
b,0.561858,-1.459016


    df.groupby(['key1', 'key2']).mean()

In [121]:
df.groupby(['key1', 'key2']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,one,-0.474325,0.092807
a,two,0.829622,1.253639
b,one,0.327903,-1.427977
b,two,0.795813,-1.490055


그룹으로 묶은 다음 할 수 있는 연산은 많지만, 당연하게도 그룹의 크기를 구하고 싶을 때가 많다. 판다스 groupby는 그룹의 크기를 구하는 `size()`라는 유용한 메서드를 제공한다.

    df.groupby(['key1', 'key2']).size()

In [122]:
df.groupby(['key1', 'key2']).size()

key1  key2
a     one     2
      two     1
b     one     1
      two     1
dtype: int64

데이터프레임에서 groupby를 할 때, 연산을 수행할 특정 열(column)이나 여러 열을 선택할 수도 있다.

    df.groupby('key1')['data1']
    df.groupby('key1')[['data2']]

위 코드는 아래와 같은 역할을 한다. 일종의 syntatic sugar이다.

    df['data1'].groupby(df['key1'])
    df[['data2']].groupby(df['key1'])

In [123]:
df.groupby('key1')[['data1', 'data2']].mean()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,-0.039676,0.479751
b,0.561858,-1.459016
