### DataFrame 데이터 변형하기

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 
                   'k2': [1, 1, 2, 3, 3, 4, 4]})

In [3]:
df

Unnamed: 0,k1,k2
0,one,1
1,one,1
2,one,2
3,two,3
4,two,3
5,two,4
6,two,4


In [4]:
# duplicated() 함수 실행 시, 중복된 행이 등장하면 True 인 Series형태의 불리언 마스트을 얻음
df.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [5]:
# 중복된 행 제거 
df.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [6]:
df["v1"] = np.arange(7)

In [7]:
df

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [8]:
# k1 값이 중복인 행을 제거
df.drop_duplicates(["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [9]:
# k1, k2 값이 중복되는 행에서 last값을 남기고 제거 
df.drop_duplicates(["k1","k2"] , keep="last")

Unnamed: 0,k1,k2,v1
1,one,1,1
2,one,2,2
4,two,3,4
6,two,4,6


In [10]:
# k1, k2 값이 중복되는 행에서 first값을 남기고 제거 
# keep 인자를 주지 않았을 때 디폴트는 first
df.drop_duplicates(["k1","k2"] , keep="first")

Unnamed: 0,k1,k2,v1
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


In [11]:
df2 = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami', 
                             'corned beef', 'Bacon', 'pastrami', 'honey ham',
                             'nova lox'],
                    'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})


In [12]:
df2

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [13]:
# 새로운 값으로 매핑하는 딕셔너리 정의
meat_to_animal = { 
    'bacon': 'pig', 
    'pulled pork': 'pig', 
    'pastrami': 'cow', 
    'corned beef': 'cow', 
    'honey ham': 'pig', 
    'nova lox': 'salmon'
}

In [16]:
# 딕션에 명시된 규칙에 의거하여 값들 치환하고, animal열 추가
df2["animal"] = df2["food"].apply(lambda x : meat_to_animal[x.lower()])

In [17]:
s = pd.Series([1.,-999.,2.,-999.,-1000.,3.])

In [18]:
s

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [23]:
# 이상치 값 치환
s2 = s.replace(-999,np.nan)

In [24]:
s2

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [25]:
s2.replace(np.nan,0)

0       1.0
1       0.0
2       2.0
3       0.0
4   -1000.0
5       3.0
dtype: float64

In [26]:
s.fillna(0)

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [None]:
# 카테고리 (category,범주형) 데이터를 관리하기 위해 Categories 자료형 사용 
# 고객의 성별을 나타내는 열에서 '남성'이면 "male", '여성'이면 "female" 값을 가지는 것이 대표적인 경우

In [27]:
df3 = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

In [28]:
df3

Unnamed: 0,id,raw_grade
0,1,a
1,2,b
2,3,b
3,4,a
4,5,a
5,6,e


In [29]:
# 카테고리 형태로 치환
df3["grade"] = df3["raw_grade"].astype("category")

In [30]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,a
1,2,b,b
2,3,b,b
3,4,a,a
4,5,a,a
5,6,e,e


In [31]:
df3["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

In [32]:
# 카테고리 값 확인
df3["grade"].cat.categories

Index([u'a', u'b', u'e'], dtype='object')

In [33]:
# 새로운 카테고리를 포함하는 리스트 입력
df3["grade"].cat.categories = ["very good","good","very bad"]

In [34]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,very good
1,2,b,good
2,3,b,good
3,4,a,very good
4,5,a,very good
5,6,e,very bad


In [35]:
# 카테고리를 줄이거나 늘이기
df3["grade"].cat.set_categories(["very bad","bad","medium","good","very good"])

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

In [36]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,very good
1,2,b,good
2,3,b,good
3,4,a,very good
4,5,a,very good
5,6,e,very bad


In [38]:
df3["grade"]

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (3, object): [very good, good, very bad]

In [39]:
# grade기준 오름차순 정렬
df3.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
0,1,a,very good
3,4,a,very good
4,5,a,very good
1,2,b,good
2,3,b,good
5,6,e,very bad


In [40]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]

In [42]:
# pd.cut()함수를 사용, ages리스트의 각 정분들을 카테고리화 bins는 범위 
cats = pd.cut(ages, bins)

In [43]:
cats

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [44]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]]
              closed='right',
              dtype='interval[int64]')

In [45]:
# 값이 몇번째 카테로리에 포함되어 있는지 나타내는 코드 
cats.codes

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [46]:
# 각 구간에 해당하는 카테고리 값의 개수 확인
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [47]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

In [48]:
# 카테고리별로 이름 부여
pd.cut(ages, bins, labels=group_names)

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

In [49]:
data = np.random.rand(20)

In [50]:
data

array([ 0.18827739,  0.59783898,  0.08567457,  0.92701315,  0.64863514,
        0.30244769,  0.42478135,  0.81484939,  0.34959262,  0.41982729,
        0.9688946 ,  0.66642811,  0.82972986,  0.90672557,  0.9380295 ,
        0.20414717,  0.03139005,  0.52913385,  0.00431684,  0.06739676])

In [52]:
# 카테고리를 동일한 구간 4개로 나누고 기준값을 소수 2번째 까지 나타낸다
pd.cut(data, 4, precision = 2)

[(0.0034, 0.25], (0.49, 0.73], (0.0034, 0.25], (0.73, 0.97], (0.49, 0.73], ..., (0.0034, 0.25], (0.0034, 0.25], (0.49, 0.73], (0.0034, 0.25], (0.0034, 0.25]]
Length: 20
Categories (4, interval[float64]): [(0.0034, 0.25] < (0.25, 0.49] < (0.49, 0.73] < (0.73, 0.97]]

In [53]:
data2 = np.random.randn(1000)

In [54]:
data2[:5]

array([ 0.63932426,  1.79339578, -1.88279914,  0.99328024, -1.08648283])

In [55]:
# pd.qcut() 지정한 갯수만큼의 구간을 정하고 분위수를 구분값으로 한다.
cats = pd.qcut(data2, 4)

In [56]:
cats

[(-0.069, 0.646], (0.646, 2.958], (-3.336, -0.731], (0.646, 2.958], (-3.336, -0.731], ..., (0.646, 2.958], (-0.731, -0.069], (-0.731, -0.069], (-3.336, -0.731], (-3.336, -0.731]]
Length: 1000
Categories (4, interval[float64]): [(-3.336, -0.731] < (-0.731, -0.069] < (-0.069, 0.646] < (0.646, 2.958]]