In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({'k1': ['one'] * 3 + ['two'] * 4, 
                   'k2': [1, 1, 2, 3, 3, 4, 4]})

1.중복값 제거하기

In [17]:
df

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [5]:
#충복된 행이 등장하는 intext에 해당하는 부분이 true로 표현된다.
df.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

In [7]:
#중복된 행 제거
df.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
2,one,2
3,two,3
5,two,4


In [9]:
#중복되지 않는 열 추가
df["v1"] = np.arange(7)

In [10]:
df

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [11]:
#아무것도 삭제되지 않는 결과 발생
df.drop_duplicates()

Unnamed: 0,k1,k2,v1
0,one,1,0
1,one,1,1
2,one,2,2
3,two,3,3
4,two,3,4
5,two,4,5
6,two,4,6


In [12]:
#k1값만 보고 중복 결정
df.drop_duplicates(["k1"])

Unnamed: 0,k1,k2,v1
0,one,1,0
3,two,3,3


In [14]:
#k1,k2의 값을 기준으로 중복값을 제거하는데, 
#두행중에서 마지막 값을 남게한다.
df.drop_duplicates(["k1","k2"] ,keep="last")

Unnamed: 0,k1,k2,v1
1,one,1,1
2,one,2,2
4,two,3,4
6,two,4,6


In [15]:
#위 과정에서 default는 첫 행이 남는 것이다.
df.drop_duplicates(["k1","k2"])

Unnamed: 0,k1,k2,v1
0,one,1,0
2,one,2,2
3,two,3,3
5,two,4,5


2.데이터 매핑하기

In [16]:
df2 = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'Pastrami', 
                             'corned beef', 'Bacon', 'pastrami', 'honey ham',
                             'nova lox'],
                    'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})

In [20]:
df2
#food 동일한 이름임에도 불구하고 대소문자의 차이가 있다.

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [22]:
#dictionary 설정 => 이 규칙에 의거해 새로운 값으로 mapping
meat_to_animal = { 
    'bacon': 'pig', 
    'pulled pork': 'pig', 
    'pastrami': 'cow', 
    'corned beef': 'cow', 
    'honey ham': 'pig', 
    'nova lox': 'salmon'
}

In [26]:
#df.apply() 함수로 기존 "food" 열에 포함된 각 문자열 값에 
#str.lower() 함수를 먼저 적용하여 모두 소문자로 변환한 뒤 
#이를 키로 갖는 meat_to_animal에서의 값을 반환
df2["animal"] = df2["food"].apply(lambda x: meat_to_animal[x.lower()])

In [27]:
df2

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,Pastrami,6.0,cow
4,corned beef,7.5,cow
5,Bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


3.값 치환하기

In [28]:
s = pd.Series([1., -999., 2., -999., -1000., 3.])

In [29]:
#이상치가 들어간 series
s

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

In [31]:
#replace 함수로 이상치를 치환한다.
s2 = s.replace(-999, np.nan)
s2

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

In [32]:
s2.replace(np.nan, 0)

0       1.0
1       0.0
2       2.0
3       0.0
4   -1000.0
5       3.0
dtype: float64

In [33]:
#위와 같은 결과
s2.fillna(0)

0       1.0
1       0.0
2       2.0
3       0.0
4   -1000.0
5       3.0
dtype: float64

4.Categories 자료형(범주형)

pandas에서는 'Categories'라는 특별한 자료형을 제공합니다. 이는 DataFrame 상의 특정 열과 같이, Series에 대하여 부여될 수 있는 자료형입니다. Categories 자료형을 활용하면, 단순히 문자열 자료형으로 저장되어 있던 데이터를 대체함으로써 메모리 사용량을 획기적으로 줄일 수 있으며, 이에 대한 각종 통계 분석도 보다 간편하게 할 수 있습니다.

4_1.Categories 열 생성하기

In [35]:
df3 = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})

In [36]:
#a,b,e라는 범주가 단순한 문자열로 저장되어 있다.
df3

Unnamed: 0,id,raw_grade
0,1,a
1,2,b
2,3,b
3,4,a
4,5,a
5,6,e


In [43]:
#기존의 raw_grade를 category data type으로 변경
df3["grade"] = df3["raw_grade"].astype("category")

In [44]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,a
1,2,b,b
2,3,b,b
3,4,a,a
4,5,a,a
5,6,e,e


In [45]:
df3["grade"]

0    a
1    b
2    b
3    a
4    a
5    e
Name: grade, dtype: category
Categories (3, object): [a, b, e]

In [46]:
df3["grade"].cat.categories

Index(['a', 'b', 'e'], dtype='object')

In [47]:
#새로운 카테고리를 입력해준다.
df3["grade"].cat.categories = ["very good", "good", "very bad"]

In [48]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,very good
1,2,b,good
2,3,b,good
3,4,a,very good
4,5,a,very good
5,6,e,very bad


In [49]:
#카테고리의 종류 갯수 조절.
df3["grade"] = df3["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])

In [51]:
df3

Unnamed: 0,id,raw_grade,grade
0,1,a,very good
1,2,b,good
2,3,b,good
3,4,a,very good
4,5,a,very good
5,6,e,very bad


In [52]:
df3["grade"]
#카테고리의 갯수가 늘어난다. => 우리가 주어진순서대로 정렬될 수 있는 값을 가진다.

0    very good
1         good
2         good
3    very good
4    very good
5     very bad
Name: grade, dtype: category
Categories (5, object): [very bad, bad, medium, good, very good]

In [41]:
df3.sort_values(by="grade")

Unnamed: 0,id,raw_grade,grade
5,6,e,very bad
1,2,b,good
2,3,b,good
0,1,a,very good
3,4,a,very good
4,5,a,very good


In [53]:
#사장,부장,대리같이 categories간의 대소관계가 존재할 때 정렬이 편한 함수이다.

4_2.숫자 데이터의 카테고리화

In [59]:
#연령을 나타내는 열에 숫자 데이터로 구성된다면,
#청소년, 청년, 노인같이 숫자의 구간을 나누어 범주형으로 관리하는 법
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
#bins 는 18-25, 25-35, 35-60, 60-100의 구역으로 cut할것임

In [60]:
cats = pd.cut(ages, bins)

In [61]:
cats
#4가지 카테고리 확인

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]

In [62]:
cats.categories

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]]
              closed='right',
              dtype='interval[int64]')

In [64]:
cats.codes
#ages가 해당하는 cats의 index수

array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

In [66]:
cats.value_counts()

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
dtype: int64

In [67]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]
pd.cut(ages, bins, labels=group_names)
#labels로 구역의 이름을 설정한다. =>categories의 새 이름

[Youth, Youth, Youth, YoungAdult, Youth, ..., YoungAdult, Senior, MiddleAged, MiddleAged, YoungAdult]
Length: 12
Categories (4, object): [Youth < YoungAdult < MiddleAged < Senior]

In [68]:
data = np.random.rand(20)


In [69]:
data

array([0.77037995, 0.01991359, 0.78947362, 0.99876654, 0.76785154,
       0.85455162, 0.55863573, 0.20720385, 0.30337897, 0.75510076,
       0.58351424, 0.51494422, 0.25429181, 0.05276545, 0.21445268,
       0.31999248, 0.78882788, 0.9923591 , 0.14039198, 0.09559437])

In [70]:
pd.cut(data, 4,precision = 2)
#category를 4개를 나눌 것이도, precision:구간을 나눌때 기준을 소수점 몇자리 까지 할것인가.? 

[(0.75, 1.0], (0.019, 0.26], (0.75, 1.0], (0.75, 1.0], (0.75, 1.0], ..., (0.26, 0.51], (0.75, 1.0], (0.75, 1.0], (0.019, 0.26], (0.019, 0.26]]
Length: 20
Categories (4, interval[float64]): [(0.019, 0.26] < (0.26, 0.51] < (0.51, 0.75] < (0.75, 1.0]]

In [71]:
data2 = np.random.randn(1000)

In [72]:
data2[:5]

array([-2.23827903, -1.38132826, -0.43640028, -1.46105917, -0.02062792])

In [75]:
#qcut : 4구간을 나눌때 1000개의 성분중에서 4분의수가 각각 들어간다. 
#구간의 길이가 같다는 보장을 할 수 없음
cats = pd.qcut(data2, 4)

In [76]:
cats

[(-3.116, -0.704], (-3.116, -0.704], (-0.704, -0.0111], (-3.116, -0.704], (-0.704, -0.0111], ..., (-3.116, -0.704], (-0.0111, 0.632], (-0.0111, 0.632], (0.632, 3.121], (0.632, 3.121]]
Length: 1000
Categories (4, interval[float64]): [(-3.116, -0.704] < (-0.704, -0.0111] < (-0.0111, 0.632] < (0.632, 3.121]]