In [4]:
import pandas as pd
import numpy as np

## 5. pandas의 기능

### 5.1 데이터 삭제하기
- index에 따라 삭제하기 : df.drop(['인덱스이름' or 인덱스번호], axis =0)
- columns에 따라서 삭제하기 : df.drop(['컬럼이름'], axis=1)
- drop을 사용한 값을 df에 저장되도록 하기 위해선 inplace=True를 추가해줘야함

In [10]:
data = {'수학' : [ 90, 80, 70], '영어' : [ 98, 89, 95],
             '음악' : [ 85, 95, 100], '체육' : [ 100, 90, 90]}

df = pd.DataFrame(data, index=['서준', '우현', '인아'])
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90
인아,70,95,100,90


In [4]:
# 체육 컬럼 삭제, 값을 df에 저장하지는 않음
df.drop(['체육'],axis=1)

Unnamed: 0,수학,영어,음악
서준,90,98,85
우현,80,89,95
인아,70,95,100


In [11]:
df.drop(['인아'],axis=0,inplace = True)

In [12]:
df

Unnamed: 0,수학,영어,음악,체육
서준,90,98,85,100
우현,80,89,95,90


### 5.2 데이터 정렬하기 
- sort_values()
- sort_index()
- 내림차순으로 정렬 : ascending = False

In [6]:
a = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
a

d    0
a    1
b    2
c    3
dtype: int32

In [8]:
# value 값으로 정렬
a.sort_values() 

c    3
b    2
a    1
d    0
dtype: int32

In [9]:
# index 값으로 정렬
a.sort_index() 

a    1
b    2
c    3
d    0
dtype: int32

In [10]:
df = pd.DataFrame(np.arange(8).reshape(2, 4),
             index = ["three", "one"],
             columns = ["d", "a", "b", "c"])
df

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [11]:
# index를 이용해 정렬
df.sort_index(axis = 0) 

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [12]:
# columns를 이용해 정렬
df.sort_index(axis = 1) 

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [17]:
df = pd.DataFrame({'b' :[4, 7, -3, 2], 'c':[0, 1, 0, 1]})
df

Unnamed: 0,b,c
0,4,0
1,7,1
2,-3,0
3,2,1


In [19]:
# b컬럼을 기준으로 정렬
df.sort_values(by='b', axis=0)

Unnamed: 0,b,c
2,-3,0
3,2,1
0,4,0
1,7,1


### 5.3 기타 
- value_counts() : 값의 개수 확인
- unique() : 유일한 값 확인

In [67]:
a = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
a

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [68]:
a.value_counts()

c    3
a    3
b    2
d    1
dtype: int64

In [70]:
a.unique()

array(['c', 'a', 'd', 'b'], dtype=object)

## 6. 데이터 정제 

### 6.1 누락데이터 처리

1. isnull() : nan값을 찾기

In [21]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [22]:
data.isnull()

0    False
1     True
2    False
3     True
4    False
dtype: bool

2. dropna() : nan값을 삭제
    - axis = 0 : 행을 삭제
    - axis =1 : 열을 삭제
    - how = 'all' : 모두 nan값일 때 삭제
    - how = 'any' : 하나라도 nan값이 존재하면 삭제
    - thresh = n : null이 아닌데이터가 n개보다 작을 때 삭제
    
    - 기본값 : axis = 0,how = 'any',

In [39]:
data = pd.DataFrame([[1.0, 6.5, 3.0], 
                     [1.0, np.nan, np.nan], 
                     [np.nan, np.nan, np.nan], 
                     [5.0, 6.0, 3.0]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,5.0,6.0,3.0


In [40]:
data.dropna()

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
3,5.0,6.0,3.0


In [41]:
data.dropna(axis=0, how="any")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
3,5.0,6.0,3.0


In [42]:
data.dropna(axis=0, how="all")

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,5.0,6.0,3.0


In [43]:
data.dropna(axis=1, how='any')

0
1
2
3


In [48]:
data.dropna(axis=1, thresh=3)

Unnamed: 0,0
0,1.0
1,1.0
2,
3,5.0


3. fillna() : null값 채우기

In [50]:
data.fillna(100)

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,100.0,100.0
2,100.0,100.0,100.0
3,5.0,6.0,3.0


In [52]:
data.fillna({0:10,1:20,2:30})

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,20.0,30.0
2,10.0,20.0,30.0
3,5.0,6.0,3.0


### 6.2 데이터 변형

1. 중복제거하기 
     - data.duplicated() : 중복 확인
     - data.drop_duplicates() : 중복 삭제
     - 옵션 : ['컬럼'] - '컬럼'기준으로 중복되는값 / keep = last :나중에 나오는값 유지

In [53]:
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2": [1, 1, 2, 3, 3, 4, 4]})
data

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4
6,two,4


In [54]:
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [55]:
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [56]:
data.drop_duplicates(['k1'], keep = 'last')

Unnamed: 0,k1,k2
4,one,3
6,two,4


2. 값 변경하기
    - replace('원래의 값', '변경할 값')

In [57]:
data = pd.Series([1, -999, 2, -999, -1000, 3])
data

0       1
1    -999
2       2
3    -999
4   -1000
5       3
dtype: int64

In [58]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

3. 구간 나누기
    - pd.cut(data, bins, label) : data를 범위기준 bin의 개수(범위)로 나눠주기(label은 각 구간의 이름)
    - pd.qcut(data, bins) : data를 양 기준 bin의 개수로 나눠주기

In [63]:
#(18,25] , (25,35] ... (60,100] 을 기준으로 나눔
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins, labels = ["Youth", "YoungAdult", "MeddleAged", "Senior"])
cats

['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MeddleAged', 'MeddleAged', 'YoungAdult']
Length: 12
Categories (4, object): ['Youth' < 'YoungAdult' < 'MeddleAged' < 'Senior']

In [66]:
# 범위기준
pd.cut(ages, 4).value_counts()

(19.959, 30.25]    6
(30.25, 40.5]      3
(40.5, 50.75]      2
(50.75, 61.0]      1
dtype: int64

In [65]:
# 양 기준
pd.qcut(ages, 4).value_counts()

(19.999, 22.75]    3
(22.75, 29.0]      3
(29.0, 38.0]       3
(38.0, 61.0]       3
dtype: int64

## 7. 데이터 합치기 

1.  concat([df,df,df],axis)
    - axis = 0 : 같은 컬럼에 따라 위아래로 연결
    - axis = 1 : 같은 인덱스에 따라 좌우로 연결

In [84]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                    'data2': range(3)})

In [85]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [86]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [89]:
# concat : 데이터들을 같은 컬럼에 따라 연결
pd.concat([df1,df2],axis = 0)

Unnamed: 0,key,data1,data2
0,b,0.0,
1,b,1.0,
2,a,2.0,
3,c,3.0,
4,a,4.0,
5,a,5.0,
6,b,6.0,
0,a,,0.0
1,b,,1.0
2,d,,2.0


In [90]:
# concat : 데이터들을 같은 인덱스에 따라 연결
pd.concat([df1,df2],axis = 1)

Unnamed: 0,key,data1,key.1,data2
0,b,0,a,0.0
1,b,1,b,1.0
2,a,2,d,2.0
3,c,3,,
4,a,4,,
5,a,5,,
6,b,6,,


2. merge(df,df,how)
    - how = inner : 두 df에 값이 모두 존재하는 것 만 보여짐
    - how = outer : 두 df값을 모두 가져오고 없는값은 nan
    - how = left : 왼쪽에 입력된 값이 기준이됨 
    - how = right : 오른쪽에 입력된 값이 기준이됨 
    - on : 어떤 컬럼을 기준으로 잡을지
    
    ** 두 컬럼의 이름이 다를때는 left_on=, right_on= 으로 구분
    ** index를 사용하고 싶다면 left(right)_index = True

In [92]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                    'data2': range(3)})

In [93]:
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [94]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


In [97]:
pd.merge(df1, df2, on='key', how='inner')
# key의 c는 df1에만, d는df2에만 존재해서 보여지지 않음

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


In [96]:
pd.merge(df1, df2, on='key', how='outer')
# c와d값 모두 연결됨

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


In [98]:
#df1을 기준으로
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,1,1.0
2,a,2,0.0
3,c,3,
4,a,4,0.0
5,a,5,0.0
6,b,6,1.0


In [101]:
# df2를 기준으로
pd.merge(df1, df2, on='key', how='right')

Unnamed: 0,key,data1,data2
0,a,2.0,0
1,a,4.0,0
2,a,5.0,0
3,b,0.0,1
4,b,1.0,1
5,b,6.0,1
6,d,,2


In [102]:
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], 'value': range(6)})
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])

In [104]:
pd.merge(left1, right1, left_on = 'key',right_index = True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
