
<a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>


In [46]:
import pandas as pd
import numpy as np

# Dtypes

## Dtypes의 종류

|Pandas dtype|Python type|NumPy type|Usage|
|:-:|:-:|:-:|:-:|
|`object`|`str or mixed`|`string_, unicode_, mixed types`|Text or mixed numeric and non-numeric values|
|`int64`|`int`|`int_,..`<br>`uint_,..`|Integer numbers|
|`float64`|`float`|`float_,`|Floating point numbers|
|`bool`|`bool`|`bool_`|True/False values|
|`datetime64`|`datetime`|`datetime64[ns]`|Date and time values|
|`timedelta[ns]`|NA|NA|Differences between two datetimes|
|`category`|NA|NA|Finite list of text values|

# column 객체

## column 명 변경

In [47]:
df = pd.DataFrame([[14,'남','목동'],[16,'여','성수동']]
                  , index = ['김씨','박씨']
                  , columns=['나이','성별','거주지'])

print(df.index)
print(df.columns)
df


Index(['김씨', '박씨'], dtype='object')
Index(['나이', '성별', '거주지'], dtype='object')


Unnamed: 0,나이,성별,거주지
김씨,14,남,목동
박씨,16,여,성수동


### 직접 지정

In [48]:
df.columns 

Index(['나이', '성별', '거주지'], dtype='object')

In [49]:
df.columns= ['age','sex','address']
df

Unnamed: 0,age,sex,address
김씨,14,남,목동
박씨,16,여,성수동


###  `df.rename`
* `df.rename( 바꿀것, inplace= (True 직접 바꾼다., False 원본은 그대로 놓아 둔다.) )`

* `df.rename`으로 컬럼명 또는 인덱스명도 변경 가능하다.

In [50]:
# inplace=True 하지 않으면 바뀌지않는다.
df.rename(columns={'age':'연령','sex':'남녀'})

Unnamed: 0,연령,남녀,address
김씨,14,남,목동
박씨,16,여,성수동


In [51]:
df.rename(columns={'age':'연령','sex':'남녀'},index={'김씨':'Kim'},inplace=True)
df

Unnamed: 0,연령,남녀,address
Kim,14,남,목동
박씨,16,여,성수동


### `prefix()`,`suffix()`

In [52]:
df_pre  = df.add_prefix('A반의 ')
df_pre

Unnamed: 0,A반의 연령,A반의 남녀,A반의 address
Kim,14,남,목동
박씨,16,여,성수동


In [53]:
df_suff = df.add_suffix('_A')
df_suff

Unnamed: 0,연령_A,남녀_A,address_A
Kim,14,남,목동
박씨,16,여,성수동


## 순서바꾸기 column
* 이름만을 바꾸는것이 아니라 value값도 같이 바뀌어야 한다.

In [54]:
# 객체를 생성하고~
cols = df.columns.tolist()
cols

['연령', '남녀', 'address']

In [55]:
cols = [cols[2],cols[1],cols[0]]
cols

['address', '남녀', '연령']

In [56]:
# 다시 지정해주면 끝~
df = df[cols]
df

Unnamed: 0,address,남녀,연령
Kim,목동,남,14
박씨,성수동,여,16


## column 의 데이터 타입

In [57]:
df = pd.DataFrame({'col1': [1, 2, 3, 4, 5],
                   'col2': ['A', 'B', 'C', 'D', 'E'],
                   'col3': [3.5, 4.4, 5., 4.6, 7.6]})
df

Unnamed: 0,col1,col2,col3
0,1,A,3.5
1,2,B,4.4
2,3,C,5.0
3,4,D,4.6
4,5,E,7.6


### `df.dtypes`

* 데이터 타입 조회

In [58]:
df.dtypes

col1      int64
col2     object
col3    float64
dtype: object

### `df.select_dtypes(dtype)`
* 특정 데이터 타입 컬럼 조회

In [59]:
df.select_dtypes('object')

Unnamed: 0,col2
0,A
1,B
2,C
3,D
4,E


### `df.astype()`
* `df.astype({'col1':'object, 'col2':float}`
* 데이터 타입 변경

In [60]:
df = df.astype({'col1':'object', 'col3': object})
print(df.dtypes)
df

col1    object
col2    object
col3    object
dtype: object


Unnamed: 0,col1,col2,col3
0,1,A,3.5
1,2,B,4.4
2,3,C,5.0
3,4,D,4.6
4,5,E,7.6


### `df.convert_dtypes()`,`df.infer_objects()`
* 데이터 타입 변경

In [61]:
df.convert_dtypes()

Unnamed: 0,col1,col2,col3
0,1,A,3.5
1,2,B,4.4
2,3,C,5.0
3,4,D,4.6
4,5,E,7.6


In [62]:
df.infer_objects()

Unnamed: 0,col1,col2,col3
0,1,A,3.5
1,2,B,4.4
2,3,C,5.0
3,4,D,4.6
4,5,E,7.6


### `pd.to_numeric()`, `pd.to_datetime()`, `pd.to_timedelta()`
* 특정 시리즈의 데이터 형을 변환

In [63]:
df['col1'] = pd.to_numeric(df.col1)
df.dtypes

col1     int64
col2    object
col3    object
dtype: object

`apply`와 `fillna`를 활용한 전체 바꾸기

In [64]:
df = df.apply(pd.to_numeric, errors='coerce').fillna(0)
df.dtypes

col1      int64
col2    float64
col3    float64
dtype: object

In [65]:
df

Unnamed: 0,col1,col2,col3
0,1,0.0,3.5
1,2,0.0,4.4
2,3,0.0,5.0
3,4,0.0,4.6
4,5,0.0,7.6


## column 추가

### `df.loc['col1']`
* 직접 추가

In [66]:
df

Unnamed: 0,col1,col2,col3
0,1,0.0,3.5
1,2,0.0,4.4
2,3,0.0,5.0
3,4,0.0,4.6
4,5,0.0,7.6


In [67]:
df.loc[:, 'col4'] = df['col3']
df

Unnamed: 0,col1,col2,col3,col4
0,1,0.0,3.5,3.5
1,2,0.0,4.4,4.4
2,3,0.0,5.0,5.0
3,4,0.0,4.6,4.6
4,5,0.0,7.6,7.6


### `df.insert()`

* `df.insert(loc=int, column= column_name, value=Sereis of array-like)` 

In [70]:
df.insert(2, 'NewCol', list('AbCde'))
df

ValueError: cannot insert NewCol, already exists

# index 객체

|클래스|설명|
|---|---|
|Index|일반적인 Index 객체이며, NumPy 배열 형식으로 축의 이름 표현|
|Int64Index|정수 값을 위한 Index|
|Multilndex|단일 축에 여러 단계 색인을 표현하는 계층적 Index 객체 (튜플의 배열과 유사)|
|Datetimelndex| NumPy의 datetime64 타입으로 타임스탬프 저장|
|Periodindex|기간 데이터를 위한 Index|

In [24]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [25]:
idx[1]

4

In [26]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [27]:
idx[-1::]

Int64Index([10], dtype='int64')

In [28]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [29]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


## index 명 변경

In [30]:
df = pd.DataFrame(np.random.randint(1,20,(5, 3)), columns=list('ABC'), index=list('abcde'))
df

Unnamed: 0,A,B,C
a,9,12,14
b,7,5,18
c,10,8,18
d,14,4,16
e,17,13,17


### 직접 변경

In [31]:
df.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [32]:
df.index = ['가', '나', '다', '라', '마']
df

Unnamed: 0,A,B,C
가,9,12,14
나,7,5,18
다,10,8,18
라,14,4,16
마,17,13,17


### `df.rename()`

In [33]:
df.index

Index(['가', '나', '다', '라', '마'], dtype='object')

In [34]:
df.rename(index={'가':'a','마':'f'}, inplace=True)
df


Unnamed: 0,A,B,C
a,9,12,14
나,7,5,18
다,10,8,18
라,14,4,16
f,17,13,17


## index 객체 활용

* DataFrame을 조회 하거나 조작할때 특정 index에 접근하게 된다. 
* 활용하면 손쉽게 조작이 가능하다

In [35]:
idx = pd.Index([2, 4, 6, 8, 10])
idx

Int64Index([2, 4, 6, 8, 10], dtype='int64')

In [36]:
idx[1]

4

In [37]:
idx[1:2:2]

Int64Index([4], dtype='int64')

In [38]:
idx[-1::]

Int64Index([10], dtype='int64')

In [39]:
idx[::2]

Int64Index([2, 6, 10], dtype='int64')

In [40]:
print(idx)
print(idx.size)
print(idx.shape)
print(idx.ndim)
print(idx.dtype)

Int64Index([2, 4, 6, 8, 10], dtype='int64')
5
(5,)
1
int64


### index를 활용한 조작

In [41]:
df = pd.DataFrame(np.random.randint(1, 5, (10,3)),
                 columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,2,1,1
1,4,1,1
2,3,1,2
3,4,1,1
4,2,2,3
5,3,2,4
6,2,3,3
7,2,3,3
8,2,1,4
9,3,4,4


In [42]:
df.index.tolist()

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [43]:
idx = df.index
idx[::2].tolist()

[0, 2, 4, 6, 8]

In [44]:
df.iloc[idx[::2],:]

Unnamed: 0,A,B,C
0,2,1,1
2,3,1,2
4,2,2,3
6,2,3,3
8,2,1,4


## index 연산


|연산자|메소드|설명|
|---|---|----|
||append|색인 객체를 추가한 새로운 색인 반환|
|`^`|difference|색인의 차집합 반환|
|`&`|intersection|색인의 교집합 반환|
|`\|`|union|색인의 합집합 반환|
||isin|색인이 존재하는지 여부를 불리언 배열로 반환|
||delete|색인이 삭제된 새로운 색인 반환|
||drop|값이 삭제된 새로운 색인 반환|
||insert|색인이 추가된 새로운 색인 반환|
||is_monotonic|색인이 단조성을 가지면 True|
||is_unique|중복되는 색인이 없다면 True|
||unique|색인에서 중복되는 요소를 제거하고 유일한 값만 반환|


In [45]:
idx1 = pd.Index([1,2,4,6,8])
idx2 = pd.Index([2,4,5,6,7])
print(idx1.append(idx2))
print()
print(idx1.difference(idx2))
print()
print(idx1 - idx2) # 위에 강의 오타~ 그냥 -는 빼준다 (단순 뺄샘임) 차집합은 ^임
print(idx1.intersection(idx2))
print(idx1 & idx2)
print(idx1.union(idx2))
print(idx1 | idx2)
print(idx1.delete(0))
print(idx1.drop(1))
print(idx1 ^ idx2) # 여집합

Int64Index([1, 2, 4, 6, 8, 2, 4, 5, 6, 7], dtype='int64')

Int64Index([1, 8], dtype='int64')

Int64Index([-1, -2, -1, 0, 1], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([2, 4, 6], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([1, 2, 4, 5, 6, 7, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([2, 4, 6, 8], dtype='int64')
Int64Index([1, 5, 7, 8], dtype='int64')


출처: 
* <a href='https://github.com/SeWonKwon' ><div> <img src ='https://slid-capture.s3.ap-northeast-2.amazonaws.com/public/image_upload/6556674324ed41a289a354258718280d/964e5a8b-75ad-41fc-ae75-0ca66d06fbc7.png' align='left' /> </div></a>


<br>


* [이수안컴퓨터연구소](https://www.youtube.com/channel/UCFfALXX0DOx7zv6VeR5U_Bg)
* https://github.com/minsuk-heo/pandas