# Numpy 넘파이

* Numerical Python
* 선형대수 기반의 코드를 작성하도록 지원
* C/C++ 과 같은 저수준 언어 기반의 호환 API 제공
  * 파이썬이 가지는 제약을 C/C++로 작성하고 이를 넘파이에서 호출
  * Tensorflow의 방식

In [86]:
import numpy as np

In [87]:
array1 = np.array([1,2,3])
print('array1 type :', type(array1))
print('array1 shape :', array1.shape)

array2 = np.array([[1, 2, 3],
                   [2, 3, 4]])
print('array2 type :', type(array2))
print('array2 shape :', array2.shape)

array3 = np.array([[1,2,3]])
print('array3 type :', type(array3))
print('array3 shape :', array3.shape)

array1 type : <class 'numpy.ndarray'>
array1 shape : (3,)
array2 type : <class 'numpy.ndarray'>
array2 shape : (2, 3)
array3 type : <class 'numpy.ndarray'>
array3 shape : (1, 3)


In [88]:
print('array1 : {:0}차원'.format(array1.ndim))
print('array2 : {:0}차원'.format(array2.ndim))
print('array3 : {:0}차원'.format(array3.ndim))

array1 : 1차원
array2 : 2차원
array3 : 2차원


* 하나의 ndarray 안에는 같은 Data type만 존재

In [89]:
list1 = [1, 2, 3]
print(type(list1))
array1 = np.array(list1)
print(type(array1))
print(array1, array1.dtype)

<class 'list'>
<class 'numpy.ndarray'>
[1 2 3] int64


* 만약 다른 type이 있으면 작은 크기의 data type을 형변환

In [90]:
list2 = [1, 2, 'test']
array2 = np.array(list2)
print(array2, array2.dtype)

list3 = [1, 2, 4.0]
array3 = np.array(list3)
print(array3, array3.dtype)

['1' '2' 'test'] <U21
[1. 2. 4.] float64


### astype 함수로 형변환
* float 형보다 int이 데이터 절약에 효과적

In [91]:
array_int = np.array([1, 2, 3])
array_float = array_int.astype('float64')
print(array_float, array_float.dtype)

array_int1 = array_float.astype('int32')
print(array_int1, array_int1.dtype)

array_float1 = np.array([1.1, 2.2, 3.3])
array_int2 = array_float1.astype('int32')
print(array_int2, array_int2.dtype)

[1. 2. 3.] float64
[1 2 3] int32
[1 2 3] int32


### ***arange, zeros, ones***

* arange : 표준 함수 range()와 유사

In [92]:
sequence_array = np.arange(10)
print(sequence_array)
print(sequence_array.dtype, sequence_array.shape)

[0 1 2 3 4 5 6 7 8 9]
int64 (10,)


* zeros : 0으로 이뤄진 ndarray 생성
* ones : 1로 이뤄진 ndarray 생성

> dytpe을 지정하지 않으면 float64값 생성

In [93]:
zero_array = np.zeros((3,2), dtype='int64')
print(zero_array)
print(zero_array.dtype, zero_array.shape)

print()

one_array = np.ones((3,2))
print(one_array)
print(one_array.dtype, one_array.shape)

[[0 0]
 [0 0]
 [0 0]]
int64 (3, 2)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
float64 (3, 2)


### reshape()
* 차원, 크기 변경 (ex. 5,8 -> 8,5)
> 크기가 다르면 **error** (ex. 10을 4,3으로 변경 X)

In [94]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(2, 5)
print('\narray2:\n', array2)

array3 = array1.reshape(5, 2)
print('\narray3:\n', array3)

array1:
 [0 1 2 3 4 5 6 7 8 9]

array2:
 [[0 1 2 3 4]
 [5 6 7 8 9]]

array3:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]


* -1 사용시, 호환되는 shape의 값으로 자동 지정

> 크기 10을 (4, -1)로 지정하면 error

In [95]:
array1 = np.arange(10)
print('array1:\n', array1)

array2 = array1.reshape(-1, 5)
print('\narray2:', array2.shape)

array3 = array1.reshape(-1, 2)
print('\narray3:', array3.shape)

array1:
 [0 1 2 3 4 5 6 7 8 9]

array2: (2, 5)

array3: (5, 2)


#### ***reshape(-1, 1)***
* 2차원이고, 여러개의 low를 가지지만 1개의 column을 가진 ndarray로 변환

In [96]:
array1 = np.arange(8)
print(array1)

array3d = array1.reshape((2, 2, 2))
print('\narray3d:\n', array3d.tolist())

# 3차원 ndarray를 2차원 ndarray로 변환
array5 = array3d.reshape(-1, 1)
print('\narray5:\n', array5.tolist())
print('shape:', array5.shape)

# 1차원 ndarray를 2차원 ndarray로 변환
array6 = array1.reshape(-1, 1)
print('\narray6:\n', array6.tolist())
print('shape:', array6.shape)

[0 1 2 3 4 5 6 7]

array3d:
 [[[0, 1], [2, 3]], [[4, 5], [6, 7]]]

array5:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
shape: (8, 1)

array6:
 [[0], [1], [2], [3], [4], [5], [6], [7]]
shape: (8, 1)


## 인덱싱 Indexing

1. 특정 데이터만 추출
   
2. 슬라이싱 ***Slicing***
   * start idx와 end idx 지정 후 추출
  
3. 팬시 인덱싱 ***Fancy Indexing***
   * 일정한 인덱싱 집합을 ndarray 혹은 list형태로 지정해 데이터 반환
  
4. 불린 인덱싱 ***Boolean Indexing***
   * 특정 조건의 True/False를 판단하여 True에 해당하는 인덱스 위치의 ndarray를 반환

In [97]:
# 1. 특정 데이터만 추출
array1 = np.arange(start= 1, stop = 10)
print('array :', array1)

value = array1[2]
print('value :', value)
print(type(value))

value1 = array1[-2]
print('\nvalue1 :', value1)
print(type(value1))

array2d = np.arange(start=1, stop = 10).reshape(3,3)
print('\n', array2d)
print('(row=0, col=0) ->', array2d[0,0])
print('(row=0, col=1) ->', array2d[0,1])
print('(row=2, col=1) ->', array2d[2,1])

array : [1 2 3 4 5 6 7 8 9]
value : 3
<class 'numpy.int64'>

value1 : 8
<class 'numpy.int64'>

 [[1 2 3]
 [4 5 6]
 [7 8 9]]
(row=0, col=0) -> 1
(row=0, col=1) -> 2
(row=2, col=1) -> 8


In [98]:
# 2. 슬라이싱 Slicing

array1 = np.arange(start=1, stop=10)
array3 = array1[0:3]
print(array3)

array4 = array1[:4]
print(array4)

array5 = array1[4:]
print(array5)

[1 2 3]
[1 2 3 4]
[5 6 7 8 9]


In [99]:
array2d = np.arange(start=1, stop = 10).reshape(3,3)
print('\n', array2d)

print('\narray2d[0:2, 0:2] \n', array2d[0:2, 0:2])
print('\narray2d[1:3, 0:3] \n', array2d[1:3, 0:3])
print('\narray2d[1:3, :] \n', array2d[1:3, :])
print('\narray2d[1:3, 0:3] \n', array2d[:2, 0])


 [[1 2 3]
 [4 5 6]
 [7 8 9]]

array2d[0:2, 0:2] 
 [[1 2]
 [4 5]]

array2d[1:3, 0:3] 
 [[4 5 6]
 [7 8 9]]

array2d[1:3, :] 
 [[4 5 6]
 [7 8 9]]

array2d[1:3, 0:3] 
 [1 4]


In [100]:
# 팬시 인덱싱 Fancy Indexing

array2d = np.arange(start=1, stop = 10).reshape(3,3)
print(array2d)

print('\narray2d[[0,1], 2] =>', array2d[[0,1], 2].tolist())
print('\narray2d[[0,1], 0:2] =>', array2d[[0,1], 0:2].tolist())
print('\narray2d[[0,1]] =>', array2d[[0,1]].tolist())

[[1 2 3]
 [4 5 6]
 [7 8 9]]

array2d[[0,1], 2] => [3, 6]

array2d[[0,1], 0:2] => [[1, 2], [4, 5]]

array2d[[0,1]] => [[1, 2, 3], [4, 5, 6]]


In [101]:
# 불린 인덱싱 Boolean Indexing

array1d = np.arange(start = 1, stop = 10)


print(array1d > 5)
print('array1d > 5 =>', array1d[array1d > 5])

[False False False False False  True  True  True  True]
array1d > 5 => [6 7 8 9]


## 행렬 정렬 ***np.sort()  np.argsort()***

#### sort()
* np.sort() : 기존 행렬 유지, 반환값은 정렬된 행렬
* ndarray.sort() : 기존 행렬을 정렬, 반환값 None

In [102]:
org_array = np.array([3, 1, 9, 5])
print('original :', org_array)

#np.sort()로 오름차순 정렬
sort_array1 = np.sort(org_array)
print('\nnp.sort() 정렬 :', sort_array1)

#[::-1]을 이용하여 내림차순 정렬
sort_array1_desc = np.sort(org_array)[::-1]
print('\n내림차순 :', sort_array1_desc)

original : [3 1 9 5]

np.sort() 정렬 : [1 3 5 9]

내림차순 : [9 5 3 1]


In [103]:
#2차원 행렬 정렬

array2d = np.array([[8, 12], [7, 1]])
print(array2d)

print('\nlow 방향 정렬 :\n', np.sort(array2d, axis=0))
print('\ncolumn 방향 정렬 :\n', np.sort(array2d, axis=1))

[[ 8 12]
 [ 7  1]]

low 방향 정렬 :
 [[ 7  1]
 [ 8 12]]

column 방향 정렬 :
 [[ 8 12]
 [ 1  7]]


#### np.argsort()

* 정렬되기 전 기존 행렬의 인덱스를 반환

In [104]:
org_array = np.array([3, 1, 9, 5])
print('original :', org_array)

sort_index = np.argsort(org_array)
print(type(sort_index))
print("\n행렬 정렬 시 원본 행렬의 index :", sort_index)

sort_index_desc = np.argsort(org_array)[::-1]
print(type(sort_index_desc))
print("\n행렬 정렬 시 원본 행렬의 index :", sort_index_desc)

original : [3 1 9 5]
<class 'numpy.ndarray'>

행렬 정렬 시 원본 행렬의 index : [1 0 3 2]
<class 'numpy.ndarray'>

행렬 정렬 시 원본 행렬의 index : [2 3 0 1]


* numpy는 DataFrame과 같이 메타데이터를 포함하지 않음
* argsort()는 활용성이 높음

In [105]:
name_array = np.array(['John', 'Mike', 'Sarah', 'Kate', 'Samuel'])
score_array = np.array([78, 95, 84, 98, 88])

sort_index_asc = np.argsort(score_array)
print('성적 오름차순 정렬시 score의 index :', sort_index_asc)
print('성적 오름차순 정렬 시 name_array의 이름 :', name_array[sort_index_asc])

성적 오름차순 정렬시 score의 index : [0 2 4 1 3]
성적 오름차순 정렬 시 name_array의 이름 : ['John' 'Sarah' 'Samuel' 'Mike' 'Kate']


## 행렬 내적 (행렬 곱) ***np.dot()***

In [106]:
a = np.array([[1, 2, 3], [4, 5, 6]])
print('a :\n', a)

b = np.array([[7,8], [9, 10], [11, 12]])
print('\nb :\n', b)

print('\n헹렬 내적 결과 :\n', np.dot(a, b))

a :
 [[1 2 3]
 [4 5 6]]

b :
 [[ 7  8]
 [ 9 10]
 [11 12]]

헹렬 내적 결과 :
 [[ 58  64]
 [139 154]]


## 전치 행렬 ***np.transpose()***

In [107]:
a = np.array([[1, 2, 3], [4, 5, 6]])
print('a :\n', a)

print('\na의 전치 행렬 :\n', np.transpose(a))

a :
 [[1 2 3]
 [4 5 6]]

a의 전치 행렬 :
 [[1 4]
 [2 5]
 [3 6]]


# Pandas 판다스

* import pandas as pd
* DataFrame이 핵심
* 2차원 데이터를 효율적으로 가공&처리

In [108]:
import pandas as pd

# csv파일 읽어오기
titanic_df = pd.read_csv('dataset/titanic.csv')

#### head() 
* 상위 n개의 low들만 추출

In [109]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


* csv파일의 첫번째 줄의 문자열이 DataFame 타입으로 바뀌면서 각 데이터에 맞는 column으로 바뀜

In [110]:
print('titanic 변수 type :', type(titanic_df))
titanic_df

titanic 변수 type : <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [111]:
print('titanic_df 의 크기 :', titanic_df.shape)

titanic_df 의 크기 : (891, 12)


#### info()
* DataFrame의 메타 데이터 조회

In [112]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


#### describe() 로 
* 각 **숫자형** column들의 n-percentile 분포도, 평균, 최대, 최소 조회
* object 타입 제외

> count : Not NULL의 개수
> 
> mean : 전체 데이터의 평균
> 
> std : 표준편차
> 
> min : 최솟값
> 
> max : 최댓값
> 
> 25%, 50%, 75% : 각 percentile 값
  

In [113]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


#### value_counts()
* 특정 column에서 유형과 개수 확인
* Series 객체에서만 호출

In [114]:
pclass = titanic_df['Pclass'] # Series 객체 반환
print(type(pclass))

value_count = titanic_df['Pclass'].value_counts()
print(value_count)

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


#### 

## DataFrame 과 list, Dictionary, numpy 상호 변환


#### numpy, list -> DataFrame
* column list가 필요

In [115]:
col_name = ['col1', 'col2', 'col3']

list1 = [[1, 2, 3], [9, 8, 7]]
array1 = np.array(list1)
print('array1 shape :', array1.shape)

# list를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name)
print('\nlist로 만든 DF:\n', df_list1)

# ndarray로 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name)
print('\nndarray로 만든 DF :\n', df_array1)

array1 shape : (2, 3)

list로 만든 DF:
    col1  col2  col3
0     1     2     3
1     9     8     7

ndarray로 만든 DF :
    col1  col2  col3
0     1     2     3
1     9     8     7


####  Dictionary -> DataFrame
* key는 column으로, value는 data로 매핑

In [116]:
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}

df_dict = pd.DataFrame(dict)
print('Dictionary로 만든 DF:\n', df_dict)

Dictionary로 만든 DF:
    col1  col2  col3
0     1     2     3
1    11    22    33


#### Dataframe -> numpy, list, Dictionary

In [117]:
array3 = df_dict.values
print(array3);print()

list3 = df_dict.values.tolist()
print(list3);print()

dict3 = df_dict.to_dict('list')
print(dict3);print()

[[ 1  2  3]
 [11 22 33]]

[[1, 2, 3], [11, 22, 33]]

{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}



## DataFrame의 Column 데이터 생성 & 수정

In [118]:
titanic_df['test0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,test0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [119]:
titanic_df['Age_10'] = titanic_df['Age'] * 10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,test0,Age_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


## DataFrame의 Column 데이터 삭제 ***drop()***

* 중요 **parameter** : labels, axis, inplce
  * axis : 0 (low), 1(column)
  * label : index(axis = 0), column명(axis = 1)
  * inplace : True (자기 자신의 data 삭제), False (삭제된 DF 반환)

In [120]:
# test0 column 삭제

titanic_df_drop = titanic_df.drop('test0', axis=1)
titanic_df_drop.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0,1


In [124]:
drop_result = titanic_df.drop(['test0', 'Age_10', 'Family_No'], axis = 1, inplace = True)
print('inplace = True 반환 :', drop_result)

inplace = True 반환 : None


In [125]:
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)

print('### before axis 0 drop ###')
print(titanic_df.head(4))

titanic_df.drop([0,1,2], axis=0, inplace=True)

print('### after axis 0 drop ###')
print(titanic_df.head(4))

### before axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
3            4         1       1  Futrelle, M...  female  35.0      1      0          113803  53.1000  C123        S
### after axis 0 drop ###
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  M

## Index 객체