# numpy
- 데이터프레임은 테이블 구조의 데이터를 편리하게 조작하기 위해서 사용한다
- 숫자만으로 구성된 데이터를 대상으로 "연산"을 하기 위해서는 어레이(array)로 표현되어야 한다
  - 어레이를 ndarray(n-dimensional array)라고도 부른다
- 어레이를 사용하기 위해 넘파이 라이브러리를 사용한다

## 리스트, 데이터프레임, 어레이의 차이
- 리스트는 데이터를 1차원 "목록"으로 만들어 조작하는 용도 (추가, 삭제, 변형 등)
- 데이터프레임은 2차원 테이블 구조의 데이터를 만들고 조작하는 용도
- 어레이는 연산을 위해 숫자만으로 구성된, 수학의 매트릭스와 같은 용도

## import


In [1]:
import pandas as pd
import numpy as np

# 리스트와 어레이

In [2]:
## 리스트의 복제(*)와 어레이의 곱셈 비교

x = [1, 2, 5,10]  # 리스트 생성
print(x*3)        # 리스트를 복제하는 경우

y = np.array(x) # 리스트를 어레이로 변환
print(y*3)      # 어레이에 대한 곱셈 수행

[1, 2, 5, 10, 1, 2, 5, 10, 1, 2, 5, 10]
[ 3  6 15 30]


In [3]:
## 어레이를 리스트로 바꾸려면 list()를 사용한다

z = list(y)     # 어레이를 리스트로 타입을 바꾼다
print(z)        # [1, 2, 5, 10]
print(type(y))  # <class 'numpy.ndarray'>
print(type(z))  # <class 'list'>

[1, 2, 5, 10]
<class 'numpy.ndarray'>
<class 'list'>


In [4]:
## 어레이의 연산은 각 항목별로 수행된다

y1 = np.array([1, 2, 3, 4])
y2 = np.array([10, 10, 100, 100])

print(y1 + y2)  # [ 11  12 103 104]
print(y1 - y2)  # [ -9  -8 -97 -96]
print(y1 * y2)  # [ 10  20 300 400]
print(y1 / y2)  # [0.1  0.2  0.03 0.04]

[ 11  12 103 104]
[ -9  -8 -97 -96]
[ 10  20 300 400]
[0.1  0.2  0.03 0.04]


In [5]:
## 어레이에 단변수의 연산을 수행하기

y1 = np.array([1, 2, 3, 4])
a = 1000

print(y1 + a)  # [1001 1002 1003 1004]
print(y1 - a)  # [-999 -998 -997 -996]
print(y1 * a)  # [1000 2000 3000 4000]
print(y1 / a)  # [0.001 0.002 0.003 0.004]

[1001 1002 1003 1004]
[-999 -998 -997 -996]
[1000 2000 3000 4000]
[0.001 0.002 0.003 0.004]


In [6]:
## 리스트에 대한 + 수행은 두 리스트를 합친다

y1 = np.array([1, 2, 3, 4])
y2 = np.array([10, 10, 100, 100])

list(y1)+list(y2) # [1, 2, 3, 4, 10, 10, 100, 100]

[1, 2, 3, 4, 10, 10, 100, 100]

## arange
- range 타입의 "범위" 데이터를 생성한 후 이를 어레이로 만들어준다

In [7]:
# 일정한 간격의 수로 구성된 어레이를 얻는다
# 디폴트로 0에서 시작하여 1씩 증가하는 정수형을 리턴한다

print(np.arange(6))      # [0 1 2 3 4 5]
print(np.arange(1,7))    # [1 2 3 4 5 6]
print(np.arange(1,20,3)) # [ 1  4  7 10 13 16 19]
print(np.arange(1.1,4,0.5))# [1.1 1.6 2.1 2.6 3.1 3.6]

[0 1 2 3 4 5]
[1 2 3 4 5 6]
[ 1  4  7 10 13 16 19]
[1.1 1.6 2.1 2.6 3.1 3.6]


## reshape

- 어레이의 구조를 바꾼다

In [8]:
x = np.arange(12).reshape(3,4)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [9]:
x.reshape(2,6)
x

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

# 데이터프레임과 어레이
- 기본적으로 행단로 추출하며 마치 행 번호를 인덱스인 것처럼 사용

In [10]:
## 임의의 도시정보 데이터프레임을 만드는 예

import pandas as pd

x = {'city': ['서울', '부산', '대구', '대전', '광주'],
     'population': [990, 350, 250, 154, 150],
     'temp': [13, 16, 14, 13, 15],
     'cars': [300, 120, 80, 90, 70]}

df = pd.DataFrame(x)
df.set_index("city", inplace=True)
df

Unnamed: 0_level_0,population,temp,cars
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,990,13,300
부산,350,16,120
대구,250,14,80
대전,154,13,90
광주,150,15,70


In [11]:
## 데이터프레임을 어레이로 바꾸는 방법
# values를 사용한다

z = df.values
print(z.shape)
z

(5, 3)


array([[990,  13, 300],
       [350,  16, 120],
       [250,  14,  80],
       [154,  13,  90],
       [150,  15,  70]])

In [12]:
## 어레이를 데이터프레임으로 바꾸려면 DataFrame()의 인자로 어레이를 사용하면 된다
# 인덱스와 컬럼번호가 자동으로 생성된다

df2 = pd.DataFrame(z)
df2

Unnamed: 0,0,1,2
0,990,13,300
1,350,16,120
2,250,14,80
3,154,13,90
4,150,15,70


In [13]:
## 데이터프레임을 만들면서 인덱스와 컬럼명을 지정하는 방법
# 원래 데이터프레임이 있던 인덴스와 컬럼명을 사용하는 경우

df2 = pd.DataFrame(z, index=df.index, columns=df.columns)
df2

Unnamed: 0_level_0,population,temp,cars
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
서울,990,13,300
부산,350,16,120
대구,250,14,80
대전,154,13,90
광주,150,15,70


## 어레이 다루기

In [14]:
## 어레이의 0~3 사이의 행을 얻기
## 모든 행에 대해서, 컬럼 0과 2만 얻기

print(z[:3])
print(z[:,[0,2]])

[[990  13 300]
 [350  16 120]
 [250  14  80]]
[[990 300]
 [350 120]
 [250  80]
 [154  90]
 [150  70]]


In [15]:
## 임의의 어레이 두개 생성

x1 = np.arange(0,12).reshape(4,3)
x2 = np.arange(100,112).reshape(4,3)

x1, x2

(array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]]),
 array([[100, 101, 102],
        [103, 104, 105],
        [106, 107, 108],
        [109, 110, 111]]))

In [16]:
## 어레이 합치기, concatenate()를 사용한다
# 디폴트는 행 방향 (세로 방향)으로 붙인다

x3 = np.concatenate((x1, x2))
x3


array([[  0,   1,   2],
       [  3,   4,   5],
       [  6,   7,   8],
       [  9,  10,  11],
       [100, 101, 102],
       [103, 104, 105],
       [106, 107, 108],
       [109, 110, 111]])

In [17]:
## 컬럼 방향으로 붙이기 (axis=1을 지정한다)

x3 = np.concatenate((x1, x2), axis=1)
x3

array([[  0,   1,   2, 100, 101, 102],
       [  3,   4,   5, 103, 104, 105],
       [  6,   7,   8, 106, 107, 108],
       [  9,  10,  11, 109, 110, 111]])

In [18]:
x = np.arange(12).reshape(-1,3,2)
x.shape

(2, 3, 2)

In [19]:
## 어레이를 csv 파일로 저장한 후 파일 읽기
# savetxt()를 사용한다

x = np.arange(48).reshape(6,8)
print(x)
np.savetxt('big.csv', x, fmt='%d', delimiter=',')

with open('big.csv') as f:
    print(f.read())

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]
 [32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]]
0,1,2,3,4,5,6,7
8,9,10,11,12,13,14,15
16,17,18,19,20,21,22,23
24,25,26,27,28,29,30,31
32,33,34,35,36,37,38,39
40,41,42,43,44,45,46,47



In [20]:
## csv 파일을 어레이로 읽기 (데이터프레임으로 읽지 않음)
# loadtxt()를 사용한다
# 대용량 데이터인 경우, 데이터프레임으로 읽는 것보다 속도가 빠르다

y = np.loadtxt('big.csv', delimiter=',')
y

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11., 12., 13., 14., 15.],
       [16., 17., 18., 19., 20., 21., 22., 23.],
       [24., 25., 26., 27., 28., 29., 30., 31.],
       [32., 33., 34., 35., 36., 37., 38., 39.],
       [40., 41., 42., 43., 44., 45., 46., 47.]])