<h1>2장 NumPy 소개</h1>

<h2>구조화된 데이터: Numpy의 구조화된 배열</h2>

In [4]:
import numpy as np

In [5]:
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68.0, 61.5]

In [7]:
x = np.zeros(4, dtype = int)
x

array([0, 0, 0, 0])

In [9]:
# 구조화된 배열을 위해 복합 데이터 타입 사용
data = np.zeros(4, dtype={
                        'names':('name','age','weight'), 
                        'formats':('U10', 'i4','f8') # U:유니코드, i:4바이트(32비트), f:8바이트(64비트)
                        })
print(data.dtype) 

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]


In [12]:
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]


In [13]:
# 전체 이름 가져오기
data['name']

array(['Alice', 'Bob', 'Cathy', 'Doug'], dtype='<U10')

In [15]:
# 데이터의 첫 번 쨰 행 가져오기
data[0]

('Alice', 25, 55.)

In [16]:
# 마지막 행의 이름 가져오기 
data[-1]['name']

'Doug'

In [17]:
#나이가 30이하인 이름 가져오기
data[data['age'] < 30]['name']

array(['Alice', 'Doug'], dtype='<U10')

<b>구조회된 배열 만들기</b>

In [19]:
np.dtype(
        {
        'names':('name', 'age', 'weight'),
        'formats':('U10', 'i4', 'f8')
                   })

dtype([('name', '<U10'), ('age', '<i4'), ('weight', '<f8')])

In [22]:
np.dtype({
    'names':('name', 'age', 'weight'),
    'formats' :((np.str_, 10), int, np.float32)
})

dtype([('name', '<U10'), ('age', '<i8'), ('weight', '<f4')])

In [23]:
np.dtype([('name', 'S10'), ('age', 'i4'), ('weight', 'f8')])

dtype([('name', 'S10'), ('age', '<i4'), ('weight', '<f8')])

In [24]:
np.dtype('S10,i4,f8')

dtype([('f0', 'S10'), ('f1', '<i4'), ('f2', '<f8')])

<table style="width:100%">
  <tr>
    <th>문자</th>
    <th>설명</th> 
    <th>예제</th>
  </tr>
  <tr>
    <td>'b'</td>
    <td>바이트</td> 
    <td>np.dtype('b')</td>
  </tr>
  <tr>
    <td>'i'</td>
    <td>부호 있는 정수</td> 
    <td>np.dtype('i4') == np.int32</td>
  </tr>
  <tr>
    <td>'u'</td>
    <td>부호 없는 정수</td> 
    <td>np.dtype('u1') == np.uint8</td>
  </tr>
  <tr>
    <td>'f'</td>
    <td>부동 소수점</td> 
    <td>np.dtype('f8') == np.int64</td>
  </tr>
  <tr>
    <td>'c'</td>
    <td>복소수 부동 소수점</td> 
    <td>np.dtype('c16') == np.complex128</td>
  </tr>
  <tr>
    <td>'S','a'</td>
    <td>문자열</td> 
    <td>np.dtype('S5')</td>
  </tr>
  <tr>
    <td>'U'</td>
    <td>유니코드 문자열</td> 
    <td>np.dtype('U')== np.str_</td>
  </tr>
  <tr>
    <td>'V'</td>
    <td>원시 데이터(void)</td> 
    <td>np.dtype('V')=np.void</td>
  </tr>
</table>

<b>고급 복합 타입</b>

In [25]:
tp = np.dtype([('id', 'i8'), ('mat', 'f8', (3,3))])
X = np.zeros(1, dtype=tp)
print(X[0])
print(X['mat'][0])

(0, [[0., 0., 0.], [0., 0., 0.], [0., 0., 0.]])
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


<b>레코드 배열: 트위스트를 가진 구조화된 배열</b>

In [26]:
data['age']

array([25, 45, 37, 19], dtype=int32)

In [28]:
data_rec = data.view(np.recarray)
data_rec.age

array([25, 45, 37, 19], dtype=int32)

In [29]:
%timeit data['age']
%timeit data_rec['age']
%timeit data_rec.age

111 ns ± 0.134 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)
2.91 µs ± 16.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.81 µs ± 20.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


<b>Pands로 넘어가며</b>

<p>구조화된 데이터를 일상적으로 사용하기에는 Pandas 패키지가 훨씬 더 유용<p>