## Python Numpy

* Pandas도 내부적으로 Numpy를 사용해서 구현되어 있다.
* Python 변수는 타입 캐스트가 쉬워 속도가 느리다.( 아래와 같은 구조)
    ```C
    struct _longobject {
        long ob_refcnt;
        PyTypeObject *ob_type;
        size_t ob_size;
        long ob_digit[1];
    };
    ```
    * ``ob_refcnt``, Python이 Memory allocation과 deallocation에 쓰는 reference count
    * ``ob_type``, 변수형
    * ``ob_size``, 변수의 크기
    * ``ob_digit``, long으로 되어 있는 실제 변수값.
    * 이런 구조의 PyObject_HEAD가 속도 저하의 원인

* Numpy의 Array는 C에 가깝게 되어 있어, C의 자료형 처럼 연속된 메모리 공간을 차지한다.

In [2]:
import numpy as np

np.array([1,4,2,5,3])

## 같은 타입의 원소여야 하며, typecast로 하나의 자료형으로 맞춰야 한다.

np.array([3.14, 4, 2, 4])

array([3.14, 4.  , 2.  , 4.  ])

In [3]:
## dtype으로 자료형 지정 가능

np.array([1,2,3,4], dtype='float32')

# 다차원 array

np.array([range(i, i+3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [4]:
# 아래와 같이 만들면 list의 1d array가 되는 점에 주의해 주세요.
np.array([[1, 2],[3],[4, 5]])

  np.array([[1, 2],[3],[4, 5]])


array([list([1, 2]), list([3]), list([4, 5])], dtype=object)

## Creating Arrays from Scratch

In [5]:
# 0으로 채워진 길이 10의 integer array

np.zeros(10, dtype=int)

# 1로 채워진 3x5 floating-point array
np.ones((3,5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [6]:
# 3.14로 채워진 3x5 array
np.full((3,5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [7]:
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [8]:
# 0부터 1 사이에 균일하게 나누어진 5개의 값
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [9]:
# 0부터 1까지의 uniform distribution의 난수로 만든 3x3 array
np.random.random((3,3))

array([[0.73779729, 0.46656832, 0.92743945],
       [0.41592769, 0.81361005, 0.33893901],
       [0.76478204, 0.78051328, 0.35296183]])

In [10]:
# gaussian distribution의 난수로 만든 array
# mean 0 standard deviation 1

np.random.normal(0,1, (3,3))

array([[ 0.33966274, -1.13850781,  0.74517743],
       [-0.00182206,  0.22956904, -0.217645  ],
       [ 1.65739659, -0.28615621,  0.53106572]])

In [12]:
# [0,10)의 random integer
np.random.randint(0, 10, (3, 3))

array([[0, 6, 3],
       [8, 3, 3],
       [0, 0, 9]])

In [13]:
# 3x3 단위 행렬
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [14]:
# 비어있는 size 3 행렬
np.empty(3)

array([1., 1., 1.])

# Numpy Standard Data Types

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 


## Array의 속성

In [2]:
import numpy as np
np.random.seed(0)

x1 = np.random.randint(10, size=6)
x2 = np.random.randint(10, size=(3,4))
x3 = np.random.randint(10, size=(3,4,5))

In [3]:
print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)
print("dtype:", x3.dtype)

x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
dtype: int32


In [4]:
## itemsize 라는 속성값도 중요한 역할을 합니다.
## 이 값은 배열 성분들 한 개의 데이터 사이즈를 의미합니다.
## 비슷하게 nbtyes라는 속성값은 이 배열의 총 용량을 의미합니다.

print("itemsize:", x3.itemsize, "bytes")
print("nbytes:", x3.nbytes, "bytes")

itemsize: 4 bytes
nbytes: 240 bytes


# Array Indexing: Single Elements

In [5]:
x1

array([5, 0, 3, 3, 7, 9])

In [6]:
print(x1[0])

5


Writing C:\Users\JORON\Desktop\my_area.py


['ArrowDtype',
 'BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__all__',
 '__builtins__',
 '__cached__',
 '__deprecated_num_index_names',
 '__dir__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_is_numpy_dev',
 '_libs',
 '_testing',
 '