## pandas, numpy 

pandas는 numpy 기반으로 개발되어 있지만, 복잡한 분석 작업에서 두 라이브러리를 모두 사용

판다스로는 데이터를 조작하고 numpy로는 복잡한 배열연산을 수행

pandas는 필터링, 선택, 그룹 등 데이터 조작에 유용, numpy는 벡터 연산에 좋음



## 다차원 배열

- 2D 그리드의 편미분방정식(PDE, Partial Differential Equation)의 전개는  3D 배열
- 사진은 (높이, 폭, n_channels) 3D 배열 
   ==> n_channels은 RGB, Gray(빛이 강도) 를 표시
- 비디오는 (높이, 폭, n_channels, 지속시간) 4D배열



## 리스트 연산 처리

파이선에서 제공하는 기본 리스트 연산을 사용하면 ndarray보다 더 많은 자원을 차지하므로 성능에서 차이가 생김

In [5]:

from random import random

list_1 = [ random() for _ in range(100)]
list_2 = [ random() for _ in range(100)]
%timeit out = [ x+ y for (x,y) in zip(list_1, list_2)]
print(out[:3])

The slowest run took 33.61 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 8.33 µs per loop
[0.9079073715461715, 1.771522739712608, 1.108113195054369]


## 배열 관리 기준 (ndarray)

  - 차원수 : demensions(ndim)
  - 모양 : shape
  - 스트라이드 : stride 확장시 가지는 영역
        => 데이터 버퍼 내에 구성되면 원소 배열은 원소의 인덱스의 선형조합인 Strided indexing scheme을 구현
        => 즉 스트라이드는 데이터 버퍼에서 얼마나 많은 바이트를 건너뛰면 다른 축의 데이터에 갈 수 있는 지를 알려준다
  - 데이터 타입 : dtype
  - 실제 데이터
  
  배열 원소관리 기준 :
     메모리 버퍼에 연속적으로 있는 모든 원소에 행이나 열의 축과 연관
     1. 행중심 : row-major order(C) ==>  c 언어
     2. 열중심 : column-major order(F) => fortran 언어
     

In [15]:
import numpy as np
arr1 = np.array(list_1)
arr2 = np.array(list_2)
print(type(list_1), type(arr1))
print(arr1.ndim)
print(arr1.shape)
print(arr1.dtype)
print(arr1.strides)
print(dir(arr1))

(<type 'list'>, <type 'numpy.ndarray'>)
1
(100,)
float64
(8,)
['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_wrap__', '__class__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__delslice__', '__div__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getslice__', '__gt__', '__hash__', '__hex__', '__iadd__', '__iand__', '__idiv__', '__ifloordiv__', '__ilshift__', '__imod__', '__imul__', '__index__', '__init__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__long__', '__lshift__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__nonzero__', '__oct__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdiv__', '__rdivmod__', '__reduce__', '__reduc

In [12]:
sum_arr = arr1 + arr2
print(sum_arr[:3])

[ 0.4632161   0.4866955   0.59066162]


##  배열의 생성

 배열에는 고정된 데이터 타입이 있다. 
 타입을 명시할 수도 있자만 자동으로 데이터 타입을 인식할 수도 있다

 np.zeros : 0으로만 생성
 np.ones  : 1로만 생성 (실수형)
 np.arrange : 0 부터 정수로 표시한 부문의 갯수까지 생성
 np.linspace : 시작과 종료 범위내에서 세번째 인자갯수 만큼 배열을 만듬(정수형)
 np.array    : 인자가 주어지는 조건에 맞춰 배열을 만듬
 np.random.uniform  : 균일한 분산에 따른 무작위 값으로 배열을 생성
 

In [24]:
import numpy as np
ones = np.ones(5)
print(ones)

ar_aranges = np.arange(5)
print(ar_aranges)

ar_linspace = np.linspace(0,5,5)
print(ar_linspace)

ar_nd = np.array([1,2,3,4,5])
print(ar_nd)

ar_ran = np.random.uniform(size=5)
print(ar_ran)

[ 1.  1.  1.  1.  1.]
[0 1 2 3 4]
[ 0.    1.25  2.5   3.75  5.  ]
[1 2 3 4 5]
[ 0.09234744  0.67476465  0.23990579  0.61358563  0.66934256]


In [25]:
l = [[1,2],[3,4]]
ar_nd_2 = np.array(l)
print(ar_nd_2)
print(ar_nd_2.ndim)
print(ar_nd_2.shape)

[[1 2]
 [3 4]]
2
(2, 2)


## 타입 배정하기
  
   dtype 을 배정하기

In [26]:
dt_ones = np.ones(5, dtype=np.int64)
print(dt_ones)
print(dt_ones.dtype)

[1 1 1 1 1]
int64


## Pandas와 numpy 비교

pandas.Series 는 1D numpy
pandas.DataFrame은 2D numpy
pandas.Panel 은 3D numpy

pandas.DataFrame.values는 DataFrame을 ndarray로 변환해서 


In [1]:
import pandas as pd
data = pd.read_csv("data/nyc_data.csv")
pickup = data[['pickup_longitude', 'pickup_latitude']].values
print(type(pickup))
print(pickup.shape)

ImportError: Missing required dependencies ['numpy']

## 배열 차원을 바꾸기

reshape 매소드를 이용해서 차원 변경을 하지만 차원변경시 새로운 ndarray가 생김
   주의할 사항: 전체의 원소에 맞춰 차원이 바꿔야 한다. 1차원에서 10개이면 2차원은 (2,5)로 변환되어야 전체 원소가 10개임

   reshape(1,-1) : -1은 자동으로 축을 결정하라는 것

In [10]:
import numpy as np
x = np.arange(1,11)
print(x)
print(x.shape)
print(x.ndim)
y = x.reshape(1,-1)
print(y.shape)
print(y.ndim)

z = x.reshape(2,5)
print(z.shape)
print(z.ndim)

[ 1  2  3  4  5  6  7  8  9 10]
(10,)
1
(1, 10)
2
(2, 5)
2


In [11]:
print(z)

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


## matrix 계산하기

 np.dot : 매트릭스 곱
 +, *, -, / :  배열의 원소끼리 계산

In [18]:
x_row = x.reshape((1,-1))
x_col = x[:,np.newaxis]
print(np.newaxis)
print(x_col)

print(x_col.shape)
print(x_row.shape)

print(np.dot(x_col,x_row))

None
[[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]]
(10, 1)
(1, 10)
[[  1   2   3   4   5   6   7   8   9  10]
 [  2   4   6   8  10  12  14  16  18  20]
 [  3   6   9  12  15  18  21  24  27  30]
 [  4   8  12  16  20  24  28  32  36  40]
 [  5  10  15  20  25  30  35  40  45  50]
 [  6  12  18  24  30  36  42  48  54  60]
 [  7  14  21  28  35  42  49  56  63  70]
 [  8  16  24  32  40  48  56  64  72  80]
 [  9  18  27  36  45  54  63  72  81  90]
 [ 10  20  30  40  50  60  70  80  90 100]]


In [19]:
print(x_row + x_row)
print(x_row * x_row)

[[ 2  4  6  8 10 12 14 16 18 20]]
[[  1   4   9  16  25  36  49  64  81 100]]


## broadcast처리

배열 계산시 2개의 행과 열을 같이 만들어 원서끼리 계산하도록 만듬

In [20]:
x_row * x_col

array([[  1,   2,   3,   4,   5,   6,   7,   8,   9,  10],
       [  2,   4,   6,   8,  10,  12,  14,  16,  18,  20],
       [  3,   6,   9,  12,  15,  18,  21,  24,  27,  30],
       [  4,   8,  12,  16,  20,  24,  28,  32,  36,  40],
       [  5,  10,  15,  20,  25,  30,  35,  40,  45,  50],
       [  6,  12,  18,  24,  30,  36,  42,  48,  54,  60],
       [  7,  14,  21,  28,  35,  42,  49,  56,  63,  70],
       [  8,  16,  24,  32,  40,  48,  56,  64,  72,  80],
       [  9,  18,  27,  36,  45,  54,  63,  72,  81,  90],
       [ 10,  20,  30,  40,  50,  60,  70,  80,  90, 100]])

In [21]:
print(pickup[3,1])

40.755081


In [24]:
xxx = pickup[:3,1]
print(xxx)
print(xxx.shape)

[ 40.781887  40.745735  40.79977 ]
(3,)


In [25]:
yyy = pickup[:3]
print(yyy)
print(yyy.shape)

[[-73.955925  40.781887]
 [-74.005501  40.745735]
 [-73.969955  40.79977 ]]
(3, 2)


In [45]:
lon = pickup[:,0] # doctest Ellipsis
print(lon)

lat = pickup[:,1]
print(lat)

[-73.955925 -74.005501 -73.969955 ..., -73.993492 -73.978477 -73.987206]


AttributeError: 'numpy.ndarray' object has no attribute 'describes'

In [28]:
lon2 = pickup[:,:]
print(lon2)

[[-73.955925  40.781887]
 [-74.005501  40.745735]
 [-73.969955  40.79977 ]
 ..., 
 [-73.993492  40.729347]
 [-73.978477  40.772945]
 [-73.987206  40.750568]]


## 불리언 연산

numpy 불리언연산을 처리하면 논리 표현으로 표현한다.

python에서는 True는 1, False는 0으로 인식되므로 합산시 숫자로 처리가 가능

In [56]:
lon_min, lon_max = min(lon), max(lon)
lat_min, lat_max = min(lat), max(lat)

lon_min, lon_max = -73.98330, -73.98025
lat_min, lat_max =  40.76724, 40.76871
print(lon_min, lon_max)
print(lat_min, lat_max)

(-73.9833, -73.98025)
(40.76724, 40.76871)


In [57]:
in_lon = (lon_min <= lon) & (lon <= lon_max)
print(in_lon)

[False False False ..., False False False]


In [58]:
in_lon.sum()

69163

In [59]:
in_lat = (lat_min <= lat) & (lat <= lat_max)
print(in_lat)
print(in_lat.sum())

[False False False ..., False False False]
16110


In [60]:
in_lonlat = in_lon & in_lat
print(in_lonlat)
print(in_lonlat.sum())

[False False False ..., False False False]
3998


In [64]:
# np.nonzero()는 non zero 값만 추출해서 tuple로 보관
non_lonlat = np.nonzero(in_lonlat)
print(non_lonlat[0])
print(type(non_lonlat))
print(non_lonlat)

[   901   1011   1066 ..., 845749 845903 846080]
<type 'tuple'>
(array([   901,   1011,   1066, ..., 845749, 845903, 846080]),)
