# Week 5 - Data Analysis Using NumPy and Pandas 1

## NumPy

NumPy는 "Numerical Python"의 약자라고도 한다. 이름이 의미하듯이 파이썬의 수치연산 기능을 강화시켜준다.

### Array

NumPy는 자체적인 array를 제공한다. Python의 list와 비슷하지만, 보다 다양한 연산 메소드를 가지고 있다는 점, 같은 종류의 데이터만 담을 수 있다는 점에서 다르다. NumPy의 array는 다음과 같이 사용한다.

In [1]:
import numpy as np

array1 = np.array([1, 2, 3])   # 1차원 array를 만든다.
print(array1.shape)            # (3,) 이라고 출력. 요소가 3인 1차원 array를 의미함          
print(array1)

# 특정 요소에 접근하기 위해서는 list와 같이 인덱스를 사용한다.
print(array1[0], array1[2])
array1[1] = 10
print(array1)

array2 = np.array([[1,2,3],[4,5,6]])   # 2차원 array를 만든다.
print(array2.shape)                    # (2, 3) 이라고 출력. (row, column)
print(array2)
print(array2[0, 0], array2[0, 1], array2[1, 0])   # Prints "1 2 4"

(3,)
[1 2 3]
1 3
[ 1 10  3]
(2, 3)
[[1 2 3]
 [4 5 6]]
1 2 4


In [3]:
import numpy as np

a = np.zeros((2,3))   # 모두 zero로 채워진 2x3 array를 생성
print(a)

b = np.ones((1,2))    # 모두 1로 채워진 1x2 array를 생성
print(b)

c = np.random.random((2,2)) # 랜돔 넘버로 채워진 2x2 array를 생성
print(c)

[[0. 0. 0.]
 [0. 0. 0.]]
[[1. 1.]]
[[0.44208884 0.42686225]
 [0.26191769 0.62772941]]


In [5]:
import numpy as np

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

b = a[:2, 1:3]
print(b)

a1 = a[1, :]
a2 = a[:2, :]
print(a1)
print(a2)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[2 3]
 [6 7]]
[5 6 7 8]
[[1 2 3 4]
 [5 6 7 8]]


### Array Datatype

Numpy는 다양한 데이터타입을 제공한다. 데이터타입은 array를 생성할 때 지정할 수 있다.

* bool_  : Boolean (True or False) stored as a byte
* int_  : Default integer type (Int32 또는 Int64 와 같음)
* int8  : Byte (-128 to 127)
* int16  : Integer (-32768 to 32767)
* int32  : Integer (-2147483648 to 2147483647)
* int64  : Integer (-9223372036854775808 to 9223372036854775807)
* uint8  : Unsigned integer (0 to 255)
* uint16 : Unsigned integer (0 to 65535)
* uint32 : Unsigned integer (0 to 4294967295)
* uint64  : Unsigned integer (0 to 18446744073709551615)
* float_ : float64 와 같음
* float16 : Half precision float
* float32 : Single precision float
* float64 : Double precision float
* complex_ : complex128 와 같음
* complex64 : Complex number, represented by two 32-bit floats
* complex128 : Complex number, represented by two 64-bit floats  
* object_  : python object
* str_  : python str
* unicode_  : python unicode

In [4]:
x = np.array([1, 2])      # default로 datatype을 int64로 지정한다.
print(x.dtype)
print(x)

x = np.array([1.0, 2.0])  # default로 datatype을 float64로 지정한다.
print(x.dtype)
print(x)

x = np.array([1, 2], dtype=np.float64)  # array를 생성할 때 datatype을 float64로 지정한다.
print(x.dtype)
print(x)

int64
[1 2]
float64
[1. 2.]
float64
[1. 2.]


### Array Math

In [5]:
import numpy as np

x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

print(x + y)
print(np.add(x, y))

print(x - y)
print(np.subtract(x, y))

print(x * y)
print(np.multiply(x, y))

print(x / y)
print(np.divide(x, y))

print(np.sqrt(x))

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]
[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[1.         1.41421356]
 [1.73205081 2.        ]]


**(참고) 행렬의 곱**

행렬의 곱이 정의되는 경우
 - 행렬 곱 AB에 대하여, 행렬 A의 열의 수와 행렬 B의 행의 수가 같아야 한다.
 
![](img/image1.png)

In [7]:
import numpy as np

x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

print(x)
print(y)
print(v)
print(w)

print(v.dot(w))
print(np.dot(v, w))

print(x.dot(v))
print(np.dot(x, v))

print(x.dot(y))
print(np.dot(x, y))

[[1 2]
 [3 4]]
[[5 6]
 [7 8]]
[ 9 10]
[11 12]
219
219
[29 67]
[29 67]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


In [9]:
x = np.array([[1,2],[3,4],[5,6],[7,8]])

print(np.mean(x))
print(np.std(x))
print(np.max(x))
print(np.min(x))

4.5
2.29128784747792
8
1


### 실습 1

In [12]:
import numpy as np

# First 20 countries with employment data
countries = np.array([
    'Afghanistan', 'Albania', 'Algeria', 'Angola', 'Argentina',
    'Armenia', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas',
    'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium',
    'Belize', 'Benin', 'Bhutan', 'Bolivia',
    'Bosnia and Herzegovina'
])

# Employment data in 2007 for those 20 countries
employment = np.array([
    55.70000076,  51.40000153,  50.5       ,  75.69999695,
    58.40000153,  40.09999847,  61.5       ,  57.09999847,
    60.90000153,  66.59999847,  60.40000153,  68.09999847,
    66.90000153,  53.40000153,  48.59999847,  56.79999924,
    71.59999847,  58.40000153,  70.40000153,  41.20000076
])

20


#### 실습 1-1: 다음의 값을 출력하시오

* 3번째 나라의 이름
* 2~10번째 나라의 이름
* 17번째 이후의 나라의 이름

In [9]:
# 아래에 코드를 입력하시오.
print(countries[2])
print(countries[1:10])
print(countries[16:])

Algeria
['Albania' 'Algeria' 'Angola' 'Argentina' 'Armenia' 'Australia' 'Austria'
 'Azerbaijan' 'Bahamas']
['Benin' 'Bhutan' 'Bolivia' 'Bosnia and Herzegovina']


#### 실습 1-2: 다음의 값을 출력하시오
* countries의 datatype
* employment의 datatype

In [10]:
# 아래에 코드를 입력하시오.
print(countries.dtype)
print(employment.dtype)

<U22
float64


#### 실습 1-3: 다음과 같이 각 나라의 employment data를 출력하시오.
```
 Country Afghanistan has employment 55.70000076
 Country Albania has employment 51.40000153
 ...
```

In [11]:
# 참고
a = "python"
b = 3.5
print("hello, {} {}".format(a, b))
print("hello, " + a + " " + str(b))

hello, python 3.5
hello, python 3.5


In [12]:
# 아래의 코드를 완성하시오.
for i in range(len(countries)):
    country = countries[i]
    country_employment = employment[i]
    print('Country {} has employment {}'.format(country, country_employment))

Country Afghanistan has employment 55.70000076
Country Albania has employment 51.40000153
Country Algeria has employment 50.5
Country Angola has employment 75.69999695
Country Argentina has employment 58.40000153
Country Armenia has employment 40.09999847
Country Australia has employment 61.5
Country Austria has employment 57.09999847
Country Azerbaijan has employment 60.90000153
Country Bahamas has employment 66.59999847
Country Bahrain has employment 60.40000153
Country Bangladesh has employment 68.09999847
Country Barbados has employment 66.90000153
Country Belarus has employment 53.40000153
Country Belgium has employment 48.59999847
Country Belize has employment 56.79999924
Country Benin has employment 71.59999847
Country Bhutan has employment 58.40000153
Country Bolivia has employment 70.40000153
Country Bosnia and Herzegovina has employment 41.20000076


#### 실습 1-4: employment의 mean, std, max, mean 을 출력하시오.

In [13]:
# 아래에 코드를 입력하시오.
print(employment.mean())
print(employment.std())
print(employment.max())
print(employment.sum())

58.68500003850001
9.338269113687888
75.69999695
1173.70000077


#### 실습 1-5: 다음의 함수를 완성하여 employment data가 가장 큰 나라의 이름과 값을 출력하시오.

In [14]:
def max_employment(countries, employment):
    max_value = employment.max()
    max_country = ""
    for i in range(len(employment)):
        if employment[i] == max_value:
            max_country = countries[i]
    return (max_country, max_value)
    
print(max_employment(countries, employment))

('Angola', 75.69999695)


참고로, 위의 코드는 max value가 하나인 경우만 가정하고 있다. max value가 여러 개일 수 있을 경우, list의 형태로 return 하는 것이 좋다.

In [15]:
# http://docs.scipy.org/doc/numpy-1.11.0/reference/
# or google for "numpy get index of max" returns
# http://stackoverflow.com/questions/5469286/how-to-get-the-index-of-a-maximum-element-in-a-numpy-array-along-one-axis
def max_employment(countries, employment):
    i = employment.argmax() # 최댓값의 위치 찾기
    return (countries[i], employment[i])
    
print(max_employment(countries, employment))

('Angola', 75.69999695)


#### 실습 1-6: 다음의 array는 선택된 20개 나라의 남성과 여성의 school completion data이다. 제시된 함수를 완성하여 각 나라의 overall completion rate을 출력하자.

In [16]:
# First 20 countries with school completion data
countries = np.array([
       'Algeria', 'Argentina', 'Armenia', 'Aruba', 'Austria','Azerbaijan',
       'Bahamas', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Bolivia',
       'Botswana', 'Brunei', 'Bulgaria', 'Burkina Faso', 'Burundi',
       'Cambodia', 'Cameroon', 'Cape Verde'
])

# Female school completion rate in 2007 for those 20 countries
female_completion = np.array([
    97.35583,  104.62379,  103.02998,   95.14321,  103.69019,
    98.49185,  100.88828,   95.43974,   92.11484,   91.54804,
    95.98029,   98.22902,   96.12179,  119.28105,   97.84627,
    29.07386,   38.41644,   90.70509,   51.7478 ,   95.45072
])

# Male school completion rate in 2007 for those 20 countries
male_completion = np.array([
     95.47622,  100.66476,   99.7926 ,   91.48936,  103.22096,
     97.80458,  103.81398,   88.11736,   93.55611,   87.76347,
    102.45714,   98.73953,   92.22388,  115.3892 ,   98.70502,
     37.00692,   45.39401,   91.22084,   62.42028,   90.66958
])

In [17]:
# 다음의 함수를 완성하시오.
def overall_completion_rate(female_completion, male_completion):
    return (female_completion + male_completion) / 2

print(overall_completion_rate(female_completion, male_completion))

[ 96.416025 102.644275 101.41129   93.316285 103.455575  98.148215
 102.35113   91.77855   92.835475  89.655755  99.218715  98.484275
  94.172835 117.335125  98.275645  33.04039   41.905225  90.962965
  57.08404   93.06015 ]


(생각해보기) 남여의 completion rate 차가 가장 적은 나라와 가장 큰 나라를 찾아보자.