# 1강 머신러닝 맛보기
**Numpy/Pandas 활용하기**

* 배열 만들기 및 초기화

In [1]:
import numpy as np
data = np.array([1,2,3,4,5,6])
data_2d = np.array([[1,2,3],[4,5,6]])
data_random = np.random.randn(2,3)
data_zeros = np.zeros(5)
data_ones = np.ones((2,3))

In [2]:
print(data)
print(data_2d)
print(data_2d.shape)
print(data_random)
print(data_zeros)
print(data_ones)

[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]
(2, 3)
[[-1.56065545  0.3042099   0.24960264]
 [ 0.83352287  0.60804975 -0.14215421]]
[0. 0. 0. 0. 0.]
[[1. 1. 1.]
 [1. 1. 1.]]


* 배열의 요소 추출

In [3]:
data = np.array([[1,2,3],
                 [4,5,6],
                 [7,8,9]])
print(data)
print(data[0][1])
print(data[0][1:])
data[0] = 100
print(data)
data[:] = 300
print(data)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
2
[2 3]
[[100 100 100]
 [  4   5   6]
 [  7   8   9]]
[[300 300 300]
 [300 300 300]
 [300 300 300]]


* 배열의 산술 연산

In [4]:
data= np.array([[5,7,9],
                [-7,-6,19],
                [6,8.9,11]])
data_2 = data * 2
data_3 = data + 3
print(data)
print(data_2)
print(data_3)
print(data > data_2)

[[ 5.   7.   9. ]
 [-7.  -6.  19. ]
 [ 6.   8.9 11. ]]
[[ 10.   14.   18. ]
 [-14.  -12.   38. ]
 [ 12.   17.8  22. ]]
[[ 8.  10.  12. ]
 [-4.  -3.  22. ]
 [ 9.  11.9 14. ]]
[[False False False]
 [ True  True False]
 [False False False]]


* 배열의 통계 메소드

In [5]:
data= np.array([[5,7,9], [-7,-6,19], [6,8.9,11]])
print(data)
print(data.sum())                   # 합
print(data.mean())                  # 평균
print(data.max())                   # 최대값
print(data.min())                   # 최소값
print(data.max(axis=0))             # axis 0에서 최대값
index_1 = np.argmax(data, axis=0)   #  최대값인 위치
print(index_1)

[[ 5.   7.   9. ]
 [-7.  -6.  19. ]
 [ 6.   8.9 11. ]]
52.9
5.877777777777777
19.0
-7.0
[ 6.   8.9 19. ]
[2 2 1]


# Pandas 활용하기


* Series 객체 생성 및 인덱스 설정

In [6]:
import pandas as pd
obj = pd.Series([10,20,30,40,50])
obj_2 = pd.Series([10,20,30,40,50],
                  index=['a','b','c','d','e']) # 0, 1, 2, 3, 4, 5를 a, b, c, d, e로 바꿈
print(obj)
print(obj.index)
print(obj.values)
print(obj[1])
print(obj_2)
print(obj_2[['a','e']])
print(obj_2[1:3])

0    10
1    20
2    30
3    40
4    50
dtype: int64
RangeIndex(start=0, stop=5, step=1)
[10 20 30 40 50]
20
a    10
b    20
c    30
d    40
e    50
dtype: int64
a    10
e    50
dtype: int64
b    20
c    30
dtype: int64


* Series 객체의 연산과 조건식

In [7]:
obj = pd.Series([10, 20, 30, 40])
print(obj * 10)   # obj값에 10을 곲함
print('-' * 30)   # 선 만들기
print(obj >= 20)  # 20보다 크거나 같으면 Ture

0    100
1    200
2    300
3    400
dtype: int64
------------------------------
0    False
1     True
2     True
3     True
dtype: bool


* Series 객체와 딕셔너리

In [8]:
data = pd.Series({'유재석':35,'박명수':60,'태진아':85}, # 3명만 값이 있음
                 index=['유재석','박명수','태진아','정형돈','하하']) # 하지만 5명이 있음
data['정형돈']=52 # 정형돈에게 52를 넣어줌
print(data)
print(data[3])

유재석    35.0
박명수    60.0
태진아    85.0
정형돈    52.0
하하      NaN
dtype: float64
52.0


* DataFrame 객체 생성 및 인덱스 설정

In [9]:
data = {'이름':['유재석','박명수','정형돈','하하'],
        '나이':[35,60,52,38],
        '키':[180,175,160,150]}
frame = pd.DataFrame(data)
frame_2 = pd.DataFrame(data,
                       columns=['이름','나이','키','몸무게'])
print(data)
print(frame)
print(frame_2)
print(frame.head(2)) # frame에 최상위에 있는 2개의 데이터 호출
print(frame.tail(2)) # frame에 최하위에 있는 2개의 데이터 호출

{'이름': ['유재석', '박명수', '정형돈', '하하'], '나이': [35, 60, 52, 38], '키': [180, 175, 160, 150]}
    이름  나이    키
0  유재석  35  180
1  박명수  60  175
2  정형돈  52  160
3   하하  38  150
    이름  나이    키  몸무게
0  유재석  35  180  NaN
1  박명수  60  175  NaN
2  정형돈  52  160  NaN
3   하하  38  150  NaN
    이름  나이    키
0  유재석  35  180
1  박명수  60  175
    이름  나이    키
2  정형돈  52  160
3   하하  38  150


* DataFrame 요소 추출하기

In [10]:
data = {'이름':['유재석','박명수','정형돈','하하'],
        '나이':[35,60,52,38],
        '키':[180,175,160,150]}
frame = pd.DataFrame(data, index=['첫째','둘째','셋째','넷째'])
print(frame)
print(frame.loc['둘째','이름'])
print(frame.loc['넷째',['나이','키']])
print('-' * 30)
print(frame.iloc[2,0])
print(frame.iloc[3,:2])
print(frame.iloc[:,[0,2]])

     이름  나이    키
첫째  유재석  35  180
둘째  박명수  60  175
셋째  정형돈  52  160
넷째   하하  38  150
박명수
나이     38
키     150
Name: 넷째, dtype: object
------------------------------
정형돈
이름    하하
나이    38
Name: 넷째, dtype: object
     이름    키
첫째  유재석  180
둘째  박명수  175
셋째  정형돈  160
넷째   하하  150


* 합계와 평균/정렬하기

In [11]:
data = {'이름':['유재석','박명수','정형돈','하하'],
        '나이':[35,60,52,38],
        '키':[180,175,160,150]}
frame = pd.DataFrame(data)
frame_2 = frame.iloc[:,[1,2]]
rank = frame.sort_values(by=['나이'], ascending=False) # 나이 기반으로 정렬한다
total = frame_2.sum(axis=0) # 칼럼 기반으로 합계
avg = frame_2.mean(axis=0)
print(frame_2)
print(rank)
print(total)
print(avg)

   나이    키
0  35  180
1  60  175
2  52  160
3  38  150
    이름  나이    키
1  박명수  60  175
2  정형돈  52  160
3   하하  38  150
0  유재석  35  180
나이    185
키     665
dtype: int64
나이     46.25
키     166.25
dtype: float64
