# 1. Numpy

Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지이다.

In [2]:
import numpy as np

### 다차원 배열(Arrays)

In [6]:
a = [1,2,3,4,5,6]
print(a)
b = [[1,2,3],[4,5,6]]
print(b)
c = [1,"a",3.5]
print(c)

[1, 2, 3, 4, 5, 6]
[[1, 2, 3], [4, 5, 6]]
[1, 'a', 3.5]


In [7]:
a = np.array([1,2,3])
print(type(a), a.shape, a[0],a[1],a[2]) #각 차원의 크기를 알려주는 shape튜플
a[0] = 5
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [8]:
b = np.array([[1,2,3],[4,5,6]]) #2차원 배열 생성
print(b)
print(b.shape)
print(b[0,0],b[0,1],b[1,0])

[[1 2 3]
 [4 5 6]]
(2, 3)
1 2 4


배열을 생성하기 위한 다양한 방법

In [9]:
a = np.zeros((2,3))
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [10]:
b = np.ones((3,4))
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [11]:
c = np.full((2,4),7)
print(c)

[[7 7 7 7]
 [7 7 7 7]]


In [12]:
# 2x2의 단위행렬을 생성
d = np.eye(4)
print(d)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [13]:
e = np.random.random((2,4))
print(e)

[[0.01122332 0.33558036 0.77758723 0.66635719]
 [0.88033983 0.17418953 0.88083822 0.31552783]]


### 배열 인덱싱

In [15]:
a = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])

# 아래와 같은 일부를 뽑아내고 싶다면?
# [[2 3]
#  [6 7]]

b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


### 데이터 타입

In [16]:
x = np.array([1, 2]) 
y = np.array([1.0, 2.0]) 
z = np.array([1, 2], dtype=np.int64) 

print(x.dtype, y.dtype, z.dtype)

int32 float64 int64


### 배열연산

In [17]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)
print(x)
print(y)

[[1. 2.]
 [3. 4.]]
[[5. 6.]
 [7. 8.]]


In [18]:
#요소합
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [19]:
#요소차
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [20]:
#요소 나눗셈
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


### 벡터의 내적

In [21]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11,12])

print(x, x.shape)
print(y, y.shape)
print(v, v.shape)
print(w, w.shape)

[[1 2]
 [3 4]] (2, 2)
[[5 6]
 [7 8]] (2, 2)
[ 9 10] (2,)
[11 12] (2,)


In [22]:
print(v.dot(w))
print(np.dot(v, w))

219
219


In [23]:
#행렬과 벡터 간 곱셈
print(x.dot(v))
print(np.dot(x, v))

[29 67]
[29 67]


### 브로드캐스팅
크기가 서로 다른 배열에 대해 연산을 하고자 하는 경우에 사용되는 강력한 메커니즘

In [24]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print('x =\n', x)
v = np.array([1, 0, 1])
y = np.empty_like(x)

for i in range(4):
    y[i, :] = x[i, :] + v

print('y =\n', y)

x =
 [[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
y =
 [[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


In [25]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v 
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


# 2. Pandas
“관계형”, 혹은 “테이블 형＂데이터를 만들고 조작하기 위한 파이썬 라이브러리

In [26]:
import pandas as pd

In [27]:
s = pd.Series([1,3,5,7,9])
print(s)
print(s[2])

0    1
1    3
2    5
3    7
4    9
dtype: int64
5


In [28]:
dic = {"a":1,"b":3,"c":5}
s = pd.Series(dic)
print(s)
print(s["b"])

a    1
b    3
c    5
dtype: int64
3


In [29]:
print(s.values)
print(s.index)

[1 3 5]
Index(['a', 'b', 'c'], dtype='object')


In [30]:
s = pd.Series([1,3,5,7,9], index=['LGT','DOO','HWE','LOT','SKW'])
print(s[:"LOT"])

LGT    1
DOO    3
HWE    5
LOT    7
dtype: int64


In [31]:
score={'학번':[201524213,201621223,201621233],
       '이름':['오지환','박용택','정성훈'],
       'Quiz':[15,20,10],
       '중간고사':[20,20,15]}

score_df= pd.DataFrame(score)
score_df

Unnamed: 0,학번,이름,Quiz,중간고사
0,201524213,오지환,15,20
1,201621223,박용택,20,20
2,201621233,정성훈,10,15


In [32]:
print(type(score_df['학번']))
score_df['학번']

<class 'pandas.core.series.Series'>


0    201524213
1    201621223
2    201621233
Name: 학번, dtype: int64

### 데이터 프레임 다루기

In [33]:
d = {'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David','Andrew','Ajay','Teresa'],
   'Age':[26,27,25,24,31,27,25,33,42,32,51,47],
   'Score':[89,87,67,55,47,72,76,79,44,92,99,69]}
 
df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [34]:
df['Age']

0     26
1     27
2     25
3     24
4     31
5     27
6     25
7     33
8     42
9     32
10    51
11    47
Name: Age, dtype: int64

### 행과 열을 추출하기

In [35]:
df[['Name', 'Age']]

Unnamed: 0,Name,Age
0,Alisa,26
1,Bobby,27
2,Cathrine,25
3,Madonna,24
4,Rocky,31
5,Sebastian,27
6,Jaqluine,25
7,Rahul,33
8,David,42
9,Andrew,32


In [36]:
type(df['Name']) #시리즈 반환

pandas.core.series.Series

In [37]:
type(df[['Name']]) #데이터프래임 반환

pandas.core.frame.DataFrame

### loc, iloc을 이용한 인덱싱과 슬라이싱
- loc : 라벨을 본다
- iloc : 위치를 본다

In [38]:
df=df.reindex([1,4,6,2,3,5,9,8,0,7,11,10])
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [39]:
df.loc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76


In [40]:
df.iloc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72


In [41]:
df1=df.sort_index()
df1

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [42]:
df1.loc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76


In [43]:
df1.iloc[:6]

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72


### loc와 iloc을 이용해 열 추출하기

In [44]:
df2=df.sort_index(ascending=False)
df2

Unnamed: 0,Name,Age,Score
11,Teresa,47,69
10,Ajay,51,99
9,Andrew,32,92
8,David,42,44
7,Rahul,33,79
6,Jaqluine,25,76
5,Sebastian,27,72
4,Rocky,31,47
3,Madonna,24,55
2,Cathrine,25,67


In [45]:
df2.iloc[:, 2]

11    69
10    99
9     92
8     44
7     79
6     76
5     72
4     47
3     55
2     67
1     87
0     89
Name: Score, dtype: int64

In [46]:
df2.loc[:, ['Name', 'Age']]

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,24
2,Cathrine,25


In [47]:
df2.iloc[:, :2]

Unnamed: 0,Name,Age
11,Teresa,47
10,Ajay,51
9,Andrew,32
8,David,42
7,Rahul,33
6,Jaqluine,25
5,Sebastian,27
4,Rocky,31
3,Madonna,24
2,Cathrine,25


# 3. Numpy 기초연습문제

### 1. np.zeros를 이용하여 행이 3, 열이 4인 ndarray를 생성하시오. 이 때 생성된 ndarray의 이름은 a가 되도록 한다.

In [49]:
a = np.zeros((3, 4))
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 2. 위에서 생성한 ndarray a에 대하여, 다중 for 문을 이용하여 아래와 같은 값을 갖도록 초기화하시오.

    array([[ 1.,  2.,  3.,  4.],
           [ 5.,  6.,  7.,  8.],
           [ 9., 10., 11., 12.]])

In [50]:
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i, j] = i*4 + j + 1
a

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [51]:
num = 1
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i, j] =  num
        num += 1
a

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

### 3. 초기화한 a로부터 값 7을 꺼내도록 인덱싱하시오.

In [52]:
a[1, 2]

7.0

### 4. a에서 아래와 같이 둘째 행을 꺼내도록 인덱싱하시오. 단 차원이 유지되어야 한다.
    array([[5., 6., 7., 8.]])

In [53]:
a.shape #차원확인

(3, 4)

In [54]:
a[[1], :]

array([[5., 6., 7., 8.]])

### 5. a에서 아래와 같이 둘째 열과 셋째 열이 나오도록 인덱싱하시오.
    array([[ 2.,  3.],
           [ 6.,  7.],
           [10., 11.]])

In [55]:
a[:,[0, 2]]

array([[ 1.,  3.],
       [ 5.,  7.],
       [ 9., 11.]])

### 6. 아래와 같이 a에서 6보다 작거나 같은 값들이 나오도록 불리안 인덱싱을 하시오.
    array([1., 2., 3., 4., 5., 6.])

In [56]:
result = np.asarray([a[i, j] for i in range(a.shape[0]) for  j in range(a.shape[1]) if a[i, j] <= 6])
result

array([1., 2., 3., 4., 5., 6.])

In [57]:
a[a <= 6]

array([1., 2., 3., 4., 5., 6.])

### 7. np.random 패키지를 이용하여 0에서 1사이의 값이 무작위로 생성된, 행이 3 열이 4인 ndarray를 생성하시오. 이 때 생성된 ndarray의 이름은 b가 되도록 한다.

In [58]:
b = np.random.random((3, 4)) #랜덤함수 사용
b

array([[0.4846353 , 0.37312981, 0.06525132, 0.65153603],
       [0.83981885, 0.54242553, 0.93650516, 0.53222722],
       [0.29762177, 0.03353106, 0.90174298, 0.66479783]])

### 8. a와 b의 요소곱을 하여 c에 저장하시오.

In [59]:
c = a * b
c

array([[0.4846353 , 0.74625961, 0.19575397, 2.60614411],
       [4.19909423, 3.25455319, 6.55553612, 4.25781775],
       [2.67859591, 0.33531061, 9.91917282, 7.97757397]])

### 9. b의 전치행렬을 구하여 d에 저장하시오.

In [60]:
d = b.T
d

array([[0.4846353 , 0.83981885, 0.29762177],
       [0.37312981, 0.54242553, 0.03353106],
       [0.06525132, 0.93650516, 0.90174298],
       [0.65153603, 0.53222722, 0.66479783]])

In [61]:
d.shape

(4, 3)

### 10. a와 d에 대하여 각 차원의 크기를 출력하시오.

In [62]:
print(a.shape, d.shape)

(3, 4) (4, 3)


### 11. a와 d의 행렬곱을 계산하여 e에 저장하시오.

In [63]:
e = a.dot(d)
e

array([[ 4.03279299,  6.86309427,  5.72910416],
       [10.33100281, 18.26700129, 13.31987874],
       [16.62921264, 29.67090832, 20.91065331]])

### 12. e에 대하여 각 열의 합을 계산하시오.

In [64]:
np.sum(e, axis=1)

array([16.62499142, 41.91788284, 67.21077427])

# 4. Pandas 기초연습문제

### 1. 딕셔너리를 이용하여 아래와 같은 모양이 되도록 data frame을 생성하시오.
![image.png](attachment:image.png)

In [65]:
score={'학번':[201524213,201621223,201621233, 201611111, 201722222],
       '이름':['오지환','박용택','정성훈', '다니엘', '지민'],
       '학과':['경영정보','경영정보','경영정보','컴퓨터공학','컴퓨터공학'],
       'Quiz':[15,20,10,17,18],
       '중간고사':[20,20,15,18,16]}

df= pd.DataFrame(score)
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
2,201621233,정성훈,경영정보,10,15
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16


In [66]:
df['학번']

0    201524213
1    201621223
2    201621233
3    201611111
4    201722222
Name: 학번, dtype: int64

### 2. 위에서 생성한 데이터프레임으로부터 인덱싱을 이용하여 이름과 중간고사를 추출하시오.

In [67]:
df[['이름', '중간고사']]

Unnamed: 0,이름,중간고사
0,오지환,20
1,박용택,20
2,정성훈,15
3,다니엘,18
4,지민,16


### 3. reindex를 이용하여 2, 0, 4, 1, 3 순으로 순서를 변경하시오.

In [68]:
df = df.reindex([2, 0, 4, 1, 3])
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
2,201621233,정성훈,경영정보,10,15
0,201524213,오지환,경영정보,15,20
4,201722222,지민,컴퓨터공학,18,16
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


### 4. iloc과 loc을 각각 이용하여 박용택 학생의 record를 추출하시오. (iloc으로 한번, loc으로 한번 수행)

In [69]:
print(df.iloc[3]) #위치를 봄
print(df.loc[1]) #라벨을 봄

학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object
학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object


### 5. iloc과 loc을 각각 이용하여 모든 학생의 이름과 중간고사 점수를 추출하시오. (iloc으로 한번, loc으로 한번 수행)

In [70]:
print(df.iloc[:, [1, 4]])
print(df.loc[:, ['이름', '중간고사']])

    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18
    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18


### 6. 중간고사 점수의 평균을 구하시오.

In [71]:
df['중간고사'].mean()

17.8

### 7. 중간고사 점수가 가장 낮은 학생의 index를 구하시오.

In [72]:
df['중간고사'].idxmin()

2

### 8. 퀴즈 점수가 가장 높은 학생의 학번을 구하시오.

In [74]:
df.loc[df['Quiz'].idxmax(), '학번']

201621223

### 9. 위 데이터프레임의 각 열에 대해서 개수, 평균, 표준편차, 최소최대값 등의 다양한 통계량을 출력하시오.

In [75]:
df.describe()

Unnamed: 0,학번,Quiz,중간고사
count,5.0,5.0,5.0
mean,201620000.0,16.0,17.8
std,70189.95,3.807887,2.280351
min,201524200.0,10.0,15.0
25%,201611100.0,15.0,16.0
50%,201621200.0,17.0,18.0
75%,201621200.0,18.0,20.0
max,201722200.0,20.0,20.0


### 10. 위 데이터프레임을 중간고사 점수에 따라 내림차순으로 정렬하시오.

In [76]:
df.sort_values('중간고사', ascending=False)

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16
2,201621233,정성훈,경영정보,10,15


### 11. 학생 중에서 퀴즈 점수가 평균 이상인 학생들의 이름을 출력하시오.

In [77]:
quiz_mean = df['Quiz'].mean()
df[df['Quiz'] > quiz_mean]['이름']

4     지민
1    박용택
3    다니엘
Name: 이름, dtype: object

### 12. 학생 중에서 퀴즈와 중간고사 점수 모두 평균 이상인 학생들의 record를 출력하시오.

In [78]:
quiz_mean = df['Quiz'].mean()
mid_mean = df['중간고사'].mean()
df[(df['Quiz'] > quiz_mean) & (df['중간고사'] > mid_mean)]

Unnamed: 0,학번,이름,학과,Quiz,중간고사
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


### 13. value_counts를 이용하여 학과 별로 학생의 수를 구하시오.

In [79]:
df['학과'].value_counts()

경영정보     3
컴퓨터공학    2
Name: 학과, dtype: int64

### 14. groupby를 이용하여 학과 별로 중간고사의 평균을 구하시오.

In [80]:
df.groupby('학과')['중간고사'].mean()

학과
경영정보     18.333333
컴퓨터공학    17.000000
Name: 중간고사, dtype: float64

In [81]:
df.mean()

학번      201620000.4
Quiz           16.0
중간고사           17.8
dtype: float64

In [82]:
list(df.groupby('학과'))

[('경영정보',
            학번   이름    학과  Quiz  중간고사
  2  201621233  정성훈  경영정보    10    15
  0  201524213  오지환  경영정보    15    20
  1  201621223  박용택  경영정보    20    20),
 ('컴퓨터공학',
            학번   이름     학과  Quiz  중간고사
  4  201722222   지민  컴퓨터공학    18    16
  3  201611111  다니엘  컴퓨터공학    17    18)]