# Numpy
### Numpy는 Numerical Python의 줄임말로 고성능의 과학계산 컴퓨팅과 데이터 분석에 필요한 기본 패키지이다.

In [1]:
import numpy as np

In [2]:
#다차원 배열(Arrays)

a = np.array([1, 2, 3])  # 1차원 배열 생성
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # 배열의 한 원소를 변경
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [3]:
b = np.array([[1,2,3],[4,5,6]])   # 2차원 배열 생성
print(b) #2차원 배열의 모양을 확인

[[1 2 3]
 [4 5 6]]


In [4]:
print(b.shape) #배열의 각 차원의 크기
print(b[0, 0], b[0, 1], b[1, 0]) #인덱싱 예제

(2, 3)
1 2 4


In [5]:
a = np.zeros((2, 3))  # 값이 모두 0인 배열 생성, 매개변수는 원하는 shape
print(a)

[[0. 0. 0.]
 [0. 0. 0.]]


In [6]:
b = np.ones((3, 4))   # 값이 모두 1인 배열 생성
print(b)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [7]:
c = np.full((2, 4), 7) # 모든 원소가 원하는 값으로 초기화된 배열 생성
print(c)

[[7 7 7 7]
 [7 7 7 7]]


In [8]:
d = np.eye(4) # 2x2의 단위행렬(identity matrix)을 생성
print(d)

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [9]:
e = np.random.random((2,4)) # 무작위값으로 이루어진 배열 생성
print(e)

[[0.82957463 0.56927296 0.20348445 0.93826987]
 [0.70136422 0.44486954 0.39542435 0.47077177]]


In [10]:
#배열 인덱싱

a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


In [11]:
#주의할 점 : 배열의 슬라이스를 잘라서 만든 배열은 원래의 배열과 값을 공유하므로 수정할 경우 원래의 배열도 값이 변경된다.
print(a[0, 1])
b[0, 0] = 77  
print(b)
print(a)

2
[[77  3]
 [ 6  7]]
[[ 1 77  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [12]:
#만일 값을 복사해서 새로운 배열을 만들고 싶으면 copy() 함수를 사용
c = b.copy()
c[0, 0] = 55
print(c)
print(b)

[[55  3]
 [ 6  7]]
[[77  3]
 [ 6  7]]


In [13]:
#인덱싱과 슬라이싱을 섞어서 쓸 수 있다 (정확히는 정수 인덱싱과 슬라이스 인덱싱)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a, a.shape)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]] (3, 4)


In [15]:
#정수 인덱싱과 슬라이싱을 섞어서 쓰는 경우 차원이 감소할 수 있다. 슬라이싱만 쓰는 경우는 차원 유지
row_r1 = a[1, :]    # 차원이 감소되는 것에 주의  
print(row_r1, row_r1.shape)
row_r2 = a[1:2, :]  # 차원 유지됨
print(row_r2, row_r2.shape)
row_r3 = a[2, :]  # 차원 유지됨
print(row_r3, row_r3.shape)
# 컬럼만 잘라낼 때에도 마찬가지:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print(col_r2, col_r2.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[ 9 10 11 12] (4,)
[ 2  6 10] (3,)
[[ 2]
 [ 6]
 [10]] (3, 1)


In [16]:
#정수 배열을 이용한 인덱싱: 슬라이싱을 사용하는 경우 결과는 항상 원래 배열의 서브 배열이 된다. 반면, 정수 배열을 이용하면 임의로 변경하는 것이 가능하다.
a = np.array([[1,2], [3, 4], [5, 6]])
print(a, a.shape)

# 정수 배열 인덱싱의 예.
# 반환된 배열의 shape는 (3,) 
print(a[[0, 1, 2], [0, 1, 0]])

# 위 방식은 아래 방식과 동일한 결과를 만들어 냄:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))


[[1 2]
 [3 4]
 [5 6]] (3, 2)
[1 4 5]
[1 4 5]


In [17]:
# 정수 배열 인덱싱을 할 때, 같은 요소를 가져오게 될 수도 있음
print(a[[0, 0], [1, 1]])

# 아래 예제와 동일
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


In [18]:
# 정수 배열 인덱싱은 각각의 행/열에서 원하는 요소만 가져오고 싶을 때 유용하게 사용이 가능:
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)
# np.arange는 range와는 달리 ndarray 형태로 모든 값을 생성
print(np.arange(4))
print(range(4))
# 정수 배열 선언
b = np.array([0, 2, 0, 1])
# b의 각 행에서 위 배열에 해당하는 열의 값을 가져오고 싶다면?
print(a[np.arange(4), b])
# b의 각 행에서 위 배열에 해당하는 열의 값에만 10을 더하고 싶다면?
a[np.arange(4), b] += 10
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]
[0 1 2 3]
range(0, 4)
[ 1  6  7 11]
[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


# Pandas
### “관계형”, 혹은 “테이블 형＂데이터를 만들고 조작하기 위한 파이썬 라이브러리

In [20]:
import pandas as pd

In [22]:
#Series: 인덱스(index)가 있는 1차원 배열
s = pd.Series([1, 3, 5, 7, 9])
print(s)
print(s[2]) #indexing
# dictionary를 이용해 만들기
dic = {'a':1, 'b':3, 'c':5}
s = pd.Series(dic)
print(s)
print(s['b']) #indexing

#Series의 두 속성: index, values
print(s.values)
print(s.index)
#index를 부여하는 다른 방법
s = pd.Series([1,3,5,7,9], index=['LGT','DOO','HWE','LOT','SKW'])
#print(s)
#print(s['LOT'])
print(s[:'LOT']) # 슬라이싱에서 어디까지 나오는지 주목

0    1
1    3
2    5
3    7
4    9
dtype: int64
5
a    1
b    3
c    5
dtype: int64
3
[1 3 5]
Index(['a', 'b', 'c'], dtype='object')
LGT    1
DOO    3
HWE    5
LOT    7
dtype: int64


In [23]:
#데이터 프레임 만들기: 데이터 프레임은 우리에게 친숙한 2차원 표와 같은 형태로 생각하면 된다. 행(row)과 열(column)으로 이루어져 있으며, 각 열에는 name이 있고 행에는 index가 있다.
score={'학번':[201524213,201621223,201621233],
       '이름':['오지환','박용택','정성훈'],
       'Quiz':[15,20,10],
       '중간고사':[20,20,15]}

score_df= pd.DataFrame(score)
score_df


Unnamed: 0,학번,이름,Quiz,중간고사
0,201524213,오지환,15,20
1,201621223,박용택,20,20
2,201621233,정성훈,10,15


In [24]:
#하나의 열은 Series이며 따라서 데이터 프레임은 index를 공유하는 열 혹은 Series의 집합이라고 생각할 수 있다.
print(type(score_df['학번']))
score_df['학번']

<class 'pandas.core.series.Series'>


0    201524213
1    201621223
2    201621233
Name: 학번, dtype: int64

In [25]:
#데이터 프레임 다루기
d = {
    'Name':['Alisa','Bobby','Cathrine','Madonna','Rocky','Sebastian','Jaqluine',
   'Rahul','David','Andrew','Ajay','Teresa'],
   'Age':[26,27,25,24,31,27,25,33,42,32,51,47],
   'Score':[89,87,67,55,47,72,76,79,44,92,99,69]}
 
df = pd.DataFrame(d)
df

Unnamed: 0,Name,Age,Score
0,Alisa,26,89
1,Bobby,27,87
2,Cathrine,25,67
3,Madonna,24,55
4,Rocky,31,47
5,Sebastian,27,72
6,Jaqluine,25,76
7,Rahul,33,79
8,David,42,44
9,Andrew,32,92


In [26]:
df['Age']

0     26
1     27
2     25
3     24
4     31
5     27
6     25
7     33
8     42
9     32
10    51
11    47
Name: Age, dtype: int64

In [27]:
#loc, iloc을 이용한 인덱싱과 슬라이싱
df=df.reindex([1,4,6,2,3,5,9,8,0,7,11,10]) # 일부러 순차가 아닌 인덱스를 부여
df

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72
9,Andrew,32,92
8,David,42,44
0,Alisa,26,89
7,Rahul,33,79


In [30]:
df.loc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76


In [31]:
#iloc과 loc의 중요한 차이점 하나는, loc은 인덱싱하는 값을 포함하여 결과를 반환한다는 것이다.
df.iloc[:6]

Unnamed: 0,Name,Age,Score
1,Bobby,27,87
4,Rocky,31,47
6,Jaqluine,25,76
2,Cathrine,25,67
3,Madonna,24,55
5,Sebastian,27,72


# Pandas 기초연습문제 주석달기

In [33]:
import pandas as pd
score={'학번':[201524213,201621223,201621233, 201611111, 201722222],
       '이름':['오지환','박용택','정성훈', '다니엘', '지민'],
       '학과':['경영정보','경영정보','경영정보','컴퓨터공학','컴퓨터공학'],
       'Quiz':[15,20,10,17,18],
       '중간고사':[20,20,15,18,16]}#딕셔너리를 이용해서 데이터프레임 만들기

df= pd.DataFrame(score) 
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
2,201621233,정성훈,경영정보,10,15
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16


In [34]:
df['학번'] #학번 칼럼만 추출하기

0    201524213
1    201621223
2    201621233
3    201611111
4    201722222
Name: 학번, dtype: int64

In [35]:
df[['이름', '중간고사']] #인덱싱활용해서 이름, 중간고사 칼럼 추출하기

Unnamed: 0,이름,중간고사
0,오지환,20
1,박용택,20
2,정성훈,15
3,다니엘,18
4,지민,16


In [36]:
df = df.reindex([2, 0, 4, 1, 3]) #reindex를 활용해서 2, 0, 4, 1, 3 순으로 행 순 바꾸기
df

Unnamed: 0,학번,이름,학과,Quiz,중간고사
2,201621233,정성훈,경영정보,10,15
0,201524213,오지환,경영정보,15,20
4,201722222,지민,컴퓨터공학,18,16
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


In [37]:
print(df.iloc[3])
print(df.loc[1]) # iloc과 loc을 이용하여 박용택 학생의 record를 추출

학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object
학번      201621223
이름            박용택
학과           경영정보
Quiz           20
중간고사           20
Name: 1, dtype: object


In [38]:
print(df.iloc[:, [1, 4]])
print(df.loc[:, ['이름', '중간고사']]) #iloc과 loc을 각각 이용하여 모든 학생의 이름과 중간고사 점수를 추출

    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18
    이름  중간고사
2  정성훈    15
0  오지환    20
4   지민    16
1  박용택    20
3  다니엘    18


In [39]:
df['중간고사'].mean() #중간고사의 평균 구하기

17.8

In [40]:
df['중간고사'].idxmin() #중간고사 점수가 가장 낮은 학생의 index를 구하기

2

In [41]:
df.loc[df['Quiz'].idxmax(), '학번'] #퀴즈 점수가 가장 높은 학생의 학번을 구하기

201621223

In [42]:
df.describe() #위 데이터프레임의 기초 통계량 구하기

Unnamed: 0,학번,Quiz,중간고사
count,5.0,5.0,5.0
mean,201620000.0,16.0,17.8
std,70189.95,3.807887,2.280351
min,201524200.0,10.0,15.0
25%,201611100.0,15.0,16.0
50%,201621200.0,17.0,18.0
75%,201621200.0,18.0,20.0
max,201722200.0,20.0,20.0


In [43]:
df.sort_values('중간고사', ascending=False) #위 데이터프레임을 중간고사 점수에 따라 내림차순으로 정렬

Unnamed: 0,학번,이름,학과,Quiz,중간고사
0,201524213,오지환,경영정보,15,20
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18
4,201722222,지민,컴퓨터공학,18,16
2,201621233,정성훈,경영정보,10,15


In [44]:
quiz_mean = df['Quiz'].mean()
df[df['Quiz'] > quiz_mean]['이름'] #학생 중에서 퀴즈 점수가 평균 이상인 학생들의 이름을 출력

4     지민
1    박용택
3    다니엘
Name: 이름, dtype: object

In [45]:
quiz_mean = df['Quiz'].mean()
mid_mean = df['중간고사'].mean()
df[(df['Quiz'] > quiz_mean) & (df['중간고사'] > mid_mean)] #학생 중에서 퀴즈와 중간고사 점수 모두 평균 이상인 학생들의 record를 출력

Unnamed: 0,학번,이름,학과,Quiz,중간고사
1,201621223,박용택,경영정보,20,20
3,201611111,다니엘,컴퓨터공학,17,18


In [46]:
df['학과'].value_counts() #value_counts를 이용하여 학과 별로 학생의 수를 구하기

경영정보     3
컴퓨터공학    2
Name: 학과, dtype: int64

In [49]:
df.groupby('학과')['중간고사'].mean() #groupby를 이용하여 학과 별로 중간고사의 평균을 구하기

학번      201620000.4
Quiz           16.0
중간고사           17.8
dtype: float64

In [50]:
df.mean() 

학번      201620000.4
Quiz           16.0
중간고사           17.8
dtype: float64

In [51]:
list(df.groupby('학과'))

[('경영정보',
            학번   이름    학과  Quiz  중간고사
  2  201621233  정성훈  경영정보    10    15
  0  201524213  오지환  경영정보    15    20
  1  201621223  박용택  경영정보    20    20),
 ('컴퓨터공학',
            학번   이름     학과  Quiz  중간고사
  4  201722222   지민  컴퓨터공학    18    16
  3  201611111  다니엘  컴퓨터공학    17    18)]

# Numpy 기초연습문제 주석달기

In [53]:
a = np.zeros((3, 4)) #np.zeros를 이용하여 행이 3, 열이 4인 ndarray를 생성, 변수는 a로 설정
a

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [54]:
for i in range(a.shape[0]):
    for j in range(a.shape[1]):
        a[i, j] = i*4 + j + 1
a #a에 대하여, 다중 for 문을 이용

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12.]])

In [55]:
a[1, 2] #초기화한 a로부터 값 7을 꺼내도록 인덱싱

7.0

In [58]:
a.shape

(3, 4)

In [59]:
a[[1], :] #차원이 유지시키고 특정 행 꺼내도록 인덱싱

array([[5., 6., 7., 8.]])

In [60]:
a[:,[0, 2]] #특정 열들이 나오도록 인덱싱

array([[ 1.,  3.],
       [ 5.,  7.],
       [ 9., 11.]])

In [61]:
result = np.asarray([a[i, j] for i in range(a.shape[0]) for  j in range(a.shape[1]) if a[i, j] <= 6])
result #a에서 6보다 작거나 같은 값들이 나오도록 불리안 인덱싱

array([1., 2., 3., 4., 5., 6.])

In [62]:
b = np.random.random((3, 4)) #np.random 패키지를 이용하여 0에서 1사이의 값이 무작위로 생성된, 행이 3 열이 4인 ndarray를 생성
b # 생성변수는 b로한다

array([[0.31923536, 0.35232983, 0.35743138, 0.10096776],
       [0.69749755, 0.26805252, 0.65616661, 0.47834533],
       [0.12839097, 0.4449496 , 0.56779235, 0.13116509]])

In [63]:
c = a * b
c #a와 b의 요소곱을 하여 c에 저장

array([[0.31923536, 0.70465966, 1.07229414, 0.40387103],
       [3.48748773, 1.60831511, 4.59316629, 3.82676264],
       [1.15551869, 4.44949602, 6.24571588, 1.57398109]])

In [64]:
d = b.T
d #b의 전치행렬을 구하여 d에 저장

array([[0.31923536, 0.69749755, 0.12839097],
       [0.35232983, 0.26805252, 0.4449496 ],
       [0.35743138, 0.65616661, 0.56779235],
       [0.10096776, 0.47834533, 0.13116509]])

In [65]:
d.shape


(4, 3)

In [66]:
print(a.shape, d.shape) #a와 d에 대하여 각 차원의 크기를 출력

(3, 4) (4, 3)


In [67]:
e = a.dot(d) #a와 d의 행렬곱을 계산하여 e에 저장
e 

array([[ 2.50006019,  5.11548374,  3.24632759],
       [ 7.0199175 , 13.51573176,  8.33551964],
       [11.53977481, 21.91597978, 13.42471168]])

In [68]:
np.sum(e, axis=1) #e에 대하여 각 열의 합을 계산

array([10.86187152, 28.8711689 , 46.88046627])