## Key words
### Numpy, Pandas, DataFrame, array, series, crosstab, groupby

### 배열의 개요
- Numpy의 객체인 배열(array)을 생성하기 위해서는 기본적으로 "array" 함수를 사용
- "array" 함수 이외에도 특수한 행렬의 형태를 생성하기 위한 함수 다수 존재
- 배열 생성은 1차원부터 다차원 구조까지 다양하게 생성 가능하며 전치행렬 등 선형대수 관련 연산 가능

In [1]:
import numpy as np

In [3]:
np.array([1, 2, 3])
np.array([[1, 2], [3, 4]])

array([[1, 2],
       [3, 4]])

In [5]:
np.array([1, 2, 3, 4]).reshape((2,2))

array([[1, 2],
       [3, 4]])

In [4]:
np.ones((2, 4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [11]:
array = np.array([[1, 2, 3], [4, 5, 6]])
array

array([[1, 2, 3],
       [4, 5, 6]])

In [7]:
array[0]

array([1, 2, 3])

In [8]:
array[1]

array([4, 5, 6])

In [12]:
array[1][1] # row index, col index

5

In [13]:
array[1, 1] # row index, col index

5

In [9]:
array[0, :2]

array([1, 2])

In [10]:
array[0, 2]

3

In [14]:
array[-1]

array([4, 5, 6])

In [15]:
array[1, :-1]

array([4, 5])

### 배열의 메서드 및 어트리뷰트

In [16]:
array = np.array([[1, 2, 3], [4, 5, 6]])
array

array([[1, 2, 3],
       [4, 5, 6]])

#### 속성

In [18]:
array.ndim # 차원의 수, 앞에 n은 number의 약자

2

In [19]:
array.shape # 각 차원의 길이

(2, 3)

In [20]:
array.dtype # 데이터 타입

dtype('int32')

In [29]:
print(array.size) # 전체 요소(Element)의 개수

6


#### 메서드

In [22]:
# f(x) < 함수 인거처럼 밑에 소괄호 들어가면 함수

In [36]:
print(array.sum()) # 합계
print(array.min()) # 최소값
print(array.max()) # 최대값
print(array.mean()) # 평균값
print(array.var()) # 분산
print(array.std()) # 표준편차
print(len(array))

21
1
6
3.5
2.9166666666666665
1.707825127659933
2


### 다양한 함수

In [30]:
nums = np.array([1, 2, 2, 3])

In [37]:
print(set(nums)) # 파이썬 집합 함수로 중복 요소 없애고 보기
print(np.unique(nums)) # 중복 제거하고 고유한 것만 남기기
print(len(nums))
print(len(np.unique(nums)))

{1, 2, 3}
[1 2 3]
4
3


In [34]:
print(np.arange(3, 8, 2))
np.arange() # 소괄호 사이에 shift+tab+tab해서 뭐들어갈지보기가능

[3 5 7]


In [39]:
print(np.where(nums == 2,"ok", "no")) # if함수 간결하게 쓰기

['no' 'ok' 'ok' 'no']


## 판다스: 시리즈

In [41]:
import pandas as pd

In [42]:
pd.Series([1, 2, 3, 3, 4])
pd.Series([1, 2, 3], index = ['a', 'b', 'c'])

a    1
b    2
c    3
dtype: int64

In [44]:
ser =pd.Series([1, 2, 3, 3, 4])
ser

0    1
1    2
2    3
3    3
4    4
dtype: int64

### 시리즈의 생성 및 메서드

In [50]:
print(ser.sum())
print(ser.min())
print(ser.max())
print(ser.mean())
print(ser.std())

13
1
4
2.6
1.140175425099138


In [55]:
print(ser.skew()) # 왜도
print(ser.kurt()) # 첨도
print(ser.unique()) # 고유값
print(ser.idxmax()) # 최대값의 위치
print(ser.idxmin()) # 최소값의 위치

-0.404796008910937
-0.17751479289941052
[1 2 3 4]
4
0


In [60]:
print(ser.isin([1, 2])) # 포함 여부 검사 is in 약자
print(ser.isin([1, 2]).sum()) # 1또는2가 몇개있는가, 조합 잘하는것도 중요 True:1로 인식, False:0으로 인식하기 때문

0     True
1     True
2    False
3    False
4    False
dtype: bool
2


## 판다스: DataFrame

In [66]:
df = pd.DataFrame({'aa': [1,0,3], 'bb': [4,5,6], 'cc': [7,8,9]})
df

Unnamed: 0,aa,bb,cc
0,1,4,7
1,0,5,8
2,3,6,9


In [69]:
pd.crosstab(df["aa"], df["bb"]) # 두개 컬럼이 같은 쌍인 인덱싱자리를 보여줌

bb,4,5,6
aa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,1,0
1,1,0,0
3,0,0,1


In [68]:
df.groupby("aa")["bb"].sum()

aa
0    5
1    4
3    6
Name: bb, dtype: int64