## Numpy
    - 데이터는 행렬로 표현
    - 선형대수/통계 연산을 위한 라이브러리
- 행렬 데이터 생성, 수정, 계산 등을 빠르게 처리해주는 패키지
- 선형대수학을 빠르게 연산
    - 스칼라, 벡터, 매트릭스
- 머신러닝/딥러닝 연구에 필수적으로 사용
- 데이터 분석에서는 pandas가 많이 활용 되지만,
- 알고리즘 활용에 있어서는 numpy 패키지는 필수적이기 때문에 중요하다.

In [1]:
import numpy as np

### 1. array 생성

In [4]:
ary = np.array([1, 2, 3, 4])
ary, type(ary)

(array([1, 2, 3, 4]), numpy.ndarray)

### 2. ndarray
- 한가지 데이터 타입만으로 사용이 가능
  - - 다른데이터 타입이 혼용되어 사용할 수 없다.

In [5]:
ary.ndim

1

In [6]:
ary.shape

(4,)

### 3. 데이터 수정

In [8]:
ary[2] = 300
ary

array([  1,   2, 300,   4])

In [11]:
# shape
ary.reshape(2, 2)

array([[  1,   2],
       [300,   4]])

In [15]:
ary2 = ary.reshape(2, 2)
ary2[1][0], ary2[0, 1]

(300, 2)

### 4. array broadcasting
    - 차원이 다른 연산을 동일한 차원으로 자동으로 변경시켜 연산을 가능하게 해주는 것

$$
    \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    \end{pmatrix}
    +5
$$


In [16]:
ary3 = np.array([1, 2, 3, 4, 5, 6]).reshape(2, 3)
ary3+5

array([[ 6,  7,  8],
       [ 9, 10, 11]])

### 5. array 조건 선택

In [17]:
ary3

array([[1, 2, 3],
       [4, 5, 6]])

In [18]:
mask = ary3 < 3
mask

array([[ True,  True, False],
       [False, False, False]])

#### 5.1.조건을 통한 데이터 변환


In [21]:
ary3[mask]

array([100, 100])

#### 5.2.조건에 맞는 값만 변경

In [22]:
ary3[mask] = 100
ary3

array([[100, 100,   3],
       [  4,   5,   6]])

### 6. zero array / one array

In [23]:
zero_ary = np.zeros((4, 4))
zero_ary

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [24]:
one_ary = np.ones((4, 4))
one_ary

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

#### 6.1.데이터 타입 확인 및 변경
- `array.dtype` : array 안의 데이터 타입을 확인할 때 사용하는 명령

In [25]:
zero_ary.dtype

dtype('float64')

In [28]:
zero_ary2 = np.zeros((3, 3)).astype('int')
zero_ary2

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [30]:
zero_ary2.dtype

dtype('int64')

### 7. 범위값 array 생성

In [32]:
ary4 = np.arange(1, 11, 2)
ary4

array([1, 3, 5, 7, 9])

In [33]:
list(ary4)

[1, 3, 5, 7, 9]

### 8. 행렬 덧셈
$$
    \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    \end{pmatrix}
    +
    \begin{pmatrix}
    5 & 5 & 5 \\
    5 & 5 & 5 \\
    \end{pmatrix}
$$

In [34]:
ary5 = np.arange(1, 7).reshape(2, 3)
ary6 = np.array([5, 5, 5, 5, 5, 5,]).reshape(2, 3)
ary5 + ary6

array([[ 6,  7,  8],
       [ 9, 10, 11]])

In [35]:
ls1 = [[1, 2, 3], [4, 5, 6]]
ls2 = [[5, 5, 5], [5, 5, 5]]
ls1 + ls2

[[1, 2, 3], [4, 5, 6], [5, 5, 5], [5, 5, 5]]

In [None]:
    # 리스트 연산은 불가하지만 행렬 연산은 가능하다.

### 9. 행렬 곱(행렬의 내적 연산)
$$
    \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    \end{pmatrix}
    \times
    \begin{pmatrix}
    5 & 5  \\
    4 & 4  \\
    3 & 3 \\
    \end{pmatrix}
$$

In [None]:
    # 행렬의 곱 사실은 곱이 아니라 내적 product라고 한다.

In [36]:
ary7 = np.arange(1, 7).reshape(2, 3)
ary8 = np.array([[5, 5], [4, 4], [3, 3]])
np.dot(ary7, ary8)

array([[22, 22],
       [58, 58]])

In [37]:
ary7@ary8

array([[22, 22],
       [58, 58]])

#### 9.1.zip(*)
$$
    \begin{pmatrix}
    1 & 2 & 3 \\
    4 & 5 & 6 \\
    \end{pmatrix}
    \rightarrow
    \begin{pmatrix}
    1 & 4  \\
    2 & 5 \\
    3 & 6 \\
    \end{pmatrix}
$$

In [None]:
    # 쉽게 말하면 transpose 되었다

In [38]:
ls = [[1, 2, 3], [4, 5, 6]]
ls2 = list(map(list, zip(*ls)))
ls2

[[1, 4], [2, 5], [3, 6]]

In [39]:
ary7.T

array([[1, 4],
       [2, 5],
       [3, 6]])

### 10. 행렬 데이터의 결합(concatenate)
    - array 데이터 붙이기

In [41]:
np.concatenate((ary6, ary7),) # axis=0 : 행 방향, axis=1 : 열 방향

array([[5, 5, 5],
       [5, 5, 5],
       [1, 2, 3],
       [4, 5, 6]])

### 11. Numpy modules

#### 12.통계 함수 사용
    - max, min, mean, median, var, std

In [44]:
np.max(ary7), np.min(ary7), np.mean(ary7), np.var(ary7), np.std(ary7)

(6, 1, 3.5, 2.9166666666666665, 1.707825127659933)

#### 13.linspace, logspace
- linspace : 설정한 범위에서 선형적으로 분할한 위치의 값을 출력
- logspace : 설정한 범위에서 로그로 분할한 위치의 값을 출력

In [45]:
np.linspace(1, 1000, 10)

array([   1.,  112.,  223.,  334.,  445.,  556.,  667.,  778.,  889.,
       1000.])

##### 13.1.logspace
- log10(x1)=2, log_10(x_2) = 4

In [46]:
np.logspace(2, 6, 3)

array([1.e+02, 1.e+04, 1.e+06])

#### 14.Random 모듈
    - seed : 랜덤 규칙 설정값
    - rand : 균등분포로 난수 생성
    - randint : 균등분포로 정수 생성
    - randn : 정규분포로 난수 생성
    - shuffle : 무작위로 분포 섞기
    - choice : 데이터를 특정 확률로 뽑기

In [None]:
    # seed : 파라미터, 하이퍼 파라미터, 랜덤으로 숫자를 생성하거나 분포시킬때 컴퓨터는 랜덤으로 돌리지만
    # 어떤 seed이냐에 따라서 그걸 섞는 방법이 결정된다.
    # seed를 동일하게 해주면 난수를 생성할때 동일하게 생성 할 수 있다.

##### 14.1.seed

In [None]:
# random 모듈 패키지와 numpy.random 모듈 패키지의 차이
# numpy는 수학/통계/선형대수를 위한 메소드들 위주로 구성되어 있음.
# seed를 작성하지 않으면 random은 난수를 생성하기 때문에 일정하지 않은 값이 출력된다.
# seed가 다르면 동일하지 않은 값 같으면 동일한 값이 나오기 때문에 사용에 따라 변경해야 한다.

In [50]:
seed = 702

np.random.seed(seed)
r1 = np.random.rand(10)

np.random.seed(1)
r2 = np.random.rand(10)

np.random.seed(seed)
r3 = np.random.rand(10)


In [51]:
r1, r2, r3


(array([0.15477466, 0.29961915, 0.78367472, 0.82671529, 0.20229288,
        0.91094538, 0.16004088, 0.17678466, 0.98714092, 0.940898  ]),
 array([4.17022005e-01, 7.20324493e-01, 1.14374817e-04, 3.02332573e-01,
        1.46755891e-01, 9.23385948e-02, 1.86260211e-01, 3.45560727e-01,
        3.96767474e-01, 5.38816734e-01]),
 array([0.15477466, 0.29961915, 0.78367472, 0.82671529, 0.20229288,
        0.91094538, 0.16004088, 0.17678466, 0.98714092, 0.940898  ]))

##### 14.2.rand

In [52]:
np.random.rand(10)

array([0.82136809, 0.08382455, 0.64505232, 0.8784454 , 0.01738939,
       0.04298601, 0.33584323, 0.11798476, 0.69017764, 0.57336142])

##### 14.3.randn

In [53]:
np.random.randn(10)

array([-0.46527042, -0.67470137, -1.120704  ,  0.7744656 , -0.81847211,
        0.06608254, -0.83750583, -0.45931611,  0.0447703 , -1.34109638])

##### 14.4.randint

In [55]:
r4 = np.random.randint(1, 20, (4, 4))
r4

array([[ 1, 14,  1,  8],
       [13, 16, 16, 15],
       [12,  3,  1, 12],
       [18, 15,  3,  9]])

##### 14.5.shuffle

In [59]:
np.random.shuffle(r4)

In [60]:
r4

array([[18, 15,  3,  9],
       [ 1, 14,  1,  8],
       [13, 16, 16, 15],
       [12,  3,  1, 12]])

## Pandas
    - R보다 학습이 쉽고, 성능이 좋은 데이터 분석용 라이브러리
    - Series, DataFrame
    - Numpy를 개량한 라이브러리

    - Series : index, value
    - DataFrame : index, column, value

In [None]:
    # Pandas에서 다룰 데이터 타입은 대체로 Dataframe이다. DataFrame을 불러와서 테이블 형태로 확인하고 전처리를 한다던지
    # 타입을 확인한다던지 변수를 만들거나 삭제하거나 수정하는 행위들을 할 수 있다.
    # Series는 데이터 프레임의 열 컬럼 하나하나를 구성하는 것이 series
    # Series를 여러개 붙여 놓으면 Daraframe가 된다.

In [None]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

### 1. Series
- 동일한 데이터 타입의 값을 갖는다.

#### 1.1 Series 선언

#### 1.2 index 설정

In [None]:
    # dict타입으로 꼭 사용하지 않아도 된다.
    # 데이터 분석 한 것을 보여줄 떄 R 같은 경우는 index가 1에서 부터 시작하기 때문에
    # index를 0으로 시작하면 통일성이 없어 알아보기 어려울 수 있다.
    # 그렇기 때문에 index를 선언해야한다.

#### 1.3 Series value 출력

#### 1.4.Series Broadcasting(중요)

In [None]:
    # numpy의 array 타입 데이터와 마찬가지로 형태가 다르지만 동일한 형태로 전환되어 연산 진행

In [None]:
    # Series는 numpy와 크게 차이가 없다.
    # type 확인했을 떄 index와 value를 뽑았을때 array 안에 있는 것을 확인할 수 있다.
    # 처음에 pandas는 numpy에서 확장되서 만들어진 패키지이기 때문에 데이터 배열 타입이 numpy에서 끌어온거다 보니
    # 생성한 Series는 array 타입으로 들어가는 경우가 많다.
    # 차이점으로는 ndarray에서는 동일한 타입으로 만들어야하지만 pandas에서는 각각의 index에 따른 type이 달라도 생성 된다.
    # 하지만 object 객체로 생성이 된다.

#### 1.5.Data Slicing

### 2. DataFrame
    - 여러개의 Series로 구성
    - 같은 컬럼에 있는 value값은 같은 데이터 타입을 갖는다.

In [61]:
data = {
    "name":['deep', 'noid', 'nayeon'],
    "class":['AI', 'Math', 'HealthCare'],
    "age":[20, 30, 40]
}

In [62]:
import pandas as pd

In [64]:
df = pd.DataFrame(data)
df

Unnamed: 0,name,class,age
0,deep,AI,20
1,noid,Math,30
2,nayeon,HealthCare,40


#### 2.1 index

In [66]:
df2 = pd.DataFrame(data, index=['A','B', 'C',])
df2

Unnamed: 0,name,class,age
A,deep,AI,20
B,noid,Math,30
C,nayeon,HealthCare,40


##### 2.1.1 index 변경

#### 2.2 DataFrame 데이터 선택

##### 2.2.1.row 선택 후 특정 column 선택

##### 2.2.2.column 선택

##### 2.2.3.index 번호로 출력

##### 2.2.4.index명과 column명으로 출력

##### 2.2.5.컬럼 데이터 순서 설정

#### 2.3 DataFrame 데이터 추가

##### 2.3.1.column 데이터 추가

##### 2.3.2.row 데이터 수정

##### 2.3.3.head, tail

##### 2.3..apply 함수 (map 함수와 비슷)

#### 2.4 DataFrame 데이터 삭제

In [None]:
    # 데이터를 뽕뽕뽕 뚫어서 데이터를 지우는 방법도 있지만 그렇게 되면 분석에 용이하지 않다.
    # 결측치가 발생하기 때문에

##### 2.4.1 row 삭제

##### 2.4.2 column 삭제

In [None]:
    # 데이터 전처리에서 가장 중요한 것은 원본은 백업을 해두고 다른 식별자에 복하한 후에 전처리 작업 진행
    # 복구를 할 수 없기 때문에

#### 2.5 DataFrame 조건별 출력

#### 2.6 DataFrame concat(붙이기)
- row나 column으로 데이터프레임을 합칠때 사용

##### 2.6.1.reset_inedex 인덱스 재정렬

#### 2.7 DataFrame 중복 없이 데이터 합치기

In [None]:
# group by : 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프레임을 만드는 방법
import random
import numpy as np
import pandas as pd

# 이름을 랜덤으로 출력하는 함수
def get_name():
    names = ["na1", "na2", "na3","na4", "na5", "na6", "na7", "na8", "na9", "na10"]
    return random.choice(names)

# 나이를 20세에서 40세까지 랜덤하게 출력
def get_age(start=20, end=40):
    return np.random.randint(start, end + 1)

# 나이와 데이터를 가지고, 데이터를 만들어주는 함수
def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age": get_age(), "Name": get_name()}
        datas.append(data)
    return datas


##### 2.7.1.sort_values : 설정한 컬럼으로 데이터 프레임을 정렬

In [None]:
    #엑셀에서 데이터 필터값을 적용해서 오름차순 내림차순 적용해보면 맨 앞에 행 번호 값은 안바뀐다.
    # 행번호 값을 지우는게 reset_index이고, drop이 True이면 지우고 새로 설정하는거고 아니면
    # 번호를 그대로 유지한다.
    # 원본 데이터 사용할 때 어떻게 사용할지 명확하게 정책을 세우고 해야한다.

##### 2.7.2.agg()
- size(), min(), max(), mean() : 그룹함수

##### 2.7.3.데이터를 요약해서 보여주는 함수

#### 2.8 DataFrame Merge(패스)

In [None]:
# group by : 특정 컬럼의 중복되는 데이터를 합쳐서 새로운 데이터 프ㄹ헤임을 만드는 방법
import random
import numpy as np
import pandas as pd

# 이름을 랜덤으로 출력하는 함수
def get_name():
    names = ["na1", "na2", "na3","na4", "na5", "na6", "na7", "na8", "na9", "na10"]
    return random.choice(names)

# 나이를 20세에서 40세까지 랜덤하게 출력
def get_age(start=20, end=40):
    return np.random.randint(start, end + 1)

# 나이와 데이터를 가지고, 데이터를 만들어주는 함수
def make_data(rows=10):
    datas = []
    for _ in range(rows):
        data = {"Age": get_age(), "Name": get_name()}
        datas.append(data)
#     return datas


dict로 DataFrame 생성

In [None]:
sample1 = {}
sample1["Adress"] = ["Seoul","Busan","Jeju","Incheon","Daegu"]
sample1["Age"] = [get_age() for _ in range(5)] # for문 작성 시 단순 반복만 시행할 경우  _로 많이 씁니다.
ls = []
while True:
    name = get_name()
    if name not in ls:
        ls.append(name)
    if len(ls) ==5:
        break
sample1["Name"] = ls

df = pd.DataFrame(sample1)
df

list로 DataFrame 생성



In [None]:
Adress =  ["Seoul","Busan","Jeju","Incheon","Daegu"]
ls = []
while True:
    name = get_name()
    if name not in ls: ls.append(name)
    if len(ls) == 5: break
age = [get_age() for _ in range(5)]

df2 = pd.DataFrame(columns=["Adress","Age","Name"])
    # DataFrame 생성 시 Column값을 지정하여 DataFrame을 먼저 생성
    # DataFrame을 선언만 했기 때문에 내용이 비어있으므로 채워줘야 함.
for idx in range(5):
    df2.loc[idx] = {"Adress":Adress[idx], "Age":age[idx], "Name":ls[idx]}
df2

##### 2.8.1.merge parameters
    
    - on: 두 데이터 프레임에 공통으로 속하는 column을 기준으로 병합
    - how
        - inner : 기준이 되는 column의 데이터가 양쪽 데이터 프레임에 공통으로 존재하는 교집합의 경우
        - outer : 기준이 되는 column의 데이터가 한쪽에만 존재해도 포함하여 병합
        - left : 왼쪽 데이터프레임으 기준 column에 속하는 값을 기준으로 병합
        - right : 오른쪽 데이터프레임의 기준 column에 속하는 값을 기준으로 병합
    - left_on / right_on : 각각의 데이터프레임에서의 기준 column을 설정하여 병합
    - left_on right_on으로 설정한 기준 column에 how의 옵션 값으로 기준을 결정하여 병합

In [None]:
df_merge = pd.merge(df, df2, on="Age")
    # 합쳐지는 순서는 작성된 DataFrame의 순서를 따르며 defualt로 순서대로 컬러명에 x,y가 붙습니다.
df_merge = df_merge[["Age", "Adress_x","Name_x", "Adress_y","Name_y"]]
df_merge.columns = ["Age", "Adress", "Name", "Adress", "Name" ]
df_merge
    # 기준 컬럼이 두 DataFrame에 존재해야 merge가 가능합니다.
    # 존재하지 않은 상태에서 붙일 경우 merge조건을 수정해야 합니다.

##### 2.8.2.DataFrame 정렬(패스)

In [None]:
df_merge2 = pd.merge(df, df2, on="Age")
df_merge2 = df_merge2[["Age", "Adress_x","Name_x", "Adress_y","Name_y"]]
df_merge2

In [None]:
df_merge2.sort_values(["Adress_x","Adress_y"], ascending=[False, False])
    # ascending의 기본 값은 True로 되어 있다(오름차순 정렬)
    # 데이터의 수가 동일한 경우 정렬 적용이 하나의 컬럼 기준으로만 진행된다.

#### 2.9 데이터 불러오기
- pandas 패키지 안에는 csv 파일 외에 다양한 파일을 불러올 수 있습니다.
- csv 파일을 DataFrame으로 생성하기 위해서는 column명과 index가 존재하면 좋음

In [None]:
    # 데이터를 직접 만드는 것보다 기존에 있는 데이터를 불러와서 핸드링하는 경우가 더 많다.
    # csv 파일을 DataFrame으로 생성하기 위해서는 column명과 index가 존재하면 좋다.
    # 없다고 문제되지는 않지만 있는 것이 훨씬 좋다.

현재 위치 확인

##### 2.9.5.index_col 설정

In [None]:
    # index가 없으면 우리가 지정해주어야 함.,
    # 데이터의 존재하는 column값을 index로 지정해서 쓰고 싶다. 지정하는 방법이 index_col입니다.

In [None]:
df5 = pd.read_csv("./train.csv", index_col="transaction_id")
df5
    # 여러분들이 무작정 데이터를 불러오겠다가 아니라 사전에 데이터에 대한 파악이 필요하고 그것을 활용하기 위해서 사용하는 것이다. 미리 지정해서 데이터를 불러오겠다.

##### 2.9.6.save

In [None]:
    # 우리가 가공한 파일을 저장하기 위한 방법이다.

In [None]:
# save
df2.to_csv("./train2.csv", sep="\t", index=False) # sep : column을 구분짓는 구분자, index : index의 유무를 지정

#### 2.10 Pandas Pivot
- 데이터 프레임의 컬렘 데이터에서 index, column, value를 선택해서 데이터프레임을 만드는 방법
- `df.pivot(index, columns, values)`
    - groupby 한 후 pivot 실행
- `df.pivot_table(values, index, columns, aggfuction)`

In [None]:
    # pivot : 돌린다, 회전한다.
    # 우리가 선택한 row와 컬럼값들을 이용해서 회전을 시켜서 편하게 볼 수 있도록 변환하는 것
    # index, column value를 선택해서 데이터프레임을 선택해서 데이터프레임을 생성할 때 벙향이 조금 특이할 수 있습니다.