# Python 문법

### 주요 내용

1. numpy를 활용한 행렬 연산
2. pandas를 활용한 데이터 활용

<br>

### 목표 
1. int, str 등 객체 형식에 따라 적절한 메서드를 활용한다.
2. 여러 개의 값을 리스트 형식 등으로 저장하고 활용한다.
3. numpy와 pandas을 적절히 활용한다.


<br>
<hr>
<br>


## 1. numpy의 활용 

**numpy**는 *ndarray*라는 형식을 활용해서 다양한 행렬 연산과 처리를 지원


### 1.1. ndarray 생성 

In [None]:
import numpy as np

In [None]:
# 리스트 형식을 ndarray 형식으로 변환하기
x = [1, 2, 4, 8]
y = np.array(x)
y

In [None]:
# 형식 확인
type(y)

In [None]:
# 수열 생성
    ## 0부터 10까지 101개 숫자
np.linspace(0, 10, 101)

In [None]:
# 랜덤 숫자 뽑기
np.random.randint(1, 46, 6)

In [None]:
# 중첩(nested) 리스트를 활용한 다차원 행렬 만들기
y2 = np.array([ [1,2,3,4], [9,8,7,6] ])
y3 = np.array([ [0, 1], [1, 0] ])

y2, y3              

In [None]:
# 행렬 크기 확인
y2.shape
    ## 2x4, 2행 4열, 2개 관측치 4개 변수

<br>

### 1.2. ndarray와 연산 

numpy에는 ndarray에 적용할 수 있는 다양한 연산자와 함수가 준비되어 있음

In [None]:
# 산술 연산
y2 * 2 + 1

In [None]:
# 행렬 곱
y3@y2

In [None]:
# 전체 합계
np.sum(y2)

In [None]:
# 열 합계
np.sum(y2, axis=0)

In [None]:
# 행 평균
np.mean(y2, axis=1)

<br>

### 1.3. 부분 선택
대괄호 인덱스를 활용하여 ndarray에서 일부를 선택할 수 있습니다. 

In [None]:
y

In [None]:
# 특정 인덱스 선택
y[1]

In [None]:
# 슬라이스 활용
y[1:]

In [None]:
y[:2]

In [None]:
y[:-1]

In [None]:
# 다차원 행렬의 부분 선택
    # 콤마 앞은 행, 뒤는 열
y2[:, :]

In [None]:
y2[1, 1:3]

<br>

#### [실습] 행렬 생성 및 연산
1. 아래의 행렬을 만들고 *mat*으로 저장하기

$$\begin{bmatrix} 1 & 2 & 1 \\ 3 & 0 & 1 \\ 0 & 2 & 4 \\ 2 & 1 & 1 \end{bmatrix}$$

2. `np.max()`을 활용해서 *mat*에서 전체 최댓값 계산하기

3. `np.mean()`을 활용해서 *mat*에서 행 평균 계산하기

4. 첫번째부터 세번째 행의 두번째 열 선택


### 1.4. 길이와 거리 계산

ndarray를 활용해서 길이나 관측치 간 거리를 계산 가능

In [None]:
a = np.array([1,3])
b = np.array([4,3])

In [None]:
# 길이(norm) 계산
# linalg : linear algebra
np.linalg.norm(a), np.linalg.norm(b)

In [None]:
# 거리 계산
print(np.linalg.norm(a-b))

<br>
<br>
<br>

## 2. pandas의 활용

**pandas** 라이브러리의 *read_csv()* 등의 함수를 활용해서 csv 등 데이터 불러오기 가능 

<br>

### 2.1. CSV 파일 불러오기



In [None]:
# pandas 라이브러리 불러오기
import pandas as pd

In [None]:
# pandas의 read_csv( ) 활용
#df_ins= pd.read_csv("./data/insurance.csv")
#df_ins= pd.read_csv("data/insurance.csv")
df_ins= pd.read_csv("insurance.csv")
df_ins    
    ## 경로가 중요! 
    ## ./ : ipynb 노트북 파일 폴더
    ## ./ 생략 가능
    ## Tab으로 자동 완성 기능 활용 가능 

In [None]:
# 타입 확인
type(df_ins)
    ## "DataFrame"

In [None]:
# 메서드의 확인(마침표 뒤에서 Tab 누르기)
df_ins.

In [None]:
# columns(변수 이름) 확인
df_ins.columns

<br>

#### [함께 실습] data 폴더의 PulseRates.csv를 불러와서 df_pr로 저장하기

이후 데이터 탐색하기

<br>

### 2.2. 변수 선택 

대괄호 인덱스에 변수 이름을 입력하고 변수를 선택 가능  
리스트로 변수 이름을 묶고 여러 변수를 한번에 선택 가능

In [None]:
# 한 변수 선택 
    # Series 형식으로 출력됨
df_ins['age']

In [None]:
# 한 변수 선택 
    # DataFrame 형식으로 출력됨
df_ins[['age']]

In [None]:
# 리스트를 활용한 복수 변수 선택
df_ins[['age','smoker','charges']]

<br>

### 2.3. 관측치 부분 선택

특정 변수를 선택한 다음 조건을 설정하고 실행하면 True/False로 구성된 bool Series가 계산됨
bool Series를 데이터 대괄호 인덱스에 넣어 조건과 일치하는 관측치를 선택 가능

In [None]:
# 변수 선택
df_ins['age']

In [None]:
# 조건 설정
df_ins['age'] < 30

In [None]:
# 조건과 일치하는 관측치 선택
df_ins[df_ins['age'] < 30]

In [None]:
# 일치 여부를 활용한 특정 그룹 선택
df_ins_male = df_ins[ df_ins['sex'] == 'male' ] 
df_ins_male

<br>

#### [실습] 데이터 불러오기 및 부분 선택

1. `data`폴더에서 `StudentsPerformance.csv`를 불러와서 **df_sp**로 저장하기
2. **df_sp**에서 `math score`, `reading score`, `writing score` 세 변수 선택하기
3. **df_sp**에서 `math score`가 90이상인 관측치 선택하기
4. **df_sp**에서 `gender`가 *'female'*인 관측치 선택하기

### [참고] list, np.array, pd.Series의 호환

In [None]:
# pandas의 Series
df_ins['age']

In [None]:
# Series의 list 변환 - 2가지 방법
list(df_ins['age'])
df_ins['age'].to_list()

In [None]:
# Series의 np.array 변환 - 2가지 방법
np.array(df_ins['age'])
df_ins['age'].to_numpy()

In [None]:
# list의 Series 변환
pd.Series(['A','B','B','A'])

In [None]:
# Series의 .mean() 활용 평균 계산
df_ins['age'].mean()

In [None]:
# numpy.mean() 활용 평균 계산
np.mean(df_ins['age'])

#### End of script