### 2024년 1학기 Python 기초입문 - v 1.0




[colaboratory로 실행](https://colab.research.google.com/drive/1TXmYXPhF4uqdtizL_2fJToqI8UpXsaFr?usp=sharing)


# 파이썬 기초 - 06

### 1. Numpy
# [Numpy](https://numpy.org/)
---
- 과학 계산과 수치분석(Numerical Analysis) python 도구
- core 는 C 언어로 구현되어 연산이 가볍고 빠름

  https://numpy.org/doc/stable/user/absolute_beginners.html

- 배열 (Array) : 동일한 자료형의 데이터 요소들을 하나의 변수에 연속적으로 저장하는 자료의 구조
		a. 인덱스 접근 가능
		b. 정적 크기 : 일정한 크기의 배열이 정해지면 변환하거나 연산하거나 새로 생성하기 전까지 유지
		c. 연속된 메모리에 저장하여 메모리 효율성이 높다.
		d. 다차원 배열이 가능하다. (행렬/배열 처리 및 연산)

2. Numpy 기본 형식

In [None]:
import numpy as np  #numpy 모듈을 불러오고 별칭 np 로 지정

data = np.array([[1,2],[3,4],[5,6]])
print(type(data))
print(data)

data.ndim # 차원 수(축)

data.shape # 각차원의 원소 개수르 표시하시 튜플

data.size # 배열의 전체 원소 개수

data.dtype # 배열 원소의 데이터 유형

data.nbytes # 데이터 저장에 사용된 바이트 수

data = np.array([1,2,3], dtype=np.float) # 데이터 유형 지정
data.astype(np.int) # 유형 지정 또는 변경


- 기본 수치 데이터 유형

| dtype   | Variants                            | Description |
| ------- | ----------------------------------- | ----------- |
| int     | int8, int16, int32, int64           | 정수          |
| uint    | uint8, uint16, uint32, uint64       | 부호 없는 정수    |
| bool    | Bool                                | 참 거짓        |
| float   | float16, float32, float64, float128 | 부동소수        |
| complex | complex64, complex128, complex256   | 복수소         |

\

- 기본적으로 타입은 더 높은 표현식으로 자동 변환되지만 적절한 표현식이 필요한 경우도 있음.

In [None]:
np.sqrt(np.array([-1,0,1]))
np.sqrt(np.array([-1,0,1], dtype=complex))

3. 배열의 생성

In [None]:
# 1) 리스트나 다른 객체로 부터 생성
np.array([1,2,3,4])
np.array([[1,2],3,4])


# 2) 일정한 값으로 채운 배열
np.zeros((2,3))
np.ones(4)

x1 = 5.4 * np.ones(10)
x2 = np.full(10,5.4)

# 빈 배열을 만들때 명시적 초기화 필요
np.empty(3, dtype=np.float)

x3 = np.empty(5)
x3.fill(3.0)


# 3) 증분 sequence로 만든 배열
np.arange(0.0, 10, 1)
np.linspace(0, 10, 11)
np.logspace(0, 2 , 5)

# 4) meshgrid 배열
x = np.array([-1,0,1])
y = np.array([-2,0,2])
X,Y = np.meshgrid(x,y)

Z = ( X + Y ) ** 2

# 5) 특정 배열의 크기와 데이터 유형으로 만들기
y = np.ones_like(x)

np.identity(3)
np.eye(3)
np.eye(3,k=1)
np.eye(3,k=-1)

np.diag(np.arange(0,20,5))




4. 슬라이싱/인덱싱

In [None]:

# 특정 함수로 부터 배열 생성
f = lambda m, n: 10*m + n
A = np.fromfunction(f, (6,6), dtype=int)

# 특정 행, 열 인덱스 사용
A[:, 1] # 두번째 열
A[1, :] # 두번째 행
A[:3,:3]

A[::2, ::2] # 0, 0 부터 시작해서 매 두번째 원소

5. View

In [None]:
B = A[1:5, 1:5]
B

B[:,:] = 0
A

C = B[1:3,1:3].copy()
C

C[:,:] = 1
C
B

5. 형상 변경

In [None]:
# reshape
data = np.array([[1,2],[3,4]])
np.reshape(data,(1,4))
print(data.shape)
data.reshape(4)
print(data.shape)

# flatten
data = np.array([[1,2],[3,4]])
data.flatten()

# 차원 축 증가 시키기
data = np.arange(0,5)
col1 = data[:,np.newaxis]
col2 = np.expand_dims(data, axis=1)
row1 = data[np.newaxis,:]
row2 = np.expand_dims(data, axis=0)

# 수직 쌓기
data = np.arange(5)
np.vstack((data,data,data))

# 수평 쌓기
data = np.arange(5)
# np.hstack((data,data,data))
data = np.expand_dims(data, axis=1)
np.hstack((data,data,data))

np.transpose # 배열을 전치한다.
data.T`

np.concatenate # 지정한 축을 따라 배열을 이어 붙여서 새로운 배열을 만든다.
np.append # 배열에 원소를 추가한다.
np.insert # 지정한 위치에 원소를 추가한다.
np.delete # 지정한 위치의 원소를 삭제한다.
np.sort # 지정한 축을 따라 배열 정열

np.where # 조건 배열의 주어진 값에 따라 연산 선택
x =  np.linspace(-4,4,9)
np.where(x < 0, x**2, X**3)

6. 기본 연산


- `+`,`-`,`*`,`/` 등의 연산자 사용가능  
- `add()`,`substract()`,`multiply()`,`divide()`

In [None]:
a = np.array([1,2,3])
b = np.array([4,5,6])

# 각 요소 더하기
c = a+b
# c= np.add(a, b)
print(c)

# 각 요소 곱하기
c = a*b
# c = np.multiply(a, b)
print(c)

# 각 요소 나누기
c = a/b
# c = np.divide(a,b)

In [None]:
# 행렬의 곱
arr1 = [[1,2],[3,4]]
arr2 = [[5,6],[7,8]]
a = np.array(arr1)
b = np.array(arr2)

c= np.dot(a, b)
print(c)

In [None]:
a = np.array([[-1,2,3],[3,4,8]])
s = np.sum(a)
print('sum=',a.sum()) # 행, 열 별 연산 (axis = 0 or 1)
print('sum=',a.sum(axis=0))
print('mean=',a.mean())
print('std=', a.std())
print('product=',a.prod())

- 수학 함수

| Function        | Description                                                                       |
| :-------------- | :-------------------------------------------------------------------------------- |
| abs, fabs       | absolute value element-wise for integer, foating-point, or complex values         |
| sqrt            | square root of each element (equivalent to arr ** 0.5)                            |
| square          | square of each element (equivalent to arr ** 2)                                   |
| exp             | exponent $e^{x}$ of each element                                                  |
| log, log10,     | Natural logarithm (base e), log base 10, log base 2, and log(1 + x), respectively |
| log2, log1p     |                                                                                   |
| sign            | sign of each element: 1 (positive), 0 (zero), or –1 (negative)                    |
| ceil            | ceiling of each element (i.e., 주어진 수보다 크거나 같은 최소 정수)                              |
| floor           | floor of each element (i.e., 작거나 같은 최대정수)                                         |
| rint            | 반올림                                                                               |
| isnan           | NaN (Not a Number) 체크, [True\|False]                                              |
| isfinite, isinf | 유한/무한 체크                                                                          |
| cos, cosh, sin, | 삼각함수                                                                              |


\
\

- 선형대수 함수

| Function | Description                                                            |
| :------- | :--------------------------------------------------------------------- |
| diag     | diagonal elements of a square matrix as a 1D array, or                 |
|          | convert a 1D array into a square matrix with zeros on the off-diagonal |
| dot      | Matrix multiplication                                                  |
| trace    | sum of the diagonal elements                                           |
| det      | matrix determinant                                                     |
| eig      | eigenvalues and eigenvectors of a square matrix                        |
| inv      | inverse of a square matrix                                             |
| pinv     | Moore-Penrose pseudo-inverse of a matrix                               |
| qr       | QR decomposition                                                       |
| svd      | singular value decomposition (SVD)                                     |
| solve    | Ax=b for x, where A is a matrix                                        |
| lstsq    | least-squares solution to Ax=b                                         |


In [None]:
# 내적연산
x = np.array([1, 2, 3])
y = np.array([6,23,-1])
print(x.dot(y.T))

In [None]:
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
print(x.dot(y))

- 역행렬

In [None]:
from numpy.linalg import inv
np.random.seed()
X = np.array([[1,2,3],[1,0,0],[0,0,1]])
Y = inv(X)
print(Y)
X.dot(Y)

- 난수 생성


|함수|분포|
|:--|:--|
|beta(a, b[, size])|Beta distribution.|
|binomial(n, p[, size])|binomial distribution.|
|chisquare(df[, size])|chi-square distribution.|
|exponential([scale, size])|exponential distribution.|
|f(dfnum, dfden[, size])|F distribution.|
|gamma(shape[, scale, size])|Gamma distribution.|
|geometric(p[, size])|geometric distribution.|
|hypergeometric(ngood, nbad,|Hypergeometric distribution.|
|nsample[, size])||
|multinomial(n, pvals[, size])|multinomial distribution.|
|negative_binomial(n, p[, size])|negative binomial distribution.|
|normal([loc, scale, size])|normal (Gaussian) distribution.|
|poisson([lam, size])|Poisson distribution.|


In [None]:
# 균등분포 난수 생성
x = np.random.uniform(size=100)
x.reshape(20,5)

# 정규분포 난수 생성
s = np.random.normal(0,1,1000)

import matplotlib.pyplot as plt
plt.hist(s)

#### Numpy save, load

In [None]:
a = np.array([1,2,3,4,5,6,7])
np.save('filename',a)
b = np.load('filename.npy')

csv_arr = np.array([1,2,3,4,5,6,7,8])
np.savetxt('new_file.csv',csv_arr)
# np.savetxt('np.csv', csv_arr, fmt='%.2f', delimiter=',', header='')
np.loadtxt('new_file.csv')

import pandas as pd

df = pd.DataFrame(a)
df.to_csv('pd.csv')
data = pd.read_csv('pd.csv')


---
# 7. [Pandas](https://pandas.pydata.org/)

- DataFrame : 2차원 Table 형태의 자료구조
		a. 2차원구조
		b. 행(row), 열(column) 인덱스로 접근 가능
		c. 열(column) 단위로 다른 데이터 타입을 가질 수 있음.
		d. 백터 연산 가능

In [None]:
import pandas as pd

df = pd.DataFrame(
				   {
			           "Name": [
				               "Braund, Mr. Owen Harris",
				               "Allen, Mr. William Henry",
				               "Bonnell, Miss. Elizabeth",
					           ],
			           "Age": [22, 35, 58],
			           "Sex": ["male", "male", "female"],
          }
)
df

- DataFrame 의 column은 Series 로 구성되어 있음 이는 컬럼 명이 key 이고 value 가 같은 데이터 유형의 list로 되어 있는 python dictionary 와 유사하다.

In [None]:
df["Age"]
ages = pd.Series([22,35,58], name="Age")

# Series 단위로 padas의 method 사용 가능
ages.max()

# 기초 통계량
df.describe()

- 기본 적인 데이터 읽어오기

In [None]:

df = pd.read_csv("filename.csv")
df.head(10) # 앞쪽 데이터 확인
df.tail(10)
df.dtypes # 컬럼별 데이터 유형
df.info()
df.shape
df.isnull().sum()
df.describe()
df.groupby('col1').sum()['col2']

df.to_excel("filename.xlsx", sheet_name="sheet_A", index=False)
df2 = pd.read_excel("filename.xlsx",sheet_name="sheet_A")

- pandas 통계처리 명령어

|Method|Description|
|:--|:--|
|count|Number of non-NA values|
|describe|Compute set of summary statistics for Series or each DataFrame column|
|min, max|Compute minimum and maximum values|
|argmin, argmax|Compute index locations (integers) at which minimum or maximum value obtained, respectively|
|idxmin, idxmax|Compute index labels at which minimum or maximum value obtained, respectively|
|quantile|Compute sample quantile ranging from 0 to 1|
|sum|Sum of values|
|mean|Mean of values|
|median|median (50% quantile) of values|
|mad|Mean absolute deviation from mean value|
|prod|Product of all values|
|var|Sample variance of values|
|std|Sample standard deviation of values|
|skew|Sample skewness (third moment) of values|
|kurt|Sample kurtosis (fourth moment) of values|
|cumsum|Cumulative sum of values|
|cummin, cummax|Cumulative minimum or maximum of values, respectively|
|cumprod|Cumulative product of values|
|diff|Compute first arithmetic difference (useful for time series)|
|pct_change|Compute percent changes|


In [None]:
import seaborn as sns
titanic = sns.load_dataset('titanic')
# sns.get_dataset_names()
# 위 명령을 사용해보자

# 컬럼명으로 특정 컬럼 가져오기
ages = titanic["age"]
ages.head()
print(type(titanic["age"]))
titanic["age"].shape

age_sex = titanic[["age","sex"]]
age_sex.head()
type(titanic[["age", "sex"]])
titanic[["age", "sex"]].shape

# 특정 컬럼에 조건식으로 불러오기
titanic["Age"] > 35
above_35 = titanic[titanic["age"] > 35]
above_35.head()
above_35.shape

class_23 = titanic[titanic["Pclass"].isin([2, 3])] #해당 컬럼의 내용에 조건이 들어 있는 행만 가져오기
class_23.head()
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

age_no_na = titanic[titanic["age"].notna()]

- 특정 컬럼이나 인텍스 조건으로 선택하기

In [None]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]
adult_names.head()
titanic.iloc[9:25, 2:5]

anonymous = titanic.iloc[0:3,3] = "anonymous"
anonymous.head()

- Indexing options with DataFrame

| Type                 | Notes                                                                       |
| :------------------- | :-------------------------------------------------------------------------- |
| df[val]              | Select single column or sequence of columns from the DataFrame              |
| df.loc[val]          | Selects single row or subset of rows from the DataFrame by label            |
| df.loc[:, val]       | Selects single column or subset of columns by label                         |
| df.loc[val1, val2]   | Select both rows and columns by label                                       |
| df.iloc[where]       | Selects single row or subset of rows from the DataFrame by integer position |
| df.iloc[:, where]    | Selects single column or subset of columns by integer position              |
| df.iloc[where_i, whe | re_j] Select both rows and columns by integer position                      |
| df.at[label_i, label | _j] Select a single scalar value by row and column label                    |
| df.iat[i, j]         | Select a single scalar value by row and column position (integers)          |
| get_value(), set_val | ue() Select single value by row and column label                            |


- groupby

| 함수              | 내용          |
| --------------- | ----------- |
| count           | 데이터의 개수     |
| sum             | 합계          |
| mean            | 평균          |
| median          | 중앙값         |
| var, std        | 분산, 표준편차    |
| min, max        | 최소, 최대값     |
| unique, nunique | 고유값, 고유값 개수 |
| prod            | 곲           |
| first, last     | 첫째, 마지막값    |


In [None]:
titanic[["sex", "age"]].groupby("sex").mean()

titanic.groupby("sex").mean(numeric_only=True)

titanic.groupby(["Sex", "Pclass"])["Fare"].mean()

titanic["Pclass"].value_counts()

titanic.groupby("Pclass")["Pclass"].count()

In [None]:
# 예제 데이터에  groupby 사용
tips = sns.load_dataset('tips')
tips.head()
tips.info()

tips.groupby("sex", observed=True).mean(numeric_only=True)
tips.groupby("sex", observed=True).var(numeric_only=True)

tips.groupby('sex', observed=True).agg({'total_bill': 'mean',
                       'tip': ['sum', 'var'],
                       'size': 'median'
                      })

tips.groupby('sex', observed=True)[['total_bill', 'tip']].agg(lambda x: x.mean() / x.std())

- 순회

In [None]:
# sex, smoker 기준으로 그룹한 후 순회하며 출력
for (k1, k2), group in df.groupby(['sex', 'smoker'], observed=True):
    print((k1, k2))
    # 데이터프레임 출력
    display(group.head())

### apply() 사용하여 데이터 조작

In [None]:
# titanic 'age' 컬럼에 null 값 총수 확인
print(titanic['age'].isnull().sum())
# null 값을 해당 컬럼의 성별 평균 값으로 결측치 채우기
titanic['age'].fillna(titanic_df['age'].mean(), inplace=True)
print(titanic['age'].isnull().sum())

def range_age(age):
    age = int(age)
    if age >= 70:e
        return 'Old'
    elif age >= 10:
        return str(age//10) + 'age range'
    else:
        return 'baby'

titanic['age_range'] = titanic['age'].apply(range_age)


- index 지정

In [None]:

df.set_index('col')
df.set_index(pd.Index(['col1','col2','col3','col3']))

# index reset
df.reset_index()
df.reset_index(level='col1')

# rename

df.rename(columns={"col1":"kal1","col2":"kal2",}, inplace=True)
df.columns = [] # colname list

#### Read & Write Data

| Function   | Description                                                                                 |
| :--------- | :------------------------------------------------------------------------------------------ |
| read_csv   | Load delimited data from a file, URL, or file-like object; use comma as default delimiter   |
| read_table | Load delimited data from a file, URL, or file-like object; use tab (’) as default delimiter |
| read_fwf   | Read data in fixed-width column format (i.e., no delimiters)                                |
| read_excel | Read tabular data from an Excel XLS or XLSX file                                            |
| read_html  | Read all tables found in the given HTML document                                            |
| read_json  | Read data from a JSON (JavaScript Object Notation) string representation                    |

