# Python 기초

## 제어문

In [None]:
# range
for el in range(start, end+1, steps)

## class

In [None]:
# 클래스명(부모클래스)
class Square(Rectangle):
    # 생성자 함수 (self, 사용할변수=기본값 ...)
    def __init__(self, side=1):
        # 변수 초기화
        self._side = side
        self._width = side
        self._height = side

    # setter (self, 매개변수)
    def setSide(self, side):
        # 변수에 접근하여 변경
        self._side = side

    # getter (self)
    def getSide(self):
        # 변수에 접근하여 반환
        return self._side

    # print 함수 출력시 출력 형태 지정
    def __str__(self):
        return(f"Side Length {self._side}")

# Numpy

In [None]:
# ndarray(n차원의 배열) 생성
ndarray = np.array([[1, 2, 'hello'], [1, 2, 3]]) # 타입이 하나로 결정됨
ndarray = np.arrange(start, end+1, steps)

type(ndarray) # <class 'numpy.ndarray'>
ndarray.dtype # <U21 (문자) ## 요소들의 데이터 타입
ndarray.shape # (2, 3) ## (row, columns)
ndarray.ndim # 2 ## 차원 출력

zeroToNine = np.arange(0, 10, 1) # [1, 2 ... 9]  ## .range와 유사하지만 ndarray를 반환
np.zeros(2, 3, dtype='float64') # [[0, 0, 0], [0, 0, 0]]  ## 요소가 0인 ndarray를 반환
np.ones(3, 2, dtype='float64') # [[1, 1], [1, 1], [1, 1]] ## 요소가 1인 ndarray를 반환

# 차원 변경
array_reshaped = ndarray.reshape(3, 2) # ([1, 2], ['hello', 1], [2, 3])

# Indexing / Slicing
ndarray[row, column]
ndarray[0:3, 0:3]
ndarray[[0, 1], [0, 2]]
ndarray[ndarray > 0] # boolean indexing => 1차원 리스트로 해당하는 값 반환

# 판다스

In [None]:
import pandas as pd

df = pd.read_csv('csv_path')

# 데이터 탐색
df.head(5)
df.tail(5)
df.sample(5)
df.shape # (행, 열)
df.describe() # 기술통계량 표시 (숫자형 dtype 칼럼만 표시됨)
df['column'].value_counts() # 범주형 자료를 가지는 칼럼의 범주별 빈도수 출력 => Series

# 행 / 열 삭제
df.drop('label', axis=1, inplace=True) # 열 삭제

# index 초기화
df.reset_index(drop=True, inplace=True) # index를 다시 부여
  ## drop: 이전 인덱스를 버릴지

# Indexing / Slicing, loc, iloc
df['Name'] # 열 선택 (기본)
df[1:3] # 행 선택 (슬라이싱만 허용됨)
df.loc[1:3, ['Name', 'City']] # 특정 행과 열을 이름으로 선택
df.loc[df['Age'] > 24, ['Name', 'City']] # 불리안 인덱싱으로 조건에 맞는 행과 특정 열을 선택 (일반 인덱싱도 가능)
df.iloc[1:3, 0:2] # 특정 행과 열을 인덱스로 선택

df.sort_values(by=['Age', 'Name'], ascending=[True, False]) # by에 명시된 열을 기준으로 정렬
  ## ascending(오름차순)

# 기술통계
df.count() # NaN(결측치)이 아닌 요소 개수를 열마다 출력
df['Age'].agg(['max', 'mean', 'min']) # 집계함수 사용
  df.agg({'Age': 'max', 'column': 'agg_func'}) # 특정 열마다 다른 집계함수 사용
  df['Age'].max() ## 메소드로 사용 가능
df.groupby(by='City')['Age'].mean()

# 결측치 처리
df.isna() # 또는 df.isnull()
df.isna().sum() # .sum() 컬럼끼리 합을 구함
np.nan # NaN 요소
df['Age'] = df['Age'].fillna(df['Age'].mean()) # na를 대체
df['IsAdult'] = df['Age'].apply(lambda x: 'Adult' if x > 19 else 'NotAdult') # 함수를 적용하여 새로운 칼럼 생성

# 값 변경
df.replace([24, 27], [20, 26], inplace=True) # df.replace(to_replace, value, inplace=False)
df.replace({24:20, 27:26}, inplace=True) # df.replace({to_replace: value ...}, inplace=False)


# 데이터가시화

## (plt) matplotlib.pyplot

In [None]:
import matplotlib.pyplot as plt

# 그래프 생성
plt.hist(x, bins=10, alpha=0.5) # 히스토그램
  ## x(데이터): List, ndarray, Series 등
  ## bins: 구간 수 (기본값: 10)
  ## alpha: 투명도 (기본값: 1)
plt.boxplot(x, vert=False, showmeans=True) # 박스플랏
  ## x(데이터): List, ndarray, Series 등
  ## vert: 수직 방향 (기본값: True),
  ## showmeans: 평균값 보여주기 (기본값: False)
  ## 중간값, Q1~Q3 (50%), 이상치경계선(1.5IQR(Q3 - Q1)에 가장 가까운 값을 이상치 경계치로 할당)

plt.plot(x, y) # 선 그래프
plt.bar(x, y) # 막대그래프
plt.scatter(x, y) # 산점도
  ## x, y에 하나의 데이터가 올 경우, 각 점을 컨트롤 가능

# 세부설정
plt.figure(figsize=(12,6)) # figsize인 figure(캔버스) 생성
plt.title('그래프 제목')
plt.xlabel('x축 이름')
plt.ylabel('y축 이름')

# 2개 이상의 그래프
plt.subplot(row, column, index) # State-Based: 하나의 Plot을 추가할 때마다 위치를 지정해서 사용
plt.그래프명()
plt.show()
  ## row: 가로줄 수
  ## column: 세로줄 수
  ## index: 어느 위치에 그래프를 그릴 지

fig, axes = plt.subplots(nrow, ncols, figsize=(x, y)) ## Object-Oriented: 한번에 여러 개의 그래프를 생성하고, 이를 객체(axes)로 반환
  ## fig = 전체 그래프 포함하는 Figure 객체
  ## axes = 각각의 서브 플롯을 나타내는 Axes 객체 리스트
fig.set_title("전체 표 제목")
axes[row_index, column_index].그래프명()
plt.show()

# 색상 적용하기
colors = {'married':'r', 'single':'g', 'divorced':'b'}
for i in range(100):
    ax.scatter(bank_df['duration'][i], bank_df['balance'][i],color=colors[bank_df['marital'][i]])





## (pd) Pandas

In [None]:
# 히스토그램
df['column'].hist(bins=5, alpha=0.5)
df['column'].plot(kind="hist")
df['column'].plot.hist()

# 박스플롯
df[['column']].boxplot(vert=True, showmeans=False) ## Series에서 바로 호출할 수 없으므로, df를 반환하는 df[['column']]
df['column'].plot(kind="box")
df[['column']].plot.box()
## 범주형 박스플롯
df[['column1', 'column2']].boxplot(by='그룹화기준열 (범주형)')

# 막대그래프
df[['column']].plot(kind="bar")
df['column'].plot.bar()

# 산점도
df.plot(kind="scatter", x="column1", y="column2")
df.plot.scatter(x="column1", y="column2", title="title")

# 선 그래프
bank_df['column'].plot.line(title='First 100 age values')

# 상관관계 분석
corr = bank_df[['age','balance','duration']].corr() ## 상관관계 행렬 반환


## (SNS) Seaborn을 이용한 데이터 시각화

In [None]:
# 그래프 설정
sns.set(rc={'figure.figsize': (10, 8)})
sns.set(font_scale=1.5)

# 히스토그램
sns.histplot(x='column', data=df, bins, alpha)

# 박스플롯
sns.boxplot(x='column', y='column(required)', hue="column", data=df)

# 막대그래프
sns.countplot(x='column', data=df)

# 산점도
sns.scatterplot(x='column1', y='column2', data=df, hue='column3') ## column3 값별로 다른 색으로 표시됨

# 선 그래프
sns.lineplot(data=df)

# 히트맵 (상관관계 분석)
corr = bank_df[['age','balance','duration']].corr()
sns.heatmap(corr, annot=True) # annot: 수치 표시

# Sklearn

## 사이킷런 기본 프레임워크

In [None]:
# 데이터 로드
from sklearn.datasets import load_iris
iris_data = load_iris()  # 사이킷런의 내장 데이터셋 중 붓꽃 데이터셋(iris)을 로드
print(type(iris_data))  # <class 'sklearn.utils._bunch.Bunch'>, 딕셔너리 형태의 데이터 구조


# 데이터셋 분할
from sklearn.model_selection import train_test_split

# train_test_split(data_x, data_y, test_size, random_state[seed])
## -> Tuple(X_train, X_test, y_train, y_test)
X_train, X_test, y_train, y_test=train_test_split(iris_data.drop('target', axis=1), iris_data.target,
                                                  test_size=0.2, random_state=123)

# 모델 생성 (의사결정나무)
dt_clf = DecisionTreeClassifier()

# 모델 학습 (MODEL.fit)
dt_clf.fit(X_train, y_train)

# 예측 수행 (MODEL.predict)
pred = dt_clf.predict(X_test)

# 모델 평가 - Accuracy Score (accuracy_score(y_test, pred))
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))




## 모델 생성과 성능평가

In [None]:
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier(random_state=11)
dt_clf.fit(X_train, y_train)
dt_pred = dt_clf.predict(X_test)

# 로지스틱 회귀
from sklearn.linear_model import LogisticRegression

lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_pred = lr_clf.predict(X_test)

# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

rf_clf = RandomForestClassifier(random_state=0)
rf_clf.fit(X_train , y_train)
rf_pred = rf_clf.predict(X_test)

# MLP (머신러닝)
from sklearn.neural_network import MLPClassifier # Multi Layered Perceptron

mlp_clf = MLPClassifier(hidden_layer_sizes=(10,10), max_iter=300)
mlp_clf.fit(X_train , y_train)
mlp_pred = mlp_clf.predict(X_test)

In [None]:
# 오분류표
from sklearn.metrics import confusion_matrix, precision_score, recall_score, accuracy_score, f1_score

# 오분류표
confusion_matrix(y_test, pred) # Positive의 기준은 우리가 정해야 함!

accuracy = accuracy_score(y_test, pred) ## 정확도 (Accuracy)
recall = recall_score(y_test, pred)  ## 재현율 (Recall)
precision = precision_score(y_test, pred) ## 정밀도 (Precision)
f1_score = 2 * (precision * recall) / (precision + recall) ## F1 Score
  ## (OR) f1_score(y_test, pred)

print("정확도: {0:.4f}. 재현율: {1:.4f}, 정밀도: {2:.4f}".format(accuracy, recall, precision))

# 의사결정나무

In [None]:
# 의사결정나무 생성
dt_clf = DecisionTreeClassifier(random_state=156, max_depth=3)
  ## hyper parameter (max_depth 등)
X_train , X_test , y_train , y_test = train_test_split(iris_data.data, iris_data.target,
                                                       test_size=0.2,  random_state=11)
dt_clf.fit(X_train , y_train)

# 의사결정나무 출력 (텍스트)
from sklearn import tree

text_representation = tree.export_text(dt_clf)
print(text_representation)


# Feature Importance (ex: [0.    0.    0.558 0.442])
## feature별 importance 매핑
for name, value in zip(iris_data.feature_names , dt_clf.feature_importances_): ## zip: iterable Object끼리 쌍을 맺어주는 함수
    print('{0} : {1:.3f}'.format(name, value))

# Get Hyper Parameters
print('DecisionTreeClassifier 기본 하이퍼 파라미터:\n', dt_clf.get_params())