# Library
- 함수 : 특정 작업을 수행하는 코드 단위
- module(모듈) : 코드 파일
- package(패키지) : 여러 모듈과 기능을 폴더로 모은 것
- library(라이브러리) : 여러 패키지와 모듈을 모아놓은 것
- 모듈 <= 패키지 <= 라이브러리

In [None]:
# 도와주는 라이브러리
import os
from tqdm import tqdm

In [None]:
# 핵심 라이브러리
import pandas as pd # 데이터 탐색
import numpy as np # 과학적 수치 계산

## pandas display option

In [None]:
# pd.set_option('display.max_rows', 500)
# pd.options.display.max_rows = 500

## 시각화 라이브러리

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

## plt 한글 폰트 지정

In [None]:
import platform
from matplotlib import font_manager, rc

# 한글 폰트 지정
path = "C:/Windows/Fonts/malgun.ttf"
if platform.system() == "Windows":
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif platform.system()=="Darwin":
    rc('font', family='AppleGothic')
else:
    print("Unknown System")

In [None]:
# 음수 표현
plt.rcParams['axes.unicode_minus'] = False

# path

In [None]:
data_fold = 'D:/data/class/data'
export_fold = 'D:/data/class/export'

# 1\. 파일 로드&출력

## 파일 로드
- kaggle : titanic data

In [None]:
os.path.join(data_fold, 'train.csv')

In [None]:
# csv

# 절대 경로로 불러오는 방법
df = pd.read_csv('D:/data/class/data/train.csv')
# os 라이브러리 활용
# df = pd.read_csv(os.path.join(data_fold, 'train.csv'))

# 상대 경로로 불러오는 방법
# df = pd.read_csv('./data/train.csv')
# df = pd.read_csv('data/train.csv')

In [None]:
df.info()

In [None]:
# xlsx
df = pd.read_excel('D:/data/class/data/train.xlsx')
# df = pd.read_excel(os.path.join(data_fold, 'train.xlsx'))

In [None]:
df.head()

In [None]:
# txt
df = pd.read_table('D:/data/class/data/train.txt')
# df = pd.read_table(os.path.join(data_fold, 'train.txt'))

In [None]:
df.head()

## 파일 출력

In [None]:
# csv
df.to_csv('D:/data/class/export/to_csv_train.csv', index=False)
# df.to_csv(os.path.join(export_fold, 'to_csv_train.csv'), index=False)

In [None]:
# xlsx
df.to_excel('D:/data/class/export/to_csv_train.xlsx', index=False)
# df.to_excel(os.path.join(export_fold, 'to_csv_train.xlsx'), index=False)

In [None]:
# txt
df.to_csv('D:/data/class/export/to_csv_train.txt', index=False)
# df.to_csv(os.path.join(export_fold, 'to_csv_train.txt'), index=False)

# 2\. 데이터프레임 탐색 및 수정

## basic
- columns, unique, value_counts, describe

In [None]:
df.columns

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.tail(10)

In [None]:
df['Sex'].unique()

In [None]:
df['Sex'].value_counts()

In [None]:
df.isnull().sum()

In [None]:
df.Embarked.unique()

In [None]:
df['Embarked'].value_counts()

In [None]:
df['Embarked'].value_counts(dropna=False)

In [None]:
df['Age'].dtype

In [None]:
# 수치형 컬럼
df['Age'].describe()

In [None]:
df['Embarked'].describe()

## 탐색

### 특정 열

In [None]:
df['Name']

In [None]:
df.Name

### loc

In [None]:
df.loc[df['Sex'] == 'female']

In [None]:
df.loc[(df['Sex'] == 'female') & (df['Embarked'] == 'C')]

In [None]:
# <, >, ==
df.loc[(df['Sex'] == 'female') & (df['Embarked'] == 'C') & (df['Age'] < 40) & (df['Age'] >= 30)]

In [None]:
temp = df.loc[(df['Sex'] == 'female') & ( (df['Embarked'] == 'C') | (df['Embarked'] == 'Q') ) & (df['Age'] <= 39) & (df['Age'] >= 30)]
temp

#### [출력] 여성 30대 승선지 C, Q

In [None]:
# excel
temp.to_excel('D:/data/class/export/female_30s_C_Q.xlsx', index=False)

### iloc

In [None]:
temp.iloc[2]

In [None]:
temp.iloc[2:5]

In [None]:
temp.iloc[2:5, 4:6]

### 결측값

In [None]:
df.loc[df['Embarked'].isnull() == True]

In [None]:
df.loc[df['Embarked'].notnull() == False]

In [None]:
nan_df = df.loc[df['Embarked'].isnull() == True]
nan_df

#### 수정

In [None]:
df1 = df.copy()

In [None]:
df1['Embarked'].value_counts(dropna=False)

In [None]:
# df1.loc[df1['Embarked'].isnull() == True, 'Embarked'] = 'S'
df1['Embarked'] = df1['Embarked'].fillna('S')

In [None]:
df1['Embarked'].value_counts()

## concat

In [None]:
total = pd.concat([temp, nan_df], ignore_index=True)
total

In [None]:
total.Embarked.value_counts()

In [None]:
test = pd.DataFrame({'테스트':['S', 'Q', 'C'], '값':[1, 2, 3]})
test

## merge

In [None]:
total.merge(test, left_on='Embarked', right_on='테스트', how='left')

# 3\. 시각화

In [None]:
df.Sex.value_counts()

In [None]:
df.Sex.unique()

In [None]:
df.Sex.value_counts()

In [None]:
x = df.Sex.unique()
y = df.Sex.value_counts()
plt.figure(figsize=(8, 6))
plt.title('성별 샘플 수')
plt.bar(x, y);

In [None]:
df.Embarked.unique()

In [None]:
temp = df.Embarked.value_counts().reset_index()
temp

In [None]:
plt.figure(figsize=(6, 5))
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.title('승선 항구별 샘플 수', fontdict={'fontsize':'20'})
plt.bar('index', 'Embarked', width=0.2, data=temp, color='skyblue');
# aqua, orange, tomato, 

In [None]:
plt.figure(figsize=(6, 5))
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.title('승선 항구별 샘플 수', fontdict={'fontsize':'20'})
plt.plot('index', 'Embarked', data=temp, color='skyblue');

In [None]:
plt.figure(figsize=(10,7)) # cmpa : summer도 해보기
sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap="GnBu");

In [None]:
colormap = plt.cm.RdBu
plt.figure(figsize=(10, 8))
plt.title('Pearson Correlation of Features', y=1.05, size=15)
sns.heatmap(df.corr(), linewidths=0.1, vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True, annot_kws={"size": 14});

In [None]:
x = np.linspace(0, 9, 100)
y1 = [np.sin(x) for x in x]
x = np.linspace(0, 9, 100)
y2 = [np.cos(x) for x in x]

In [None]:
plt.figure(figsize=(6, 5))
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.plot(x, y1, '-',color='red', label='sin')
plt.plot(x, y2, '--', color='blue', label='cos')
plt.grid(linestyle='--')
plt.legend(frameon=True, shadow=True, fontsize=20, labelcolor='orange', facecolor='palegreen', edgecolor='gold')
plt.show();

# 코드 마지막