## 1) 라이브러리 불러오기
### 데이터 전처리 : Pandas 라이브러리
* 데이터를 처리하고 분석하는데 효과적인 도구
* 판다스는 데이터 분석을 위한 핵심라이브러리로써 고유한 자료구조인 Series와 DataFrame을 활용하여 빅데이터 분석에 엄청난 수준의 퍼포먼스를 발휘한다.
* Series와 DataFrame는 numpy(선형대수)의 1차원 2차원 array와 유사하다.
* 간단한 차이점이라고 하면, array에 index가 있는 형태라고 볼 수 있다.
* pandas 공홈 API reference : https://pandas.pydata.org/docs/reference/index.html
* Pandas DataFrame 완전정복 참고교재 : https://wikidocs.net/book/7188


### 데이터 시각화 : Matplotilib 라이브러리
* 다양한 데이터를 시각화 할 수 있게 도와주는 라이브러리
* 간단한 데이터 분석부터 인공지능 모델의 시각화까지 사용가능
* matplotlib 공홈 API reference : https://matplotlib.org/stable/api/index
* 파이썬으로 데이터 시각화하기 참고교재 : https://wikidocs.net/book/5011


# 2) Data 준비하기

사전(dict) 자료구조를 통해 생성

사전명 = {

         'feildName1' : [,,,],

         'feildName2' : [,,,],

         'feildName3' : [,,,],
}

In [None]:
data = {
    'name': ['jang', 'min', 'su', 'hee', 'kim', 'lee', 'ho', 'park'],
    'cls': [1, 2, 1, 2, 3, 1, 2, 3],
    'gender': ['M', 'F', 'F', 'F', 'M', 'M', 'M', 'F'],
    'kor': [80, 50, 100, 70, 20, 30, 75, 90],
    'eng': [90, 40, 85, 50, 60, 90, 100, 100],
    'math': [100, 65, 70, 80, 50, 20, 90, 95]
}
data

In [None]:
type(data)

In [None]:
data['name']

## 2-1) DataFrame 객체 생성하기

data 사전(dict)을 2차원 표로 구성하려면 pandas 라이브러리가 필요하다.

In [None]:
import pandas as pd     # 라이브러리 불러오기
df = pd.DataFrame(data)  # data 사전을 DataFrame 표 객체로 생성하기
df

## 2-2) data중에서 원하는 Col만 선택하거나 순서 변경하기

In [None]:
# data 사전의 DataFrame 표에서 성명, 영어, 수학, 국어 점수 순으로 가져와 df 변수에 할당하기
# 원본 데이터 표가 변경된다.
df = pd.DataFrame(data, columns=['name', 'eng', 'math', 'kor'])
df

In [None]:
# 행(row)/열(col) 개수 확인하기
df.shape

## 2-3) 기존 col을 index로 설정하기

In [None]:
# index 정보 확인하기
df.index

In [None]:
# name col을 index로 설정하고 원본 데이터 바꾸기
df.set_index('name', inplace=True)
df

In [None]:
# index 정보 확인하기
df.index

In [None]:
# index 값 바꾸기
# index 값 중에서 'su'를 'ha'로 바꾸기 / 'su'가 여러 개라면 모두 바뀐다.
# inplace=True : 원본 값 바꾸기
df.rename(index={'su':'ha'},inplace=True)
df

## 2-4) col 이름 바꾸기

In [None]:
# Col 이름 확인하기
# DataFrame의 열 이름 목록은 df.columns 속성에 저장되어 있다.
df.columns

In [None]:
# [방법1] 전체 Col 이름 바꾸기
# df.columns = [열 이름 목록 리스트] 형태로 각 순서에 해당되는 열의 이름들을 직접 지정하여 바꾼다.
# 단, 리스트의 원소 개수는 칼럼 개수와 일치해야만 한다.
df.columns = ['english', 'math', 'korean']
df

In [None]:
# [방법2] 특정 Col 이름만 바꾸기
# (X) df.columns[4] = 'kor' indexing을 통해서는 불가능
# (O) index 객체를 list 객체로 변환 후 indexing
cols = list(df.columns)     # df.columns을 리스트로 만들어 cols 변수에 할당한다.
cols[0] = 'eng'             # 0번째 위치의 'english'를 'eng'로 바꾼다.
cols[-1]= 'kor'             # 마지막 위치의 'korea'를 'kor'로 바꾼다.
df.columns = cols           # cols 변수의 값들을 df.columns 속성에 할당한다.
df

## 2-5) 데이터 선택하기

In [None]:
# col 레이블 확인하기
df.columns

In [None]:
# 특정 col만 가져오기
# col 레이블로 가져오기
df['eng']       # ctrl Enter: 으로 자동 실행

In [None]:
# 영어, 수학 col만 가져오기
df[['eng', 'kor']]

In [None]:
# col의 index 번호로 col 레이블 확인하기
 # index 위치 번호는 0부터 시작한다.
df.columns[0]

In [None]:
# col을 index 번호로 선택해 가져오기
# 열 개수가 많을 때 col의 index로 여러 개의 col을 가져올 수 있다.

# col index가 0(eng)인 col 가져오기
df[df.columns[0]]

In [None]:
# df.columns[index 시작번호:index 마지막번호] : index 마지막번호-1까지 가져온다.
# df.columns[0:3] : 0, 1, 2 총 3개의 col을 가져온다.
df[df.columns[0:3]]

In [None]:
# 처음 5개 row 가져오기 // 가져온 데이터의 row가 많을 때 사용한다.
df.head()   # df.head(3) : 3개 row만 가져오기

In [None]:
# 마지막 5개 row 가져오기
df.tail()   # df.tail(3) : 3개 row만 가져오기

In [None]:
# 특정 col과 row 데이터만 가져오기 - row, col 레이블로 가져오기
# loc : 레이블을 이용하여 원하는 row에서 원하는 col 선택하기 // location
# 유형1. loc[row레이블, col레이블]
df.loc['lee', 'math']

In [None]:
# 유형2. loc[[row레이블1, row레이블2, row레이블n], [col레이블1, col레이블2, col레이블n]]
df.loc[['kim', 'park'], ['kor', 'eng', 'math']]

In [None]:
# 유형3. loc[row레이블1:row레이블n, [col레이블1, col레이블2, col레이블3]]
# 연속 범위는 []로 묶지 않는다.
# col의 순서를 바꿀 수 없다.
df.loc['min':'kim', 'eng':'kor']

In [None]:
# 특정 col과 row 데이터만 가져오기 - index 위치 번호로 가져오기
df

In [None]:
# index 위치 번호는 0부터 시작한다.
# 유형1. iloc[row]  // index location
df.iloc[0]

In [None]:
# 유형2. iloc[rows]
# iloc[0:5]    // 0~4 row까지 연속 row 데이터 가져오기
# 0부터 시작해서 마지막 값(5) 이전 값(4)까지 가져온다. => 0,1,2,3,4 총 다섯개
df.iloc[0:5]    # [:5]와 동일

In [None]:
# iloc[3:6]     //3~5 row까지 연속 row 데이터 가져오기
# 3부터 시작해서 마지막 값(6) 이전 값(5)까지 가져온다. => 3, 4, 5 총 세개
df.iloc[3:6]

In [None]:
# 유형3. iloc[rows, cols]
# iloc[3:6, 1:3] // 3~5 rows와 1~2 cols(math와 kor) 가져오기
df.iloc[3:6, 1:3]

## 2-6) col 추가하고 삭제하기

In [None]:
# 새 DataFrame 만들기
df = pd.DataFrame(data)
# name col을 index로 설정하고 원본 데이터 바꾸기
df.set_index('name', inplace=True)
df

In [None]:
# 마지막 위치에 국어+영어+수학을 계산한 'tot' col 추가하기
df['tot'] = df['kor']+df['eng']+df['math']
df

In [None]:
# 마지막 위치에 'tot'가 200점 이상이면 'pass', 아니면 'fail'을 출력하는 'result' col 추가하기

# 'result' col에 fail 값 지정하기
df['result'] = 'fail'
df

In [None]:
# total이 200점 이상이면 'result' col에 'pass' 출력하기
df.loc[df['tot'] >= 200, 'result'] = 'pass'
df

In [None]:
# 'result' col 삭제하기
df.drop(columns='result', inplace=True)
df

## 2-7) row 추가하고 삭제하기

In [None]:
# 마지막 위치에 새 row 추가하기
df.loc['hong'] = ['3', '남', 100, 100, 100, 300]
df

In [None]:
# row 삭제하기
df.drop(index = 'hong', inplace=True)
df

## 2-8) 데이터 정렬하기

In [None]:
# index col을 기준으로 정렬하기
df.sort_index()

In [None]:
# 반을 기준으로 오름차순 정렬하기
df.sort_values('cls')

In [None]:
# 반을 기준으로 내림차순 정렬하기
df.sort_values('cls', ascending=False)

In [None]:
# 다중조건으로 정렬하기
# 반별로 오름차순 정렬한 후 성별벌로 내림차순 정렬하기
df.sort_values(['cls', 'gender'], ascending = [True, False])

## 2-9) DataFrame을 파일로 저장하기

* 반드시 구글 드라이브 다른 경로로 이동시킨다.

In [None]:
# data 사전을 DataFrame 표 객체로 생성하기
df = pd.DataFrame(data)
df.set_index('name', inplace=True)  # index을 'name'col로 설정하기
df

In [None]:
# 각 col을 콤마(,)로 분리하여 csv 파일로 저장한다.
df.to_csv('score.csv', encoding='CP949', sep=',')

In [None]:
# 내보낸 파일은 반드시 [다운로드]하거나, 구글 드라이브로 이동시켜야 한다.
# 처음 구글 드라이브를 마운트할 때 연동하는 코드가 필요하다.
# 인증 -> 액세스 요청 수락 -> [새로 고침]하면 [drive] 폴더가 생성된다.
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# 국어가 80점 이상인 학생인 row만 추출한다.
res = df['kor']>=80
df[res]

In [None]:
# 국어가 800점 이상인 학생인 row만 txt 파일로 저장한다.
# 각 col을 tab으로 분리한다.
df[res].to_csv('korScore.txt', encoding='CP949', sep='\t')

In [None]:
# 1학년 학생들의 국어, 영어, 수학 점수만 추출하기
df.loc[df['cls']==1, ['kor', 'eng', 'math']]

In [None]:
# 지정한 경로에 각 col을 파이프라인(|)으로 분리하여 저장한다.
df.loc[df['cls']==1, ['kor', 'eng', 'math']].to_csv('/content/drive/MyDrive/1cls_Score.txt', encoding='CP949', sep='|')

txt 파일은 to_csv로 내보내고 저장을 .txt로 함

드라이브와 연동 이후에 파일 안으로 수정한 내용 옮겨줘야 남아있음

if 주피터 종료시 파일 날라감

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# 3) 데이터 시각화

## 그래프 종류   # import matplot...
* plot : 꺾은선 그래프
* bar : 막대 그래프
* bath : 수평 막대 그래프
* pie : 원형 차트
* scatter : 분산(산점도) 그래프
* hist : 히스토그램


## 3-1) 데이터 준비하기

In [None]:
# 성명, 반, 영어, 수학, 국어 점수 가져오기
df = pd.DataFrame(data, columns=['name', 'cls', 'eng', 'math', 'kor'])
df.set_index('name', inplace=True)
df

In [None]:
import matplotlib.pyplot as plt     # 데이터 시각화 라이브러리 불러오기

## 3-2) 꺾은선 그래프 만들기

In [None]:
x = df.index.values     # x축에 index(name)를 할당한다.
y = df['eng']           # y축에 eng 점수를 할당한다.

plt.plot(x, y)          # 꺾은선 그래프 만들기
plt.show()              # 그래프만 표시한다. 기타 데이터 제거용

## 3-3) 세로 막대 그래프 만들기

In [None]:
x = df.index.values     # x축에 index(name)를 할당한다.
y = df['math']          # y축에 math 점수를 할당한다.

plt.bar(x, y)           # 세로 막대 그래프 만들기
plt.show()              # 그래프만 표시한다.

## 3-4) 가로막대 그래프 만들기

In [None]:
x = df.index.values      # x축에 index(name)를 할당한다.
y = df['kor']            # y축에 kor 점수를 할당한다.

plt.barh(x, y)           # 가로 막대 그래프 만들기
plt.show()               # 그래프만 표시한다.

## 3-5) 파이(원) 그래프 만들기

In [None]:
labels = df.index.values            # 항목 레이블로 index(name)를 할당한다.
values = df['kor']                  # 값에 kor 점수를 할당한다.

# plt.pie(values)                     # 파이 그래프 만들기
plt.pie(values, labels=labels)    # 파이 그래프에 레이블 추가하기
plt.show()                          # 그래프만 표시한다.

## 3-6) 산점도 그래프 만들기

In [None]:
# 점 크기 : 1학년 = 500, 2학년 = 1000, 3학년 = 1500
sizes = df['cls'] * 500

# 산점도 그래프 만들기(x, y)
# c = df['cls'] 속성 : c 속성으로 학년별로 구분한다.
# cmap = 'viridis' 속성 : 색상맵을 viridis 유형으로 표현하기
# cmap(colormaps) 색상명 : https://matplotlib.org/stable/users/explain/colors/colormaps.html
plt.scatter(df['kor'], df['eng'], s = sizes, c = df['cls'], cmap = 'viridis')     # 국어와 영어 점수의 산점도
plt.xlabel('korean score')      # x축 레이블
plt.ylabel('english score')     # y축 레이블
plt.show()

## 3-7) 히스토그램 그래프 만들기

In [None]:
# bins : 히스토그램의 가로축 구간의 개수
# cumulative=True : 누적 히스토그램 / 기본값 False
plt.hist(df['eng'], bins=8, cumulative=True, label='English score')              # 영어 점수 히스토그램 그래프 만들기
plt.hist(df['math'], bins=8, cumulative=True, label='Math score', alpha = 0.3)   # 수학 점수 히스토그램 그래프 만들기
plt.legend(ncol=2)
plt.show()                      # 그래프만 표시한다.

In [None]:
# histtype : 히스토그램 스타일을 변경한다.
plt.hist((df['eng'], df['math']), histtype='step')
plt.title('histtype - step')
plt.show()

# 4) 주피터 노트북 ai가 제공하는 그래프 활용하기

DataFram을 만들면 표 데이터를 기반으로 다양한 그래프를 추천해 준다.

In [None]:
# 성명, 반, 영어, 수학, 국어 점수 가져오기
df = pd.DataFrame(data, columns=['name', 'cls', 'eng', 'math', 'kor'])
df.set_index('name', inplace=True)
df