<a href="https://colab.research.google.com/github/seoharuss/AI_study/blob/main/Pandas_Numpy_Matplotlib.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas
- 시리즈 (Series)
- 데이터프레임 (DataFrame)
- 패널 (Panel)


### 1. 시리즈 (Series)

1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조

In [None]:
import pandas as pd
sr = pd.Series([17000, 18000, 1000, 5000],
               index=["피자", "치킨", "콜라", "맥주"])
print('시리즈 출력 :')
print('-'*15)
print(sr)

# 시리즈 출력 :
# ---------------
# 피자    17000
# 치킨    18000
# 콜라     1000
# 맥주     5000
# dtype: int64

값(values)과 인덱스(index)를 출력

In [None]:
print('시리즈의 값 : {}'.format(sr.values))
print('시리즈의 인덱스 : {}'.format(sr.index))

# 시리즈의 값 : [17000 18000  1000  5000]
# 시리즈의 인덱스 : Index(['피자', '치킨', '콜라', '맥주'], dtype='object')

### 2. 데이터프레임 (DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달

2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재

시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성

In [None]:
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)

print('데이터프레임 출력 :')
print('-'*18)
print(df)

# 데이터프레임 출력 :
# ------------------
#        A  B  C
# one    1  2  3
# two    4  5  6
# three  7  8  9

생성된 데이터프레임으로부터 인덱스(index), 값(values), 열(columns)을 각각 출력

In [None]:
print('데이터프레임의 인덱스 : {}'.format(df.index))
print('데이터프레임의 열이름: {}'.format(df.columns))
print('데이터프레임의 값 :')
print('-'*18)
print(df.values)

# 데이터프레임의 인덱스 : Index(['one', 'two', 'three'], dtype='object')
# 데이터프레임의 열이름: Index(['A', 'B', 'C'], dtype='object')
# 데이터프레임의 값 :
# ------------------
# [[1 2 3]
#  [4 5 6]
#  [7 8 9]]

### 3. 데이터프레임 조회하기

다음 명령어는 데이터프레임에서 원하는 구간만 확인하기 위한 명령어로서 유용하게 사용된다.
- `df.head(n)` - 앞 부분을 n개만 보기
- `df.tail(n)` - 뒷 부분을 n개만 보기
- `df['열이름']` - 해당되는 열을 확인

In [None]:
# 앞 부분을 3개만 보기
print(df.head(3))

#      학번      이름     점수
# 0  1000   Steve  90.72
# 1  1001   James  78.09
# 2  1002  Doyeon  98.43

In [None]:
# 뒷 부분을 3개만 보기
print(df.tail(3))

#      학번        이름     점수
# 3  1003      Jane  64.19
# 4  1004  Pilwoong  81.30
# 5  1005      Tony  99.14

In [None]:
# '학번'에 해당되는 열을 보기
print(df['학번'])

# 0    1000
# 1    1001
# 2    1002
# 3    1003
# 4    1004
# 5    1005
# Name: 학번, dtype: object

### 4. 외부 데이터 읽기

Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있다.

예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있다.
다음과 같은 example.csv 파일이 있다고 합시다.

In [None]:
df = pd.read_csv('example.csv')
print(df)

#    student id      name  score
# 0        1000     Steve  90.72
# 1        1001     James  78.09
# 2        1002    Doyeon  98.43
# 3        1003      Jane  64.19
# 4        1004  Pilwoong  81.30
# 5        1005      Tony  99.14

이 경우 인덱스가 자동으로 부여된다. 인덱스를 출력해보면,

In [None]:
print(df.index)

# RangeIndex(start=0, stop=6, step=1)

## 넘파이(Numpy)

넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지

Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용

Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다는 장점

Numpy의 경우 np라는 명칭으로 import하는 것이 관례

In [None]:
import numpy as np

### 1. np.array()

Numpy의 핵심은 ndarray

np.array()는 리스트, 튜플, 배열로 부터 ndarray를 생성

In [None]:
# 1차원 배열
vec = np.array([1, 2, 3, 4, 5])
print(vec)

# [1 2 3 4 5]

2차원 배열

주의할 점은 array() 안에 하나의 리스트만 들어가므로 리스트의 리스트를 넣어야 한다.

In [None]:
# 2차원 배열
mat = np.array([[10, 20, 30], [ 60, 70, 80]])
print(mat)

# [[10 20 30]
#  [60 70 80]]

두 배열의 타입을 확인해보면

In [None]:
print('vec의 타입 :',type(vec))
print('mat의 타입 :',type(mat))

# vec의 타입 : <class 'numpy.ndarray'>
# mat의 타입 : <class 'numpy.ndarray'>

동일하게 타입이 numpy.ndarray라고 나오게 된다.

Numpy 배열에는 축의 개수(ndim)와 크기(shape)라는 개념이 존재하는데, 배열의 크기를 정확히 숙지하는 것은 딥 러닝에서 매우 중요하다.

### 2. ndarray의 초기화

`np.zeros()`
- 배열의 모든 원소에 0을 삽입

`np.ones()`
- 배열의 모든 원소에 1을 삽입

`np.full()`
- 배열에 사용자가 지정한 값을 삽입

`np.eye()`
- 대각선으로는 1이고 나머지는 0인 2차원 배열을 생성

`np.random.random()`
- 임의의 값을 가지는 배열을 생성


### 3. np.arange()

- 0부터 n-1까지의 값을 가지는 배열을 생성

`np.arange(i, j, k)`
- i부터 j-1까지 k씩 증가하는 배열 생성


### 4. np.reshape()
- 내부 데이터는 변경하지 않으면서 배열의 구조를 변경


### 5. Numpy 슬라이싱
- 슬라이싱 기능을 사용하여 특정 행이나 열들의 원소들을 접근 가능

`[0, :]`
- 첫번째 행 출력

`[:, 1]`
- 두번째 행 출력



### 6. Numpy 정수 인덱싱(integer indexing)

슬라이싱을 사용하면 배열로부터 부분 배열을 추출할 수 있지만, 연속적이지 않은 원소로 만들 경우에는 슬라이싱으로 만들 수 없다.

예를 들어 2행 2열의 원소와 5행 5열의 원소를 뽑아서 하나의 배열로 만들고자 하는 경우가 그렇다 볼 수 있다.

이런 경우에는 인덱싱을 사용하여 배열을 구성할 수 있다.

인덱싱은 원하는 위치의 원소들을 뽑을 수 있다.

`mat[1,0]`
- 1행 0열의 원소 가져옴
- 0부터 카운트하므로 두번째 행 첫번째 열의 원소

`mat[[2, 1], [0, 1]]`
- mat[[2행, 1행], [0열, 1열]]
- 각 행과 열의 쌍을 매칭하면 2행 0열, 1행 1열의 두 개의 원소


### 7. Numpy 연산

`np.add()`
- 더하기

`np.subtract()`
- 빼기

`np.multiply()`
- 곱하기

`np.dot()`
- 벡터와 행렬곱 or 행렬곱과 행렬곱

`np.divide()`
- 나누기

## 맷플롯립(Matplotlib)

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화하는 패키지

데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용된다.

In [None]:
import matplotlib.pyplot as plt

### 1. 라인 플롯 그리기

`plot()`

라인 플롯을 그리는 기능을 수행

plot()에 x축과 y축의 값을 기재하고 그림을 표시하는 show()를 통해서 시각화

그래프에는 title('제목')을 사용하여 제목을 지정할 수 있습니다.

여기서는 그래프에 'test'라는 제목을 넣어봅시다.

주피터 노트북에서는 show()를 사용하지 않더라도 그래프가 자동으로 렌더링 되므로 그래프가 시각화가 되지만 다른 개발 환경에서 사용할 때를 가정하여 show()를 코드에 삽입하였습니다.

### 2. 축 레이블 삽입하기

`xlabel('축이름')`, `ylabel('축이름')`
- x축과 y축 각각에 축이름을 삽입

### 3. 라인 추가와 범례 삽입하기

`plt.legend()`
- 다수의 plot()을 하나의 그래프에 나타낼 수 있다. 여러 개의 라인 플롯을 동시에 사용할 경우에는 각 선이 어떤 데이터를 나타내는지를 보여주기 위해 범례(legend)를 사용할 수 있다.