# 데이터 자료형 

## 1. NumPy 패키지 (Array) 
- 데이터 분석을 위한 기본 자료형
- pandas 패키지의 근간이 됨

### 1) 배열(Array)

- **배열(array)**: 많은 숫자를 효율적으로 **한꺼번에 처리**하기 위한 자료형
 - 리스트(list) 대비 더 적은 메모리를 사용해서 더 빠르게 데이터 처리 가능
 - **벡터 연산 가능**
 - 모든 원소가 **같은 자료형**이어야 함 (※리스트: 다른 자료형 섞여도 ok)
 - 원소의 갯수는 고정
 - **NumPy** 이용하여 리스트를 배열로 변환

In [7]:
import numpy as np
list_ = [0,1,2,3]
array_ = np.array([0,1,2,3])

print(list_)
print(type(list_))

print(array_)
print(type(array_))

[0, 1, 2, 3]
<class 'list'>
[0 1 2 3]
<class 'numpy.ndarray'>


※ **ndarray**: n-dimensional array (다차원 배열)

### 2) Array의 벡터화 연산

In [9]:
ans_l = [] 

# List 연산: for문 이용
for i in list_:
    ans_l.append(2*i)

# Array 연산: 벡터 연산
ans_a = 2*array_  
    
print(ans_l)
print(ans_a)

[0, 2, 4, 6]
[0 2 4 6]


In [15]:
# List에 벡터화 연산? 
ans_l = list_*2
print(ans_l)  # string의 덧셈, 곱셈처럼 list_ + list_ 

ans_l = list_ + list_
print(ans_l)  

[0, 1, 2, 3, 0, 1, 2, 3]
[0, 1, 2, 3, 0, 1, 2, 3]


In [106]:
# 논리 연산
print(array_ == 2)
print(array_ > 2)
print((array_ == 2 ) & (array_ > 2))

[False False  True False]
[False False False  True]
[False False False False]


In [115]:
# 집계 연산
print(np.sum(array_))
print(array_.sum())
print(array_.sum(axis = 0))

print(array_.min())
print(array_.argmax())

6
6
6
0
3


In [117]:
# 정렬
np.sort(array_)

array([0, 1, 2, 3])

In [118]:
# 통계연산
np.mean(array_)
np.var(array_)
np.std(array_)
np.percentile(array_, 25)

0.75

### 3) ndarray (다차원 배열) & 행렬

- **행렬(matrix)**: 2차원 배열 (행row X 열column)
 - **리스트를 원소로 갖는 리스트**를 array함수로 행렬 만들기
 - 예) 2X3 행렬: [[0,1,2],[2,3,4]]

In [88]:
# 2X3 행렬(2차원배열)
arr_2d = np.array([[0,1,2],[2,3,4]])

print(arr_2d)
print("\narr_2d는 " + str(arr_2d.ndim) + "차원 배열입니다.")
print("모양은 " + str(arr_2d.shape) + "\n")


# 2X3X4 3차원배열
arr_3d = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]], [[13,14,15,16],[17,18,19,20],[21,22,23,24]]])

print(arr_3d)
print("\narr_3d는 " + str(arr_3d.ndim) + "차원 배열입니다.")
print("모양은 " + str(arr_3d.shape) + "\n")

[[0 1 2]
 [2 3 4]]

arr_2d는 2차원 배열입니다.
모양은 (2, 3)

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]

arr_3d는 3차원 배열입니다.
모양은 (2, 3, 4)



In [100]:
# NumPy의 array 생성함수
print(np.zeros(3))
print(np.zeros((3, 2)))  # 주의!!!! zeros의 input은 튜플!!!!(3,2) 
print(np.zeros((3, 2), dtype="i"))


print(np.ones(3))
print(np.arange(3))  # range함수와 똑같이 쓰면 됨
print(np.arange(3,6,1))

[ 0.  0.  0.]
[[ 0.  0.]
 [ 0.  0.]
 [ 0.  0.]]
[[0 0]
 [0 0]
 [0 0]]
[ 1.  1.  1.]
[0 1 2]
[3 4 5]


In [104]:
# 다차원 배열의 크기 변형
print(arr_2d)
print(arr_2d.T)
print(arr_2d.reshape(6,1))
print(arr_2d.reshape(1,6))

[[0 1 2]
 [2 3 4]]
[[0 2]
 [1 3]
 [2 4]]
[[0]
 [1]
 [2]
 [2]
 [3]
 [4]]
[[0 1 2 2 3 4]]


### 4) 인덱싱
 - 인덱싱 순서: 가장 큰 덩어리의 수 -> 덩어리 내 원소 수 

In [67]:
print(arr_3d)
print(len(arr_3d))
print("\n")

print(arr_3d[0])
print(len(arr_3d[0]))
print("\n")

print(arr_3d[0][0])
print(len(arr_3d[0][0])) #첫번째 덩어리의 첫번째 덩어리의 원소수..

[[[ 1  2  3  4]
  [ 5  6  7  8]
  [ 9 10 11 12]]

 [[13 14 15 16]
  [17 18 19 20]
  [21 22 23 24]]]
2


[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
3


[1 2 3 4]
4


- 양수: 왼 -> 오 (0부터)
- 음수: 오 -> 왼 (-1부터)

- 다차원 배열에서 차원 순서대로 인덱싱

In [75]:
# 음수 인덱싱
print(arr_2d)
print(arr_2d[-1])
print(arr_2d[-1][-2])

[[0 1 2]
 [2 3 4]]
[2 3 4]
3


In [76]:
# 차원 순서대로 -> 콤마로 구분 
print(arr_2d[-1,-2])

3


In [77]:
# 슬라이싱
print(arr_2d[:])   # 전체
print(arr_2d[0, :])   # 전체
print(arr_2d[0, 1:])   # 전체

[[0 1 2]
 [2 3 4]]
[0 1 2]
[1 2]


In [86]:
# 조건 인덱싱
print(arr_2d[arr_2d%2==0])
print(arr_2d[0, arr_2d[0]%2==0])

[0 2 2 4]
[0 2]


## 2. Pandas 패키지 소개 (Dataframe & Series)

- **Pandas 패키지**: NumPy 기반에서 개발된 데이터분석 관련 패키지
    - 대표 자료형: 데이터프레임(Dataframe) & 시리즈(Series)
    - 데이터프레임 = [시리즈1, 시리즈2, 시리즈3]

In [122]:
import pandas as pd 

### 1) 시리즈(Series) 클래스
- 1차원 배열과 비슷 + 각 데이터의 고유 index가 있음 
    - 딕셔너리처럼 고유명 지정 가능 (숫자 인덱스가 default)
- 시리즈의 values = 1차원 array
- **시리즈 생성 (Pandas의 Series 함수 이용)**
    1. 리스트를 변환
        - 인덱스 별도 지정 가능. 지정 안하면 숫자로 자동 지정(0,1,2,3...)
    2. 딕셔너리를 변환  
        - 순서 정하고 싶으면 인덱스의 순서 지정 

In [160]:
# 보통 Series는 별도의 import를 하지 않고, pandas로 이용
# from pandas import Series 

# 참고: 배열 생성 
# arr = np.array([0,1,2,3]) 

#시리즈1 = 우리반 친구들의 성별 (인덱스 = 친구들 이름)
## 리스트 -> 시리즈 
s1 = pd.Series(['남', '여', '남', '여'], index=["전현무", "박나래", "헨리", "한혜진"])

#시리즈2 = 우리반 친구들의 키 (인덱스 = 친구들 이름)
s2 = pd.Series({"전현무":179, "박나래":155, "헨리":175, "한혜진":178})

#시리즈3 = 우리반 친구들의 몸무게 (인덱스 = 친구들 이름)
## 딕셔너리 -> 시리즈 
s3 = pd.Series({"전현무":76, "박나래":52, "헨리":69, "한혜진":54}, index=["전현무", "박나래", "헨리", "한혜진"])


print(s1)
print("\n")
print(s2)
print("\n")
print(s3)

전현무    남
박나래    여
헨리     남
한혜진    여
dtype: object


박나래    155
전현무    179
한혜진    178
헨리     175
dtype: int64


전현무    76
박나래    52
헨리     69
한혜진    54
dtype: int64


In [140]:
s1.index

Index(['전현무', '박나래', '헨리', '한혜진'], dtype='object')

In [142]:
s = pd.Series([179, 155, 175, 178])
s.index

RangeIndex(start=0, stop=4, step=1)


In [130]:
s1.values

array(['남', '여', '남', '여'], dtype=object)

In [152]:
s1.name = "성별"  #시리즈의 이름 
s1.index.name = "이름"  #시리즈 인덱스의 이름
s1

이름
전현무    남
박나래    여
헨리     남
한혜진    여
Name: 성별, dtype: object

### 2) 데이터프레임(DataFrame) 클래스

- 동일한 인덱스를 갖는 열 형태의 Series를 dictionary처럼 묶어놓은 것
- **행 인덱스(index)** = 각 Instance의 이름 = 시리즈의 인덱스(**DB의 Key같은 존재**) 
- **열 인덱스(columns)** = 각 Feature의 이름 = 데이터프레임의 열 인덱스 (**dimension, metric의 이름**)
    - 데이터프레임 = 우리반 친구들의 신체정보 
        - 행 인덱스 = 친구들 이름
        - 열 인덱스 = 성별, 키, 몸무게
        - 각 열 = 시리즈
    - (참고) Dimension & Metric, Pivot
        - Dimension: 남/여, 연령대(20,30,40...), 출신지역,...
        - Metric: 체지방률, GPA, 소득, ... 
        - DB테이블 vs 피벗테이블

- 데이터프레임의 values = 다차원 배열
- **데이터프레임 생성 (Pandas의 DataFrame 함수 이용) **
    1. 딕셔너리(value가 리스트인)를 변환
    2. 딕셔너리(value가 시리즈인)를 변환
    3. 리스트의 리스트를 변환 
        - 인덱스 별도 지정 가능. 지정 안하면 숫자로 자동 지정(0,1,2,3...)


In [181]:
from pandas import DataFrame as df

In [198]:
# 1. 딕셔너리(value가 리스트인)를 변환 

info = pd.DataFrame({"성별": ['남', '여', '남', '여'], "키": [179, 155, 175, 178], "몸무게": [76, 52, 69, 54]})

info

Unnamed: 0,몸무게,성별,키
0,76,남,179
1,52,여,155
2,69,남,175
3,54,여,178


In [199]:
info = pd.DataFrame({"성별": ['남', '여', '남', '여'], "키": [179, 155, 175, 178], "몸무게": [76, 52, 69, 54]}, 
                    index = ["전현무", "박나래", "헨리", "한혜진"], columns =["성별", "키", "몸무게"])

info

Unnamed: 0,성별,키,몸무게
전현무,남,179,76
박나래,여,155,52
헨리,남,175,69
한혜진,여,178,54


#### 주의사항
- index는 DB의 key처럼 중복 불가 
- 이름보다는 고유 아이디 이용 추천

In [202]:
# 2. 딕셔너리(value가 시리즈인)를 변환 
info = pd.DataFrame({"성별": s1, "키": s2, "몸무게": s3})

info

Unnamed: 0,몸무게,성별,키
박나래,52,여,155
전현무,76,남,179
한혜진,54,여,178
헨리,69,남,175


In [204]:
info = pd.DataFrame({"성별": s1, "키": s2, "몸무게": s3}, 
                     index = ["전현무", "박나래", "헨리", "한혜진"], columns =["성별", "키", "몸무게"])

# 시리즈를 dataframe으로 바꾸는 경우,
# index, columns 지정해서 원하는 대로 순서를 정할 수 있음! 
info

Unnamed: 0,성별,키,몸무게
전현무,남,179,76
박나래,여,155,52
헨리,남,175,69
한혜진,여,178,54


In [186]:
# 3. 리스트의 리스트를 변환 
info = pd.DataFrame([['남', '여', '남', '여'], [179, 155, 175, 178], [76, 52, 69, 54]])
info

Unnamed: 0,0,1,2,3
0,남,여,남,여
1,179,155,175,178
2,76,52,69,54


In [205]:
info = pd.DataFrame([["박나래", 52, "여", 155],["전현무", 76, "남", 179],["한혜진", 54, "여", 178],["헨리", 69, "남", 175]],
                   index = ["전현무", "박나래", "헨리", "한혜진"])
info

Unnamed: 0,0,1,2,3
전현무,박나래,52,여,155
박나래,전현무,76,남,179
헨리,한혜진,54,여,178
한혜진,헨리,69,남,175


#### 주의사항
- 각 instance(행)끼리 묶어줘야 함 
- 아직 index 이름이 없는 상태 (default: 숫자 인덱스)
- ** *단, 행의 index로 사용할 값은 같이 묶으면 안 됨* **

In [222]:
info = pd.DataFrame([[52, "여", 155],[76, "남", 179],[54, "여", 178],[69, "남", 175]],
                   index = ["전현무", "박나래", "헨리", "한혜진"], columns =["키", "성별", "몸무게"])
info

Unnamed: 0,키,성별,몸무게
전현무,52,여,155
박나래,76,남,179
헨리,54,여,178
한혜진,69,남,175


In [223]:
info.values

array([[52, '여', 155],
       [76, '남', 179],
       [54, '여', 178],
       [69, '남', 175]], dtype=object)

In [224]:
info.index

Index(['전현무', '박나래', '헨리', '한혜진'], dtype='object')

In [225]:
info.columns

Index(['키', '성별', '몸무게'], dtype='object')

### 3) 인덱싱
- 행부터? 열부터? 
- 다차원 배열과 달리, **열 -> 행** 순서
- 데이터프레임 -> 시리즈 -> 값

In [261]:
info.values

array([[52, '여', 155],
       [76, '남', 179],
       [54, '여', 178],
       [69, '남', 175]], dtype=object)

In [262]:
info.as_matrix()

array([[52, '여', 155],
       [76, '남', 179],
       [54, '여', 178],
       [69, '남', 175]], dtype=object)

In [246]:
print(type(info['키']))
print(type(info['키'].values))

<class 'pandas.core.series.Series'>
<class 'numpy.ndarray'>


In [258]:
# info["전현무"]
# info['키']
info["키"]["전현무"]
info["키"][0]

52

In [259]:
info.dtypes

키       int64
성별     object
몸무게     int64
dtype: object

### 4) 입출력
- 자료형: CSV, JSON, XML, SQL


In [263]:
info.to_csv('./data.csv')

In [None]:
info.read_csv('./data.csv)

In [None]:
import pandas as pd
import numpy as np
import pyodbc

connStr = (
     r"DRIVER={Microsoft Access Driver (*.mdb, *.accdb)};"      # 어떤 DB에 연결할 것인지?
     r"DBQ=E:\★Tmap택시\콜이력.accdb;"                                    # DB 디렉토리
     )
cnxn = pyodbc.connect(connStr)     # 미리 지정한 connStr 넣고 연결 (file stream open)

query = "SELECT 콜ID, 출발지위도, 출발지경도 FROM call"      # 쿼리
df = pd.read_sql(query, cnxn)      # pandas의 sql 실행쿼리 -> 결과를 dataframe에 저장

cnxn.close()       # file stream 닫아주기

1. 시리즈,데이터프레임 클래스 설명
2. 생성 
3. 행/열 인덱싱(슬라이싱)
4. 입출력 (csv, excel, orm) 

### 5) 연산
- NumPy의 모든 벡터 연산 가능
- 덧셈/곱셈, 논리연산

In [266]:
info+info
info*2

Unnamed: 0,키,성별,몸무게
전현무,104,여여,310
박나래,152,남남,358
헨리,108,여여,356
한혜진,138,남남,350


In [None]:
https://datascienceschool.net/view-notebook/aa62265f02fc429aa636ef343c3b1fda/