# [AI 오픈 이노베이션] 기본 저녁반<a class="tocSkip">
GitHub link: <a href="https://github.com/realblack0/ai_lecture_fundamental">here</a>  
E-Mail: realblack0@gmail.com

## array를 새로 만들기
### 기존 데이터를 array 형태로 불러오기

In [5]:
import numpy as np

임의의 데이터 sun.txt를 생성한다.

In [6]:
%%writefile sun.txt
1,2,3,4
5,6,7,8

Overwriting sun.txt


python의 기본적인 입출력 함수 `open`을 이용해서 sun.txt를 읽을 수 있다.

In [7]:
b = open('sun.txt')

`open`으로 읽어온 데이터는 문자열로 읽어온다.

In [8]:
next(b)

'1,2,3,4\n'

`loadtxt`는 numpy array로 데이터를 가져온다.

In [112]:
a = np.loadtxt('sun.txt', delimiter=',') # delimiter는 구분자

In [113]:
a

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

`loadtxt`보다 더 신식 함수인 `genfromtxt`도 있다.

In [127]:
a = np.genfromtxt('sun.csv', delimiter=',')

In [128]:
a

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

타입이 섞여 있는 파일을 생성하고, numpy로 읽어보자

In [13]:
%%writefile sun.txt
1,2,3,4, 'a'
5,6,7,8, 'b'

Overwriting sun.txt


structured array에 대한 정보가 없기 때문에,자동으로 structured array로 읽지 못한다.  
numpy array는 homogeneous 타입이지만, 데이터가 homogeneous하지 않아서 에러를 일으킨다.

In [16]:
# Error
a = np.loadtxt('sun.txt', delimiter=',')  

ValueError: could not convert string to float: " 'a'"

In [15]:
# Error
a = np.genfromtxt('sun.txt', delimiter=',')  

array([[ 1.,  2.,  3.,  4., nan],
       [ 5.,  6.,  7.,  8., nan]])

`genfromtxt`는 에러를 일으키지는 않지만 문자 데이터가 nan으로 바뀌었다.

In [15]:
# Error
a = np.genfromtxt('sun.txt', delimiter=',')

array([[ 1.,  2.,  3.,  4., nan],
       [ 5.,  6.,  7.,  8., nan]])

## 불러온 데이터를 array로 저장하기

csv는 'comma separated values' 확장자이다.

In [17]:
%%writefile sun.csv
1,2,3,4
5,6,7,8

Overwriting sun.csv


In [18]:
a = np.genfromtxt('sun.csv', delimiter=',')

In [19]:
a

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

`save` 메소드로 array를 저장할 수 있다.

In [131]:
np.save('moon', a)

저장하면 npy 확장자가 생긴다.

In [133]:
import os

for filename in os.listdir():
    if "moon" in filename:
        print(filename)

moon.npy


`load` 메소드로 불러올 수 있다.

In [148]:
b = np.load('moon.npy')

In [149]:
b

array([[1., 2., 3., 4.],
       [5., 6., 7., 8.]])

## 객체를 저장하기

### open은 문자열만 저장할 수 있다.

In [25]:
y = {'1':2}

open은 문자열만 저장할 수 있기 때문에 에러를 일으킨다.

In [26]:
# Error
with open('star.s', 'wb) as f: # 확장자는 마음대로
    f.write(y)

SyntaxError: EOL while scanning string literal (<ipython-input-26-44da53884386>, line 2)

문자열로 변환하면 저장할 수 있다.

In [27]:
with open('star.s', 'w') as f:
    f.write(str(y))

하지만 다시 불러보면 객체가 아니라 문자 상태이다. 객체로서의 성질은 잃어버린 상태이다.

In [28]:
with open('star.s', 'r') as f:
    t = f.readlines()

In [29]:
t

["{'1': 2}"]

### Serialize (직렬화)
- 객체 자체를 저장하는 방식
- numpy로 저장하고 numpy로 읽어오는 방식이 serialize(시리얼라이즈)

pickle은 python에서 serialize하는 모듈이다.

In [30]:
import pickle

In [31]:
dir(pickle)

['ADDITEMS',
 'APPEND',
 'APPENDS',
 'BINBYTES',
 'BINBYTES8',
 'BINFLOAT',
 'BINGET',
 'BININT',
 'BININT1',
 'BININT2',
 'BINPERSID',
 'BINPUT',
 'BINSTRING',
 'BINUNICODE',
 'BINUNICODE8',
 'BUILD',
 'DEFAULT_PROTOCOL',
 'DICT',
 'DUP',
 'EMPTY_DICT',
 'EMPTY_LIST',
 'EMPTY_SET',
 'EMPTY_TUPLE',
 'EXT1',
 'EXT2',
 'EXT4',
 'FALSE',
 'FLOAT',
 'FRAME',
 'FROZENSET',
 'FunctionType',
 'GET',
 'GLOBAL',
 'HIGHEST_PROTOCOL',
 'INST',
 'INT',
 'LIST',
 'LONG',
 'LONG1',
 'LONG4',
 'LONG_BINGET',
 'LONG_BINPUT',
 'MARK',
 'MEMOIZE',
 'NEWFALSE',
 'NEWOBJ',
 'NEWOBJ_EX',
 'NEWTRUE',
 'NONE',
 'OBJ',
 'PERSID',
 'POP',
 'POP_MARK',
 'PROTO',
 'PUT',
 'PickleError',
 'Pickler',
 'PicklingError',
 'PyStringMap',
 'REDUCE',
 'SETITEM',
 'SETITEMS',
 'SHORT_BINBYTES',
 'SHORT_BINSTRING',
 'SHORT_BINUNICODE',
 'STACK_GLOBAL',
 'STOP',
 'STRING',
 'TRUE',
 'TUPLE',
 'TUPLE1',
 'TUPLE2',
 'TUPLE3',
 'UNICODE',
 'Unpickler',
 'UnpicklingError',
 '_Framer',
 '_Pickler',
 '_Stop',
 '_Unframer',
 '_Un

pickle은 객체 상태로 저장하고 읽어온다.   
pickle은 open과 함께 사용한다.

In [32]:
# 저장할때는 dump
with open('star.ss', 'wb') as f:
    pickle.dump(y, f)

In [33]:
# 읽을 때는 load
with open('star.ss', 'rb') as f:
    a = pickle.load(f)

In [34]:
a

{'1': 2}

## pandas 데이터 새로 만들기

pandas는 read\_로 시작하는 메소드를 이용해서 데이터를 읽어올 수 있다.

In [37]:
# 관례상 pandas는 pd로 임포트
import pandas as pd

In [38]:
# read_로 읽을 수 있는 데이터 타입들
for _ in dir(pd):
    if _.startswith('read_'):
        print(_)

read_clipboard
read_csv
read_excel
read_feather
read_fwf
read_gbq
read_hdf
read_html
read_json
read_msgpack
read_parquet
read_pickle
read_sas
read_spss
read_sql
read_sql_query
read_sql_table
read_stata
read_table


In [39]:
a = pd.read_csv('sun.txt')

In [40]:
a

Unnamed: 0,1,2,3,4,'a'
0,5,6,7,8,'b'


`read_csv`는 옵션이 많다. `headers=None`은 첫 줄이 colmun이름으로 인식되지 않게 하는 방법이다

In [163]:
a = pd.read_csv('sun.txt', header=None)

In [165]:
a

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,'a'
1,5,6,7,8,'b'


pandas로 읽어와서 numpy로 바꾸는 방법으로 numpy array를 입출력할 수 있다.

In [164]:
a.values

array([[1, 2, 3, 4, " 'a'"],
       [5, 6, 7, 8, " 'b'"]], dtype=object)

## 공공데이터 포털을 이용한 실습

예시에 사용된 데이터셋은 다음 링크에서 다운로드하였다.  
https://www.data.go.kr/dataset/3084438/fileData.do  
  
zip 파일 속 첫번째 파일의 이름을 t.csv로 바꾼 뒤, 현재 작업 중인 ipynb 파일과 같은 폴더에 넣는다.

`read_csv`를 바로 사용하면 unicodeDecodeError를 일으킨다.

In [166]:
jeju = pd.read_csv('t.csv')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte

UnicodeDecode Error가 발생할 때는 encoding을 cp949로 바꾼다.  
세계적으로는 utf-8이 표준이나, 공공기관에서 배포하는 데이터는 대부분 cp949 인코딩이다.

In [167]:
jeju = pd.read_csv('t.csv', encoding='cp949')

In [168]:
jeju

Unnamed: 0,기준년월,지번코드,지번명,10대이하 남자 유동인구,20대 남자 유동인구,30대 남자 유동인구,40대 남자 유동인구,50대 남자 유동인구,60대이상 남자 유동인구,10대이하 여자 유동인구,20대 여자 유동인구,30대 여자 유동인구,40대 여자 유동인구,50대 여자 유동인구,60대이상 여자 유동인구,10대이하 남자 유동인구 비율,20대 남자 유동인구 비율,30대 남자 유동인구 비율,40대 남자 유동인구 비율,50대 남자 유동인구 비율,60대이상 남자 유동인구 비율,10대이하 여자 유동인구 비율,20대 여자 유동인구 비율,30대 여자 유동인구 비율,40대 여자 유동인구 비율,50대 여자 유동인구 비율,60대 여자 유동인구 비율
0,201504,5011025021140370002,제주특별자치도 제주시 한림읍 귀덕리 1 4037-2,0.00,0.00,0.01,0.02,0.02,0.00,0.00,0.00,0.00,0.00,0.00,0.00,3.638666e-08,0.000000,1.271236e-07,3.162066e-07,3.827946e-07,4.316640e-08,6.647501e-08,0.000000,7.212067e-08,2.348665e-08,1.451973e-08,0.000000
1,201504,5011025021131660000,제주특별자치도 제주시 한림읍 귀덕리 1 3166-0,0.00,0.00,0.01,0.02,0.02,0.00,0.00,0.00,0.00,0.00,0.00,0.00,3.638666e-08,0.000000,1.271236e-07,3.162066e-07,3.827946e-07,4.316640e-08,6.647501e-08,0.000000,7.212067e-08,2.348665e-08,1.451973e-08,0.000000
2,201504,5011025021109960000,제주특별자치도 제주시 한림읍 귀덕리 1 996-0,0.34,0.56,1.64,1.75,1.57,0.86,0.30,0.64,1.35,1.01,1.05,0.65,3.758742e-05,0.000026,2.834857e-05,2.774713e-05,2.903682e-05,2.771283e-05,3.037908e-05,0.000025,2.661253e-05,2.374501e-05,2.286858e-05,0.000023
3,201504,5011025021110250005,제주특별자치도 제주시 한림읍 귀덕리 1 1025-5,0.43,0.67,1.97,2.09,1.78,0.94,0.42,0.80,1.69,1.23,1.26,0.74,4.668409e-05,0.000031,3.419048e-05,3.309629e-05,3.291416e-05,3.033519e-05,4.158012e-05,0.000031,3.326730e-05,2.895121e-05,2.748585e-05,0.000026
4,201504,5011025021138610000,제주특별자치도 제주시 한림읍 귀덕리 1 3861-0,0.53,1.02,2.79,3.02,2.74,1.59,0.47,1.15,2.31,1.79,1.87,1.21,5.803673e-05,0.000047,4.838788e-05,4.781570e-05,5.075115e-05,5.136802e-05,4.733020e-05,0.000045,4.542291e-05,4.192367e-05,4.071333e-05,0.000042
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49107,201504,5013025033117970011,제주특별자치도 서귀포시 대정읍 신도리 1 1797-11,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,1.079160e-08,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,0.000000
49108,201504,5013025033118820010,제주특별자치도 서귀포시 대정읍 신도리 1 1882-10,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,1.079160e-08,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,0.000000
49109,201504,5011011700129040007,제주특별자치도 제주시 아라일동 1 2904-7,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0.000000,6.556424e-09,0.000000e+00,0.000000e+00,0.000000
49110,201504,5011013400106080001,제주특별자치도 제주시 오등동 1 608-1,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.000000e+00,0.000000,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0.000000e+00,0.000000,6.556424e-09,0.000000e+00,0.000000e+00,0.000000


numpy로는 불러올 수 없다. 하지만 pandas를 쓰면 편하게 불러올 수 있다. (excel과 같음)

In [None]:
# Error
jeju_np = np.genfromtxt('t.csv') 

In [171]:
jeju_np = np.genfromtxt('t.csv', delimiter=',')

In [172]:
jeju_np # nan도 있고 제대로 불러지지 않았다. 일일히 옵션을 조정해야 한다.

array([[           nan,            nan,            nan, ...,
                   nan,            nan,            nan],
       [2.01504000e+05,            nan,            nan, ...,
        2.34866524e-08, 1.45197313e-08, 0.00000000e+00],
       [2.01504000e+05,            nan,            nan, ...,
        2.34866524e-08, 1.45197313e-08, 0.00000000e+00],
       ...,
       [2.01504000e+05,            nan,            nan, ...,
        0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [2.01504000e+05,            nan,            nan, ...,
        0.00000000e+00, 0.00000000e+00, 0.00000000e+00],
       [2.01504000e+05,            nan,            nan, ...,
        0.00000000e+00, 0.00000000e+00, 0.00000000e+00]])

불러들인 데이터를 pandas로 분석할 수 있다.

In [169]:
jeju.shape

(49112, 27)

In [173]:
jeju.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49112 entries, 0 to 49111
Data columns (total 27 columns):
기준년월                49112 non-null int64
지번코드                49112 non-null int64
지번명                 49112 non-null object
10대이하 남자 유동인구       49112 non-null float64
20대 남자 유동인구         49112 non-null float64
30대 남자 유동인구         49112 non-null float64
40대 남자 유동인구         49112 non-null float64
50대 남자 유동인구         49112 non-null float64
60대이상 남자 유동인구       49112 non-null float64
10대이하 여자 유동인구       49112 non-null float64
20대 여자 유동인구         49112 non-null float64
30대 여자 유동인구         49112 non-null float64
40대 여자 유동인구         49112 non-null float64
50대 여자 유동인구         49112 non-null float64
60대이상 여자 유동인구       49112 non-null float64
10대이하 남자 유동인구 비율    49112 non-null float64
20대 남자 유동인구 비율      49112 non-null float64
30대 남자 유동인구 비율      49112 non-null float64
40대 남자 유동인구 비율      49112 non-null float64
50대 남자 유동인구 비율      49112 non-null float64
60대이상 남자 유동인구 비율    49112 non-null f

pandas의 다양한 기능을 이용해서 원하는 데이터를 뽑아내거나, 통계값을 구하거나, 데이터를 변형 시킬 수 있다.

In [174]:
jeju['30대 남자 유동인구 비율']

0        1.271236e-07
1        1.271236e-07
2        2.834857e-05
3        3.419048e-05
4        4.838788e-05
             ...     
49107    0.000000e+00
49108    0.000000e+00
49109    0.000000e+00
49110    0.000000e+00
49111    0.000000e+00
Name: 30대 남자 유동인구 비율, Length: 49112, dtype: float64