## 지진 데이터

USGS(US Geological Survey) API 데이터  
(출처 : https://earthquake.usgs.gov/fdsnws/event/1/)  
  
데이터 샘플 : data/example_data.csv

In [3]:
import numpy as np

data = np.genfromtxt('data/example_data.csv', delimiter=';', names=True, dtype=None, encoding='UTF')

data

array([('2018-10-13 11:10:23.560', '262km NW of Ozernovskiy, Russia', 'mww', 6.7, 'green', 1),
       ('2018-10-13 04:34:15.580', '25km E of Bitung, Indonesia', 'mww', 5.2, 'green', 0),
       ('2018-10-13 00:13:46.220', '42km WNW of Sola, Vanuatu', 'mww', 5.7, 'green', 0),
       ('2018-10-12 21:09:49.240', '13km E of Nueva Concepcion, Guatemala', 'mww', 5.7, 'green', 0),
       ('2018-10-12 02:52:03.620', '128km SE of Kimbe, Papua New Guinea', 'mww', 5.6, 'green', 1)],
      dtype=[('time', '<U23'), ('place', '<U37'), ('magType', '<U3'), ('mag', '<f8'), ('alert', '<U5'), ('tsunami', '<i4')])

### numpy.genfromtxt

* Load data from a text file, with missing values handled as specified
* 텍스트 파일 읽는 함수
* parameter
    * delimiter : str, int, or sequence, optional
        * 배열의 요소를 나누어 입력하기 위한 구분문자를 입력받는 파라미터
        * 기본값은 None으로 탭과 스페이스 같은 빈 공간을 나눈다.
    * autostrip : bool, optional
        * 스페이스와 같은 공간을 자동으로 없애버리는 기능을 가진 파라미터
        * 기본값은 False(거짓)
        * 문자열 등의 자료형을 넣을 경우 유용
    * comments : str, optional
        * 텍스트 파일에 주석이 포함되어 있는 경우, 주석을 제거하는 기능을 가진 파라미터
        * 기본값은 None
        * 주석에 해당하는 문자(열)(ex - #)을 입력하면 된다.
    * skip_header & skip footer : int, optional
        * 파일 전후단에 필요없는 데이터가 있을 경우 필터링하는 파라미터
        * 해당 변수들은 정수 입력으로 해당되는 라인까지 제거
    * usecols : sequence, optional
        * 사용하고자 하는 열을 선택하는 파라미터
        * 정수 혹은 시퀀스 입력
    * names : {None, True, str, sequence}, optional
        * 열의 인덱스에 이름을 부여할 수 있는 파라미터
        * True인 경우 텍스트의 첫 번째 줄에서 names를 가져오는 파라미터
    * defaultfmt : str, optional
        * 열 이름을 입력하고자 하고, 열 이름을 정해진 형식에 맞춰 입력하고자 할 때 사용하는 파라미터
        * 문자열 형태로 입력 
        * 기본값은 'f%i'
        * %i 대신 %02i로 입력할 경우 2자리 수로 입력
    * converters : variable, optional
        * 특별한 양식의 데이터 형식(예 : 날짜[yyyy/mm/dd], 퍼센트[xx%] 등)에서 데이터를 추출할 때 사용하는 파라미터
    * missing_values : variable, optional
        * 기본적으로 빈 문자열은 누락된 것으로 여겨 누락되거나 유효하지 않은 데이터를 표현하기 위해 특수한 문자열(예 : N/A, ??? 등)과 같은 복잡한 문자열을 고려하는 파라미터
    * filling_values : variable, optional
        * 데이터가 누락되었다는 것을 표시하는 파라미터
        * 누락된 데이터 위치에 채우는 기본값은 자료형아 따라 다름
    * usemask : bool, optional
        * usemask 변수를 True로 설정하면 불린마스크(boolean mask)를 구성하여 누락된 데이터의 발생을 추적하는 파라미터
        * usemask를 True로 설정하면 MaskedArray가 출력으로 나오며 누락됐으면 True 아니면 False를 출력

In [4]:
# shape : array 차원

data.shape

(5,)

In [5]:
# dtype : array 데이터 유형

data.dtype

dtype([('time', '<U23'), ('place', '<U37'), ('magType', '<U3'), ('mag', '<f8'), ('alert', '<U5'), ('tsunami', '<i4')])

### dtype
  
  
  
__byte order__  
* '>' : big-endian
* '<' : little-endian
  
__________________

__array-protocol type__  
* ? : boolena
* b : (signed) byte
* B : unsigned byte
* i : (signed) integer
* u : unsigned integer
* f : floating-point
* c : complex-floating point
* m : timedelta
* M : datetime
* O : (Python) objects
* S, a : zero-terminated bytes (not recommended)
* U : Unicode string
* V : raw data (void)
  
___________________________

__data의 dtype 해석__
* U23 : 23-character string
* U37 : 37-character string
* U3 :3-character string
* f8 : 64-bit floating-point number
* U5 : 5-character string
* i4 : 32-bit signed integer

In [6]:
array_dict = {}

for i, col in enumerate(data.dtype.names):       # col : time, place, magType, mag, alert, tsunami
    array_dict[col] = np.array([row[i] for row in data])
    
array_dict

{'time': array(['2018-10-13 11:10:23.560', '2018-10-13 04:34:15.580',
        '2018-10-13 00:13:46.220', '2018-10-12 21:09:49.240',
        '2018-10-12 02:52:03.620'], dtype='<U23'),
 'place': array(['262km NW of Ozernovskiy, Russia', '25km E of Bitung, Indonesia',
        '42km WNW of Sola, Vanuatu',
        '13km E of Nueva Concepcion, Guatemala',
        '128km SE of Kimbe, Papua New Guinea'], dtype='<U37'),
 'magType': array(['mww', 'mww', 'mww', 'mww', 'mww'], dtype='<U3'),
 'mag': array([6.7, 5.2, 5.7, 5.7, 5.6]),
 'alert': array(['green', 'green', 'green', 'green', 'green'], dtype='<U5'),
 'tsunami': array([1, 0, 0, 0, 1])}

In [11]:
# 위의 코드를 다르게 표현

array_dict1 = {}

for i, col in enumerate(data.dtype.names):
    column = []
    for row in data:
        column.append(row[i])
    array_dict1[col] = np.array(column)
    
array_dict1

{'time': array(['2018-10-13 11:10:23.560', '2018-10-13 04:34:15.580',
        '2018-10-13 00:13:46.220', '2018-10-12 21:09:49.240',
        '2018-10-12 02:52:03.620'], dtype='<U23'),
 'place': array(['262km NW of Ozernovskiy, Russia', '25km E of Bitung, Indonesia',
        '42km WNW of Sola, Vanuatu',
        '13km E of Nueva Concepcion, Guatemala',
        '128km SE of Kimbe, Papua New Guinea'], dtype='<U37'),
 'magType': array(['mww', 'mww', 'mww', 'mww', 'mww'], dtype='<U3'),
 'mag': array([6.7, 5.2, 5.7, 5.7, 5.6]),
 'alert': array(['green', 'green', 'green', 'green', 'green'], dtype='<U5'),
 'tsunami': array([1, 0, 0, 0, 1])}

### numpy.dtype.names
* ordered list of field names
* None if there are no fields

In [12]:
np.array([value[array_dict['mag'].argmax()] for key, value in array_dict.items()])

array(['2018-10-13 11:10:23.560', '262km NW of Ozernovskiy, Russia',
       'mww', '6.7', 'green', '1'], dtype='<U31')

### numpy.argmax(a, axis=None, out=None)
* 차원에 따라 가장 큰 값의 인덱스 반환
* returns the indices of the maximum values along an axis
* parameters
    * a : array_like
    * axis : int, optional
    * out : array, optional