# 1. 데이터분석 시작하기
## 1. 빅데이터란?

### 자료와 정보
**자료**는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로 된 의미 단위
연구나 조사 등의 바탕이 되는 재료  
자료를 의미있게 정리하면 **정보**가 된다.

### DIKW Pyramid
Data(자료) -> Information(정보) -> Knowledge(지식) -> Wisdom(지혜)  
$$
\frac
  {
    {\rm Data}
    \xrightarrow {\rm context(문맥)}
    {\rm Information}
    \xrightarrow {\rm meaning(의미)}
    {\rm Knowledge}
  }
  {\rm 경험, 사실 (과거, 현재)}
\xrightarrow {insight(반영, 적용)}
\frac
  {\rm Wisdom}
  {\rm 방향, 예측 (미래)}
$$

### 빅데이터
**빅 데이터(big data)**란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 데이터베이스 형태가 아닌 비정형의 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
* 데이터 저장
* 데이터 관리
* 데이터 추출
* 데이터 처리
* 데이터 시각화
* 데이터 분석

#### 역사
1990~2000: 컴퓨터 보급 - 엑셀, 관계형 데이터베이스  
2000~2010: 인터넷 보급, 웹 기반 데이터 - 야후, 아마존, 이베이  
2010~: 모바일, 센서, IoT기기 발달 - 구글, 페이스북, 인스타그램  

#### 특징 (3Vs of Big Data + 3Vs of Big Data)
* Volume(양)
  * 대량의 정형 + 비정형 데이터
  * IoT, SNS, 산업용 장비
* Velocity(속도)
  * 빠른 데이터 유입과 실시간 처리 속도
  * 각종 센서, 인터넷 서비스
* Variety(다양성)
  * 다양한 비정형 데이터
  * 비디오, 오디오, 이메일, 주식 데이터
* Value(가치)
  * 데이터 속 가치
  * 가치를 발견할 수 있는가
* Veracity(정확성)
  * 데이터의 품질
  * 얼마나 믿을 수 있는가
* Variability(가변성)
  * 문맥에 따른 데이터 의미 가변성

### 데이터의 종류
* 정형데이터(Structured Data)
  * Data Model
  * Schema
  * SQL
* 비정형데이터(Unstructured Data)
  * Everything Else
  * Textual or non-textual
  * No pre-defined datamodel
  * Difficult to search
  * 수집된 전체 데이터의 80%이상

## 2. 데이터 분석이란?

### 데이터 분석
**데이터 분석(Data Analysis)**은 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링 하는 과정이다  
**데이터 사이언티스트(Data Scientist)**는 데이터 수집, 가공, 분석을 통해 정보의 숨은 의미를 찾아내 과학적이고 합리적인 의사결정을 돕는 전문가를 말한다

### 데이터 분석 프로세스
1. 문제 정의, 가설 수립
2. 데이터 수집
3. 데이터 전처리
4. 탐색적 데이터 분석
5. 결과 평가

언제든 잘못 되면 그 부분으로

#### 1. 문제 정의
어떤 문제를 해결하고 싶은가?

고려사항
* 목표는 무엇? 범위는 어디?
* 해결 성공 / 실패 기준은?
* 제약조건은?

데이터 기반의 문제해결을 위한 추가 고려사항
* 문제와 관련된 데이터에 포함되어야하는 요인은?
* 데이터 어떻게 수집?
* 데이터 처리 및 분석을 위한 최적의 방법과 도구는 무엇?
* 최종 결과물은 어떤 형태로 누구에게 전달?

#### 2. 데이터 수집
* 공개 데이터 활용
  * 캐글
  * 구글
  * 레딧
  * UCI
  * AI팩토리
  * 공공데이터포털
  * AI허브
  * 데이콘
* 자체 데이터 수집
  * 웹 크롤링

#### 3. 데이터 전처리
* 자료형 변환, 단위 변환
* 비어있는 값 채우기
* 불필요한 부분 삭제
* 연관 데이터 추가

#### 4. 데이터 분석
**탐색적 데이터 분석(Exploratory Data Analysis, EDA)**: 도표, 그래프, 요약 통계 정보 등의 도구를 이용하여 주어진 데이터를 다양한 각도에서 들여다보고 데이터를 이해하고 탐구하는 과정
* 개별 속성 분석
* 속성 간의 관계 분석
* 시각화 활용해서 데이터에 나타나는 패턴 찾기

##### 도구
python - NumPy, pandas, matplotlib, seaborn

# 2. NumPy
* 행렬이나 대규모 다차원 배열 쉽게 처리
* 수치 계산 위한 효율적 기능

## 1. 임포트

In [2]:
import numpy as np

## 2. 배열
* 같은 타입만 저장 가능
* python list비해 빠름

### 1. np.array

In [2]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

In [4]:
# 2차원 배열
arr = np.array([
  [1, 2],
  [3, 4],
  [5, 6],
])

In [5]:
{
  "type": type(arr),
  "dtype": arr.dtype,
  "shape": arr.shape,
  "size": arr.size,
  "ndim": arr.ndim,
}

{'type': numpy.ndarray,
 'dtype': dtype('int64'),
 'shape': (3, 2),
 'size': 6,
 'ndim': 2}

In [6]:
arr.astype(float)

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

### 2. np.arange
파이썬의 range함수

In [7]:
np.arange(2, 10, 2)

array([2, 4, 6, 8])

In [8]:
np.arange(2, 10, .5)  # 소수점도 가능

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5, 9. , 9.5])

In [9]:
# 2차원 이상을 만들 경우
# reshape는 새로 배열을 만듦
np.arange(100).reshape(10, 10)

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
       [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
       [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
       [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
       [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
       [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

### 3. np.zeros, np.ones, np.full

In [10]:
# 2차원 이상은 괄호로 반드시 감싸야 한다
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [11]:
np.ones(4)

array([1., 1., 1., 1.])

In [20]:
np.full((3, 2), 234)

array([[234, 234],
       [234, 234],
       [234, 234]])

### 4. np.linspace
n등분

In [19]:
np.linspace(0, 10, 20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

### 5. np.eye
* 단위 행렬, 항등 행렬

In [24]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

### 6. np.random

In [27]:
# 괄호 있으면 안 됨
np.random.rand(3, 2)

array([[0.01634963, 0.27315436],
       [0.19319504, 0.41994274],
       [0.83084982, 0.47582863]])

In [28]:
np.random.randint(2, 6, (2, 6))

array([[5, 5, 5, 5, 4, 3],
       [4, 4, 3, 5, 4, 4]])

### 7. 배열 저장, 불러오기

In [34]:
from tempfile import TemporaryFile
file = TemporaryFile()
np.save(file, np.random.rand(3, 5))
file.seek(0)  # 파일 닫고 다시 여는 거
np.load(file)

(array([[0.52505712, 0.58819038, 0.18655914, 0.40692929, 0.09226231],
        [0.17707961, 0.44939785, 0.23491131, 0.33492413, 0.15715265],
        [0.16109607, 0.57772028, 0.3722032 , 0.92897988, 0.49872003]]),
 61)

## 3. 연산

In [35]:
a = np.arange(1, 5)
b = np.arange(5, 9)
a, b

(array([1, 2, 3, 4]), array([5, 6, 7, 8]))

In [36]:
a + b, a - b, a * b, a / b

(array([ 6,  8, 10, 12]),
 array([-4, -4, -4, -4]),
 array([ 5, 12, 21, 32]),
 array([0.2       , 0.33333333, 0.42857143, 0.5       ]))

In [37]:
a = np.arange(1, 7).reshape(2, 3)
b = np.arange(7, 13).reshape(2, 3)
a, b

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[ 7,  8,  9],
        [10, 11, 12]]))

In [38]:
a + b, a - b, a * b, a / b

(array([[ 8, 10, 12],
        [14, 16, 18]]),
 array([[-6, -6, -6],
        [-6, -6, -6]]),
 array([[ 7, 16, 27],
        [40, 55, 72]]),
 array([[0.14285714, 0.25      , 0.33333333],
        [0.4       , 0.45454545, 0.5       ]]))

In [39]:
b = b.reshape(3, 2)
a, b

(array([[1, 2, 3],
        [4, 5, 6]]),
 array([[ 7,  8],
        [ 9, 10],
        [11, 12]]))

In [41]:
np.dot(a, b), a.dot(b), 1 * 7 + 2 * 9 + 3 * 11

(array([[ 58,  64],
        [139, 154]]),
 array([[ 58,  64],
        [139, 154]]),
 58)

In [42]:
a + 3, a - 3, a * 3, a / 3

(array([[4, 5, 6],
        [7, 8, 9]]),
 array([[-2, -1,  0],
        [ 1,  2,  3]]),
 array([[ 3,  6,  9],
        [12, 15, 18]]),
 array([[0.33333333, 0.66666667, 1.        ],
        [1.33333333, 1.66666667, 2.        ]]))

In [54]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [51]:
# median은 메소드 X
((a.max(), a.min(), a.mean(), a.std()),
(np.max(a), np.min(a), np.mean(a), np.median(a), np.std(a)))

((6, 1, 3.5, 1.707825127659933), (6, 1, 3.5, 3.5, 1.707825127659933))

In [55]:
np.cumsum(a), a.cumsum(axis=0)

(array([ 1,  3,  6, 10, 15, 21]),
 array([[1, 2, 3],
        [5, 7, 9]]))

In [57]:
a > 2

array([[False, False,  True],
       [ True,  True,  True]])

상관계수
np.corrcoef
$$

$$

## 4. 정렬
* np.sort: 새 배열
* ndarray.sort: 변형

In [59]:
np.sort(np.random.rand(10))

array([0.13056666, 0.19793468, 0.30583883, 0.67328205, 0.70018477,
       0.71068211, 0.90695719, 0.94165618, 0.97831807, 0.98959341])

In [60]:
# 행 기준으로 정렬
np.sort(np.random.rand(3, 2))

array([[0.12399275, 0.58314406],
       [0.26377316, 0.93832719],
       [0.03040312, 0.41235322]])

In [61]:
# 어느 인덱스의 원소가 올지
np.argsort(np.random.rand(3, 2))

array([[0, 1],
       [0, 1],
       [1, 0]])

# 3. Pandas
* 데이터분석용 라이브러리
* Series, DataFrame

## 1. 임포트

In [1]:
import pandas as pd

## 2. Series
* Numpy에서 제공하는 1차원 배열과 유사
* 엑셀에서 하 컬럼
* Series = 1차원 배열의 값(value) + 행 인덱스(index)

### 1. 만들기

#### 1. value값만 주기. index를 지정하지 않으면 0부터 시작

In [3]:
s = pd.Series([1, 2, 3, 4])
{
  "series": s,
  "type": type(s),
  "shape": s.shape,
  "index": s.index,
  "values": s.values,
}

{'series': 0    1
 1    2
 2    3
 3    4
 dtype: int64,
 'type': pandas.core.series.Series,
 'shape': (4,),
 'index': RangeIndex(start=0, stop=4, step=1),
 'values': array([1, 2, 3, 4])}

In [5]:
pd.Series([1, 2, 3, 4], dtype=float), pd.Series(np.array([1, 2, 3, 4])), pd.Series(np.arange(1, 11))

(0    1.0
 1    2.0
 2    3.0
 3    4.0
 dtype: float64,
 0    1
 1    2
 2    3
 3    4
 dtype: int64,
 0     1
 1     2
 2     3
 3     4
 4     5
 5     6
 6     7
 7     8
 8     9
 9    10
 dtype: int64)

#### 2. value와 index 둘 다 주기

In [8]:
pd.Series([10, 20, 30, 40], index=[1, 2, 3, 4])  # 개수 안 맞으면 에러

1    10
2    20
3    30
4    40
dtype: int64

In [30]:
s = pd.Series([16000, 30000, 2000, 12000], index=['치킨', '초밥', '콜라', '삼겹살'])
{
  "series": s,
  "index": s.index,
  "values": s.values,
}

{'series': 치킨     16000
 초밥     30000
 콜라      2000
 삼겹살    12000
 dtype: int64,
 'index': Index(['치킨', '초밥', '콜라', '삼겹살'], dtype='object'),
 'values': array([16000, 30000,  2000, 12000])}

#### 3. 딕셔너리로 만들기

In [14]:
s = pd.Series({'치킨': 16000, '초밥': 30000, '콜라': 2000, '삼겹살': 12000})
s

치킨     16000
초밥     30000
콜라      2000
삼겹살    12000
dtype: int64

In [15]:
# Series에 이름 부여
s.name = '메뉴'
s

치킨     16000
초밥     30000
콜라      2000
삼겹살    12000
Name: 메뉴, dtype: int64

In [16]:
s.index.name = '메뉴명'
s

메뉴명
치킨     16000
초밥     30000
콜라      2000
삼겹살    12000
Name: 메뉴, dtype: int64

### 2. 인덱싱, 슬라이싱

In [17]:
# 0인덱스
s[0]

16000

In [18]:
s['치킨']

16000

In [28]:
t = pd.Series([10, 20, 30, 40], index=[1, 2, 3, 4])

In [29]:
(
  t[1],
  # t[0]  KeyError: 0
)

(10,)

In [31]:
s[['치킨', '콜라']]

치킨    16000
콜라     2000
dtype: int64

In [32]:
s[[0, 2]]

치킨    16000
콜라     2000
dtype: int64

In [33]:
s <= 15000

치킨     False
초밥     False
콜라      True
삼겹살     True
dtype: bool

In [35]:
s[s <= 15000]

콜라      2000
삼겹살    12000
dtype: int64

In [36]:
s[1:3]

초밥    30000
콜라     2000
dtype: int64

In [37]:
s['초밥':'콜라']

초밥    30000
콜라     2000
dtype: int64

### 3. CRUD
Create, Retrieve, Update, Delete

In [38]:
s.head()

치킨     16000
초밥     30000
콜라      2000
삼겹살    12000
dtype: int64

In [39]:
s.head(2)

치킨    16000
초밥    30000
dtype: int64

In [40]:
s['피자'] = 20000
s

치킨     16000
초밥     30000
콜라      2000
삼겹살    12000
피자     20000
dtype: int64

In [45]:
s['햄버거'] = np.NaN
s

치킨     16000.0
초밥     30000.0
콜라      2000.0
삼겹살    12000.0
피자         NaN
햄버거        NaN
dtype: float64

In [46]:
s.isnull()

치킨     False
초밥     False
콜라     False
삼겹살    False
피자      True
햄버거     True
dtype: bool

In [47]:
s[s.isnull()]

피자    NaN
햄버거   NaN
dtype: float64

In [48]:
del s['햄버거']
s

치킨     16000.0
초밥     30000.0
콜라      2000.0
삼겹살    12000.0
피자         NaN
dtype: float64

In [49]:
# 인덱스 라벨이 동일해야 함
s + pd.Series([20000, 30000, 2000, 12000, 20000], index=['치킨2', '초밥', '콜라', '삼겹살', '피자'])

삼겹살    24000.0
초밥     60000.0
치킨         NaN
치킨2        NaN
콜라      4000.0
피자         NaN
dtype: float64

In [50]:
s + 1000

치킨     17000.0
초밥     31000.0
콜라      3000.0
삼겹살    13000.0
피자         NaN
dtype: float64

In [51]:
s.max(), s.sum(), s.mean(), s.median(), s.std()

(30000.0, 60000.0, 15000.0, 14000.0, 11604.596790352807)

## 3. DataFrame
* 2차원 행렬데이터에 행인덱스, 열인덱스가 붙은 것 (엑셀 Sheet 유사)
* DataFrame = 2차원 배열의 값(value) + 행 인덱스(row index) + 열 인덱스(column)
* NumPy의 2차원 배열은 동일하 자료형을 가지지만 DataFrame은 열마다 자료형이 다를 수 있음

### 1. 생성하기

#### 1. value만 주기

In [55]:
df = pd.DataFrame([['삼성', 2000, '스마트폰'],
                   ['현대', 1000, '자동차'],
                   ['네이버', 500, '포털']])
{
  "DataFrame": df,
  "type": type(df),
  "shape": df.shape,
  "index": df.index,
  "columns": df.columns,
  "values": df.values,
}

{'DataFrame':      0     1     2
 0   삼성  2000  스마트폰
 1   현대  1000   자동차
 2  네이버   500    포털,
 'type': pandas.core.frame.DataFrame,
 'shape': (3, 3),
 'index': RangeIndex(start=0, stop=3, step=1),
 'columns': RangeIndex(start=0, stop=3, step=1),
 'values': array([['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']], dtype=object)}

In [56]:
df.values[0, 0], df.values[0][0], df[0][0], df.loc[0][0], df.loc[0, 0]

('삼성', '삼성', '삼성', '삼성', '삼성')

In [59]:
type(df[1][0]), type(df[0][0])

(numpy.int64, str)

In [61]:
df.head(2)

Unnamed: 0,0,1,2
0,삼성,2000,스마트폰
1,현대,1000,자동차


In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3 non-null      object
 1   1       3 non-null      int64 
 2   2       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


In [64]:
df.describe()

Unnamed: 0,1
count,3.0
mean,1166.666667
std,763.762616
min,500.0
25%,750.0
50%,1000.0
75%,1500.0
max,2000.0


#### 2. value와 index 둘다 주기

In [65]:
index = [1, 2, 3]
columns = ['기업명', '주가', '업종']
data = [['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']]
df = pd.DataFrame([['삼성', 2000, '스마트폰'],
                   ['현대', 1000, '자동차'],
                   ['네이버', 500, '포털']],
                  index=[1, 2, 3],
                  columns=['기업명', '주가', '업종'])
{
  "DataFrame": df,
  "index": df.index,
  "columns": df.columns,
  "values": df.values,
}

{'DataFrame':    기업명    주가    업종
 1   삼성  2000  스마트폰
 2   현대  1000   자동차
 3  네이버   500    포털,
 'index': Int64Index([1, 2, 3], dtype='int64'),
 'columns': Index(['기업명', '주가', '업종'], dtype='object'),
 'values': array([['삼성', 2000, '스마트폰'],
        ['현대', 1000, '자동차'],
        ['네이버', 500, '포털']], dtype=object)}

#### 3. 딕셔너리로 만들기 (열 기준!!)

In [71]:
df = pd.DataFrame({
  '기업명': ['삼성', '현대', '네이버'],
  '주가': [2000, 1000, 500],
  '업종': ['스마트폰', '자동차', '포털']
})
df

Unnamed: 0,기업명,주가,업종
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


In [68]:
df.index.name = '순서'
df.columns.name = '항목'
df

항목,기업명,주가,업종
순서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,삼성,2000,스마트폰
1,현대,1000,자동차
2,네이버,500,포털


#### 2. 