# 데이터 분석과 개념 확립

## 데이터 분석 트렌드 변화
- 데이터 : 여러 정보의 집합
- 1. 전통 통계 :
     - 초기 현장에서는 통계를 활용해 데이터를 분석하고 처리
     - 통계 : 모집단 (파악하고자 하는 바)에서 표본 (수집 가능 및 처리 가능한) 데이터를 추출(sampling) 하여 분석한 통계량을 바탕으로 모집단을 추정(estimation)한 과정
     - 데이터 수집의 한계로, 적은 데이터를 가지고 예측
- 2. 데이터 마이닝 :
     - 통계학과 컴퓨터 기술 발전이 결합되어, 기존에 다루던 사이즈보다 더 큰 규모의 데이터를 다룰 수 있게 됨
     - 모집단의 개념 없이, 전체 데이터를 컴퓨터가 학습 및 처리하여, 기존에 없던 새로운 규칙이나 수식을 도출하는 형태로 분석
     - 기존 통계학과 달리 확보된 데이터가 모집단을 의미
     - 1990년도 식스시그마라는 이름의 문제해결 방법으로 기업에 등장 및 사용
- 3. 빅데이터 :
     - IT 기술의 발전으로, 기존에 다루던 데이터보다 더 큰 데이터를 다룰 수 있게 됨
     - 두 가지 관점의 변화
         - 데이터 사이즈 : 병렬 컴퓨팅이 가능해지며, 이전에 한 대에서 처리하던 방식에서 여러 컴퓨터로 연산이 가능해짐 (MPI / MapReduce)
         - 데이터 구조 : 기존에는 정형데이터 (Excel, RDB, CSV, SQL)에 한정된 분석을 했지만, 비정형 데이터 (이미지, 소리, 영상, 자연어 등)과 같은 데이터를 처리하고 분석하는 기술이 등장
      
- IT 기술 뿐 아니라 통계적인 개념과 실무에서 어떻게 데이터를 분석하는지에 대한 전체적인 흐름을 읽을 수 있어야 함

## 데이터 분석 절차
- 1. 기술적 데이터 분석 (Descriptive Data Analysis)
     - 데이터를 가져와서 데이터의 기본적인 정보를 파악
     - 데이터의 구조와 타입을 확인
     - 목표변수 (Y, Output, Label, Target : 문제 해결에 있어 핵심이 되는 data)와 설명변수 (X, Input, Feature)를 설정
     - 기술통계량 확인 (평균 / 중위수 / 분산 / 빈도수 / etc )
- 2. 탐색적 데이터 분석 (Exploratory D A)
     - 앞서 확인한 목표 변수와 설명 변수 간 관계를 파악
     - 데이터 시각화
- 3. 확증적 데이터 분석 (Confirmatory D A)
     - 데이터 간 연관성 / 상관성 / 유사성 등을 가설로 수립하여, 객관적인 수치로 검증
     - 검정을 통해 비지니스 인사이트 도출
- 4. 예측적 데이터 분석 (Predictive D A)
      - 목표변수와 설명변수 간의 관계를 수식화하여 (Modeling), 새로 등장할 데이터에 대해 예측하거나 대응
      - 회귀분석 / 머신러닝
      - 최적화 / 시스템화

# Jupyter Notebook 사용법
- cell : 코드나 마크다운을 작성하는 하나의 상자
- markdown mode : 마크다운이란 마크업 언어의 일종이다

- 단축키 : (Esc 입력 후 입력)
    - [a] : above : 현재 위치한 셀 상단에 셀 추가
    - [b] : below : 현재 위치한 셀 하단에 셀 추가
    - [x ] : 잘라내기
    - [DD] : 삭제 (두 번 입력)
    - [z] : 실행취소 : 셀에서 실행취소 (Ctrl) / 노트북 자체 실행취소 (Esc)
    - [M]: 마크다운 모드로 변경
    - [Y]: 코드 모드로 변경
      
- [shift] + [Enter] : 셀 실행
- [Alt] + [Enter] : 하단에 셀을 하나 추가하며 현재 셀 실행
- [Ctrl] + [S] : 저장
- [Ctrl] + [/] : 주석변환 : 코드 모드일 때 주석을 달기 위해 사용

# 헤더1 : 제일 큰 헤더
## 헤더2 : 2번째로 큰 헤더
**굵은 글씨로 표현**
# **헤더와 함께 굵은 글씨**

# 파이썬 기초 문법 

## 변수의 개념
- 변수 : 데이터를 들고 다니는 공간
- 변수를 선언한다 : 등호 왼쪽에 변수 이름을, 등호 오른쪽에 데이터를 입력

In [51]:
data1 = 101
data2 = 10.1

In [52]:
data1

101

In [53]:
data3 # 정의되지 않은 변수

'파이썬 데이터 분석'

In [54]:
data1 + data2

111.1

## 데이터 타입 

- 숫자형 / 문자형 / 논리형
- 숫자형 : int 정수형 / float 소수점까지 표현
- 문자형 : 문자열 str
- 논리형 : 참 혹은 거짓 (True / False)

- 파이썬은 대소문자를 구분!
- type(): 데이터 타입을 확인할 수 있는 함수

In [55]:
data3 = '파이썬 데이터 분석' # 문자형 변수 선언 시, 따옴표 사용해야함

In [56]:
data3

'파이썬 데이터 분석'

In [57]:
type(data3)

str

In [58]:
# 논리형
True

True

In [59]:
False

False

In [60]:
type(True) # 논리형 : boolean

bool

In [61]:
int1 = 1
float1 = 1.0

In [62]:
type(int1) # 정수형

int

In [63]:
type(float1) # 실수형 소수점 표현

float

## 파이썬 연산자
- 데이터 타입에 따라 연산 방법이 달라짐

In [64]:
data1 + data2 # 덧셈

111.1

In [65]:
data1 - data2 # 뺼셈

90.9

In [66]:
data1 * data2 # 곱셈

1020.0999999999999

In [67]:
data1 / data2 # 나눗셈

10.0

In [68]:
7//2 # 2로 나눈 몫

3

In [69]:
7%2 # 2로 나눈 나머지

1

In [70]:
( (1+4) * 2 ) / 5 # 괄호 적용됨

2.0

In [28]:
# 문자 데이터
data4 = 'python 데이터'
data5 = '분석'

In [30]:
data4 + data5 # 두 개의 문자열을 이어붙여 쓴다

'python 데이터분석'

In [31]:
data4 + ' ' + data5

'python 데이터 분석'

In [33]:
data5 * 3 # 세 번 반복 출력

'분석분석분석'

In [34]:
data4 > data5
# 알파벳 순서 상 뒤에 위치한게 더 큼
# 알파벳이 한글보다 큼

False

In [35]:
'Z' > 'A'

True

# 논리형 연산 (비교구분)

In [39]:
data6 = 50
data7 = 90

In [40]:
data6 < data7 # 후자가 더 크다

True

In [42]:
data6 >= data7 # 크거나 같다 

False

In [43]:
data6 == data7 # 같다

False

In [44]:
data6 != data7 # 같지 않다

True

In [45]:
# print 함수
# 출력해주는 함수

In [46]:
print('안녕하세요')

안녕하세요


In [47]:
'안녕하세요'

'안녕하세요'

In [49]:
data4
data5

# 이 경우, data4는 출력되지 않음

'분석'

In [50]:
print(data4)
print(data5)

python 데이터
분석


## 파이썬 자료 구조
- 하나의 폴더 안에 여러 파일이 있듯
- 하나의 자료구조 안에 여러 데이터가 들어감
- List []
- Tuple ()
- Set { } # 집합 연산이 가능한 구조
- Dictionary {'key1' : 'value1', 'key2' : 'value2', ...}

## 리스트
- [ 대 괄 호 ] 로 구성
- 데이터에 순서가 있음
- 중복값 허용
- 데이터 수정 가능

In [75]:
data8 = [20, 30, 40, 50] # 순서가 있다는 말은 오름 / 내림차순으로 표현하지 않는다는 것

In [72]:
data8

[20, 30, 40, 50]

In [73]:
type(data8)

list

In [76]:
# append
data8.append(150)

In [77]:
data8

[20, 30, 40, 50, 150]

In [78]:
# remove 삭제
data8.remove(30)

In [79]:
data8

[20, 40, 50, 150]

In [83]:
# inset 위치를 지정하여 추가
data8.insert(0, 'a') # 0번쨰 자리에 a 추가 됨

In [84]:
data8

['a', 'a', 20, 40, 50, 150]

In [86]:
# 인덱싱
data8[0] # 파이썬은 인덱스가 0으로 시작

'a'

In [87]:
data8[4]

50

In [90]:
data8[-1] # 맨 뒤에 있는 인덱스

150

In [91]:
# 슬라이싱
data8[0:3] # n번부터 m-1번까지 호출

['a', 'a', 20]

In [92]:
data8

['a', 'a', 20, 40, 50, 150]

In [93]:
data8[3:]

[40, 50, 150]

In [96]:
data8[-3:] # 콜론만 쓰면 그 뒤 전부 호출

[40, 50, 150]

In [97]:
data8[:-3] # 뒤에서 세번째까지 보여달라

['a', 'a', 20]

In [98]:
# 데이터 변환
data8[0] = 'z'

In [99]:
data8

['z', 'a', 20, 40, 50, 150]

## 튜플
- (소 괄 호)로 구성
- 중복값을 허용
- 수정 불가

In [100]:
data9 = (2, 5, 7)
data9

(2, 5, 7)

In [101]:
type(data9)

tuple

In [103]:
# 인덱싱
data9[0]
# 튜플 또한 순서가 있기에 인덱싱 가능

2

In [104]:
data9[0] = 'z'

TypeError: 'tuple' object does not support item assignment

In [105]:
# 튜플 수정
# 리스트로 변환

list(data9) # 출력만 해주는 함수

[2, 5, 7]

In [107]:
tuple1 = (1, 2, 3)
list1 = list(tuple1)
list1

[1, 2, 3]

In [108]:
# 수정
list1[0] = 'a'
list1

['a', 2, 3]

In [109]:
tuple2 = tuple(list1)
tuple2

('a', 2, 3)

## Set 세트
- {중 괄 호} 구성
- 중복값이 없음
- 데이터 수정 가능
- 집합 연산이 가능

In [110]:
set1 = {5, 1, 5, 4, 3, 2, 1}
set1

{1, 2, 3, 4, 5}

In [111]:
len(set1)
# len( ): 자료구조 내 몇 개의 데이터가 있는지 확인하는 함수
# length

5

In [112]:
# 집합 연산
set2 = {20, 30, 40, 50, 60}
set3 = {50, 60, 70, 80}

In [113]:
# 교집합
set2 & set3

{50, 60}

In [114]:
# 합집합
set2 | set3

{20, 30, 40, 50, 60, 70, 80}

In [115]:
# 대상차집합
# 교집하블 제외한 데이터
set2 ^ set3

{20, 30, 40, 70, 80}

In [117]:
set2[0] # 순서가 없어서 인덱스라는게 없음

TypeError: 'set' object is not subscriptable

## Dictionary
- key와 value로 구성
- {'key1' : 'value1', 'key2' : 'value2', ...}
- 순서는 key 기준으로 정렬
- 정형데이터의 기본 구성 요소

In [131]:
dict1 = {'이름' : '스펀지밥', '직업' : '햄버거 가게 아르바이트'}

In [132]:
dict1

{'이름': '스펀지밥', '직업': '햄버거 가게 아르바이트'}

In [133]:
dict1['이름']

'스펀지밥'

In [134]:
# 데이터 추가
dict1['친구'] = '핑핑이'
dict1

{'이름': '스펀지밥', '직업': '햄버거 가게 아르바이트', '친구': '핑핑이'}

In [135]:
# 키 확인
dict1.keys()

dict_keys(['이름', '직업', '친구'])

In [136]:
# 값 확인
dict1.values()

dict_values(['스펀지밥', '햄버거 가게 아르바이트', '핑핑이'])

In [137]:
# 두 개의 리스트를 하나의 딕셔너리로 병합 가능
dict2 = ['이름', '나이', '지역', '성별']
dict3 = ['홍길동', '20', '서울', '남자']

In [138]:
type(dict2)

list

In [141]:
dict(zip(dict2, dict3))
# dict2 : keys
# dict3 : values

TypeError: 'dict' object is not callable

## 문자열 처리
- 문자 데이터 에 대한 다양한 처리
- 정형 데이터 뿐 아니라 자연어 처리에서도 사용되는 함수들이 존재

In [142]:
# 문자 데이터 출력 시 따옴표 사용
'파이썬 데이터 분석'

'파이썬 데이터 분석'

In [144]:
# 여러 줄을 입력하는 경우
''' 안녕하세요
감사해요 
잘 있어요
다시 만나요'''

' 안녕하세요\n감사해요 \n잘 있어요\n다시 만나요'

In [145]:
# \n을 안보고 싶은 경우
print( ''' 안녕하세요
감사해요
잘 있어요
다시 만나요''')

 안녕하세요
감사해요
잘 있어요
다시 만나요


In [148]:
print('오늘부터 파이썬 전문가 \n쉽지 않은 여정')
# \n을 이용해 엔터 출력 가능

오늘부터 파이썬 전문가 
쉽지 않은 여정


In [151]:
# 따옴표를 구분해야하는 경우
" '사실 저도 당신을 좋아합니다' 라고 속으로 생각했다."
# 문장 내 따옴표를 사용하려는 경우
# 큰/ 작은 따옴표를 구분해서 사용한다

" '사실 저도 당신을 좋아합니다' 라고 속으로 생각했다."

## 문자열 연산 응용
- 함수 사용

In [152]:
text1 = '오늘도 비가 올까요'
len(text1) # 띄어쓰기 포함하여 몇 글자인지 세준다

10

In [154]:
text2 = '온종일 비가 온 날은 하얀 얼굴로 그대를 만나리'
text2[0]
# 문자열 인덱싱

'온'

In [155]:
# 문자열 슬라이싱
text2[0:10] # n부터 m-1까지 출력
# 0 ~ 9 까지 출력

'온종일 비가 온 날'

In [156]:
# 포메팅
mbti = 'entj'
blood_type = 'rh+o'

f'안녕하세요 저의 mbti는 {mbti}입니다. 혈액형은 {blood_type}입니다.'

'안녕하세요 저의 mbti는 entj입니다. 혈액형은 rh+o입니다.'

In [157]:
'안녕하세요 저의 mbti는 ' + mbti + '입니다.'

'안녕하세요 저의 mbti는 entj입니다.'

In [160]:
# 딕셔너리를 활용한 포메팅

text4 = {'이름' : '홍길동', '나이' : 20, 'MBTI' : 'ENFP'}
f'안녕하세요 저의 이름은 {text4["이름"]}이고 나이는 {text4["나이"]}입니다.'
# 따옴표 구분이 필요하다

'안녕하세요 저의 이름은 홍길동이고 나이는 20입니다.'

In [161]:
# 문자 개수 세기
text5 = 'show me the money'
text5.count('e')

3

In [162]:
text5.count('show')
# 대소문자 구분 필요

1

In [164]:
# 대/소문자 변환
text5.upper()

'SHOW ME THE MONEY'

In [165]:
text5.lower()

'show me the money'

In [166]:
# 문자의 위치 찾기
text5.find('m')

5

In [167]:
# 문자열 나누기
text5.split(' ')

['show', 'me', 'the', 'money']

In [169]:
## input()
input()

 텍스트를 입력하시오


'텍스트를 입력하시오'

In [171]:
inp1=input()

 1


In [173]:
type(inp1)
# input() 함수는 디폴트로 str 타입 데이터를 입력받는다.

str

In [174]:
inp2 = int(input('숫자를 입력하시오'))

숫자를 입력하시오 5


In [175]:
type(inp2)

int

In [177]:
name1 = input('이름을 입력하시오')
type1 = input('종을 입력하시오')

input_dict = {name1 : type1}

이름을 입력하시오 고래
종을 입력하시오 포유류


In [178]:
input_dict

{'고래': '포유류'}

# 파이썬 구문 (Statement)
- 특정 코드 반복 / 조건 만족 시 

## 조건문
- if / elif / else
- in / not in
- pass

In [199]:
# if
data1 = 50

if data1 >= 100: # 해당 조건을 만족하면, 바로 아래 구문들을 실행
    print('해당 데이터는 100보다 큽니다')
    # 들여쓰기 : tab이나 space를 이용해 문장의 종속관계를 표현
else: # if나 elif를 만족하지 않는 경우 else를 실행
    print('해당 데이터는 100보다 작습니다')

해당 데이터는 100보다 작습니다


In [200]:
# elif: 여러 조건을 걸고 싶은 경우
data2 = 70

if data2 >= 90:
    print('A')
elif data2 >= 80:
    print('B')
elif data2 >= 70:
    print('C')
else:
    print('F')

C


In [202]:
# in / not in
# 문자열이 들어갔는지 확인

data3 = 'python 데이터 분석'

if 'python' in data3:
    print('A')
elif '데이터' in data3:
    print('B')
elif '분석' in data3:
    print('C')
else:
    print('D')

# if문을 사용하는 경우 첫번째 조건을 만난 후, 이후의 코드는 생략

A


In [203]:
if 'java' in data3:
    print('java')
elif 'python' in data3:
    print('python')
else:
    print('R')

python


In [204]:
# 리스트 내 특정 값이 있는지 확인 (in)

data4 = [100, 200, 300, 400]

if 100 in data4:
    print('A')
else:
    print('F')

A


In [205]:
# 특정 값이 없는 경우 확인 (not in)
if 100 not in data4:
    print('A')
else:
    print('F')

F


In [206]:
# else 구문 사용하지 않아도 if문 사용 가능
data5 = [1000, 2000, 3000]
if 1000 in data5:
    print('A')
elif 2000 in data5:
    print('B')

A


In [207]:
# pass : 아무것도 실행하지 않음
data6 = ['A', 'B', 'C']
if 'A' in data6:
    pass
elif 'D' in data6:
    print('F')

In [208]:
# 조건부 표현식
data7 = 200

if data7 > 30:
    data8 = 'A'
else:
    data8 = 'B'

data8

'A'

In [210]:
# 변수 = (조건문이 참일 때 부여할 값) if (조건식) else (조건문이 거짓일 때 부여할 값)
data8 = 'A' if data7 >= 30 else 'B'
data8

'A'

## 반복문
- while
- for

In [211]:
# while
data9 = 200
# while data9 > 50:
#     print('go')

# 조건문이 참인 경우
# 이하의 코드를 반복실행

In [212]:
while data9 > 50:
    print('go')
    break # 중지

go


In [213]:
data10 = 0

while data10 < 10:
    data10 = data10 + 1
    print(data10)

1
2
3
4
5
6
7
8
9
10


In [218]:
data10 = 0

while data10 < 10:
    data10 +=1 # data10 = data10 + 1
    print(data10)

1
2
3
4
5
6
7
8
9
10


In [219]:
# 조건 초기화
# continue
# 해당 조건을 만나면 이후의 코드를 모두 생략한 후 처음으로 돌아가서 실행

data1 = 0
while data1 < 5:
    data1 += 1

    if data1 == 3:
        continue

    print(data1)

1
2
4
5


# for문
- for와 in 같이 씀
- range(n, m): n부터 m-1까지 출력

In [221]:
for i in range(0, 4):
    print(i)

0
1
2
3


In [222]:
list1 = ['a', 'b', 'c', 'd', 'e']
for i in list1:
    print(i)

a
b
c
d
e


In [224]:
# range와 인덱스 번호를 병용할 떄
list2 = ['a', 'b', 'c', 1, 2, 3]
for i in range(len(list2)):
    print(i, list2[i])

# 인덱싱을 사용하기 위해
# for i in ragne(len(변수)):
# i를 뺴와서 인덱스 번호와 데이터를 순차적으로 호출

0 a
1 b
2 c
3 1
4 2
5 3


In [227]:
list3 = [1, 2, 3, 3, 2, 1]
for i in range(len(list3) - 1):
    print(list3[i] + list3[i+1])

3
5
6
5
3


In [229]:
for i in [100, 200, 300]:
    print(i + i/10 + i/100)

111.0
222.0
333.0


In [230]:
# 튜플 unpacking
data2 = [(100, 200), (300, 400), (500, 600)]

for i, j in data2:
    print(i, j)
    print(i + j)

100 200
300
300 400
700
500 600
1100


In [231]:
data3 = []
for i in range(0, 10):
    data3.append(i)

data3

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [232]:
# list comprehension
[x for x in range(0, 10)]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [233]:
# 1~11 까지 중 짝수인 값만 리스트로 생성
[x for x in range(1, 11) if x % 2 ==0]

[2, 4, 6, 8, 10]

In [235]:
# 특정 리스트 내 모든 숫자 데이터의 합
data4 = [1, 10, 100, 1000]
result1 = 0

for i in data4:
    result1 = result1+i
    print(result1)

1
11
111
1111


In [236]:
sum(data4)
#sum(): 자료구조 내의 값을 합쳐 반환해주는 함수

1111

In [238]:
# 반복문과 조건문 병용

toystory = ['alien', 'buzz', 'woody', 'alien']

for claw in toystory:
    if claw == 'buzz':
        print('to infinity')
    elif claw == 'woody':
        print('snake in my boots')
    elif claw == 'alien':
        print('wooooo')

wooooo
to infinity
snake in my boots
wooooo
