<a href="https://colab.research.google.com/github/julieisok/OurFisrtML/blob/master/1_pandas_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 분석 절차


|단계|제목|내용|
|:--:|:--|:--|
|1|연구 목표 설정|- 6단계의 산출물을 염두에 두고 결정<br>- 예:정확도 3%향상, 담당자의 메뉴에 추가, 신규 서비스(번역 등), 의사결정(정책결정) 자료 |
|2|데이터 획득/수집|- level 1 : 요청해서 제공받음 (공공, 사내, 연구기관/대학기관 등등). 어느정도 정제되어 있음<br>- level 2 : open API를 이용하여 획득<br>- level 3 : Web Scraping : 웹을 긁으면 데이터를 뽑을 수 있다<br>- level 4 : Crawling => selenium, 사람이 손을 타는 작업을 자동화 한다(ajax가 적용된 사이트)|
|3|데이터 준비|- 정제, 전처리, 시각화를 통해서 데이터에 대한 통찰을 얻는다.<br>- 데이터의 품질을 향상시키는데 방점<br>- pandas, matplotlib, 정규식|
|4|데이터 탐색|- pandas, matplotlib, seaborn 등등<br>- 데이터를 깊이 있게 이해하는데 주안점을 둔다. <br>- 변수간의 상호관계성, 시각적 분석(EDA), 통계적 분석, 
|5|데이터 모델링 및 모델 구축|- 머신러닝, 딥러닝의 모델을 구축<br>- 연구 목표의 답을 찾는 과정<br>- 머신러닝 : 지도학습, 비지도학습, 준지도학습, 강화학습<br>- 딥러닝 : CNN, RNN, DON, GAN, UNet,..등등. 신경망|
|6|시스템 통합 혹은 레포트|- 1단계에서 정한 목표를 산출물로 구현하는 단계<br>- 분석이라면 레포트 형태가, 분석 보고서 형태가 주종을 이룰 것이다. |


# pandas 개요

- pandas(판다스, 팬더스)는 R의 핵심 자료구조인 데이터프레임, 시리즈를 파이썬에 추가한 모듈
- R에 대응하는 파이썬의 모듈이 pandas이다
- numpy를 기반으로 구현
- Python Data Analysis Library
- https://pandas.pydata.org/

# pandas 기초


In [0]:
# 기본 표현으로 모듈 가져오기 
import numpy as np 
import pandas as pd

In [3]:
print( dir(pd) )

['Categorical', 'CategoricalDtype', 'CategoricalIndex', 'DataFrame', 'DateOffset', 'DatetimeIndex', 'DatetimeTZDtype', 'ExcelFile', 'ExcelWriter', 'Float64Index', 'Grouper', 'HDFStore', 'Index', 'IndexSlice', 'Int16Dtype', 'Int32Dtype', 'Int64Dtype', 'Int64Index', 'Int8Dtype', 'Interval', 'IntervalDtype', 'IntervalIndex', 'MultiIndex', 'NaT', 'NamedAgg', 'Panel', 'Period', 'PeriodDtype', 'PeriodIndex', 'RangeIndex', 'Series', 'SparseArray', 'SparseDataFrame', 'SparseDtype', 'SparseSeries', 'Timedelta', 'TimedeltaIndex', 'Timestamp', 'UInt16Dtype', 'UInt32Dtype', 'UInt64Dtype', 'UInt64Index', 'UInt8Dtype', '__builtins__', '__cached__', '__doc__', '__docformat__', '__file__', '__git_version__', '__loader__', '__name__', '__package__', '__path__', '__spec__', '__version__', '_config', '_hashtable', '_lib', '_libs', '_np_version_under1p14', '_np_version_under1p15', '_np_version_under1p16', '_np_version_under1p17', '_tslib', '_typing', '_version', 'api', 'array', 'arrays', 'bdate_range', 'c

In [4]:
pd.__version__

'0.25.3'

In [0]:
# pandas 1.0 버전 설치하고 싶을때 명령어 
# ! 명령어 
# 이 명령을 통해 리눅스 상에 특정 명령을 지시할 수 있다 
! pip install pandas==1.0.1

## Series

- pandas의 자료구조 중, 1차원 형태의 자료구조
- n개의 구성원을 가질 수 있고, 한 개의 Series에서는 모든 구성원이 동일한 타입을 가진다



In [8]:
# 첫글자 대문자 - Class 의미 
# NaN(난, or 넌) : Not a Number : 데이터가 없다 => 결측치 
# 리스트로부터 시리즈 생성
a = pd.Series( [ 1, 3, 5, np.nan, 6, 8] )
a

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### 자료구조가 만들어지면 

- 데이터의 볼륨, 타입, 성분, 모양, 특징 등등을 살핀다
- 데이터에 대한 **통찰**을 얻기 위한 작업

In [9]:
# Series의 타입을 확인
a.dtype

dtype('float64')

In [10]:
# Series의 모양, 볼륨을 확인
# shape은 튜플로 리턴, 1차원부터 차례대로 크기를 기술
a.shape

(6,)

In [12]:
# Series의 차원
a.ndim, len(a.shape)

(1, 1)

In [13]:
# 인덱스 : 시리즈의 왼쪽에 위치, 데이터의 순서를 표방
a.index

RangeIndex(start=0, stop=6, step=1)

## DataFrame

- pandas의 메인 자료 구조 
- 2차원(2D)으로 표현
- 성분 = 인덱스(행, rows), 컬럼(열, cols), 값(values)
 - 데이터의 개수는 => rows 
 - 데이터의 특성(features, 변수)수 => cols
 - 특성의 성분들 중에는 
   - 독립변수 : 상호 영향을 미치지 않는다
   - 종속변수 : 독립변수에 의해서 값이 정해지거나 등등 영향을 받는다 -> 머신러닝에서는 label(답)이라 표현하고, 지도학습법 데이터의 형태이다 

In [14]:
# DataFrame 만들어보기
# 더미 컬럼
cols = list('ABCD')
cols

['A', 'B', 'C', 'D']

In [17]:
# 더미 인덱스
indexes = pd.date_range('20200211', periods=7)
indexes
# 인덱스 7개, 컬럼 4개 
len(indexes), len(cols)

(7, 4)

In [18]:
# 더미 값 => (7,4)
datas = np.random.randn(7,4)
datas.shape, datas

((7, 4), array([[ 0.70623117, -0.73150784, -0.5552628 , -0.25369629],
        [ 1.44186158,  0.90081587,  0.3988852 ,  1.91107615],
        [ 0.0560901 , -0.15594926,  0.17583694, -0.0549742 ],
        [ 0.84444905,  0.09730459, -1.97633307, -0.535782  ],
        [-0.11727719,  1.6889284 , -1.24763214, -1.18810997],
        [ 0.75222674, -0.92408311, -1.15503363,  0.93956763],
        [-0.0122367 ,  0.50547451, -0.40655994, -1.86836702]]))

In [20]:
# df 생성
df = pd.DataFrame( datas, indexes, cols )
print( df )

                   A         B         C         D
2020-02-11  0.706231 -0.731508 -0.555263 -0.253696
2020-02-12  1.441862  0.900816  0.398885  1.911076
2020-02-13  0.056090 -0.155949  0.175837 -0.054974
2020-02-14  0.844449  0.097305 -1.976333 -0.535782
2020-02-15 -0.117277  1.688928 -1.247632 -1.188110
2020-02-16  0.752227 -0.924083 -1.155034  0.939568
2020-02-17 -0.012237  0.505475 -0.406560 -1.868367


## 데이터의 기초 통찰을 얻기위한 점검

- 데이터가 데이터프레임으로 로드된 후 점검할 사항

In [23]:
# 상위값 확인
df.head() # 기본으로 출력되는 값 : 5개
print( df.head(2) ) 

                   A         B         C         D
2020-02-11  0.706231 -0.731508 -0.555263 -0.253696
2020-02-12  1.441862  0.900816  0.398885  1.911076


In [25]:
# 하위값 확인
print( df.tail(2) )

                   A         B         C         D
2020-02-16  0.752227 -0.924083 -1.155034  0.939568
2020-02-17 -0.012237  0.505475 -0.406560 -1.868367


In [27]:
# 성분별 확인
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [28]:
df.index

DatetimeIndex(['2020-02-11', '2020-02-12', '2020-02-13', '2020-02-14',
               '2020-02-15', '2020-02-16', '2020-02-17'],
              dtype='datetime64[ns]', freq='D')

In [29]:
df.values

array([[ 0.70623117, -0.73150784, -0.5552628 , -0.25369629],
       [ 1.44186158,  0.90081587,  0.3988852 ,  1.91107615],
       [ 0.0560901 , -0.15594926,  0.17583694, -0.0549742 ],
       [ 0.84444905,  0.09730459, -1.97633307, -0.535782  ],
       [-0.11727719,  1.6889284 , -1.24763214, -1.18810997],
       [ 0.75222674, -0.92408311, -1.15503363,  0.93956763],
       [-0.0122367 ,  0.50547451, -0.40655994, -1.86836702]])

In [30]:
# 값들의 타입은 배열
type(df.values)

numpy.ndarray

In [31]:
# 데이터프레임의 볼륨
df.shape

(7, 4)

In [32]:
# 데이터프레임의 타입들(컬럼별로 타입이 다를수 있다)
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

In [33]:
# 데이터프레임의 기본 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 7 entries, 2020-02-11 to 2020-02-17
Freq: D
Data columns (total 4 columns):
A    7 non-null float64
B    7 non-null float64
C    7 non-null float64
D    7 non-null float64
dtypes: float64(4)
memory usage: 280.0 bytes


In [36]:
# 데이터프레임의 기초통계정보 - 
print( df.describe() )

              A         B         C         D
count  7.000000  7.000000  7.000000  7.000000
mean   0.524478  0.197283 -0.680871 -0.150041
std    0.569821  0.919223  0.838164  1.267166
min   -0.117277 -0.924083 -1.976333 -1.868367
25%    0.021927 -0.443729 -1.201333 -0.861946
50%    0.706231  0.097305 -0.555263 -0.253696
75%    0.798338  0.703145 -0.115361  0.442297
max    1.441862  1.688928  0.398885  1.911076


## 데이터 다루기 


In [37]:
# B열기준 데이터를 정렬, 내림차순
df.sort_values( by='B', ascending=False )

ImportError: ignored

                   A         B         C         D
2020-02-15 -0.117277  1.688928 -1.247632 -1.188110
2020-02-12  1.441862  0.900816  0.398885  1.911076
2020-02-17 -0.012237  0.505475 -0.406560 -1.868367
2020-02-14  0.844449  0.097305 -1.976333 -0.535782
2020-02-13  0.056090 -0.155949  0.175837 -0.054974
2020-02-11  0.706231 -0.731508 -0.555263 -0.253696
2020-02-16  0.752227 -0.924083 -1.155034  0.939568

In [39]:
# 인덱싱 -> 데이터프레임이 시리즈로 차원축소가 된다는 의미 
# 시리즈의 인덱싱 => 차원축소가 되서, 스칼라(값)이 된다는 의미 
# 컬럼만 가능하다 
# 컬럼은 데이터프레임의 멤버변수가 자동으로 성립된다 

df[ 'A' ], df.A

(2020-02-11    0.706231
 2020-02-12    1.441862
 2020-02-13    0.056090
 2020-02-14    0.844449
 2020-02-15   -0.117277
 2020-02-16    0.752227
 2020-02-17   -0.012237
 Freq: D, Name: A, dtype: float64, 2020-02-11    0.706231
 2020-02-12    1.441862
 2020-02-13    0.056090
 2020-02-14    0.844449
 2020-02-15   -0.117277
 2020-02-16    0.752227
 2020-02-17   -0.012237
 Freq: D, Name: A, dtype: float64)