# __Python data analysis 시작하기__
<br>

### Table of contents
1. [Pandas : Python Data Analysis Library](#p2section1)
2. [Dataframe](#p2section2)
    - [Dataframe 생성](#p2section21)
    - [데이터값 확인](#p2section22)
    - [필터링](#p2section23)
    - [데이터 합병](#p2section24)
    - [기타 처리](#p2section25)

<br>

## __Pandas : Python Data Analysis Library__ <a name="p2section1"></a>
리스트와 같은 기본 데이터 구조를 사용해서도 많은 작업을 할 수 있지만,  
좀 더 쉽게 다루기 위한 여러 기능들을 모아 라이브러리로 배포하고 있습니다.  
그 중 대표적인 것은 pandas 입니다.  
https://pandas.pydata.org/  
홈페이지에서 상세 기능들을 볼 수 있으며 아래와 같은 주요 기능들이 있습니다.  
> Intro to Data Structures  
Essential Basic Functionality  
Working with Text Data  
Indexing and Selecting Data  
MultiIndex / Advanced Indexing  
Computational tools  
Working with missing data  
Group By: split-apply-combine  
Merge, join, and concatenate  
Reshaping and Pivot Tables  
Time Series / Date functionality  
Time Deltas  
Categorical Data  
Visualization  
IO Tools (Text, CSV, HDF5, …)  
Enhancing Performance  

## __Dataframe__ <a name="p2section2"></a>
DB의 테이블과 같은 기능을 하는 데이터 형태는 Dataframe 으로 정의 됩니다.  
R 에서도 dataframe 라느 이름으로 유사한 구조를 제공합니다.  
한 개의 column 은 Series 로 정의됩니다.

In [1]:
from pandas import Series, DataFrame
import pandas as pd

### __Dataframe 생성__ <a name="p2section21"></a>

In [2]:
# 개별 칼럼을 dictionary 의 한 개 키에 매핑되는 리스트로 표현
# default 로 index 는 0 부터 숫자로 대입
data1 = {'name': ['chulsoo', 'younghee', 'soonhee'], 'deposit': [300, 500, 1000], 'debt': [100, 120, 200]}
df1 = DataFrame(data1)
print(df1)
df1.index = ['id1', 'id2', 'id3'] # index 값 바꾸어 주기
print('\n', df1)
df1.columns = ['name1', 'deposit2', 'debt3']
print('\n', df1)
# 각 index 에 해당하는 데이터 값들을 list 형태로 입력 가능합니다.
# column 명과 index 명은 별도로 줄 수 있습니다.
df2 = DataFrame([['charles', 100, 40], ['jane', 20, 50], ['mary', 30, 60]], columns=['name', 'english', 'math'], 
                index=[1,2,3]) 
print('\n', df2)

       name  deposit  debt
0   chulsoo      300   100
1  younghee      500   120
2   soonhee     1000   200

          name  deposit  debt
id1   chulsoo      300   100
id2  younghee      500   120
id3   soonhee     1000   200

         name1  deposit2  debt3
id1   chulsoo       300    100
id2  younghee       500    120
id3   soonhee      1000    200

       name  english  math
1  charles      100    40
2     jane       20    50
3     mary       30    60


In [3]:
# reindex : index, column 명 변경  
# 새로운 컬럼명이 주어질 경우 그에 해당하는 컬럼이 새롭게 추가됩니다.  
# default로 NaN(not a number) 이 주어지고, 이에 대한 설정도 가능합니다.  
df3 = df2.reindex(columns=['name', 'english', 'math', 'science']) # 새로운 컬럼 science 생성
print(df3)
df4 = df2.reindex(columns=['name', 'english', 'math', 'science'], fill_value=0) # 새로운 값 0으로 설정
print('\n', df4)
df5 = df3.drop(columns='science', index=2) # 특정 컬럼 및 index 삭제
print('\n', df5)

      name  english  math  science
1  charles      100    40      NaN
2     jane       20    50      NaN
3     mary       30    60      NaN

       name  english  math  science
1  charles      100    40        0
2     jane       20    50        0
3     mary       30    60        0

       name  english  math
1  charles      100    40
3     mary       30    60


### __데이터값 확인__ <a name="p2section22"></a>

In [4]:
print(df2['name'])
# 컬럼 데이터 확인  
# 클래스의 attributes 와 같은 형태로도 호출 가능합니다 
print('\n', df2.name) 
# 특정 index에 대한 호출은 loc(index 값), iloc(index 위치) 를 이용합니다.
print('\n', df2.loc[1]) 
print('\n', df2.iloc[0]) 
print('\n', df2.loc[(1,), ('english', 'math')]) # row 1 의 ['english', 'math'] column
print('\n', df2.loc[1,'english']) # index 1 의 'english' column
print('\n', df2.loc[:,'english']) # index 전체의 'english' column
# 테이블 값의 변경
df2.loc[1, 'english'] = 98 # 개별 element의 값 변경 (index, column 순서)
print('\n', df2) 

1    charles
2       jane
3       mary
Name: name, dtype: object

 1    charles
2       jane
3       mary
Name: name, dtype: object

 name       charles
english        100
math            40
Name: 1, dtype: object

 name       charles
english        100
math            40
Name: 1, dtype: object

    english  math
1      100    40

 100

 1    100
2     20
3     30
Name: english, dtype: int64

       name  english  math
1  charles       98    40
2     jane       20    50
3     mary       30    60


### __필터링__ <a name="p2section23"></a>

In [5]:
print( df2[df2['math']>40] ) # 'math' 값이 40 이상인 데이터
print('\n', df2[df2['math']>40]['name'] ) # 'math' 값이 40 이상인 데이터의 'name' 컬럼
df2.loc[df2.math < 50, 'math'] = 0 # 'math' 값이 50 이하인 값들은 0으로 설정
# note : df2.loc[df2.math < 50] = 0 와 같이 할 경우 math 컬럼 외 다른 컬럼의 값도 0으로 변경
print('\n', df2)

   name  english  math
2  jane       20    50
3  mary       30    60

 2    jane
3    mary
Name: name, dtype: object

       name  english  math
1  charles       98     0
2     jane       20    50
3     mary       30    60


### __데이터 합병__ <a name="p2section24"></a>

In [8]:
print(df2)
df2b = DataFrame([['ray', 90, 30], ['charlie', 40, 50]], index=[4,5], columns=['name', 'english', 'math'])
print('\n', df2b)
df2c = DataFrame([[50], [65], [33]], index=[1,2,3], columns=['science'])
print('\n', df2c)
df4 = pd.concat([df2, df2b]) # 원래의 df2 에 새로운 index 들로 df2b 추가
print('\n', df4)
df5 = pd.concat([df2, df2c], axis=1) # 원래의 df2 에 새로운 컬럼들로 df2c 추가
print('\n', df5)

      name  english  math
1  charles       98     0
2     jane       20    50
3     mary       30    60

       name  english  math
4      ray       90    30
5  charlie       40    50

    science
1       50
2       65
3       33

       name  english  math
1  charles       98     0
2     jane       20    50
3     mary       30    60
4      ray       90    30
5  charlie       40    50

       name  english  math  science
1  charles       98     0       50
2     jane       20    50       65
3     mary       30    60       33


### __기타 처리__ <a name="p2section25"></a>

In [6]:
df2.values # 테이블 값 만을 numpy ndarray 형태로 리턴

array([['charles', 98, 0],
       ['jane', 20, 50],
       ['mary', 30, 60]], dtype=object)

In [7]:
df2t = df2.T # transpose
print(df2) # 원래의 값은 변형되지 않습니다.
print('\n', df2t)

      name  english  math
1  charles       98     0
2     jane       20    50
3     mary       30    60

                1     2     3
name     charles  jane  mary
english       98    20    30
math           0    50    60


<br><br>

---
##### [이전 페이지](pandas_tutorial1.ipynb)
##### [다음 페이지](pandas_tutorial3.ipynb)