In [2]:
import pandas as pd
import numpy as np

### [1. pandas 데이터 구조](#pandas데이터구조)
### [2. Series](#Series)
### [3. DataFrame](#DataFrame)
### [4. apply](#apply)
### [5. 데이터병합(merge)](#데이터병합)
### [6. 데이터추출](#데이터추출)
### [7. GroupBy](#GroupBy)

# pandas데이터구조

## series
동일한 데이터 타입을 저장하는 1차원 배열

## dataFrame 
레이블화 되어있는 2차원 자료구조

# Series

```
Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False) 
```

index : 색인 이름을 지정하고자 하는 경우에 사용합니다.
## Series를 생성하기 위한 여러 가지 방법입니다.
myseries = Series(range(0, 4)) : 연속된 숫자의 배열을 이용하여 생성합니다.  
myseries = Series([4, 5, 6]) : Python의 list 구조를 사용할 수 있습니다.  
myseries = Series([4, 5, 6], index=['a', 'b', 'c']) : 생성시 index를 이용하여 직접 색인을 지정할 수 있습니다.   
sdata = {'서울' : 3000, '부산' : 2000} 
myseries = Series( sdata )   
        => Python의 사전을 이용하여 생성합니다. 사전의 key가 순서대로 색인으로 들어갑니다. 
        사전(키, 값) → Series(index, value)  

Series.name : 시리즈 객체의 이름  
Series.index.name : 시리즈 객체의 인덱스의 이름  

## 읽기 쓰기
* Series[index] index에 해당하는 항목 가져오기
* Series[1:4] => 1~3번째 항목 가져오기
* Series[1,3,6] => 1,3,6번째 항목 가져오기
* Series[0:4:2] => 0~3까지 2칸씩 건너 가져오기

* 위 결과에 '=' 을통해 치환 가능 !

In [18]:
ser1 = pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd'])

ser1.name = 'jh'
ser1.index.name = 'kim'
print('\033[31mSeries ser1 :    \033[0m')
print(ser1)
print()
print("\033[31mser1['b':'c']        \033[0m")
print(ser1['b':'c'])
print()
print("\033[31mser1[1:3]        \033[0m")
print(ser1[1:3])

[31mSeries ser1 :    [0m
kim
a    1
b    2
c    3
d    4
Name: jh, dtype: int64

[31mser1['b':'c']        [0m
kim
b    2
c    3
Name: jh, dtype: int64

[31mser1[1:3]        [0m
kim
b    2
c    3
Name: jh, dtype: int64


# DataFrame

행과 열을 가지는 2차원 형태 자료구조  
열 하나가 Series 구조임.  

```
DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```

* data  :  ndarray / dict / DataFrame  :  DataFrame 자료, dict은 Series, ndarray, list 포함 가능
* indexi  :  index / array-like  : 인덱스(기본 값은 range(n)입니다.)
* columns  :  Index / array-like  :  열의 제목(기본 값은 range(n)입니다.)
* dtype  :  dtype(기본 값은 None입니다.)  :  자료형을 특정하는 경우에 사용, 없으면 자료에서 추정
* copy  :  bool (기본 값은 None입니다.)  :  자료를 copy하는 지의 여부를 지정합니다.



## 조회


* Data.colname : 이런 방법으로도 접근 가능 => DataFrame으로 리턴
* DataFrame.iloc[] : 행 인덱스 번호 기준 행 추출 (대괄호 두개쓰면 프레임 반환 ex) [[3]])
* DataFrame.loc[] : 라벨을 이용해 행 추출 (대괄호 두개쓰면 프레임 반환 ex) [[3]])
    * [[행], [열]] 형식으로 읽기 가능
    * booㅣ 값으로도 조회 가능함.
    
    * 논리식으로 데이터 프레임을 만들어 all, or 연산이 가능함       
        * .all() : and 연산
        * .any() : or 연산
        
## 쓰기

* loc를 통해 추출된 셀을 변경할 수 있음


In [5]:
index = ['a', 'b', 'c', 'd']
col = ['alpha', 'beta', 'charlie', 'delta']

a = pd.DataFrame(np.arange(16).reshape(4,4), index=index, columns = col)
print("\033[31mDataFrame a\033[0m")
print(a)
print()

print("\033[31ma.beta\033[0m")
print(a.beta)
print()

print("\033[31ma.iloc[3]        \033[0m")
print(a.iloc[3])
print()

print("\033[31ma.iloc[[1,3]]        \033[0m")
print(a.iloc[[1,3]])
print()

print("\033[31ma.loc['c']        \033[0m")
print(a.loc['c'])
print()

print("\033[31ma.loc[['a','b'], ['charlie', 'delta']]        \033[0m")
print(a.loc[['a','b'], ['charlie', 'delta']])
print()

print("\033[31ma['charlie'] < 10        \033[0m")
print(a['charlie'] < 10)
print()

print("\033[31ma[a['charlie'] < 10]        \033[0m")
print(a[a['charlie'] < 10])
print()

cond1 = a['beta'] < 10
cond2 = a['delta'] > 10

print("\033[31mcond1        \033[0m")
print(cond1)
print()

print("\033[31mcond2        \033[0m")
print(cond2)
print()

cond = pd.DataFrame([cond1, cond2])
print("\033[31mcond        \033[0m")
print(cond)
print()

print("\033[31mcond.all()        \033[0m")
print(cond.all())
print()

print("\033[31mcond.any()        \033[0m")
print(cond.any())
print()

print("\033[31ma.loc[cond.all()]        \033[0m")
print(a.loc[cond.all()])
print()



[31mDataFrame a[0m
   alpha  beta  charlie  delta
a      0     1        2      3
b      4     5        6      7
c      8     9       10     11
d     12    13       14     15

[31ma.beta[0m
a     1
b     5
c     9
d    13
Name: beta, dtype: int64

[31ma.iloc[3]        [0m
alpha      12
beta       13
charlie    14
delta      15
Name: d, dtype: int64

[31ma.iloc[[1,3]]        [0m
   alpha  beta  charlie  delta
b      4     5        6      7
d     12    13       14     15

[31ma.loc['c']        [0m
alpha       8
beta        9
charlie    10
delta      11
Name: c, dtype: int64

[31ma.loc[['a','b'], ['charlie', 'delta']]        [0m
   charlie  delta
a        2      3
b        6      7

[31ma['charlie'] < 10        [0m
a     True
b     True
c    False
d    False
Name: charlie, dtype: bool

[31ma[a['charlie'] < 10]        [0m
   alpha  beta  charlie  delta
a      0     1        2      3
b      4     5        6      7

[31mcond1        [0m
a     True
b     True
c     True
d    

# apply

함수를 브로드 캐스팅 해야할 때 사용.  
반복문보다 빠르기 때문에 유용하다.  
* **원본 데이터에 적용되는것은 아님!!**  
* **labmda식 적용 가능!!**
* **axis 적용 가능**



In [23]:
index = ['a', 'b', 'c', 'd']
col = ['alpha', 'beta', 'charlie', 'delta']

a = pd.DataFrame(np.arange(16).reshape(4,4), index=index, columns = col)
print("\033[31mDataFrame a\033[0m")
print(a)
print()

def pow3(x):
    return x ** 3

def axistest(x):
    s = 0
    for i in x:
        s += i
    return s
print("\033[31m a['beta'].apply(pow3) :\033[0m")
print(a['beta'].apply(pow3))
print()

print("\033[31ma.apply(axistest)\033[0m")
print(a.apply(axistest))
print()

print("\033[31ma.apply(axistest, axis=0)\033[0m")
print(a.apply(axistest, axis=0))
print()

print("\033[31ma.apply(axistest, axis=1)\033[0m")
print(a.apply(axistest, axis=1))
print()

print("\033[31ma.apply(lambda x : x ** 2)\033[0m")
print(a.apply(lambda x : x ** 2))
print()



[31mDataFrame a[0m
   alpha  beta  charlie  delta
a      0     1        2      3
b      4     5        6      7
c      8     9       10     11
d     12    13       14     15

[31m a['beta'].apply(pow3) :[0m
a       1
b     125
c     729
d    2197
Name: beta, dtype: int64

[31ma.apply(axistest)[0m
alpha      24
beta       28
charlie    32
delta      36
dtype: int64

[31ma.apply(axistest, axis=0)[0m
alpha      24
beta       28
charlie    32
delta      36
dtype: int64

[31ma.apply(axistest, axis=1)[0m
a     6
b    22
c    38
d    54
dtype: int64

[31ma.apply(lambda x : x ** 2)[0m
   alpha  beta  charlie  delta
a      0     1        4      9
b     16    25       36     49
c     64    81      100    121
d    144   169      196    225



# 데이터병합
## merge
rdb의 join과 유사하다.  
* on : 두 프레임이 가지고 있는 속성
    * 두 프레임에 동일한 이름이 존재하지 않을경우 left_on, right_on을 사용한다.
    
* how : 어떠한 방식으로 조인할 것인지
    * 기본값은 inner join
    
* suffixes : 컬럼의 이름이 겹치는 경우 접미사 사용
    * default ('_x', '_y')
    
* left_index, right_index : 색인을 이용하여 병합한다
    * df.set_index(col) : 해당 컬럼을 index로 사용한다.

In [43]:
name = ['kim', 'lee', 'park', 'cho', 'na']
name2 = ['kim', 'lee', 'park', 'cho', 'yoon']
math = [5,2,4,1,3]
eng = [1,2,4,5,3]
dict1 = {'name' : name, 'math' : math}

a = pd.DataFrame(dict1, index = range(1,6))
print("\033[31mDataFrame a : \033[0m")
print(a)
print()

dict2 = {'name' : name2, 'eng' : eng}
b = pd.DataFrame(dict2, index = range(1,6))
print("\033[31mDataFrame b : \033[0m")
print(b)
print()

print("\033[31mmerge (a,b, on='name')\033[0m")
print(pd.merge(a,b, on='name'))
print()

print("\033[31mpd.merge(a,b, on='name', how='left')\033[0m")
print(pd.merge(a,b, on='name', how='left'))
print()

print("\033[31mpd.merge(a,b, on='name', how='right')\033[0m")
print(pd.merge(a,b, on='name', how='right'))
print()

print("\033[31mpd.merge(a,b, on='name', how='outer')\033[0m")
print(pd.merge(a,b, on='name', how='outer'))
print()


dict3 = {'left_name' : name, 'math' : math}
dict4 = {'right_name' : name2, 'eng' : eng}
c = pd.DataFrame(dict3, index = range(1,6))
d = pd.DataFrame(dict4, index = range(1,6))

print("\033[31mDataFrame c : \033[0m")
print(c)
print()

print("\033[31mDataFrame d : \033[0m")
print(d)
print()

print("\033[31mpd.merge(c,d, left_on='left_name', right_on = 'right_name')\033[0m")
print(pd.merge(c,d, left_on='left_name', right_on = 'right_name'))
print()


[31mDataFrame a : [0m
   name  math
1   kim     5
2   lee     2
3  park     4
4   cho     1
5    na     3

[31mDataFrame b : [0m
   name  eng
1   kim    1
2   lee    2
3  park    4
4   cho    5
5  yoon    3

[31mmerge (a,b, on='name')[0m
   name  math  eng
0   kim     5    1
1   lee     2    2
2  park     4    4
3   cho     1    5

[31mpd.merge(a,b, on='name', how='left')[0m
   name  math  eng
0   kim     5  1.0
1   lee     2  2.0
2  park     4  4.0
3   cho     1  5.0
4    na     3  NaN

[31mpd.merge(a,b, on='name', how='right')[0m
   name  math  eng
0   kim   5.0    1
1   lee   2.0    2
2  park   4.0    4
3   cho   1.0    5
4  yoon   NaN    3

[31mpd.merge(a,b, on='name', how='outer')[0m
   name  math  eng
0   kim   5.0  1.0
1   lee   2.0  2.0
2  park   4.0  4.0
3   cho   1.0  5.0
4    na   3.0  NaN
5  yoon   NaN  3.0

[31mDataFrame c : [0m
  left_name  math
1       kim     5
2       lee     2
3      park     4
4       cho     1
5        na     3

[31mDataFrame d : [0m

# 데이터추출

* pd.read_csv() : csv 파일을 읽어들인다.
* df.head() : 상위 (default = 5)개의 행을 보여준다.
* df.tail() : 하위 (default = 5)개의 행을 보여준다.

**tail, head의 리턴형은 DataFrame이고, loc의 리턴형은 Series임!! (단 loc도 여러행을 리턴시 DataFrame 자료형임)**  



In [57]:
df = pd.read_csv('./test.csv', header= None)

print("\033[31mdf.head()\033[0m")
print(df.head())
print()

print("\033[31mdf.tail()\033[0m")
print(df.tail())
print()

print("\033[31mdf.loc[0:3]\033[0m")
print(df.loc[0:3])
print()

print("\033[31mtype(df.head(1))\033[0m")
print(type(df.head(1)))
print("\033[31mtype(df.loc[0])\033[0m")
print(type(df.loc[0]))

[31mdf.head()[0m
      0  1   2  3
0   kim  1  10  0
1   lee  0   9 -1
2  park  2  11  3

[31mdf.tail()[0m
      0  1   2  3
0   kim  1  10  0
1   lee  0   9 -1
2  park  2  11  3

[31mdf.loc[0:3][0m
      0  1   2  3
0   kim  1  10  0
1   lee  0   9 -1
2  park  2  11  3

[31mtype(df.head(1))[0m
<class 'pandas.core.frame.DataFrame'>
[31mtype(df.loc[0])[0m
<class 'pandas.core.series.Series'>


# GroupBy

데이터 집계, 변화등 다양한 작업 한번에 처리.  
* Series.unique() : 중복값을 제거하고 유일한 원소만 담은 numpy 배열 리턴함.


## groupyby() 함수 목록
* get_group( data ) :그루핑된 데이터 중에서 값이 data인 항목만 추출하여 보여 줍니다.
* count() : 누락 값은 제외하고, 그룹 내에 NA 값이 아닌 값의 숫자를 반환합니다.
* describe() : 기초 통계량 정보를 한꺼번에 보여 줍니다.
    데이터 수, 평균, 표준 편차, 최소값, 백분위수, 최대 값을 모두 반환해줍니다.
* first(), last() : NA 값이 아닌 값들 중에서 첫 번째 값과 마지막 값을 반환합니다.
* mean() : NA 값이 아닌 값의 평균 값을 반환합니다.
* median() : NA 값이 아닌 값의 산술 중간 값을 반환합니다.
* min(), max() : NA 값이 아닌 값 중에서 최소 값과 최대 값을 반환합니다.
* ngroups : 그룹의 갯수를 반환해줍니다.
* nth() : n번째 행을 반환합니다.
* quantile(q=0.25) : 백분위수 25%
* quantile(q=0.50) : 백분위수 50%
* quantile(q=0.75) : 백분위수 75%
* prod() : NA 값이 아닌 값들의 곱을 반환합니다.
* size() : 각 그룹에 대한 자료의 갯수를 구합니다.(누락 값 포함)
* sum() : NA 값이 아닌 값의 합을 반환합니다.
* std(), var() : 편향되지 않은 (n-1을 분모로 하는) 표준 편차와 분산을 구해줍니다.

In [99]:
fl = pd.read_csv('./FL_insurance_sample.csv')
print("\033[31mDataFrame fl : \033[0m")
print(fl.head(10))
print()

print("\033[31mfl['statecode'].unique()\033[0m")
print(fl['statecode'].unique())
print()

print("\033[31mstatecode(Al, FL)로 그룹핑을 한 다음 그룹들의 tmp의 평균을 구함\033[0m")
print(fl.groupby('statecode')['tmp'].mean())
print()

print("\033[31mstatecode, county로 그룹핑 한 다음 tmp의 평균을 구함\033[0m")
print(fl.groupby(['statecode', 'county'])['tmp'].mean())
print()

print("\033[31mstatecode, county로 그룹핑 한 다음 [tmp, eq_site_limit]의 평균을 구함\033[0m")
print(fl.groupby(['statecode', 'county'])['tmp', 'eq_site_limit'].mean())
print()

[31mDataFrame fl : [0m
   policyID statecode       county  eq_site_limit  tmp
0    119736        AL  CLAY COUNTY       498960.0    3
1    448094        FL     NEW YORK      1322376.3    9
2    206893        FL  CLAY COUNTY       190724.4    8
3    333743        AL  CLAY COUNTY            0.0    3
4    172534        FL  CLAY COUNTY            0.0    1
5    785275        FL     NEW YORK            0.0    5
6    995932        AL  CLAY COUNTY            0.0    7
7    223488        FL  CLAY COUNTY       328500.0    0
8    433512        AL     NEW YORK       315000.0    4

[31mfl['statecode'].unique()[0m
['AL' 'FL']

[31mstatecode(Al, FL)로 그룹핑을 한 다음 그룹들의 tmp의 평균을 구함[0m
statecode
AL    4.25
FL    4.60
Name: tmp, dtype: float64

[31mstatecode, county로 그룹핑 한 다음 tmp의 평균을 구함[0m
statecode  county     
AL         CLAY COUNTY    4.333333
           NEW YORK       4.000000
FL         CLAY COUNTY    3.000000
           NEW YORK       7.000000
Name: tmp, dtype: float64

[31mstatecode, county로 

  print(fl.groupby(['statecode', 'county'])['tmp', 'eq_site_limit'].mean())
