## pandas에서 제공하는 대표적인 자료구조
    1) Series
        값 + index
    2) DataFrame
    3) https://pandas.pydata.org
    

In [2]:
import pandas as pd
import numpy as np

### Series

In [None]:
s = pd.Series([9985225, 2288552, 666658, 24561365])
print(type(s))
print(s)

print('+'*20)

#cf> Enumerate-> 값에 인덱스를 붙여서 반환

for i in enumerate([9985225, 2288552, 666658, 24561365]):
    print(i)

In [66]:
# 인덱스를 자유롭게 지정 가능
s = pd.Series([9985225, 2288552, 666658, 24561365], index=['서울', '부산', '인천', '대구'])

print(s)

print('+' *30)

# 배열로 반환함.
print(s.index)
print(type(s.values))

print('+' *30)
# 인덱스나 데이터프레임 자체에 이름을 지정할 수 있음.
s.index.name = '도시'
s.name = '인구'
print(s)

서울     9985225
부산     2288552
인천      666658
대구    24561365
dtype: int64
++++++++++++++++++++++++++++++
Index(['서울', '부산', '인천', '대구'], dtype='object')
<class 'numpy.ndarray'>
++++++++++++++++++++++++++++++
도시
서울     9985225
부산     2288552
인천      666658
대구    24561365
Name: 인구, dtype: int64


In [None]:
# 벡터화 연산이 가능.
s1 = s / 100000
print(s1)

In [None]:
# 인덱싱
print(s[1], s['부산'])

# 순서변경가능
print(s[[0,3,1]])

print(s[["서울","대구","부산"]])

print(s[(150e4 < s)&(s<500e4)])

print('+' *30)

# 슬라이싱
print(s[1:3])
print(s['부산' : '대구'])

print('+' *30)

print(s.부산, ',', s.서울)

In [67]:
# Series와 dict
print('서울' in s)
print('대구' in s)

print('+' *30)

print(s.items)
for k, v in s.items():
    print('%s=%d'%(k, v))
  

print('+' *30)

    
s2 = pd.Series({'서울' : 9982130, '부산' : 5453221, '인천' : 2357880, '대전' : 5235421})
print(s2)

True
True
++++++++++++++++++++++++++++++
<bound method Series.items of 도시
서울     9985225
부산     2288552
인천      666658
대구    24561365
Name: 인구, dtype: int64>
서울=9985225
부산=2288552
인천=666658
대구=24561365
++++++++++++++++++++++++++++++
서울    9982130
부산    5453221
인천    2357880
대전    5235421
dtype: int64


In [68]:
# 인덱스 기반 연산(인덱스가 매칭이 되어야 가능)
print(s)
print('+' *30)
print(s2)
print('+' *30)

ds = s-s2

print(ds)

print('+' *30)

print(s.values - s2.values)

도시
서울     9985225
부산     2288552
인천      666658
대구    24561365
Name: 인구, dtype: int64
++++++++++++++++++++++++++++++
서울    9982130
부산    5453221
인천    2357880
대전    5235421
dtype: int64
++++++++++++++++++++++++++++++
대구          NaN
대전          NaN
부산   -3164669.0
서울       3095.0
인천   -1691222.0
dtype: float64
++++++++++++++++++++++++++++++
[    3095 -3164669 -1691222 19325944]


In [None]:
# 결측치 제거

print(ds)

print(ds.notnull())

# notnull을 이용하여 Null 값을 False 로 변환한 후 인덱스에 적용하여 Null값 제거
print(ds[ds.notnull()])


# 인구 증가율 : (끝년도 - 시작년도/시작년도)*100

ds2 = (s2 - s)/s*100
ds2 = ds2[ds2.notnull()]
print(ds2)

In [None]:
# 데이터 수정, 삭제, 갱신

#수정
ds2['부산'] = 1.68
print(ds2['부산'])

# 갱신
ds2['대구'] = 1.41
print(ds2)

#삭제
del ds2['서울']
print(ds2)

---
### DataFrame

In [69]:
# json 형식
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [70]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [71]:
df = pd.DataFrame(data)
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [72]:
# 컬럼의 위치 변경 : columns
cols = ['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율']
df = pd.DataFrame(data, columns = cols)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
0,수도권,9853972,9762546,9631482,9904312,0.0283
1,경상권,3655437,3512547,3393191,3448737,0.0163
2,수도권,2466338,2517680,2632035,2890451,0.0982
3,경상권,2473990,2456016,2431774,2466052,0.0141


In [73]:
# 인덱스 변경
idx = ['서울', '부산', '인천', '대구']

df = pd.DataFrame(data, columns = cols, index = idx)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [74]:
# values 값만 , columns 값만, index 값만 뽑아오기

print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9853972 9762546 9631482 9904312 0.0283]
 ['경상권' 3655437 3512547 3393191 3448737 0.0163]
 ['수도권' 2466338 2517680 2632035 2890451 0.0982]
 ['경상권' 2473990 2456016 2431774 2466052 0.0141]]
Index(['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [75]:
# 컬럼과 인덱스에 이름부여

df.index.name = '도시'
df.columns.name = '특성'
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [76]:
# 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2000,9853972,3655437,2466338,2473990
2005,9762546,3512547,2517680,2456016
2010,9631482,3393191,2632035,2431774
2015,9904312,3448737,2890451,2466052
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [None]:
# 열 인덱싱 : 하나의 열은 하나의 Series
print(df['지역'])
print(df['2015'])

print('+'*30)

# 2차 인덱스로 출력시 Series에서 DateFrame 으로 변경되어 출력
print(df[['지역']])

# 원하는 열을 추출하여 새로운 데이터프레임 생성가능.
print(df[['2005', '2010']])

In [None]:
# 행 인덱스 : 반드시 슬라이스를 이용.

df[:] # 전체 행 출력
df[:1] # 한개의 행
df[1:2] # 2번째 행
df['서울':'부산']


In [None]:
# 열과 행 동시접근하는 방법 : [열][행]
df['2015']['서울']
#df['2015','서울'] 사용불가,

# 앞이 데이터프레임 이므로 뒤에오는 행은 반드시 슬라이스여야함.
df[['2005', '2010']][:'서울']

In [None]:
# 열 데이터의 갱신, 추가, 삭제

# 갱신
df['2010-2015 증가율'] = df['2010-2015 증가율']*100
df

#추가
df['20005-2010 증가율'] = ((df['2010']-df['2005'])/df['2005']*100).round(2)
df

#삭제
del df['2010-2015 증가율']
df

#### 실습문제

In [None]:
data = {'국어' : [80,90,70,30],
        '영어' : [90,70,60,40],
        '수학' : [90,60,80,70]}

In [None]:
idx = ['춘향', '몽룡', '향단', '방자']
col = ['국어', '수학', '영어']

df = pd.DataFrame(data, index = idx, columns = col)
df

In [None]:

# 2. 모든 학생의 수학점수를 나타내시오
print(df['수학'])
print('+'*30)

# 3. 모든 학생의 국어와 영어 점수를 나타내시오
print(df[['국어','영어']])
print('+'*30)

# 4. 모든 학생의 각 과목 평균 점수를 새로운 열로 추가하시오.
df['평균'] = ((df['국어']+df['수학']+df['영어'])/3).round(2)
print(df)

print('+'*30)
# 5. 방자의 영어점수를 80점으로 수정하고 평균 점수도 다시 수정하시오
df.loc['방자', '영어'] = 80
df['평균'] = ((df['국어']+df['수학']+df['영어'])/3).round(2)
print(df)

print('+'*30)
# 6. 춘향의 점수를 데이터 프레임으로 나타내시오
df2 = df[['국어','수학','영어']][:'춘향']
print(df2)
print('+'*30)

# 7. 향단의 점수를 Series로 나타내시오

df3 = df.loc[['향단']]
print(df3)


---
### 데이터 입출력
    read_csv( )
    to_csv( )
    read_table( )

In [None]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three



In [None]:
sample1 = pd.read_csv('data/sample1.csv')
sample1

In [None]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
# 컬럼명이 없는 csv 파일 불러오기(컬럼명 부여)
sample2 = pd.read_csv('data/sample2.csv', names = ['c1','c2', 'c3'])
sample2

In [None]:
#특정 열을 인덱스로 지정하고 싶을 때
sample1 = pd.read_csv('data/sample1.csv', index_col=0)
sample1

In [None]:
%%writefile data/sample3.csv
파일제목 : sample3.csv
데이터 포멧의 설명 : ...
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

In [None]:
#데이터에 필요없는 행이 들어있어서 제외하고 출력하고 싶을 때 

sample3 = pd.read_csv('data/sample3.csv', skiprows = [0,1])
sample3

In [None]:
%%writefile data/sample4.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three


In [None]:
# 일관되지 않은 결측치가 들어있는 데이터의 경우

sample4 = pd.read_csv('data/sample4.csv', na_values = [' ','누락'])
sample4

In [None]:
%%writefile data/sample5.txt
c1     c2     c3     c4
0.23   0.3    0.34   0.564  
1.17   0.222  0.45   0.55

In [None]:
# read_table의 sep(구분자지정)에는 정규표현식 사용가능.

sample5 = pd.read_table('data/sample5.txt', sep = "\s+")
sample5

In [None]:
# 저장!
df.to_csv('data\sample6.csv') # 기본형태
df.to_csv('data\sample7.txt', sep='|') # 다른 모양으로 저장하고 싶을 때
df.to_csv('data\sample8.csv', index = False, header = False) # 제목과 인덱스 제외하고 저장
sample4.to_csv('data\sample9.txt', sep = "|", na_rep = "누락")

---
### 고급 인덱싱 : Indexer
    - loc★ : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
    - iloc★ : 순서를 나타내는 정수 기반의 2차원 인덱서
    - ix : 라벨형과 숫자형 둘다 받을 수 있으나, 없어질 가능성이 높으므로 쓰지 않을 것
    - at : 스칼라값을 가져올 때 사용, loc나 iloc 보다 속도가 빠르므로 값이 많을 때 사용하기 좋음
    - iat : at와 동일

#### loc

In [None]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index = ['a','b','c'], columns=['A','B','C','D'])
df

In [None]:
df[:'a'] # 데이터프레임 형태로 반환
df.loc['a'] #행우선, 시리즈형식으로 반환

df.loc['a':'b'] # 여러개의 행을 가지고 올 때는 데이터프레임 형태로 반환

df.loc[['a','c']] # 행 우선 방식이기 때문에 가능
#df['a','b'] 열우선방식이기 때문에 안됨.
#df.loc[["A','B']] 행 우선 방식이기 때문에 불가능함.

In [None]:
df.A >15 # 기본인덱스이기 때문에 열기준

df.loc[df.A>15] # 행기본

In [None]:
def select_rows(df, num):
    return df.A>num

###########################################

select_rows(df, 15)
df.loc[select_rows(df, 15)]

In [None]:
# 인덱싱을 행과 열 모두 받을 경우
df['A']['b']
df.loc['b']['A']

df.loc['b','A']
df.loc['b':,'A']
df.loc['a',:]
df.loc[['a','b'],["B","C"]] # 원하는 행과 열만 추출가능


# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 추출

df.loc[df.A <=11]
df.loc[:, df.loc['a',:]<=11]

#### iloc 
    기본적으로는 loc와 비슷하나 정수형만 받을 수 있다.

In [None]:
df.iloc[0,1]
#df.iloc['a','B'] # 숫자만 받을 수 있음
#df.loc[0,1] 숫자인덱스는 쓸 수 없음

In [None]:
df.iloc[:2, 2]
df.iloc[0, -2:]

#### at, iat

In [None]:
%timeit df.loc['a',"A"]
%timeit df.at['a', "A"]

---
### 데이터 조작

#### 데이터 갯수 카운팅

In [None]:
# counst() -> 결측치를 제외하고 세어줌.
s = pd.Series(range(10))
s.count()

s[3] = np.nan 
# 결측치 추가
s.count()


np.random.seed(2)
df = pd.DataFrame(np.random.randint(5,size = (4,4)), dtype = float)
print(df)
print('+'*22)


df.count() 
# 열을 기준으로 갯수를 세어줌

df.iloc[2,3] = np.nan
print(df)
print('+'*22)
df.count()
# 결측치 제외하고 카운팅

df.count(axis = 1)
# 행을 기준으로 카운팅 가능

In [None]:
# value_counts() -> 카테고리별로 갯수세기

np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
s.head(10) # 앞에서 부터 10개
s.tail(10) # 뒤에서 부터 10개

s.value_counts()
# Series 에서만 사용가능. 데이터 프레임의 경우에는 인덱싱을 통해 사용가능.

#### 정렬
    - sort_index( ), sort_values( ) 
    - 결측치는 정렬의 대상이 되지 않는다./ 기본값 오름차수!

In [None]:
# 인덱스를 기준으로 정렬

s.value_counts().sort_index()

# 값을 기준으로 정렬

s.value_counts().sort_values(ascending=False) # 내림차순으로 정렬

# 데이터프레임의 경우 기준을 정해주어야함.
print(df)
print('+'*22)
df.sort_values(by = 2) # 2번째 열을 기준으로 정렬하겠다. by = '열번호'
df.sort_values(by = [1,2]) # 1번째 열의 2번째 까지의 정렬
df.sort_index()

df.sort_values(by = 2, inplace = True) # values로 정렬해서 원본에 저장하겠다.

#결측치의 위치 지정 가능
df.sort_values(by = 3, na_position = 'first')

#### 행/열 합계

In [None]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10,size = [4,8]))
df

In [None]:
# 합계 구하기
df.sum()

#행의 합계구하기
df.sum(axis = 1)

#데이터 프레임 밑에 열의 합계 추가하기.
df.loc['colsum', :] = df.sum()
df

# 데이터 프레임의 열의 합계 추가
df.loc[:, 'rowsum'] = df.sum(axis = 1)
df

#### apply
    행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
    인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [None]:
df = pd.DataFrame({'A' : [1,3,4,3,4],
                   'B' : [2,3,1,2,3],
                   'C' : [1,5,2,4,4] 
                  })

df

In [None]:
def diff(x) :
    return x.max()-x.min()

#######################################

print(diff(df['A']))
print(diff(df['B']))
print(diff(df['C']))

print('+'*22)
# 함수를 자동으로 열에 적용해줌
print(df.apply(diff))
# 함수를 자동으로 행에 적용해줌
print(df.apply(diff, axis = 1))
############################################

# lambda 함수 적용
df.apply(lambda x : x.max() - x.min())

In [None]:
# value_conunts 에 apply 적용하기

df.apply(pd.value_counts)

# 결측치(NaN) 값을 원하는 값으로 변경 : fillna( )
# value의 type을 원하는 type으로 변경 : astype( ) 
df.apply(pd.value_counts).fillna(0).astype(int)

#### 실수값을 카테고리 값으로 변환
    - cut(), qcut()

In [None]:
age = [0,2,10,21,23,37,31,61,20,41,32,100]

# x = 카테고리 값, bins = 기준, labels = 식별 가능하도록 이름 부여
cut = pd.cut(x = age, bins = [1, 15, 25, 35, 60, 99] , labels = ['미성년자','청년','중년','장년','노년'])

print(cut, type(cut))
#특정 값 추출
print(cut.categories) #카테고리 값만 추출
print(cut.codes) # 코드값만 추출

df = pd.DataFrame(age, columns=["age"])
df
df["age_cut"] =cut
df

In [None]:
data = np.random.randn(1000)

cut2 = pd.qcut(data,4, labels = ['q1', 'q2', 'q3', 'q4'])
cut2
cut2.value_counts()

### 인덱스 조작

#### 인덱스 설정 및 제거
    - set_index( )
    - reset_index( )

In [None]:
np.random.seed(0)



df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3,5) ,2)]).T
                  , columns = ["C1", "C2", "C3", "C4"])

df1

In [None]:
# 인덱스 지정

df2 = df1.set_index("C1")
#df2.set_index("C2")


# 인덱스를 처음으로 돌려놓기
#df2.reset_index()

# 현재 인덱스를 삭제하고 기존의 인덱스를 돌려놓기
df2.reset_index(drop = True) 

#### 다중인덱스

In [3]:
np.random.seed(0)

df3 = pd.DataFrame(np.round(np.random.randn(5,4), 2),
                  columns = [["A", "A", "B", "B"], ["C1","C2","C1", "C2"]])

# 컬럼 명이 다중으로 있을 시에는 각 컬럼 명에 이름을 추가할 수 있다.
df3.columns.names = ["Cidx1", "Cidx2"]

df3


Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [2]:
#데이터 준비

np.random.seed(0)

df4 = pd.DataFrame(np.round(np.random.randn(6,4), 2),
                  columns = [["A", "A", "B", "B"], ["C","D","C", "D"]],
                  index = [["M","M","M","F","F","F"],["id_" + str(i+1) for i in range(3)]*2])


df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]

df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


#### 행인덱스와 열 인덱스의 교환

    - stack( ) : 열을 행으로 변경
    - unstack( ) : 행을 열로 변경

In [None]:
# 숫자인덱스와 레이블 둘 다 사용가능

df4.stack("Cidx1")
df4.stack(1)

df4.unstack("Ridx2")
df4.unstack(0)

#### 인덱싱

In [None]:
print(df3)
print('+'*30)

# 다중레이블일 경우에는 튜플로 묶어서 원하는 데이터에 접근
df3[('B',"C1")]
df3[('B',"C1")][0]
df3[('B',"C1")][0:2]

df3.loc[:, ("B","C1")]
df3.loc[0, ("B","C1")]
df3.loc[0:2, ("B","C1")]

# 다중 레이블(인덱서)와 상관없이 사용
df3.iloc[0,2]

In [None]:
print(df4)

## 연습문제
### df4를 이용해서 인덱싱

# 첫번째 행, 첫번째 열에 있는 1.76 출력
print(df4.iloc[0,0])
print('+'*30)

# 첫번째 열 1.76 ~ -2.55까지 출력
print(df4[("A","C")])
print('+'*30)


# 첫번째 행의 모든 컬럼값을 출력
print(df4.iloc[0,:])
print('+'*30)


# 맨 마지막 행에 "ALL"이란 인덱스를 추가해서 각 열의 합을 출력
df4.loc["all",:] = df4.sum()
print(df4)
print('+'*30)


#### 인덱스 순서교환 : swaplevel(i, j, axis = )

In [4]:
# 열방향 교환
df5 = df4.swaplevel('Ridx1','Ridx2', axis = 0)

df5
# 행방향 교환
df6 = df4.swaplevel('Cidx1','Cidx2', axis = 1)
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


#### 정렬

In [9]:
# 다중인덱스 정렬하기!

df4.sort_index(level = 0)

# 행기준 정렬, 내림차순으로
df4.sort_index(level = 0, axis = 1, ascending = False)

Unnamed: 0_level_0,Cidx1,B,B,A,A
Unnamed: 0_level_1,Cidx2,D,C,D,C
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,2.24,0.98,0.4,1.76
M,id_2,-0.15,0.95,-0.98,1.87
M,id_3,1.45,0.14,0.41,-0.1
F,id_1,0.33,0.44,0.12,0.76
F,id_2,-0.85,0.31,-0.21,1.49
F,id_3,-0.74,0.86,0.65,-2.55


#### 실습문제

In [7]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [11]:
"""
1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임을 만든다
2. 데이터 프레임에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.
3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임을 만든다.
4. 데이터 프레임에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다."""

'\n1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임을 만든다\n2. 데이터 프레임에 각 학생의 평균을 나타내는 행을 오른쪽에 추가한다.\n3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 데이터프레임을 만든다.\n4. 데이터 프레임에 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가한다.'

In [8]:
#1. 1차 행 인덱스로 "반"을 2차 행 인덱스로 "번호"을 가지는 데이터프레임을 만든다

df_score2 = df_score1.set_index(["반","번호"])
df_score2 = df_score2.sort_index(level = [0,1])

df_score2


Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,79,55,57
A,2,67,77,45
A,3,68,67,68
A,4,88,58,78
A,5,85,67,90
B,1,88,44,76
B,2,92,86,89
B,3,54,45,67
B,4,67,78,99
B,5,97,90,89


In [18]:
df_score2['평균'] = df_score2.mean(axis = 1)
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.666667
A,2,67,77,45,63.0
A,3,68,67,68,67.666667
A,4,88,58,78,74.666667
A,5,85,67,90,80.666667
B,1,88,44,76,69.333333
B,2,92,86,89,89.0
B,3,54,45,67,55.333333
B,4,67,78,99,81.333333
B,5,97,90,89,92.0


### 병합(합성)
    - 두 데이터 프레임의 공통 열 또는 인덱스르 기준으로 두개의 테이블을 합친다.
      이때 기준이 되는 열, 행의 데이터를 key라고 한다.

In [27]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [31]:
# inner join

pd.merge(df1, df2)

#left out
er join
pd.merge(df1, df2, how = 'left')

# right outer join
pd.merge(df1, df2, how = 'right')

# Full outer join
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [33]:
# 키가 여러개인 경우
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})


######################################################################

pd.merge(df1, df2, on = '고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [4]:
df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

####################################################
pd.merge(df1, df2, left_on = '이름', right_on = '성명')

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [6]:
# 인덱스를 기준열로 사용하는 경우(한쪽은 컬럼 한쪽은 인덱스인 경우)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2

#########################################################################
pd.merge(df1, df2, left_on = ['도시', '연도'], right_index = True)

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [10]:
# 인덱스를 기준으로 정렬(둘다 인덱스일 경우!)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

####################################################################
pd.merge(df1, df2, left_index = True, right_index = True, how= 'outer')

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [19]:
# join
df1.join(df2)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


#### concat( )
    - 기준열을 사용하지 않고, 단순히 데이터를 연결

In [22]:
s1 = pd.Series([0,1], index = ['A','B'])
s2 = pd.Series([2,3,4], index= ["A","B","C"])

pd.concat([s1,s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [25]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)
print("------------------------------")

#######################################################
pd.concat([df1, df2])
pd.concat([df1, df2], axis = 1)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
------------------------------
   데이터3  데이터4
a     5     6
c     7     8
------------------------------


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [None]:
# 문제!
"""
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).
또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

매출	비용
1월	1000	1500
2월	1500	2000
3월	3000	2500
4월	4000	2700
5월	5000	3000
6월	6000	3200

매출	비용
7월	4500	2800
8월	4000	2700
9월	5000	3000
10월	6000	3200
11월	3000	2500
12월	2000	2000
"""

In [35]:
df1 = pd.DataFrame([[1000,1500],[1500,2000],[3000,2500],[4000,2700],[5000,3000],[6000,3200]],
                  index = ["1월","2월","3월","4월","5월","6월"],
                  columns = ["매출","비용"])

df2 = pd.DataFrame([[4500,2800],[4000,2700],[5000,3000],[6000,3200],[3000,2500],[2000,2000]],
                  index = ["7월","8월","9월","10월","11월","12월"],
                  columns = ["매출","비용"])

df3 = pd.concat([df1,df2])
df3.loc[:, '이익'] = df3['매출']-df3['비용']
df3.loc['총 실적', :] = df3[:].sum()
df3

Unnamed: 0,매출,비용,이익
1월,1000.0,1500.0,-500.0
2월,1500.0,2000.0,-500.0
3월,3000.0,2500.0,500.0
4월,4000.0,2700.0,1300.0
5월,5000.0,3000.0,2000.0
6월,6000.0,3200.0,2800.0
7월,4500.0,2800.0,1700.0
8월,4000.0,2700.0,1300.0
9월,5000.0,3000.0,2000.0
10월,6000.0,3200.0,2800.0


### 피벗테이블과 그룹분석 : pivot( ), groupby( ), pivot_table( )

    -pivot( ) : DataFrame.pivot(self, index=None, columns=None, values=None) 

In [28]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [45]:
# 각 도시의 년도별 인구수 조회
# 피벗을 키를 두개이상 가질 수 없다.
# = pd.pivot(df ....)
df.pivot(index = '도시', columns = '연도', values = '인구')

df.set_index(['도시', '연도'])[['인구']].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### groupby
    - DataFrame.groupby(self, by=None, axis=0, level=None, as_index: bool = True, sort: bool = True, group_keys: bool = True, squeeze: bool = False, observed: bool = False) 
    
    - 특정조건에 맞는 데이터가 하나 이상 그룹을 이루는 경우에 사용한다.
    - pivot( ) 과는 달리 키에 의해서 결정되는 데이터가 여러개 있어도 괜찮다.
    - 그룹 연산 메서트 : size( ), count( ) : 갯수
                         mean( ), median( ), min( ), max( )
                         sum( ), prod( ), std( ), var( ), quantile( )
                         first( ), last( )
                         agg( ), aggregate( )
                         describe( )
                         apply( )
                         transform( )

In [3]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [5]:
# groupby는 반드시 함수와 함께 써야 결과값을 볼 수 있음.

g = df2.groupby(by = 'key1')
g.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [25]:
print(df2.groupby('key1').sum())
print(df2.groupby(df2.key1).sum())

print('+'*25)

#data1만 골라내서 작업
print(df2.data1.groupby(df2.key1).sum())

# 전체데이터를 가저온 후 data1에 해당하는 값 추출 후 합을 구함.
print(df2.groupby(df2.key1)['data1'].sum())

# 전체 데이터의 합을 구한 후 그중에서 data1에 해당하는 값을 추출
print(df2.groupby(df2.key1).sum()['data1'])

print('+'*25)

# 추출 값을 데이터 프레임으로 변경!
print(df2.groupby(df2.key1).sum()[['data1']])


      data1  data2
key1              
A         8     80
B         7     70
      data1  data2
key1              
A         8     80
B         7     70
+++++++++++++++++++++++++
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
+++++++++++++++++++++++++
      data1
key1       
A         8
B         7


In [27]:
df2.data1.groupby([df2.key1, df2.key2]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [43]:
df['인구'].groupby([df.지역, df.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


In [47]:
# 시각화 모듈.

import seaborn as sns

iris = sns.load_dataset('iris')

In [48]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [51]:
# 각 붓꽃별로 가장 큰값과 가장 작은 값의 비율

def peak_to_peak_ratio(x):
    return x.max()/x.min()
####################################

iris.groupby(iris.species).agg(peak_to_peak_ratio)
# =
iris.groupby(iris.species).apply(peak_to_peak_ratio)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,1.348837,1.913043,1.9,6.0
versicolor,1.428571,1.7,1.7,1.8
virginica,1.612245,1.727273,1.533333,1.785714


In [61]:
# agg와 apply 의 차이
# 각 붓꽃별로 꽃잎길이가 작은것 3개 데이터 추출

def min3(df):
    return df.sort_values(by = 'petal_length')[:3]

iris.groupby(iris.species).apply(min3)

# iris.groupby(iris.species).agg(min3) -> 각각의 데이터 갯수만큼 호출되어 계산을 하기 때문에 갯수가 안맞는 오류가 난다.

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_width,petal_length,petal_width,species
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
setosa,22,4.6,3.6,1.0,0.2,setosa
setosa,13,4.3,3.0,1.1,0.1,setosa
setosa,14,5.8,4.0,1.2,0.2,setosa
versicolor,98,5.1,2.5,3.0,1.1,versicolor
versicolor,93,5.0,2.3,3.3,1.0,versicolor
versicolor,57,4.9,2.4,3.3,1.0,versicolor
virginica,106,4.9,2.5,4.5,1.7,virginica
virginica,126,6.2,2.8,4.8,1.8,virginica
virginica,138,6.0,3.0,4.8,1.8,virginica


In [62]:
# agg와 apply 의 차이

def test(df):
    return 0
print(iris.groupby(iris.species).apply(test))
print(iris.groupby(iris.species).agg(test))

species
setosa        0
versicolor    0
virginica     0
dtype: int64
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa               0.0          0.0           0.0          0.0
versicolor           0.0          0.0           0.0          0.0
virginica            0.0          0.0           0.0          0.0


In [63]:
# 품종별로 합계, 평균, 표준편차 구하기이이
iris.groupby('species').agg([np.sum, np.mean, np.std])
#함수를 데이터의 갯수 만큼 호출을 하기 때문에 가능. apply는 불가능함

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


In [79]:
# describe( ) : 기술통계를 한번에 계산해줌
iris.groupby('species').describe().T

Unnamed: 0,species,setosa,versicolor,virginica
sepal_length,count,50.0,50.0,50.0
sepal_length,mean,5.006,5.936,6.588
sepal_length,std,0.35249,0.516171,0.63588
sepal_length,min,4.3,4.9,4.9
sepal_length,25%,4.8,5.6,6.225
sepal_length,50%,5.0,5.9,6.5
sepal_length,75%,5.2,6.3,6.9
sepal_length,max,5.8,7.0,7.9
sepal_width,count,50.0,50.0,50.0
sepal_width,mean,3.428,2.77,2.974


In [81]:
# transform( ) : 대신 함수를 호출시켜서 계산, 자체적인 변환까지 해줌.
def func_qcut(s):
    return pd.qcut(s, 3, labels = ['대', '중', '소'])

##################################################################

iris['petal_lenght_class'] = iris.groupby(iris.species)['petal_length'].transform(func_qcut)

In [82]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_lenght_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대


#### 실습예제

In [110]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

# 도시별로 과일의 가격 평균과 수량 평균을 구해보시오
print(df.groupby('city').mean())
print('+'*30)

# 도시별, 과일별 가격평균과 수량평균을 구해보시오
print(df.groupby(['city','fruits']).mean())
print('+'*30)

# 위의 문제에서 도시별, 과일별 라벨을 인덱스로 하고싶지 않을 경우
print(df.groupby(['city','fruits'], as_index = False).mean())
print('+'*30)

# 도시별로 가격의 평균과 수량의 합계를 동시에 구하고자 했을 때
print(df.groupby('city').agg({'price' : np.mean, 'quantity' : np.sum}))

      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
++++++++++++++++++++++++++++++
             price  quantity
city fruits                 
부산   apple   100.0       1.0
     banana  275.0       3.5
     orange  200.0       2.0
서울   apple   175.0       5.5
     banana  400.0       7.0
++++++++++++++++++++++++++++++
  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0
++++++++++++++++++++++++++++++
      price  quantity
city                 
부산    212.5        10
서울    250.0        18


#### pivot_table( )
    - DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)
    - values : 분석할 데이터프레임에서 분석할 열
    - aggfunc : 분석 메서드
    - fill_value : NaN 대체값
    - dropna : NaN에 해당하는 값을 버릴지 여부
    - Margins : 행과 열 끝에 소계추가

In [111]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [112]:
df.pivot('도시','연도','인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [113]:
df.pivot_table('인구','도시','연도')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [116]:
# agg( ) 함수 사용하기

df.pivot_table('인구','도시','연도', aggfunc = sum)

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [118]:
# 행과 열의 합계를 자동으로 추가.

df.pivot_table('인구','도시','연도', aggfunc = sum, margins = True, margins_name = '합계')

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191.0,3448737.0,10354475
서울,9762546.0,9631482.0,9904312.0,29298340
인천,,263203.0,2890451.0,3153654
합계,13275093.0,13287876.0,16243500.0,42806469


In [119]:
# 결측치 변경 
df.pivot_table('인구','도시','연도', aggfunc = sum, margins = True, margins_name = '합계', fill_value = 0)

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


In [120]:
# 다중인덱스!

df.pivot_table(values = '인구', index = ['연도','도시'])

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


#### 활용예제

In [122]:
import seaborn as sns
tips = sns.load_dataset('tips')

In [131]:
# tips : 식사 대금대비 팁의 비율이 어떤 경우에 가장 높아지는지를 찾는 데이터.
tips.describe()


Unnamed: 0,total_bill,tip,size,tip_pct
count,244.0,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672,0.160803
std,8.902412,1.383638,0.9511,0.061072
min,3.07,1.0,1.0,0.035638
25%,13.3475,2.0,2.0,0.129127
50%,17.795,2.9,2.0,0.15477
75%,24.1275,3.5625,3.0,0.191475
max,50.81,10.0,6.0,0.710345


In [130]:
#식사대금과 팁의 비율 컬럼 추가.(ip/total_bill) -> tip_pct 추가

tips['tip_pct'] = (tips.tip/tips.total_bill)

tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.5,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.13978
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808


In [171]:
# 성별 인원수 파악
tips.groupby('sex').count()
tips.groupby('sex').size()

# 성별, 흡연유무별로 인원수 파악

tips.groupby(['sex','smoker']).size()

# 플러쓰으

tips.pivot_table('tip_pct','sex','smoker', aggfunc= 'count', margins = True)

# 성별에 따른 팁비율
tips.groupby('sex')[['tip_pct']].mean()

# 흡연여부에 따른 팁비율
tips.groupby('smoker')[['tip_pct']].mean()

#위의 정보를 하나의 테이블로 출력
tips.pivot_table('tip_pct','sex','smoker', margins=True)
tips.pivot_table('tip_pct','sex','smoker', margins=True)

# 팁의 비율이 요일, 점심/저녁, 인원수에 어떤 영향을 받는지 분석
tips.pivot_table('tip_pct', ['day', 'time','size'], margins = True)
# = 
tips.groupby(['day','time','size'])[['tip_pct']].mean().dropna() 

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [186]:
# 성별 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이..?
def smoke_tip(x):
    return x.max() - x.min()

tips.groupby(['sex','smoker'])[['tip']].agg(smoke_tip)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [187]:
tips.pivot_table(['tip_pct','size'],['sex','day'], 'smoker' )

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,Yes,No,Yes,No
sex,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Male,Thur,2.3,2.5,0.164417,0.165706
Male,Fri,2.125,2.0,0.14473,0.138005
Male,Sat,2.62963,2.65625,0.139067,0.162132
Male,Sun,2.6,2.883721,0.173964,0.158291
Female,Thur,2.428571,2.48,0.163073,0.155971
Female,Fri,2.0,2.5,0.209129,0.165296
Female,Sat,2.2,2.307692,0.163817,0.147993
Female,Sun,2.5,3.071429,0.237075,0.16571


In [195]:
# 타이타닉
titanic = sns.load_dataset('titanic')

titanic.count()

titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [200]:
# 나이를 미성년(1-20), 성년(21-60), 노년(61-100) 으로 구분하기.


bins = [1, 20, 60, 100]
labels = ['미성년', '성년', '노년']
titanic['age_class'] = pd.cut(titanic['age'], bins=bins, labels = labels)
titanic.tail(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,age_class
881,0,3,male,33.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True,성년
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True,성년
883,0,2,male,28.0,0,0,10.5,S,Second,man,True,,Southampton,no,True,성년
884,0,3,male,25.0,0,0,7.05,S,Third,man,True,,Southampton,no,True,성년
885,0,3,female,39.0,0,5,29.125,Q,Third,woman,False,,Queenstown,no,False,성년
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,성년
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,미성년
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,성년
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,성년


In [207]:
# 성별 나이대별로 객실별 생존 여부의 평균값...?

titanic.pivot_table('survived', ['sex','age_class'],'class')
# =
titanic.groupby(['sex','age_class','class'])[['survived']].mean().unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived
Unnamed: 0_level_1,class,First,Second,Third
sex,age_class,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
female,미성년,0.928571,1.0,0.465116
female,성년,0.971014,0.896552,0.407407
female,노년,1.0,,1.0
male,미성년,0.5,0.357143,0.180556
male,성년,0.426829,0.051948,0.132948
male,노년,0.083333,0.333333,0.0


### 시계열 데이터
    DateTimeIndex 자료형
        pd.to_datetime( ): 문자열을 날짜타입으로 변환
        pd.date_range( ): 날짜의 범위 지정

In [208]:
data_str = ['2020. 1. 1', '2020. 1. 4', '2020. 1. 6', '2020. 1. 9']
inx = pd.to_datetime(data_str)
type(inx)

pandas.core.indexes.datetimes.DatetimeIndex

In [210]:
# 날짜를 인덱스로 활용
np.random.seed(0)
s = pd.Series(np.random.randn(4), index = inx)
s

2020-01-01    1.764052
2020-01-04    0.400157
2020-01-06    0.978738
2020-01-09    2.240893
dtype: float64

In [213]:
# 날짜데이터 생성
pd.date_range('2020-1-1', '2020-4-30')
pd.date_range('2020-4-1', periods = 30)

DatetimeIndex(['2020-04-01', '2020-04-02', '2020-04-03', '2020-04-04',
               '2020-04-05', '2020-04-06', '2020-04-07', '2020-04-08',
               '2020-04-09', '2020-04-10', '2020-04-11', '2020-04-12',
               '2020-04-13', '2020-04-14', '2020-04-15', '2020-04-16',
               '2020-04-17', '2020-04-18', '2020-04-19', '2020-04-20',
               '2020-04-21', '2020-04-22', '2020-04-23', '2020-04-24',
               '2020-04-25', '2020-04-26', '2020-04-27', '2020-04-28',
               '2020-04-29', '2020-04-30'],
              dtype='datetime64[ns]', freq='D')

##### freq
    s : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫 날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일 중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날


In [216]:
pd.date_range('2020-1-1', '2020-1-30', freq='B')

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-06',
               '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10',
               '2020-01-13', '2020-01-14', '2020-01-15', '2020-01-16',
               '2020-01-17', '2020-01-20', '2020-01-21', '2020-01-22',
               '2020-01-23', '2020-01-24', '2020-01-27', '2020-01-28',
               '2020-01-29', '2020-01-30'],
              dtype='datetime64[ns]', freq='B')

In [226]:
# Shift  연산자 : 데이터(value)를 한칸씩 밀어줌
np.random.seed(0)

ts = pd.Series(np.random.randn(4), index =pd.date_range('2020-1-1', periods=4, freq='M'))
print(ts)
print('+'*30)

# 첫번째 데이터가 뒤로 밀려서 첫번째 인덱스가 NaN 값이 됨
print(ts.shift(1))

print('+'*30)

#마지막 데이터가 앞으로 이동하여 마지막 인덱스가  NaN 값이 됨
print(ts.shift(-1))

print('+'*30)

# 인덱스가 이동함.
print(ts.shift(1, freq = 'M'))

print('+'*30)

# 인덱스 값을 일요일로 변경.
print(ts.shift(1, freq = 'W'))

2020-01-31    1.764052
2020-02-29    0.400157
2020-03-31    0.978738
2020-04-30    2.240893
Freq: M, dtype: float64
++++++++++++++++++++++++++++++
2020-01-31         NaN
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
Freq: M, dtype: float64
++++++++++++++++++++++++++++++
2020-01-31    0.400157
2020-02-29    0.978738
2020-03-31    2.240893
2020-04-30         NaN
Freq: M, dtype: float64
++++++++++++++++++++++++++++++
2020-02-29    1.764052
2020-03-31    0.400157
2020-04-30    0.978738
2020-05-31    2.240893
Freq: M, dtype: float64
++++++++++++++++++++++++++++++
2020-02-02    1.764052
2020-03-01    0.400157
2020-04-05    0.978738
2020-05-03    2.240893
Freq: WOM-1SUN, dtype: float64


##### resampling : 시간간격을 재조정함.
    - up-sampling : 시간 구간이 작아지면서 데이터양 증가
    - down-sampling : 구간이 커지면서 데이터양은 감소


In [231]:
# downsampling : 그룹 연산을 통해 대표값 구하기,
ts = pd.Series(np.random.randn(100), index = pd.date_range('2020-1-1', periods = 100))

print(ts.head(10))
print('+'*30)

ts.resample('W').mean()


2020-01-01   -1.768538
2020-01-02    0.355482
2020-01-03    0.814520
2020-01-04    0.058926
2020-01-05   -0.185054
2020-01-06   -0.807648
2020-01-07   -1.446535
2020-01-08    0.800298
2020-01-09   -0.309114
2020-01-10   -0.233467
Freq: D, dtype: float64
++++++++++++++++++++++++++++++


2020-01-05   -0.144933
2020-01-12    0.060108
2020-01-19    0.452800
2020-01-26   -0.286924
2020-02-02   -0.081803
2020-02-09   -0.080310
2020-02-16   -0.242017
2020-02-23    0.178874
2020-03-01   -0.301189
2020-03-08   -0.562024
2020-03-15    0.473312
2020-03-22   -0.118465
2020-03-29    0.280239
2020-04-05    0.235948
2020-04-12    0.302655
Freq: W-SUN, dtype: float64

In [232]:
ts.resample('M').first()

2020-01-31   -1.768538
2020-02-29    0.314817
2020-03-31   -0.502817
2020-04-30   -0.073925
Freq: M, dtype: float64

In [235]:
# upsampling : ffill( ) = forwardfilling, bfill( ) = backwordfilling

ts.resample('30s').ffill().tail(20)
ts.resample('30s').bfill().head(20)

2020-01-01 00:00:00   -1.768538
2020-01-01 00:00:30    0.355482
2020-01-01 00:01:00    0.355482
2020-01-01 00:01:30    0.355482
2020-01-01 00:02:00    0.355482
2020-01-01 00:02:30    0.355482
2020-01-01 00:03:00    0.355482
2020-01-01 00:03:30    0.355482
2020-01-01 00:04:00    0.355482
2020-01-01 00:04:30    0.355482
2020-01-01 00:05:00    0.355482
2020-01-01 00:05:30    0.355482
2020-01-01 00:06:00    0.355482
2020-01-01 00:06:30    0.355482
2020-01-01 00:07:00    0.355482
2020-01-01 00:07:30    0.355482
2020-01-01 00:08:00    0.355482
2020-01-01 00:08:30    0.355482
2020-01-01 00:09:00    0.355482
2020-01-01 00:09:30    0.355482
Freq: 30S, dtype: float64