## 1. Pandas에서 제공하는 대표적인 자료구조
    - Sefies
        값 + index
    - DataFrame
        여러개의 Series를 묶어놓은 형태(테이블)
        전처리
        인덱싱 주의!!
        
        
        인덱스 -> 행 별로

In [1]:
import numpy as np
import pandas as pd

## 2. Series
- 기본적으로 배열 형태(dtype)
- 인덱스 포함되어있음. enumerate의 기능
- __dict형과 유사__

In [85]:
s= pd.Series([9904312, 3448737, 2890451, 2466052])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [86]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


### (1) 인덱스 활용
    인덱스를 자유롭게 지정 가능
    인덱스(index)와 값(values)을 별도로 가져올 수 있다.
    Series 전체에 이름 지정 가능
    인덱스는 1개의 인자만 받으므로 여러개 쓸 경우 리스트로 묶어줘야함

In [87]:
# 인덱스를 자유롭게 지정 가능
s= pd.Series([9904312, 3448737, 2890451, 2466052], index=['서울','부산','인천','대구'])
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [88]:
# 인덱스와 값을 별도로 가져올 수 있다.
print(s.values, type(s.values))
print(s.index)

[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [89]:
# Series 전체에 이름 지정 가능
s.name= '인구'
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


### (2) 벡터화 연산
    배열이기 때문에 가능

In [90]:
# 숫자 데이터 자동 계산
s/ 100000

서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

### (3) Indexing
    인덱스로 여러 데이터 접근 가능
    조건문, 반복문 기능

In [91]:
print(s[0])
print(s['서울'])
print(s[[1,2]]) # 인덱스는 1개의 인자만 받으므로 여러개 쓸 경우 리스트로 묶어줘야함
print(s[1:3])
print(s[['부산','인천']])

9904312
9904312
부산    3448737
인천    2890451
Name: 인구, dtype: int64
부산    3448737
인천    2890451
Name: 인구, dtype: int64
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [92]:
print(s[(s>250e4) & (s<500e4)])

부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [93]:
# 인덱스를 .으로 접근가능  문자열표시X
print(s.부산,',',s.서울)

3448737 , 9904312


### (4) Series와 dict

In [94]:
print('서울' in s)
print('제주' in s)

True
False


In [95]:
print(list(s.items()))
print(s.keys())
print(s.index)
print(s.values)

#dict형식으로 series 생성. index이름까지 한번에 생성 가능
s2= pd.Series({'서울':9963148,'부산':3348737 , '인천':2262035, '대전':2140158})
s2

[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
Index(['서울', '부산', '인천', '대구'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]


서울    9963148
부산    3348737
인천    2262035
대전    2140158
dtype: int64

### (5) 기타 연산
    인덱스 기반 연산

In [96]:
#### 인덱스 기반 연산

print(s)
print(s2)

result= s.values- s2.values  # 같은 위치의 값끼리 계산
print(result)

result= s-s2   # 같은 인덱스끼리 계산
print(result)



서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
서울    9963148
부산    3348737
인천    2262035
대전    2140158
dtype: int64
[-58836 100000 628416 325894]
대구         NaN
대전         NaN
부산    100000.0
서울    -58836.0
인천    628416.0
dtype: float64


In [97]:
# 결측치 제거

print(result.dropna()) # 원본 수정 X. 복사본
print(result.notnull())  # boolean
print(result[result.notnull()])  

부산    100000.0
서울    -58836.0
인천    628416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    100000.0
서울    -58836.0
인천    628416.0
dtype: float64


In [98]:
# s와 s2의 데이터를 이용해서 인구증가율
# (끝연도-시작연도)/시작연도*100
result2= (s2-s)/s*100
print(result2)

대구          NaN
대전          NaN
부산    -2.899612
서울     0.594044
인천   -21.741105
dtype: float64


In [113]:
# 데이터를 수정, 삭제, 갱신

# 수정
result2['부산']=14

# 갱신
result2['대전']=14

# 삭제
del result2['서울']

result2


부산    14.000000
서울     0.594044
인천   -21.741105
대구    14.000000
dtype: float64

## 3. DataFrame
    ?pd.DataFrame
    DataFrame(data, index, columns, ...)
    컬럼의 순서(위치) 바꾸기
    인덱스 변경
    컬럼과 인덱스에 이름 지정
    전치 가능
    열 인덱싱
    열 먼저 인덱싱
    열 인덱스에는 슬라이싱 안됨
    열 인덱스에 숫자로 접근 안됨
    열 인덱스에 열 이름으로만 접근 가능
    행 인덱스는 슬라이싱으로만 접근
    행 열 모두 접근할때는 행 슬라이싱 아니여도됨

In [100]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
df= pd.DataFrame(data)
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [101]:
df

Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


### (1) 컬럼의 순서(위치) 바꾸기

In [102]:
print(df.columns)
cols=['지역','2015', '2010', '2005', '2000', '2010-2015 증가율']
df= pd.DataFrame(data,columns=cols)
df

Index(['2015', '2010', '2005', '2000', '지역', '2010-2015 증가율'], dtype='object')


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


### (2) 인덱스 변경

In [103]:
print(df.index) 
idx= ['서울','부산','인천','대구']
df= pd.DataFrame(data, columns=cols, index=idx)
df

RangeIndex(start=0, stop=4, step=1)


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [104]:
# 컬럼과 인덱스에 이름 지정

df.index.name= '도시'
df.columns.name= '특성'
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [105]:
# 전치 가능

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### (3) Indexing
    df[0] DataFrame에서 열 인덱스는 숫자로 접근 안됨
    df['2015':'2010'] # 열 인덱스 슬라이싱 안됨
    행 인덱스는 반드시 :으로 슬라이싱

#### 1) 열 인덱싱

In [106]:
# data
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [107]:
print(df['지역'],'\n')  # Series type
print(type(df['지역']),'\n')
print(df[['지역']],'\n')    # Series를 DataFrame 형식으로
print(df[['2015','2010']],'\n')

# df[0] DataFrame에서 열 인덱스는 숫자로 접근 안됨
# df['2015':'2010'] # 열 인덱스 슬라이싱 안됨

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object 

<class 'pandas.core.series.Series'> 

특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권 

특성     2015     2010
도시                  
서울  9904312  9631482
부산  3448737  3393191
인천  2890451  2632035
대구  2466052  2431774 



#### 2) 행 인덱싱
    하나여도 반드시 :으로 슬라이싱

In [108]:
print(df[0:3],'\n')
print(df[:],'\n')
print(df['서울':'부산'],'\n')

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982 

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141 

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163 



#### 3) 행과 열을 동시에 접근
    행과 열을 따로 접근. [행,열]로 접근 불가능
    행이 아니라 열 우선
    동시에 접근할때는 행 슬라이싱 안해도 됨
    열은 슬라이싱 안됨
    행 숫자로 접근 가능
    열 숫자로 접근 불가능

In [109]:
print(df)
print(df['2015']['서울'],'\n')
print(df['2015'][0],'\n')
print(df['2015'][:'서울'],'\n')
print(df['2015'][:1])
# print(df['2015','서울'])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
9904312 

9904312 

도시
서울    9904312
Name: 2015, dtype: int64 

도시
서울    9904312
Name: 2015, dtype: int64


#### 4) 열 데이터 수정, 추가, 삭제

In [115]:
print(df,'\n')

# 수정
df['2010-2015 증가율']= df['2010-2015 증가율']*100
print(df,'\n')

# 추가. 새로운 컬럼, 파생변수 생성
df['2005-2010 증가율']= ((df['2010']-df['2005'])/df['2005']*100)
print(df,'\n')

# 삭제

del df['2005-2010 증가율']
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972           2.83      -1.342519
부산  경상권  3448737  3393191  3512547  3655437           1.63      -3.397990
인천  수도권  2890451  2632035  2517680  2466338           9.82       4.542078
대구  경상권  2466052  2431774  2456016  2473990           1.41      -0.987046 

특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972          283.0      -1.342519
부산  경상권  3448737  3393191  3512547  3655437          163.0      -3.397990
인천  수도권  2890451  2632035  2517680  2466338          982.0       4.542078
대구  경상권  2466052  2431774  2456016  2473990          141.0      -0.987046 

특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                

In [3]:
#1. 인덱스를 춘향, 몽룡, 향단. 방자로 구성된 df를 작성
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]
}

df= pd.DataFrame(data,index=['춘향','몽룡','향단','방자'])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [227]:
#2. 모든 학생의 수학점수 조회
# 열만 접근해도 자동으로 모든 행 선택됨
df['수학']

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [228]:
#3 모든 학생의 국어와 영어 점수를 조회
# 열은 슬라이싱으로 접근  부라
df[['국어','영어']]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [11]:
?pd.DataFrame.mean

In [5]:
# 파생변수 추가
#4 모든 학생의 각 과목평균점수를 새로운 열 과목평균으로 추가하시오
df['과목평균']=(df['국어']+df['영어']+df['수학'])/3
df['과목평균2']= df[:].mean(axis=1).round(2)  #행을 기준으로 모든 행 평균
df

Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.666667,86.67
몽룡,90,70,60,73.333333,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.666667,46.67


In [9]:
# 열 먼저 접근
# 열 여러개에 접근할때는 행 슬라이싱 해야함
#5 방자의 영어점수를 80으로 수정하고 평균점수도 다시 수정하시오
df['영어']['방자']=80
df['과목평균']['방자']= (df['국어']['방자']+ df['수학']['방자']+df['영어']['방자'])/3
df['과목평균2']['방자']= df[['국어','영어','수학']]['방자':'방자'].mean(axis=1).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자']=80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['과목평균']['방자']= (df['국어']['방자']+ df['수학']['방자']+df['영어']['방자'])/3
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['과목평균2']['방자']= df[['국어','영어','수학']]['방자':'방자'].mean(axis=1).round(2)


Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.666667,86.67
몽룡,90,70,60,73.333333,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [10]:
# 열은 이름으로만 접근가능. 행 접근은 숫자로도 가능
# 춘향의 점수를 데이터 프레임 형식으로 출력 (그냥 출력)
print(df['춘향':'춘향'])

print(type(df.T[['춘향']]))
print(df["춘향":"춘향"])

    국어  영어  수학       과목평균  과목평균2
춘향  80  90  90  86.666667  86.67
<class 'pandas.core.frame.DataFrame'>
    국어  영어  수학       과목평균  과목평균2
춘향  80  90  90  86.666667  86.67


In [232]:
# 행으로 뽑으면 datarframe, 열로 뽑으면 Series
# 향단의 점수를 Series로 출력
type(df.T['향단'])

pandas.core.series.Series

### (5) 파일 입출력
    바로 데이터프레임 형식으로
    - read_csv()
    - to_csv()
    - read_table(): csv가 아닌건 table로

In [135]:
%%writefile data/sample1.csv          # 매직 명령어 파일 생성: %%writefile 파일명   . 반드시 주석없이 첫줄에서 실행

c1,c2,c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample.csv


In [137]:
sample1= pd.read_csv('data/sample1.csv')   # 바로 df 형식
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [139]:
%%writefile data/sample2.csv  

1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [141]:
sample2= pd.read_csv('data/sample2.csv', names=['c1','c2','c3'])   # 컬럼 이름 바로 할당
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [144]:
# 특정한 열을 인덱스로 지정
sample3= pd.read_csv('data/sample1.csv', index_col='c1')
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [162]:
%%writefile data/sample3.txt  
c1     c2      c3      c4
1  1.11  1111  111
2  2.22  2222  222
3  3.33  3333  333

Overwriting data/sample3.txt


In [163]:
sample3= pd.read_table('data/sample3.txt', sep='\s+')
sample3

Unnamed: 0,c1,c2,c3,c4
0,1,1.11,1111,111
1,2,2.22,2222,222
2,3,3.33,3333,333


In [157]:
?pd.read_table

In [199]:
%%writefile data/sample4.txt
파일제목: sample4.txt
데이터포맷: 어쩌구저쩌구
컬럼 설명: ~~~
c1,c2,c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample4.txt


In [202]:
# sample4= pd.read_table('data/sample4.txt', sep=',', skiprows=[0,1,2])
sample4= pd.read_table('data/sample4.txt', sep=',', skiprows=3)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [207]:
%%writefile data/sample5.csv
c1,c2,c3
1, 1.11, 
2, , two
0, 3.33, three

Overwriting data/sample5.csv


In [208]:
sample5= pd.read_csv('data/sample5.csv', na_values=[' ',0])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [209]:
df

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.666667
몽룡,90,70,60,73.333333
향단,70,60,80,70.0
방자,30,80,70,60.0


In [213]:
### csv로 저장
df.to_csv('data/sample6.csv')    # csv 파일이므로 sep없어도 ,로 구분  
df.to_csv('data/sample7.txt', sep='|')   # csv이외의 파일에 지정 구분자로
df.to_csv('data/sample8.csv', index=False, header=False)   # 인덱스, 컬럼 제목 빼고 저장

In [214]:
# 결측치 파일을 텍스트파일 형식에 맞게
sample5.to_csv('data/sample9.csv', na_rep='없음')

## (6) Indexer
    인덱스를 도와주는 기능
    - loc: 라벨값(이름) 기반의 2차원 인덱싱을 지원하는 인덱서
    - iloc: 순서를 나타내는 정수 기반의 인덱서
    - at : 한개의 값만 가져올 수 있음. 속도 빠르다
    - iat
    - ix: 안쓰는 추세

#### 1) loc
    라벨값(이름 기반
    행 우선 방식
    Series로 출력
    행과 열을 묶어서 접근 가능  [ 행, 열 ]
    슬라이싱 제약 없음

In [12]:
df= pd.DataFrame(np.arange(10,22).reshape(3,4), index=['a','b','c'], columns=['A','B','C','D'])
df  # new_axis

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [13]:
# 첫번째 행 추출. 원래는 슬라이싱 필수
print(df[:1])
print(df[:'a'])
print('-------------')

print(df.loc['a'])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
-------------
A    10
B    11
C    12
D    13
Name: a, dtype: int32


In [20]:
# 기본 인덱서는 행,열 인덱스를 따로 써야함. loc는 ,로 같이 접근

# 첫번째 열이 15보다 큰 행을 추출
print(df['A'])
print(df.loc[:,'A'])
print('------------')

# 열로 먼저 접근할때는 기본 인덱서가 편함
print(df.loc[df.loc[:,'A']> 15])
print(df[df['A']>15])
print(df[df.A>15])

a    10
b    14
c    18
Name: A, dtype: int32
a    10
b    14
c    18
Name: A, dtype: int32
------------
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


In [25]:
# 행과 열을 모두 사용
# b행 B열 추출

print(df['B']['b'])
print(df.loc['b','B'])
print(df.loc['b']['B'])

15
15
15


In [31]:
# 슬라이싱 제약 없음
print(df.loc['b':,'B':])
print(df.loc[['a','c'],['B','C']])
# print(df.loc['a','c']['B','C'])    이건 안됨

    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20


In [33]:
# 반드시 레이블(이름)로만 접근
# print(df.loc[1:])    에러
# print(df.loc[[0,1],[1,2]])    에러

### 2) iloc
    loc를 숫자 인덱스로 접근

In [35]:
print(df.iloc[1:])  
print(df.iloc[[0,1],[1,2]])

    A   B   C   D
b  14  15  16  17
c  18  19  20  21
    B   C
a  11  12
b  15  16


### 3) at, iat
    하나만 뽑아올 수 있음
    속도 빠르다

In [None]:
# %timeit 시간측정

In [36]:
%timeit df.loc['a','A']
%timeit df.at['a','A']

6.19 µs ± 40.5 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.21 µs ± 17.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


##  4. Data Manipulation
    (DML: INSERT UPDATE DELETE)

### (1) 데이터 카운팅

#### 1) Series에서 카운팅
    결측치는 제외하고 카운팅

In [40]:
s= pd.Series(range(10))
print(s.count())
s[3]= np.nan
print(s.count())

10
9


#### 2) DataFrame에서 카운팅
    count()
    열별로 카운팅

?np.random.randint(low, hige=None, size=None, ...)
- low: 생성할 정수의 최소값. 이 값은 범위에 포함됩니다.
- high: 생성할 정수의 최대값. 이 값은 범위에 포함되지 않습니다. high가 지정되지 않으면 low 값이 최대값이 됩니다.
- size: 생성할 난수의 개수를 지정하는 정수 또는 튜플. 예를 들어, (3, 2)와 같은 튜플을 지정하면 3행 2열의 배열을 생성합니다.

In [49]:
np.random.seed(2)
df= pd.DataFrame(np.random.randint(5, size=(3,4)))
print(df)
print(df.count())  # 열별로 카우팅

df.iloc[2,3]= np.nan
df.count()

   0  1  2  3
0  0  0  3  2
1  3  0  2  1
2  3  2  4  4
0    3
1    3
2    3
3    3
dtype: int64


0    3
1    3
2    3
3    2
dtype: int64

#### 3) 카테고리별로 카운팅
    value_counts()
    Series에서만 사용가능    -> DataFrame도 사용 가능??
    DataFrame에서 쓰려면 열 뽑아서 Series로 만들어서 사용
    return Series

In [65]:
np.random.seed(1)
s= pd.Series(np.random.randint(6, size=100))
s
print(s.value_counts()) # 카테고리별 개수
print(df[0].value_counts())

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64
3    2
0    1
Name: 0, dtype: int64


### (2) 정렬
- sort_values(ascending=False: 내림차순)   default는 True(오름차순)
- sort_index()
- 결측치는 정렬의 대상이 되지 않는다.

열을 기준으로 정렬: sort_values()
원래 정렬은 복사본. 원본 수정하고 싶으면 inplace

#### 1) Series 정렬

In [69]:
np.random.seed(1)
s= pd.Series(np.random.randint(6, size=100))
print(s.value_counts())   # 많은 순서로 정렬됨
print(s.value_counts().sort_index()) # 인덱스로 정렬됨
print(s.sort_values())    # 값으로 정렬됨 

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64
0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64
57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32


#### 2) DataFrame 정렬

In [74]:
np.random.seed(2)
df= pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df)
print('-------------------------------')
df.sort_values(by=2)   #2번 열을 기준으로 전체 정렬
# df[2].sort_values()    #2번 열만 정렬
df.sort_values(by=[1,2])   # 1번열로 1차정렬하고 2번열로 2차정렬 

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
-------------------------------


Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [82]:
df1= pd.DataFrame({'seq':[1,3,2], 'name':['park','lee','choi'],'age':[30,20,40]})
print(df1)
print('---------------------------')

# seq를 기준으로 내림차순 정렬 
# 열 이름이 제시되어있으면 sort_values()
df1.sort_values('seq', ascending=False)

# index를 기준으로 정렬
df1.sort_index()         # axis=0: 행을 정렬
df1.sort_index(axis=1)    # 열 이름으로 열 정렬

# inplace
# 원래 정렬된 결과는 복사본
df1.sort_values(by=['seq','name'], axis=0, ascending=False, inplace= True)
df1

   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
---------------------------


Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


### (3) 행, 열의 집합 연산

In [89]:
np.random.seed(2)
df= pd.DataFrame(np.random.randint(10, size=(4,8)))
print(df)
print('-------------------------------')

df.sum()    # 열 별로 합계
df.sum(axis=1)   # 행 별로 합계

# 열 별 합계를 행 추가
df.loc['합계',:]= df.sum()

# 행 별 합계를 열 추가
df['RowSum']= df.sum(axis=1)
df

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
-------------------------------


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0,42.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0,38.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0,37.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0,30.0
합계,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0,147.0


### (4) apply(함수, 기준축)
    map과 비슷. 데이터의 개수만큼 함수 적용
    행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
    인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [90]:
df= pd.DataFrame({'A':[1,3,4,3,4], 'B':[2,3,1,2,3], 'C':[1,5,2,4,4]})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [101]:
?pd.DataFrame.apply

In [104]:
# 각 행,열 별로 최대값과 최소값의 차이
def diff(x):
    return x.max()-x.min()

print(diff(df['A']))
print(diff(df.loc[2,:]))

df.apply(diff, axis=0)   # df.apply(함수, 기준축)  axis=0: 열 axis=1: 행
df.apply(diff, axis=1)

# 람다함수 이용
df.apply(lambda x: x.max()-x.min(), axis=0)
df.apply(lambda x: x.max()-x.min(), axis=1)

3
3


0    1
1    2
2    3
3    2
4    1
dtype: int64

In [113]:
# 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회

print(df['A'].value_counts())

df.apply(pd.Series.value_counts, axis=0)
df.apply(pd.Series.value_counts, axis=0).fillna(0)      # NaN 결측치를 0으로 채움
# df.apply(df.value_counts, axis=0)
# DataFrame에서 value_counts() 메서드는 열의 고유한 값의 수를 반환하며, 
# Series에서 value_counts() 메서드는 해당 시리즈 객체의 고유한 값의 수를 반환합니다.

3    2
4    2
1    1
Name: A, dtype: int64


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


### (5) 실수값을 카테고리값으로 변경 <Insight 도출>
- 양적 데이터(숫자) -> 질적 데이터(숫자X, 문자)
- cut(데이터, 기준)
- qcut()

#### 1) cut

In [116]:
# 1~15, 16~25, 26~35, 36~60, 61~99
ages= [0,2,10,21,23,37,31,61,20,41,32,100]

cat= pd.cut(x=ages,bins=[1,15,25,35,60,99], labels=['미성년자','청년','중년','장년','노년'])
cat

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [117]:
print(type(cat))
print(cat.categories)
print(cat.codes)      #카테고리를 숫자로

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


#### 2) qcut()
    같은 개수끼리 모이도록 범위 설정
    카테고리별로 같은 개수

In [121]:
data= np.random.randn(100)
cat1= pd.qcut(data, 4,labels=['q1','q2','q3','q4'])
pd.value_counts(cat1)

q1    25
q2    25
q3    25
q4    25
dtype: int64

## 5. Index Manipulation

### (1) set_index(열), reset_index()

In [160]:
df1= pd.DataFrame([list('ABCDE'),np.random.rand(3,5)])
df1
list('ABCDE')
np.random.rand(3,5)

array([[0.6818203 , 0.3595079 , 0.43703195, 0.6976312 , 0.06022547],
       [0.66676672, 0.67063787, 0.21038256, 0.1289263 , 0.31542835],
       [0.36371077, 0.57019677, 0.43860151, 0.98837384, 0.10204481]])

In [135]:
np.random.seed(0)

df1= pd.DataFrame(np.vstack([list('ABCDE'), np.random.rand(3,5)]).T, columns=['c1','c2','c3','c4'])
df1
df2= df1.set_index('c1') # 새로운 인덱스를 지정하면 기존 인덱스는 사라짐
df2.reset_index()   # 원래 데이터로 초기화. drop=True: 기존 인덱스를 아예 삭제

Unnamed: 0,c1,c2,c3,c4
0,A,0.5488135039273248,0.6458941130666561,0.7917250380826646
1,B,0.7151893663724195,0.4375872112626925,0.5288949197529045
2,C,0.6027633760716439,0.8917730007820798,0.5680445610939323
3,D,0.5448831829968969,0.9636627605010292,0.925596638292661
4,E,0.4236547993389047,0.3834415188257777,0.0710360581978869


### (2) 다중 인덱스, 멀티 인덱스

In [3]:
# 다중 컬럼
import numpy as np
import pandas as pd
np.random.seed(0)
df1= pd.DataFrame(np.vstack([list('ABCDE'), np.round(np.random.rand(3,5))]).T, 
                  columns=[['a','a','b','b'],['c1','c2','c3','c4']])
df1.columns.names=['cidx1','cidx2']
df1

cidx1,a,a,b,b
cidx2,c1,c2,c3,c4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [155]:
df1[('a','c2')]    # 다중컬럼에 접근할때는 튜플로 묶어서
df1[('b','c3')][0:3]

df1.loc[:,('a','c2')]
df1.loc[0:3, ('b','c3')]

#iloc는 가장 아래의 컬럼에만 인덱스 부여
df1.iloc[:,2]

0    1.0
1    0.0
2    1.0
3    1.0
4    0.0
Name: (b, c3), dtype: object

In [4]:
# 다중 컬럼과 다중 인덱스를 갖는 테이블
np.random.seed(0)
df2= pd.DataFrame(np.random.rand(6,4).round(2), columns=[['a','a','b','b'],['c','d','c','d']], 
                  index=[['m','m','m','f','f','f'],['1','2','3','1','2','3']])
df2.columns.names=['cidx1','cidx2']
df2.index.names=['ridx1','ridx2']
df2

Unnamed: 0_level_0,cidx1,a,a,b,b
Unnamed: 0_level_1,cidx2,c,d,c,d
ridx1,ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
m,1,0.55,0.72,0.6,0.54
m,2,0.42,0.65,0.44,0.89
m,3,0.96,0.38,0.79,0.53
f,1,0.57,0.93,0.07,0.09
f,2,0.02,0.83,0.78,0.87
f,3,0.98,0.8,0.46,0.78


In [245]:
# 첫번째 행 첫번째 열
df2[('a','c')][('m','1')]
df2.loc[('m','1'),('a','c')]
df2.iloc[0,0]
print('------------')
df2.loc['m']['a']['c'][0]    # m행의 a열의 c열의 0번째.  행 열로 접근하면 결국 그냥 dataframe으로 바뀜. 다시 열부터 접근

------------


cidx2,c,d
ridx2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.55,0.72
2,0.42,0.65
3,0.96,0.38


In [246]:
# 행 인덱스 이름과 열 인덱스 이름을 바꿀 때
# stack(): 열을 행으로
# unstack(): 행을 열로

print(df2)
df2.stack('cidx1')
df2.unstack('ridx1')

cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
m     1      0.55  0.72  0.60  0.54
      2      0.42  0.65  0.44  0.89
      3      0.96  0.38  0.79  0.53
f     1      0.57  0.93  0.07  0.09
      2      0.02  0.83  0.78  0.87
      3      0.98  0.80  0.46  0.78


cidx1,a,a,a,a,b,b,b,b
cidx2,c,c,d,d,c,c,d,d
ridx1,f,m,f,m,f,m,f,m
ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
1,0.57,0.55,0.93,0.72,0.07,0.6,0.09,0.54
2,0.02,0.42,0.83,0.65,0.78,0.44,0.87,0.89
3,0.98,0.96,0.8,0.38,0.46,0.79,0.78,0.53


In [301]:
print(df2)
# 첫번째 열 0.55 ~0.02
# df2[('a','c')][0:5]
df2.iloc[:5,0]

# 첫번째 행의 모든 컬럼
df2.loc[('m', '1'),:]

# 행에 all 인덱스 추가하여 열의 합을 출력
df3= df2.copy()     # 주소를 넘기는 거기 때문에 같이 수정된다.

# df3.loc['ALL']= df3.sum(axis=0)     테이블이 이중인덱스기때문에 이중인덱스로 넣어야 다시 테이블에 접근가능
df3.loc[('ALL','ALL'),:]= df3.sum(axis=0)
df3
#3.32 2.7 4.3 3.47

cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
m     1      0.59  0.02  0.83  0.00
      2      0.68  0.27  0.74  0.96
      3      0.25  0.58  0.59  0.57
f     1      0.22  0.95  0.45  0.85
      2      0.70  0.30  0.81  0.40
      3      0.88  0.58  0.88  0.69


cidx1  cidx2
a      c        0.59
       d        0.02
b      c        0.83
       d        0.00
Name: (m, 1), dtype: float64

In [299]:
# 행에 all 인덱스 추가하여 열의 합을 출력
df3= df2.copy()     # 주소를 넘기는 거기 때문에 같이 수정된다.
# df3.loc['ALL']= df3.sum(axis=0)
df3.loc[('ALL','ALL'),:]= df3.sum(axis=0)
print(df3)
print(df2)
#3.32 2.7 4.3 3.47

cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
m     1      0.59  0.02  0.83  0.00
      2      0.68  0.27  0.74  0.96
      3      0.25  0.58  0.59  0.57
f     1      0.22  0.95  0.45  0.85
      2      0.70  0.30  0.81  0.40
      3      0.88  0.58  0.88  0.69
ALL   ALL    3.32  2.70  4.30  3.47
cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
m     1      0.59  0.02  0.83  0.00
      2      0.68  0.27  0.74  0.96
      3      0.25  0.58  0.59  0.57
f     1      0.22  0.95  0.45  0.85
      2      0.70  0.30  0.81  0.40
      3      0.88  0.58  0.88  0.69


#### 인덱스 레벨(순서) 교환: swaplevel(i, j, axis=0)

In [6]:
df2.swaplevel('ridx1','ridx2')   # 열 방향

Unnamed: 0_level_0,cidx1,a,a,b,b
Unnamed: 0_level_1,cidx2,c,d,c,d
ridx2,ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,m,0.55,0.72,0.6,0.54
2,m,0.42,0.65,0.44,0.89
3,m,0.96,0.38,0.79,0.53
1,f,0.57,0.93,0.07,0.09
2,f,0.02,0.83,0.78,0.87
3,f,0.98,0.8,0.46,0.78


In [8]:
df2.swaplevel('cidx1','cidx2',axis=1)

Unnamed: 0_level_0,cidx2,c,d,c,d
Unnamed: 0_level_1,cidx1,a,a,b,b
ridx1,ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
m,1,0.55,0.72,0.6,0.54
m,2,0.42,0.65,0.44,0.89
m,3,0.96,0.38,0.79,0.53
f,1,0.57,0.93,0.07,0.09
f,2,0.02,0.83,0.78,0.87
f,3,0.98,0.8,0.46,0.78


#### 정렬: sort_index(level)
    axis= 0: index 정렬
    axis= 1: columns 정렬

In [13]:
print(df2)
print('-----------------')
print(df2.sort_index(level=0, axis=0))   # ridx1 정렬
print('-----------------')
print(df2.sort_index(level=1, axis=0))   # ridx2 정렬
print('-----------------')
print(df2.sort_index(level=0, axis=1))   # cidx1 정렬
print('-----------------')
print(df2.sort_index(level=1, axis=1))   # cidx2 정렬

cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
m     1      0.55  0.72  0.60  0.54
      2      0.42  0.65  0.44  0.89
      3      0.96  0.38  0.79  0.53
f     1      0.57  0.93  0.07  0.09
      2      0.02  0.83  0.78  0.87
      3      0.98  0.80  0.46  0.78
-----------------
cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
f     1      0.57  0.93  0.07  0.09
      2      0.02  0.83  0.78  0.87
      3      0.98  0.80  0.46  0.78
m     1      0.55  0.72  0.60  0.54
      2      0.42  0.65  0.44  0.89
      3      0.96  0.38  0.79  0.53
-----------------
cidx1           a           b      
cidx2           c     d     c     d
ridx1 ridx2                        
f     1      0.57  0.93  0.07  0.09
m     1      0.55  0.72  0.60  0.54
f     2      0.02  0.83  0.78  0.87
m     2      0.42  0.65  0.44  0.89
f     3      0.98  0.80  0.46  0.78
m     3      0.96  0.38  0.7

In [14]:
? pd.DataFrame.sort_index

## 3. 연습문제

In [337]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [338]:
# df_score1['번호']= df_score1['번호'].astype(str)
df_score2= df_score1.set_index(['반','번호']).sort_index()
df_score2.iloc[0,0]

79

In [339]:
# 1차 행 인덱스로 '반'을 2차 행 인덱스로 '번호'
df_score2= df_score1.set_index(['반','번호']).sort_index()
# 학생의 평균을 나타내는 열을 오른쪽에 추가
df_score2['평균']= df_score2.mean(axis=1)
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.666667
A,2,67,77,45,63.0
A,3,68,67,68,67.666667
A,4,88,58,78,74.666667
A,5,85,67,90,80.666667
B,1,88,44,76,69.333333
B,2,92,86,89,89.0
B,3,54,45,67,55.333333
B,4,67,78,99,81.333333
B,5,97,90,89,92.0


In [340]:
# 행 인덱스로 '번호'를, 1차 열 인덱스로 '국어','영어','수학', 2차 열 인덱스로 반
df_score3= df_score2.unstack('반')
df_score3
# 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가
df_score3.loc['평균']= df_score3.mean(axis=0)
df_score3

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.666667,69.333333
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.666667,55.333333
4,88.0,67.0,58.0,78.0,78.0,99.0,74.666667,81.333333
5,85.0,97.0,67.0,90.0,90.0,89.0,80.666667,92.0
평균,77.4,79.6,64.8,68.6,67.6,84.0,69.933333,77.4


In [341]:
?pd.DataFrame.stack

## 4. 데이터 프레임의 합성(병합)
    merge(): join()과 비슷
        두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다. 
        이때 기준이 되는 열, 행의 데이터를 key라고 한다.
    concat()
        기준열을 사용하지 않고 단순히 데이터를 연결
        
    join()은 인덱스가 키인 경우에 사용 가능

### (1) merge() 
    pd.merge(
    left: 'DataFrame | Series',
    right: 'DataFrame | Series',
    how = 'inner','right','outer',...
    on: 'IndexLabel | None'    # 키로 쓸 컬럼
    left_on: 'IndexLabel | None' = None,
    right_on: 'IndexLabel | None' = None,
        ...)
        
    디폴트는 inner join
    컬럼 이름이 같은 걸 키로 자동 설정
    
    같은 이름이 여러개인 경우 직접 설정 on
    공통된 이름이 없으면 left_on, right_on 설정
    필드와 이중 인덱스가 키인 경우:
    pd.merge(df1, df2, left_on=['도시','연도'], right_index= True)   # 오른쪽 테이블은 인덱스를 키로 사용한다
    키가 둘 다 인덱스인 경우:
    pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

In [27]:
?pd.merge

In [21]:
# df1: df2 = 1: 다 관계
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=================================================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [22]:
print(pd.merge(df1, df2))             # inner join
pd.merge(df1, df2, how='left') # left outer join
pd.merge(df1, df2, how='right')# right outer join
pd.merge(df1, df2, how='outer') # full outer join

   고객번호   이름     금액
0  1001   둘리  10000
1  1001   둘리  20000
2  1001   둘리  30000
3  1005   희동  15000
4  1006  마이콜   5000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [26]:
# 키가 여러개인 경우
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("------------------------------")
print(df2)

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


In [24]:
pd.merge(df1, df2, on='고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [29]:
# 공통된 key가 없는 경우
df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("------------------------------")
print(df2)
pd.merge(df1, df2, left_on='이름', right_on='성명')

   이름  성적
0  영희   1
1  철수   2
2  철수   3
------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [31]:
# 필드와 이중 인덱스
# 인덱스를 기준 열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스)
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2

pd.merge(df1, df2, left_on=['도시','연도'], right_index= True)   # 오른쪽 테이블은 인덱스를 키로 사용한다

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [36]:
# 공통된 키가 둘 다 인덱스 인 경우
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("========================================")
pd.merge(df1, df2, left_index=True, right_index=True, how='outer')
df1.join(df2, how='inner') # defualt는 left outer join. 키가 둘 다 인덱스인 경우 사용 가능

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


### (2) concat()
    단순 병합
    iterable로 한번에 묶어서 테이블 전달

#### 1) Series에서 사용

In [41]:
s1= pd.Series([0,1], index=['a','b'])
s2= pd.Series([2,3,4], index=['a','b','c'])
print(s1)
print(s2)

pd.concat([s1,s2])

a    0
b    1
dtype: int64
a    0
b    3
c    4
dtype: int64


a    0
b    1
a    0
b    3
c    4
dtype: int64

#### 2) DataFrame에서 사용
    axis=0: 열 방향 병합
    axis=1: 행 방향 병합

In [48]:
np.random.seed(1)
df1= pd.DataFrame(np.arange(6).reshape(3,2), index=['a','b','c'], columns=['d1','d2'])
print(df1)
df2= pd.DataFrame(np.arange(4).reshape(2,2), index=['a','c'], columns=['d3','d3'])
print(df2)
pd.concat([df1,df2], axis=1)  #axis=0은 열 방향 병합이라 행 개수 안맞음

   d1  d2
a   0   1
b   2   3
c   4   5
   d3  d3
a   0   1
c   2   3


Unnamed: 0,d1,d2,d3,d3.1
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


## 5. 그룹분석
    pivot()   간단
        pd.DataFrame.pivot(self, index=None, columns=None, values=None) -> 'DataFrame'
        
    groupby() 집계함수와 함께 사용
        pd.DataFrame.groupby(self, by=None, axis: 'Axis' = 0, level: 'Level | None' = None, as_index: 'bool' = True,
                                sort: 'bool' = True, group_keys: 'bool' = True, squeeze: 'bool | lib.NoDefault' = <no_default>,
                                observed: 'bool' = False, dropna: 'bool' = True,) -> 'DataFrameGroupBy'
    pivot_table()
        pd.DataFrame.pivot_table( self, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False,
                                    dropna=True, margins_name='All',observed=False, sort=True,) -> 'DataFrame'

### (1) pivot()
    그룹별로 묶는 기준이 인덱스
    데이터를 구분하는 기준은 컬럼

In [78]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [124]:
# 각 도시에서 연도별 인구 수
df.pivot(index='도시', columns='연도', values='인구')
#df.pivot('지역','연도','인구')  # 지역 별 합계 계산 불가

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [88]:
df1= df.set_index(['도시','연도'])[['인구']]
df1.unstack('연도')

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### (2) groupby()
    그룹으로 묶은 후 반드시 집계함수와 함께 사용: 
        size(), count(), 
        mean(), median(), min(), max(), 
        sum(), product(), std(), var(), quantile()
        first(), last()
        agg(), aggregate(), apply(), transform()
        describe()
        ...

In [92]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [98]:
# 다양한 접근표현
print(df2.groupby(by='key1').sum())   # 합계를 낼 수 있는게 아니면 자동 생략
print('-------------------')
print(df2[['data1','data2']].groupby(df2.key1).sum())
print('-------------------')
print(df2.groupby(by='key1')['data1'].sum())

      data1  data2
key1              
A         8     80
B         7     70
-------------------
      data1  data2
key1              
A         8     80
B         7     70
-------------------
key1
A    8
B    7
Name: data1, dtype: int64


In [103]:
# 복합키
df2.groupby(['key1','key2']).sum()
df2.data1.groupby([df2.key1,df2.key2]).sum()
df2.data1.groupby([df2.key1,df2.key2]).sum().unstack()  #unstack 인자 생략하면 가장 안쪽의 인덱스를 컬럼으로

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [110]:
# 각 도시에서 연도별 인구수
df
df.인구.groupby([df['도시'],df['연도']]).sum().unstack('연도')
df.groupby(['도시','연도']).sum().unstack()
df.pivot('도시','연도','인구')

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [125]:
# 컬럼은 연도 인덱스 지역

df.groupby(['지역','연도']).sum().unstack('연도')
# df.pivot('지역','연도','인구') # pivot은 합계 계산 불가

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
지역,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


#### agg(), apply(), transform()
    세 함수를 구분하기 어렵다
    
    df.apply(함수): 데이터프레임의 각 열(column)이나 시리즈의 각 요소에 대해 적용할 함수를 지정하여, 
            해당 함수의 반환값을 새로운 데이터프레임이나 시리즈로 만들 수 있습니다.
            
    df.agg(): 동시에 여러가시 함수를 적용하고 싶을 때
        iris.groupby('species').agg([np.sum, np.mean, np.std, ...])
        
    df.transform(): 모든 데이터에 대해 함수 적용
        그룹화된 데이터를 원래의 데이터프레임 또는 시리즈의 크기와 동일한 형태로 변환합니다.

In [126]:
import seaborn as sns

iris= sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [138]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율
print(iris.groupby('species').apply(lambda x: x.max()/x.min()))
print('-------------------------')
print(iris.groupby('species').agg(lambda x: x.max()/x.min()))
print('-------------------------')
print(iris.groupby('species').transform(lambda x: x.max()/x.min())) #transform만 결과 다름

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      1.900000     6.000000
3        1.348837     1.913043      1.900000     6.000000
4       

In [139]:
def test(x):
    return 1

print(iris.groupby('species').apply(test))
print('--------------------------------')
print(iris.groupby('species').agg(test))   # 모든 컬럼을 항상 동반
print('--------------------------------')
print(iris.groupby('species').transform(test))   # groupby와 관계없이 모든 데이터에 적용

species
setosa        1
versicolor    1
virginica     1
dtype: int64
--------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa                 1            1             1            1
versicolor             1            1             1            1
virginica              1            1             1            1
--------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1            1
146             1            1             1            1
147             1 

In [140]:
iris.groupby('species').agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,sum,mean,std,sum,mean,std,sum,mean,std
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
setosa,250.3,5.006,0.35249,171.4,3.428,0.379064,73.1,1.462,0.173664,12.3,0.246,0.105386
versicolor,296.8,5.936,0.516171,138.5,2.77,0.313798,213.0,4.26,0.469911,66.3,1.326,0.197753
virginica,329.4,6.588,0.63588,148.7,2.974,0.322497,277.6,5.552,0.551895,101.3,2.026,0.27465


### (3) groupby 실습

In [219]:
?pd.DataFrame.pivot
iris.groupby('species')['petal_length'].quantile()

species
setosa        1.50
versicolor    4.35
virginica     5.55
Name: petal_length, dtype: float64

In [213]:
iris.groupby('species')[['petal_length']].describe()

Unnamed: 0_level_0,petal_length,petal_length,petal_length,petal_length,petal_length,petal_length,petal_length,petal_length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
setosa,50.0,1.462,0.173664,1.0,1.4,1.5,1.575,1.9
versicolor,50.0,4.26,0.469911,3.0,4.0,4.35,4.6,5.1
virginica,50.0,5.552,0.551895,4.5,5.1,5.55,5.875,6.9


In [2]:
import seaborn as sns

iris= sns.load_dataset('iris')
iris

# iris 품종별 petal_length의 값을 대, 중, 소로 구분
pd.qcut(iris['petal_length'], 3,labels=['대','중','소'])

0      대
1      대
2      대
3      대
4      대
      ..
145    소
146    소
147    소
148    소
149    소
Name: petal_length, Length: 150, dtype: category
Categories (3, object): ['대' < '중' < '소']

In [17]:
# iris 품종별 petal_length의 값을 대, 중, 소로 구분
iris.groupby('species')['petal_length'].describe()

def size(x):
    return pd.qcut(x, 3,labels=['소','중','대'])

iris.groupby('species')['petal_length'].agg(size)
# iris.groupby('species')[['petal_length']].transform(size)
iris['petal_length_qcut']= iris.groupby('species')['petal_length'].apply(size)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_qcut
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,소
146,6.3,2.5,5.0,1.9,virginica,소
147,6.5,3.0,5.2,2.0,virginica,소
148,6.2,3.4,5.4,2.3,virginica,중


In [242]:
?pd.DataFrame.groupby.agg

Object `pd.DataFrame.groupby.agg` not found.


In [194]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})
df

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100,1
1,부산,orange,200,2
2,부산,banana,250,3
3,부산,banana,300,4
4,서울,apple,150,5
5,서울,apple,200,6
6,서울,banana,400,7


In [199]:
# 도시별 과일 가격 평균과 수량 평균
df.groupby('city').apply('mean')

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,2.5
서울,250.0,6.0


In [202]:
# 도시별, 과일별 가격 평균과 수량 평균
df.groupby(['city','fruits']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100.0,1.0
부산,banana,275.0,3.5
부산,orange,200.0,2.0
서울,apple,175.0,5.5
서울,banana,400.0,7.0


In [None]:
# 위의 문제에서 도시별, 과일별을 인덱스로 처리되지 않게 조회. 인덱스 취소. groupby 함수 사용법 찾아보기

In [205]:
?pd.DataFrame.groupby
df.groupby(['city','fruits'],as_index=False).mean()

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100.0,1.0
1,부산,banana,275.0,3.5
2,부산,orange,200.0,2.0
3,서울,apple,175.0,5.5
4,서울,banana,400.0,7.0


### (4) pivot_table()
    pivot() + groupby()
    pd.pivot_table(values=None, index=None, columns=None, aggfunc: 'AggFuncType' = 'mean', 
                    margins: 'bool' = False, margins_name: 'str' = 'All', fill_value=None,
                    dropna: 'bool' = True, observed: 'bool' = False, sort: 'bool' = True,) -> 'DataFrame'
                    
    groupby는 가독성 좋음
    pivot_table은 편리하지만 중간 과정 알 수 없다

In [146]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [170]:
# 각 도시의 연도별 인구수
df.pivot_table('인구','도시','연도', 
               aggfunc='mean', margins=True, margins_name='평균', fill_value=0)    
            # margins= True: 행별, 열별 함수 계산.  fill_value: 결측치 채우기

연도,2005,2010,2015,평균
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547.0,3393191,3448737,3451492.0
서울,9762546.0,9631482,9904312,9766113.0
인천,0.0,263203,2890451,1576827.0
평균,6637546.5,4429292,5414500,5350809.0


In [163]:
# 연도별 도시별 평균 인구 수
# df.pivot(index=['연도','도시'], columns='인구', values='인구')
df.groupby(['연도','도시'])[['인구']].mean()
df.pivot_table(values='인구',index=['연도','도시'], aggfunc='mean')

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


## 6. Pandas 실습
    데이터 수집 -> 전처리 -> 분석 -> 시각화

### (1) Data Definition

In [177]:
import seaborn as sns
tips= sns.load_dataset('tips')
print(tips.head(10))
print('----------------')
print(tips.describe())
print('----------------')
print(tips.info())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
5       25.29  4.71    Male     No  Sun  Dinner     4
6        8.77  2.00    Male     No  Sun  Dinner     2
7       26.88  3.12    Male     No  Sun  Dinner     4
8       15.04  1.96    Male     No  Sun  Dinner     2
9       14.78  3.23    Male     No  Sun  Dinner     2
----------------
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000
-----------

### (2) EDA(탐색적 데이터 분석)
#### 1) 파생 변수 추가
- 식사대금과 팁의 비율을 나타내는 tip_pct라는 변수 추가
- 팁의 비율: tip/total_bill

In [18]:
import seaborn as sns
tips= sns.load_dataset('tips')

tips['tip_pct']= tips['tip']/tips['total_bill']
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


#### 2) 성별로 인원 수 파악

In [327]:
tips.groupby('sex')[['size']].sum()

Unnamed: 0_level_0,size
sex,Unnamed: 1_level_1
Male,413
Female,214


In [28]:
tips.value_counts("sex")
tips.groupby("sex").count()
tips.groupby('sex').size()

sex
Male      157
Female     87
dtype: int64

#### 3) 성별, 흡연 유무별로 인원 수 파악

In [39]:
tips.groupby(['sex','smoker']).count()
tips.groupby(['sex','smoker']).size()
# tips.pivot_table('size','smoker','sex',aggfunc='sum')

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [40]:
?pd.DataFrame.groupby

In [36]:
# tips.pivot_table('size','smoker','sex',aggfunc='sum')
tips.groupby(['sex','smoker']).count()
tips.groupby(['sex','smoker']).size()
tips.pivot_table(index='sex',columns='smoker',aggfunc='size')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,60,97
Female,33,54


#### 4) 위의 두 정보를 하나의 테이블로 tip_pct를 조회
pivot_table() 사용

    smoker   yes    no
    sex
    male     ...    ...
    female   ...    ...

In [38]:
tips.pivot_table('tip_pct','sex','smoker')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


#### 5) 흡연 유무별에 따른 팁 비율을 조회
groupby() 사용

In [42]:
tips.groupby('smoker')['tip_pct'].mean()
tips.groupby('smoker')[['tip_pct']].describe()

Unnamed: 0_level_0,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


#### 6) 팁의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 조회
어떤 요인이 가장 크게 작용하는지

In [52]:
?pd.DataFrame.pivot_table
?pd.DataFrame.groupby

In [51]:
tips.pivot_table('tip_pct','day')
tips.pivot_table('tip_pct','time')
tips.pivot_table('tip_pct','size')
print(tips.pivot_table('tip_pct',['day','time','size']))
tips.groupby(['day','time','size'])[['tip_pct']].mean().dropna()    # 결측치 제거

                   tip_pct
day  time   size          
Thur Lunch  1     0.181728
            2     0.164024
            3     0.144599
            4     0.145515
            5     0.121389
            6     0.173706
     Dinner 2     0.159744
Fri  Lunch  1     0.223776
            2     0.181969
            3     0.187735
     Dinner 2     0.162659
            4     0.117750
Sat  Dinner 1     0.231832
            2     0.155289
            3     0.151439
            4     0.138289
            5     0.106572
Sun  Dinner 2     0.180870
            3     0.152662
            4     0.153168
            5     0.159839
            6     0.103799


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [57]:
tip_mean= tips.groupby(['day','time','size'])[['tip_pct']].mean()
tip_mean[tip_mean.tip_pct.notnull()]
# tips.groupby(['day','time','size'])[['tip_pct']].mean().notnull()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [342]:
tips.pivot_table('tip_pct','day','time')

time,Lunch,Dinner
day,Unnamed: 1_level_1,Unnamed: 2_level_1
Thur,0.161301,0.159744
Fri,0.188765,0.158916
Sat,,0.153152
Sun,,0.166897


In [340]:
tips.pivot_table('tip_pct','day','size',margins=True)

size,1,2,3,4,5,6,All
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Thur,0.181728,0.163935,0.144599,0.145515,0.121389,0.173706,0.161276
Fri,0.223776,0.168693,0.187735,0.11775,,,0.169913
Sat,0.231832,0.155289,0.151439,0.138289,0.106572,,0.153152
Sun,,0.18087,0.152662,0.153168,0.159839,0.103799,0.166897
All,0.217292,0.165719,0.152157,0.145949,0.141495,0.156229,0.160803


In [302]:
tips.pivot_table('tip_pct','time','size', margins=True)

size,1,2,3,4,5,6,All
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Lunch,0.202752,0.16575,0.153226,0.145515,0.121389,0.173706,0.164128
Dinner,0.231832,0.165704,0.151995,0.146017,0.146522,0.103799,0.159518
All,0.217292,0.165719,0.152157,0.145949,0.141495,0.156229,0.160803


In [343]:
tips.pivot_table('tip_pct',['day','time'],'size', margins=True)

Unnamed: 0_level_0,size,1,2,3,4,5,6,All
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Thur,Lunch,0.181728,0.164024,0.144599,0.145515,0.121389,0.173706,0.161301
Thur,Dinner,,0.159744,,,,,0.159744
Fri,Lunch,0.223776,0.181969,0.187735,,,,0.188765
Fri,Dinner,,0.162659,,0.11775,,,0.158916
Sat,Dinner,0.231832,0.155289,0.151439,0.138289,0.106572,,0.153152
Sun,Dinner,,0.18087,0.152662,0.153168,0.159839,0.103799,0.166897
All,,0.217292,0.165719,0.152157,0.145949,0.141495,0.156229,0.160803


In [344]:
tips.pivot_table('tip',['day','time'],'size', margins=True)

Unnamed: 0_level_0,size,1,2,3,4,5,6,All
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Thur,Lunch,1.83,2.430638,2.6925,4.218,5.0,5.3,2.767705
Thur,Dinner,,3.0,,,,,3.0
Fri,Lunch,1.92,2.352,3.0,,,,2.382857
Fri,Dinner,,2.777273,,4.73,,,2.94
Sat,Dinner,1.0,2.517547,3.797778,4.123846,3.0,,2.993103
Sun,Dinner,,2.816923,3.120667,4.087778,4.046667,5.0,3.255132
All,,1.4375,2.582308,3.393158,4.135405,4.028,5.225,2.998279


In [305]:
tips.pivot_table('tip_pct',['day','time'],'size',margins=True)
# tips.pivot_table('tip_pct',['day','size'],'time')
# tips.pivot_table('tip_pct',['time','size'],'day')

Unnamed: 0_level_0,size,1,2,3,4,5,6
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Thur,Lunch,0.181728,0.164024,0.144599,0.145515,0.121389,0.173706
Thur,Dinner,,0.159744,,,,
Fri,Lunch,0.223776,0.181969,0.187735,,,
Fri,Dinner,,0.162659,,0.11775,,
Sat,Dinner,0.231832,0.155289,0.151439,0.138289,0.106572,
Sun,Dinner,,0.18087,0.152662,0.153168,0.159839,0.103799


#### 7) 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이 조회

In [345]:
# tips.pivot_table('tip','sex','smoker',aggfunc=[np.min, np.max])
tips.pivot_table('tip','sex','smoker',aggfunc=[lambda x: x.max()-x.min()])

Unnamed: 0_level_0,<lambda>,<lambda>
smoker,Yes,No
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
Male,9.0,7.75
Female,5.5,4.2


In [346]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


## 7. 시계열 데이터
- DateTimeIndex 자료형
    - pd.to_datetime(): 문자열을 날짜 타입으로 변환
    - pd.date_range(): 특정 범위의 날짜 인덱스를 생성

In [91]:
"""
freq
    S : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

'\nfreq\n    S : 초\n    T : 분\n    H : 시간\n    D : 일\n    B : 주말이 아닌 평일\n    W : 주(일요일)\n    W-MON : 주(월요일)\n    M : 각 달의 마지막 날\n    MS : 각 달의 첫날\n    BM : 주말이 아닌 평일중에서 각 달의 마지막 날\n    BMS : 주말이 아닌 평일중에서 각 달의 첫날\n    WOM-2THU : 각 달의 두번째 목요일\n    Q-JAN : 각 분기의 첫 달의 마지막 날\n    Q-DEC : 각 분기의 마지막 달의 마지막 날\n'

### (1) 날짜 타입 변환

In [93]:
# 날짜를 인덱스로 활용
date_str=['2023, 1, 1','2023, 5, 5','2023, 8, 12','2023, 12, 24']

idx= pd.to_datetime(date_str)   # 인덱스로 활용 가능

np.random.seed(1)
pd.Series(np.random.randn(4), index=idx)

2023-01-01    1.624345
2023-05-05   -0.611756
2023-08-12   -0.528172
2023-12-24   -1.072969
dtype: float64

### (2) 날짜 데이터 생성

In [94]:
# 날짜 데이터 생성

pd.date_range('2023-1-1','2023-5-5')  # 1월 1일부터 5월 5일까지 날짜 생성
pd.date_range('2023-1-1', periods=30) # 30일간의 날짜 생성
pd.date_range('2023-1-1','2023-1-31', freq='W') # 1/1 ~1/31 중 일요일

DatetimeIndex(['2023-01-01', '2023-01-08', '2023-01-15', '2023-01-22',
               '2023-01-29'],
              dtype='datetime64[ns]', freq='W-SUN')

### (3) shift 연산
    자리를 이동해서 연산

In [97]:
np.random.seed(0)

ts= pd.Series(np.random.randn(4),index=pd.date_range('2023-1-1',periods=4, freq='M')) # 각 달의 마지막 날
ts

2023-01-31    1.764052
2023-02-28    0.400157
2023-03-31    0.978738
2023-04-30    2.240893
Freq: M, dtype: float64

In [104]:
print(ts.shift(1) )
print(ts.shift(-1))
print(ts.shift(1, freq='D') )# 날짜 인덱스가 이동. 값이랑 인덱스 이동 방향 다름 주의. freq 변경하면 원래 달에서 변경된 기준으로

2023-01-31         NaN
2023-02-28    1.764052
2023-03-31    0.400157
2023-04-30    0.978738
Freq: M, dtype: float64
2023-01-31    0.400157
2023-02-28    0.978738
2023-03-31    2.240893
2023-04-30         NaN
Freq: M, dtype: float64
2023-02-01    1.764052
2023-03-01    0.400157
2023-04-01    0.978738
2023-05-01    2.240893
dtype: float64


### (4) resampling
- 시간 간격을 다시 재조정
- 방법
    - 다운 샘플링: 시간 구간이 커지면 데이터 양이 감소
    - 업 샘플링: 시간 구간이 작아지면서 데이터 양이 증가

#### 1) 다운 샘플링
    데이터가 그룹으로 묶이기 때문에 집계 연산을 해서 대표값을 구해야한다

In [105]:
ts= pd.Series(np.random.randn(100),index=pd.date_range('2023-1-1',periods=100, freq='D')) 
ts.tail(10)

2023-04-01    0.356366
2023-04-02    0.706573
2023-04-03    0.010500
2023-04-04    1.785870
2023-04-05    0.126912
2023-04-06    0.401989
2023-04-07    1.883151
2023-04-08   -1.347759
2023-04-09   -1.270485
2023-04-10    0.969397
Freq: D, dtype: float64

In [107]:
ts.resample('W').mean()

2023-01-01    1.867558
2023-01-08    0.246736
2023-01-15    0.466034
2023-01-22   -0.259401
2023-01-29    0.358005
2023-02-05   -0.061331
2023-02-12   -0.632084
2023-02-19   -0.464164
2023-02-26   -0.128626
2023-03-05   -0.612965
2023-03-12    0.044234
2023-03-19   -0.379167
2023-03-26    0.320237
2023-04-02    0.588796
2023-04-09    0.227168
2023-04-16    0.969397
Freq: W-SUN, dtype: float64

In [108]:
ts.resample('M').mean()

2023-01-31    0.168338
2023-02-28   -0.280265
2023-03-31   -0.005235
2023-04-30    0.362251
Freq: M, dtype: float64

In [113]:
ts= pd.Series(np.random.randn(60),index=pd.date_range('2023-1-1',periods=60, freq='T')) 
ts
ts.resample('10T').sum()

2023-01-01 00:00:00   -1.527945
2023-01-01 00:10:00   -1.379783
2023-01-01 00:20:00   -1.956511
2023-01-01 00:30:00   -4.299598
2023-01-01 00:40:00   -3.888358
2023-01-01 00:50:00    2.673232
Freq: 10T, dtype: float64

#### 2) 업 샘플링
    forward filling: 앞의 데이터를 그대로 사용
    backward filling: 뒤의 데이터를 당겨서 사용

In [118]:
ts.head()
ts.resample('30s').ffill().head(10)
ts.resample('30s').bfill().head(10)

2023-01-01 00:00:00   -0.440923
2023-01-01 00:00:30   -0.280355
2023-01-01 00:01:00   -0.280355
2023-01-01 00:01:30   -0.364694
2023-01-01 00:02:00   -0.364694
2023-01-01 00:02:30    0.156704
2023-01-01 00:03:00    0.156704
2023-01-01 00:03:30    0.578521
2023-01-01 00:04:00    0.578521
2023-01-01 00:04:30    0.349654
Freq: 30S, dtype: float64