# PANDAS

+ Series
+ DataFrame
+ https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

## 1. series
인덱스 + 값. 갑과 인덱스가 하나로 합쳐진 데이터 구조.

In [124]:
# 1. 시리즈 형태로 자료 만들기
s1 = pd.Series([9904312, 3448737, 2890451, 2466052])
print(s1)

print("="*50)
for i, v in enumerate(["홍길동", "임꺽정", "고길동", "Tom", "Jerry"], start=100):
    print(i, v)
# enumerate 함수랑 비슷

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
100 홍길동
101 임꺽정
102 고길동
103 Tom
104 Jerry


In [125]:
#2. 시리즈는 인덱스를 자유롭게 지정할 수 있다. index=[]
s1 = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s1)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [126]:
#3. 시리즈에서 value와 index만 불러오기
print(s1.values)
print("="*50)
print(s1.index)
print("="*50)
print(type(s1.values))
# pandas에서 value 구조의 토대는 numpy의 array 구조.
# 그래서 pandas 잘쓰려면 numpy부터 차근차근 공부해야한다.

[9904312 3448737 2890451 2466052]
Index(['서울', '부산', '인천', '대구'], dtype='object')
<class 'numpy.ndarray'>


In [127]:
#4. 시리즈 전체에 이름 지정
s1.name = "인구"
print(s1)
# name에 인구가 붙는다. 나중에 칼럼명이 될 것?

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [128]:
# 5. 시리즈 연산 = 벡터화 연산
# 시리즈에 연산자 적용하면 시리즈 value 전체 연산
s0 = s1 / 1000000
print(s1)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [129]:
# 6. 시리즈 인덱싱
print(s0[1])
print(s0["부산"])
# 시리즈 인덱싱은 인덱스명으로 가능하다!

3.448737
3.448737


In [130]:
# 8. series와 dict

print("서울" in s1) # 서울이 있으면 True, 없으면 False
print("인천" in s1)

print("="*50)
print(list(s1.items())) #딕트형태로 시리즈 내 값과 인덱스를 한번에 볼 수 있음

print("="*50)
s2 = pd.Series({"서울" : 9631482, "부산" : 3448737, "인천" : 2632035, "대전" : 1490158})
print(s2) # 딕트를 시리즈 형태로 만들 수 있다. 이 때 key는 index, value는 value가 된다.

True
True
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [131]:
# 9. 인덱스 기반 연산
print(s1)
print("="*50)
print(s2)

print("="*50)

result = s1 - s2
print(result)
# 대전, 인천은 공통된 인덱스가 없어서 NaN으로
# 대구, 부산, 서울은 공통된 인덱스가 있으니, 이를 기준으로 - 연산해서 값이 나온다.

print("="*50)
print(s1.values - s2.values)
# 인덱스 관계없이 값들을 순서대로 빼준 것

서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
[272830      0 258416 975894]


In [132]:
# 10. 결측치 제거
print(result) #결측치 있는 데이터 불러와
print(result.notnull()) # data.notnull을 쓰면 결측치가 없으면 True, 있으면 False로 표시
print(result[result.notnull()]) #data[condition] = True면 값이 나온다. 이 원리를 이용하면 결측치 제거한 인덱스 값만 불러오는게 가능하다.

대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64


In [133]:
### 인구증가율 = 올해 인구 - 작년 인구 / 작년 인구 * 100
result2 = (s2 - s1) / s1 * 100
print(result2)
print("="*50)
result2 = result2[result2.notnull()]
print(result2)

대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [134]:
# 11. 데이터 생성, 삭제, 갱신
print("수정")
print(result2)
print("="*50)
result2["부산"] = 1.63 #수정 : 시리즈 내 잇는 인덱스 입력 후 값 넣어주면 수정
print(result2)
print("="*50)
print("생성")
result2["대구"] = 1.41 #생성 : 없는 인덱스 입력 후 값 넣어주면 생성된다.
print(result2)
print("="*50)
print("삭제")
del result2["서울"] #삭제 : 앞에 del 붙여주면 된다.
print(result2)

수정
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64
생성
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
삭제
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


## 2. DATAFRAME
+ 시리즈가 모여 하나의 테이블 or 행렬을 이루는 데이터 구조
+ R에서 데이터프레임과 같은 구조
+ R에선 c()인 벡터의 모임. Python Pandas에선 series의 모임

+pd.DataFrame(
    data=None,
    index: 'Axes | None' = None,
    columns: 'Axes | None' = None,
    dtype: 'Dtype | None' = None,
    copy: 'bool | None' = None,
)

In [135]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [136]:
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


## 1. 칼럼의 순서 바꾸기

In [137]:
# 1. 바꾸고 싶은 칼럼 순서를 리스트로 미리 잡아두기
cols = ["지역", "2000", "2005", "2010", "2015", "2010-2015 증가율"]

df = pd.DataFrame(data, columns=cols)
# print()는 같이 출력할 때 빼고 df는 가능하면 그냥 뽑는게 좋음
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
0,수도권,9853972,9762546,9631482,9904312,0.0283
1,경상권,3655437,3512547,3393191,3448737,0.0163
2,수도권,2466338,2517680,2632035,2890451,0.0982
3,경상권,2473990,2456016,2431774,2466052,0.0141


## 2. 인덱스 지정 or 인덱스 바꾸기

In [138]:
idx = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data, columns=cols, index=idx)
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [139]:
#### 데이터프레임은 조립식. 시리즈가 모여 이뤄진 것이기 때문. 따라서, 쉽게 불러와 분해, 조립할 수 있다.
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9853972 9762546 9631482 9904312 0.0283]
 ['경상권' 3655437 3512547 3393191 3448737 0.0163]
 ['수도권' 2466338 2517680 2632035 2890451 0.0982]
 ['경상권' 2473990 2456016 2431774 2466052 0.0141]]
Index(['지역', '2000', '2005', '2010', '2015', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


## 3. 인덱스명, 칼럼명 지정해주기


In [140]:
df.name = "인구"
df

Unnamed: 0,지역,2000,2005,2010,2015,2010-2015 증가율
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [141]:
df.index.name = "도시"
df

Unnamed: 0_level_0,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [142]:
df.columns.name = "특성"
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


## 4. indexing

In [143]:
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.0283
부산,경상권,3655437,3512547,3393191,3448737,0.0163
인천,수도권,2466338,2517680,2632035,2890451,0.0982
대구,경상권,2473990,2456016,2431774,2466052,0.0141


In [144]:
# 칼럼 index
print(df["지역"])
print(type(df["지역"])) #Series

# 칼럼을 뽑아내면 이 형태는 시리즈. 데이터프레임 아니다.
# 데이터프레임으로 넘겨줘야할 경우엔 어떻게 해야해?
# 2개 이상의 칼럼을 가져오고 싶을 땐?

# 1. pd.DataFrame()으로 다시 만들어준다. 그런데 귀찮아
# 2. df[['지역']] 이렇게 해주면 칼럼을 데이터프레임 형태로 뽑아올 수 있다. *[[]]

print("="*50)
print(type(df[["지역"]]))

print("="*50)
#print(df["지역", "2010"]) ERROR!
print(df[["지역", "2010"]])
print(type(df[["지역", "2010"]]))

#df[0]으로 접근할 수 없다. 만약 칼럼명이 지정되어있지 않으면 가능.
#df["2010" : "2015"]으로 범위 slicing 할 수 없다.


도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>
특성   지역     2010
도시              
서울  수도권  9631482
부산  경상권  3393191
인천  수도권  2632035
대구  경상권  2431774
<class 'pandas.core.frame.DataFrame'>


In [145]:
#행 인덱스 (반드시 :으로 슬라이싱해야 가능)
sl = df[df.index == "서울"]
print(sl)
print(type(sl))

print(df[:])
print("="*50)
print(df[1:3])
print("="*50)
print(df[:1])

특성   지역     2000     2005     2010     2015  2010-2015 증가율
도시                                                        
서울  수도권  9853972  9762546  9631482  9904312         0.0283
<class 'pandas.core.frame.DataFrame'>
특성   지역     2000     2005     2010     2015  2010-2015 증가율
도시                                                        
서울  수도권  9853972  9762546  9631482  9904312         0.0283
부산  경상권  3655437  3512547  3393191  3448737         0.0163
인천  수도권  2466338  2517680  2632035  2890451         0.0982
대구  경상권  2473990  2456016  2431774  2466052         0.0141
특성   지역     2000     2005     2010     2015  2010-2015 증가율
도시                                                        
부산  경상권  3655437  3512547  3393191  3448737         0.0163
인천  수도권  2466338  2517680  2632035  2890451         0.0982
특성   지역     2000     2005     2010     2015  2010-2015 증가율
도시                                                        
서울  수도권  9853972  9762546  9631482  9904312         0.0283


In [146]:
# dataframe에선 열 -> 행 순서로 접근

print(df["지역"]["서울"])
#print(df["지역", "서울"]) (X) 이렇게도 접근 안된다.

# 2005년도와 2010년도의 서울 인구 조회

df[["2005", "2010"]][:1]

수도권


특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


## 4. 데이터 갱신, 추가, 삭제

In [147]:
#갱신
df['2010-2015 증가율'] = df['2010-2015 증가율']/100
df

#추가
df['2005-2010 증가율'] = ((df['2010'] - df['2005']) / df['2005'] * 100).round(2)
df

#삭제
del df['2005-2010 증가율']
df

특성,지역,2000,2005,2010,2015,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9853972,9762546,9631482,9904312,0.000283
부산,경상권,3655437,3512547,3393191,3448737,0.000163
인천,수도권,2466338,2517680,2632035,2890451,0.000982
대구,경상권,2473990,2456016,2431774,2466052,0.000141


In [148]:
### 실습

data = {
    "국어" : [80, 90, 70, 30],
    "영어" : [90, 70, 60, 40],
    "수학" : [90, 60, 80, 70]
}

In [149]:
#### 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터프레임 df로 작성
idx = ["춘향", "몽룡", "향단", "방자"]

df = pd.DataFrame(data, index=idx)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [150]:
#### 2. 모든 학생의 수학점수를 조회하시오.
df["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [151]:
#### 3. 모든 학생의 영어, 국어 점수를 조회하시오.
df[["영어", "국어"]]

Unnamed: 0,영어,국어
춘향,90,80
몽룡,70,90
향단,60,70
방자,40,30


In [152]:
#### 4. 모든 학생의 각 과목평균점수를 새로운 열(과목평균)로 추가하시오.
df["과목평균"] = ((df["영어"]+df["국어"]+df["수학"]) / (len(df.columns) - 1)).round(2)
print(df)


# 더 쉽게
# df['과목평균'] = df[:].mean(axis=0)
# df[:]은 모든 행을 불러오는 것. slicing은 행을 부르는 것이다. 외워두자.
# df[:]의 구조는 dataframe. 따라서, pd 내 함수 사용할 수 있다. mean은 평균을 구하는 함수. axis는 축. 0은 행으로 값을 구한다는 의미다.


    국어  영어  수학   과목평균
춘향  80  90  90  130.0
몽룡  90  70  60  110.0
향단  70  60  80  105.0
방자  30  40  70   70.0


In [153]:
#### 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오.
df['영어']['방자'] = 80
#df["과목평균"] = (df["영어"]+df["국어"]+df["수학"]) / (len(df.columns) - 1)
# 모든 값을 계산하는건 성능 낭비. 이게 데이터값이 커지면 문제.
# 하나의 값만 바꾸면 될 땐 이렇게~
df["과목평균"]["방자"] = (df[["영어", "국어", "수학"]]["방자":"방자"].mean(axis=1)).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목평균"]["방자"] = (df[["영어", "국어", "수학"]]["방자":"방자"].mean(axis=1)).round(2)


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,130.0
몽룡,90,70,60,110.0
향단,70,60,80,105.0
방자,30,80,70,60.0


In [154]:
#### 6. 춘향의 점수를 데이터프레임 형식으로 출력하시오.
df[["국어", "영어", "수학", "과목평균"]][:1]

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,130.0


In [155]:
#### 7. 향단의 점수를 시리즈로 출력하시오.
df_t = df.T
df_t['향단']


국어       70.0
영어       60.0
수학       80.0
과목평균    105.0
Name: 향단, dtype: float64

In [156]:
len(df.columns)

4

## 6. 파일 입출력

+ pd.read_csv()
+ pd.to_csv()
+ pd.read_table()
+ glob : 보유하고 있는 데이터파일명 다 불러오는 명령어(주유소 예제)

In [157]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [158]:
df = pd.read_csv("data/sample1.csv")
df
# 데이터프레임으로 불러올 수 있다. 매우 유용.
# 다만, 인덱스가 자동으로 0, 1, 2 생긴다.
# 만약, 인덱스 지정해놓은 csv파일이면? index_col="columns_name" 옵션 넣어서 불러주면 된다.
# 칼럼은 제일 위에 필드를 자동으로 지정한다. 만약, 칼럼명이 저장 안된 파일인 경우 names=["col_name1", "col_name2", "col_name3"] 


Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [159]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [160]:
df2 = pd.read_csv("data/sample2.csv", names=['c1', 'c2', 'c3']) #칼럼명 없는 파일에 칼럼명 붙여서 불러드리기. names=[]
df2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [161]:
df3 = pd.read_csv("data/sample1.csv", index_col = "c1")
df3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [162]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

Overwriting data/sample3.txt


In [163]:
df4 = pd.read_table("data/sample3.txt", sep="\s+")
# 정규표현식을 쓰면 공백이 몇개이든 sep에 적용할 수 있다.
# sep = '\s+' \s는 space 공백, +는 반복을 의미한다. + 외에 {}도 반복을 의미한다.
df4


Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [164]:
%%writefile data/sample4.txt
파일 제목 : sample4.txt
데이터 포멧 설명 : 어쩌구 저쩌구 이렇구 저렇구 그래서 그래
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample4.txt


In [165]:
#df4 = pd.read_table("data/sample4.txt", skiprows = [0, 1], sep=",")
df4 = pd.read_table("data/sample4.txt", skiprows = 2, sep=",")
df4 = pd.read_table("data/sample4.txt", header=2, sep=",")

df4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [166]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11,
2, , two
누락, 3.33, three

Overwriting data/sample5.csv


In [167]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [168]:
#저장
df_save = df

In [169]:
df_save

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [170]:
df_save.to_csv("data/sample6.csv")
df_save.to_csv("data/sample7.csv", sep="|")
#인덱스와 칼럼 빼고 저장하고 싶다면?
df_save.to_csv("data/sample8.csv", index=False, header=False)


In [171]:
sample5.to_csv("data/sample9.txt", sep=":", na_rep="누락")

## 7. indexer

+ loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc : 순서를 나타내는 정수 기반의 인덱서
+ ix : 예전에 쓰던 것. 이건 신경안써도 된다.
+ at
+ iat

In [172]:
df = pd.DataFrame(np.arange(10, 22).reshape(3,4), index=["a", "b", "c"], columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [173]:
#### df.loc() : 문자로 접근

# 행에 접근
# 원래는 ...
print(df[:1])
print(df[:"a"])

print("="*50)

#df.loc[행][열]
print(df.loc['a']) # 시리즈로 리턴.

print(df.loc[df['A'] > 15])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
A    10
B    11
C    12
D    13
Name: a, dtype: int64
    A   B   C   D
c  18  19  20  21


In [174]:
# 행과 열에 접근
print(df.loc["b", "B"])

print(df.loc["b":, "C":])

15
    C   D
b  16  17
c  20  21


In [175]:
df.loc[:, df.loc["a"] <= 11]

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [176]:
# loc는 반드시 문자로만 접근!
df.loc[0:1]

TypeError: cannot do slice indexing on Index with these indexers [0] of type int

In [177]:
#### iloc 숫자로 접근

# 반복문 돌릴 때, 머신러닝 돌릴 때 사용
# 숫자로!
print(df.iloc[0:3, 0:3])

print("="*50)

print(df.iloc[2:3, 1:3])
print(df.iloc[[2], [1,2]])

    A   B   C
a  10  11  12
b  14  15  16
c  18  19  20
    B   C
c  19  20
    B   C
c  19  20


In [178]:
#### at와 iat
# 값 하나를 가져올 때
# 데이터가 클 때 at과 iat가 성능을 발휘한다.
# loc, iloc보다 속도면에서 훨씬 빠르기 때문.

print(df.at["a", "A"])
print(df.iat[0, 0])

10
10


In [179]:
#%timeit : 명령어가 걸리는 시간을 확인할 수 있다.

%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]
%timeit df.iloc[1, 1]
%timeit df.iat[1, 1]

4.69 µs ± 48 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.39 µs ± 13.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
14 µs ± 101 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
11.3 µs ± 274 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 3. Data Manipulation



## 1. 데이터 갯수 파악하기

In [228]:
#### Series

s = pd.Series(range(10))
s

s[3] = np.NaN
s
s.count() # 결측치 있으면 결측치 빼고 갯수를 세준다. 

9

In [229]:
#### DataFrame

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df)

print("="*50)

print(df.count())
#df.count()로 하면 각 시리즈별 데이터 갯수 합계를 내준다.

print("="*50)
df.iloc[2, 3] = np.NaN
print(df)
print(df.count())


     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
0    4
1    4
2    4
3    4
dtype: int64
     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  NaN
3  4.0  3.0  4.0  2.0
0    4
1    4
2    4
3    3
dtype: int64


In [230]:
np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))
s2

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64

In [231]:
s2.value_counts()
#0~5까지 몇개인지 알 수 있는.
#R dplyr의 n()과 비슷

#단, value_counts()는 데이터프레임에서 사용할 수 없다.
#그래서, 데이터프레임에서 사용하려면?


#### df.loc["columns_name"].value_counts() 이렇게 해줘야 함.

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

## 3. 정렬

+ sort_index() : 인덱스 기준으로
+ sort_values()
+ 결측치는 정렬의 대상이 되지 않는다.

In [232]:
#### Series

np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))

s.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [233]:
s.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [234]:
s.value_counts().sort_values()

2    13
3    14
5    16
4    17
0    18
1    22
dtype: int64

In [235]:
s.value_counts().sort_values(ascending=False)

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [236]:
s.sort_index()

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int64

In [237]:
s.sort_values()

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int64

In [238]:
#내림차순
s.sort_values(ascending=False)

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int64

In [239]:
#### DataFrame

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df)

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0


In [240]:
df.sort_values(by=2) # by=2는 3번째 행, 즉 2 column의 값을 축으로 정렬하란 의미. #원본에 저장은 안됨

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [241]:
df.sort_values(by=[0, 2]) #정렬하는데 제일 중심 축은 0번째, 그 다음 축은 2번째로 하란 의미

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [242]:
# dict형으로 데이터프레임 만들면 key는 columns//value는 value가 됨
df1 = pd.DataFrame({
    "seq":[1,3,2], "name":["park", "lee", "choi"], "age":[30,20,40]
})
df1


Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [243]:
#seq를 기준으로 정렬하시오.
df1.sort_values(by="seq", ascending=False)

Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


In [244]:
#인덱스 기준으로
df1.sort_index(axis=0)

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [245]:
#칼럼명 기준으로
df1.sort_index(axis=1)

Unnamed: 0,age,name,seq
0,30,park,1
1,20,lee,3
2,40,choi,2


In [246]:
#inplace : df.sort_index, df.sort_values는 원본 저장되지 않습니다. 저장하려면 inplace옵션 값을 True로 해줘야합니다.

df1.sort_values(by=["seq", "name"], inplace=True)
df1

Unnamed: 0,seq,name,age
0,1,park,30
2,2,choi,40
1,3,lee,20


In [247]:
# 결측치의 위치선정
df2 = pd.DataFrame({
    "seq":[1,np.NaN,2], "name":["park", "lee", "choi"], "age":[30,20,40]
})
df2

Unnamed: 0,seq,name,age
0,1.0,park,30
1,,lee,20
2,2.0,choi,40


In [248]:
df2.sort_values(by="seq")

Unnamed: 0,seq,name,age
0,1.0,park,30
2,2.0,choi,40
1,,lee,20


In [249]:
#결측치의 위치를 맨 위로 올리고 싶다면? na_postion="first" 옵션값 입력해주기
df2.sort_values(by="seq", na_position="first")

Unnamed: 0,seq,name,age
1,,lee,20
0,1.0,park,30
2,2.0,choi,40


## 4. 행렬의 집계연산(합계, 평균)

In [250]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=[4, 8]))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [251]:
# 열의 합계가 나온다.
df.sum() #axis=0이 디폴트값으로 되어있을 것

0    24
1    33
2    25
3    24
4    15
5    10
6     5
7    16
dtype: int64

In [252]:
# 행의 합계를 시리즈로?
df.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [253]:
# 열의 합계를 데이터프레임에 추가시켜봅시다.
df.loc['ColSum', :] = df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0


In [254]:
#행의 합계를 데이터프레임에 추가시켜봅시다.
df.loc[:, 'RowSum'] = df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


## 5. APPLY

+ 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
+ 인수로 행 또는 열을 받는 함수를 apply()의 인자로 넣으면 각 열 또는 행을 반복하여 그 함수에 적용

In [255]:
df = pd.DataFrame({
    "A":[1,3,4,3,4],
    "B":[2,3,1,2,3],
    "C":[1,5,2,4,4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [256]:
#### 각 열(행)별로 최대값에서 최소값을 뺀 값을 구하고자 한다.

def diff(x):
    return x.max() - x.min()


print(df.apply(diff, axis=0)) #열별로
print(df.apply(diff, axis=1)) #행별로
type(df.apply(diff, axis=0))

A    3
B    2
C    4
dtype: int64
0    1
1    2
2    3
3    2
4    1
dtype: int64


pandas.core.series.Series

In [257]:
#### 람다 함수
print(df.apply(lambda x: x.max()-x.min(), axis=0))


A    3
B    2
C    4
dtype: int64


In [258]:
#### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회
df.apply(pd.value_counts, axis=0)

#df.apply(lambda x:x.value_counts(), axis=0)
#apply 넣을 땐, 라이브러리에 있는 함수도 입력 가능. 이 땐 호출명을 다 넣어준다.
#apply(pd.value_counts, axis=0) 이런 식으로

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


## 6. 실수값을 카테고리로 변경(양적데이터 -> 질적데이터)
+ cut
+ qcut

In [259]:
#### cut

# 1 ~ 15 = 미성년자 // 16 ~ 25 = 청년 // 26~35 = 중년 // 36~60 = 장년 // 61~99 = 노인
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], labels=["미성년자", "청년", "중년", "장년", "노인"])
print(cat)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노인', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노인']


In [260]:
print(type(cat))
print(cat.categories)
print(cat.codes) # cat.codes는 나중에 카테고리를 숫자로 바꿀 때 유용하다. #머신러닝

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노인'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [261]:
#### qcut : 일정한 갯수로 나눠 카테고리화하는 것. 10분위로 나누는 ...

data = np.random.randn(100)
print(data)
qcut = pd.qcut(data, 4, labels=["q1", "q2", "q3", "q4"])


[-0.17242821 -0.87785842  0.04221375  0.58281521 -1.10061918  1.14472371
  0.90159072  0.50249434  0.90085595 -0.68372786 -0.12289023 -0.93576943
 -0.26788808  0.53035547 -0.69166075 -0.39675353 -0.6871727  -0.84520564
 -0.67124613 -0.0126646  -1.11731035  0.2344157   1.65980218  0.74204416
 -0.19183555 -0.88762896 -0.74715829  1.6924546   0.05080775 -0.63699565
  0.19091548  2.10025514  0.12015895  0.61720311  0.30017032 -0.35224985
 -1.1425182  -0.34934272 -0.20889423  0.58662319  0.83898341  0.93110208
  0.28558733  0.88514116 -0.75439794  1.25286816  0.51292982 -0.29809284
  0.48851815 -0.07557171  1.13162939  1.51981682  2.18557541 -1.39649634
 -1.44411381 -0.50446586  0.16003707  0.87616892  0.31563495 -2.02220122
 -0.30620401  0.82797464  0.23009474  0.76201118 -0.22232814 -0.20075807
  0.18656139  0.41005165  0.19829972  0.11900865 -0.67066229  0.37756379
  0.12182127  1.12948391  1.19891788  0.18515642 -0.37528495 -0.63873041
  0.42349435  0.07734007 -0.34385368  0.04359686 -0

In [262]:
print(qcut)
type(qcut)

['q2', 'q1', 'q2', 'q3', 'q1', ..., 'q3', 'q4', 'q1', 'q3', 'q1']
Length: 100
Categories (4, object): ['q1' < 'q2' < 'q3' < 'q4']


pandas.core.arrays.categorical.Categorical

In [263]:
qcut.value_counts()

q1    25
q2    25
q3    25
q4    25
dtype: int64

## 4. index Manipulation

+ set_index(), reset_index() : 인덱스를 지정

In [264]:
np.random.seed(0)

df = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T, columns=["C1", "C2", "C3", "C4"])
df

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [265]:
np.vstack([[1,2,3], [4,5,6], [7,8,9]])

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [266]:
df1 = df.set_index("C1")
df1

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [267]:
df2 = df1.set_index("C2")
df2

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [268]:
# 원래대로 되돌려놓기
df2.reset_index()

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


In [269]:
df2 = df1.set_index("C2")
df2

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [270]:
df2.reset_index(drop=True)

Unnamed: 0,C3,C4
0,1.0,1.0
1,0.0,1.0
2,1.0,1.0
3,1.0,1.0
4,0.0,0.0


In [271]:
df = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T, columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df

df.columns.names = ["Cidx1", "Cidx2"]
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,0.0,1.0,1.0
1,B,0.0,1.0,0.0
2,C,1.0,0.0,1.0
3,D,1.0,1.0,1.0
4,E,1.0,0.0,0.0


In [272]:
#### 인덱스가 중복되어 있는 경우

# Cidx1 A에 Cidx2 C1에 접근하려면?
df[("A", "C1")]

0    A
1    B
2    C
3    D
4    E
Name: (A, C1), dtype: object

In [273]:
print(df[("B", "C2")][1])
print(df[("A", "C2")][2:])

print(df.loc[2:, ("A", "C1")])
print(df.iloc[2:, 0])

0.0
2    1.0
3    1.0
4    1.0
Name: (A, C2), dtype: object
2    C
3    D
4    E
Name: (A, C1), dtype: object
2    C
3    D
4    E
Name: (A, C1), dtype: object


In [314]:
#다중인덱스, 다중칼럼 처리
df3 = pd.DataFrame(np.vstack(np.round(np.random.rand(6, 4), 2)), columns=[["A", "A", "B", "B"], ["C", "D", "C", "D"]], index=[["M", "M", "M", "F", "F", "F"], ["id_" + str(i+1) for i in range(3)]*2])
df3

df3.columns.names = ["Cidx1", "Cidx2"]
df3.index.names = ["Ridx1", "Ridx2"]
df3

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.21,0.16,0.65,0.25
M,id_2,0.47,0.24,0.16,0.11
M,id_3,0.66,0.14,0.2,0.37
F,id_1,0.82,0.1,0.84,0.1
F,id_2,0.98,0.47,0.98,0.6
F,id_3,0.74,0.04,0.28,0.12


In [275]:
print(df3[("A", "C")][("M", "id_1")])

print(df3.loc[("M", "id_1"), ("A", "C")])

print(df3.iloc[0, 0])

print(df3.iloc[:1, :1])
print(type(df3.iloc[:1, :1]))

print(df3.loc[("M", "id_2")][("A", "D")])



0.26
0.26
0.26
Cidx1           A
Cidx2           C
Ridx1 Ridx2      
M     id_1   0.26
<class 'pandas.core.frame.DataFrame'>
0.62


In [278]:
"""
loc 인덱서
Ridx2
id_1   0.68
"""
print(df3.loc["M"]["A"]["C"])
print(df3.loc["M"]["A"]["C"][:1])
print("="*50)
"""
기본 인덱서
0.68
"""
print(df3[("A","C")][("M","id_1")])
print("="*50)
"""
iloc 인덱서
0.68
"""
print(df3.iloc[0,0])
print("="*50)
"""
iloc 인덱서
Ridx1 Ridx2
M     id_1    0.68   
 Name: (A, C), dtype:float64
"""
print(df3.iloc[:1,1])
print("="*50)

Ridx2
id_1    0.26
id_2    0.02
id_3    0.94
Name: C, dtype: float64
Ridx2
id_1    0.26
Name: C, dtype: float64
0.26
0.26
Ridx1  Ridx2
M      id_1     0.77
Name: (A, D), dtype: float64


### 행 인덱스와 열 인덱스를 교환

+ stack() - 열을 행으로
+ unstack() - 행을 열로

In [280]:
#df3.T는 조건없이 그냥 90도 돌려버리는 것.
df3.T

# 전체가 아니라 특정 열이나 특정 행을 바꾸고 싶을 때?
# 기준점을 지정해서 돌려버리고 싶을 때?

#stack()과 unstack()을 사용하면 된다.

Unnamed: 0_level_0,Ridx1,M,M,M,F,F,F
Unnamed: 0_level_1,Ridx2,id_1,id_2,id_3,id_1,id_2,id_3
Cidx1,Cidx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
A,C,0.26,0.02,0.94,0.7,0.21,0.57
A,D,0.77,0.62,0.68,0.06,0.13,0.44
B,C,0.46,0.61,0.36,0.67,0.32,0.99
B,D,0.57,0.62,0.44,0.67,0.36,0.1


In [279]:
df3

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.26,0.77,0.46,0.57
M,id_2,0.02,0.62,0.61,0.62
M,id_3,0.94,0.68,0.36,0.44
F,id_1,0.7,0.06,0.67,0.67
F,id_2,0.21,0.13,0.32,0.36
F,id_3,0.57,0.44,0.99,0.1


In [282]:
df3.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,0.26,0.77
M,id_1,B,0.46,0.57
M,id_2,A,0.02,0.62
M,id_2,B,0.61,0.62
M,id_3,A,0.94,0.68
M,id_3,B,0.36,0.44
F,id_1,A,0.7,0.06
F,id_1,B,0.67,0.67
F,id_2,A,0.21,0.13
F,id_2,B,0.32,0.36


In [284]:
#stack()에 "칼럼 이름" or "칼럼 번호"를 입력해주면 된다.
df3.stack(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx1,A,B
Ridx1,Ridx2,Cidx2,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,C,0.26,0.46
M,id_1,D,0.77,0.57
M,id_2,C,0.02,0.61
M,id_2,D,0.62,0.62
M,id_3,C,0.94,0.36
M,id_3,D,0.68,0.44
F,id_1,C,0.7,0.67
F,id_1,D,0.06,0.67
F,id_2,C,0.21,0.32
F,id_2,D,0.13,0.36


In [285]:
df3.unstack(0)

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.7,0.26,0.06,0.77,0.67,0.46,0.67,0.57
id_2,0.21,0.02,0.13,0.62,0.32,0.61,0.36,0.62
id_3,0.57,0.94,0.44,0.68,0.99,0.36,0.1,0.44


In [286]:
df3.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.7,0.21,0.57,0.06,0.13,0.44,0.67,0.32,0.99,0.67,0.36,0.1
M,0.26,0.02,0.94,0.77,0.62,0.68,0.46,0.61,0.36,0.57,0.62,0.44


### 칼럼 기준이나 인덱스가 복수로 구성되어있을 때, 그 순서를 바꾸는 방법

+ swaplevel(i, j, axis=0)
+ i = 첫번째 인덱스(칼럼), j = 두번째 인덱스(칼럼), axis=0 : 인덱스 바꿀 때(열 기준), axis=1 : 칼럼 바꿀 때(행 기준)

In [287]:
df4 = df3.swaplevel("Ridx1", "Ridx2")
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,0.26,0.77,0.46,0.57
id_2,M,0.02,0.62,0.61,0.62
id_3,M,0.94,0.68,0.36,0.44
id_1,F,0.7,0.06,0.67,0.67
id_2,F,0.21,0.13,0.32,0.36
id_3,F,0.57,0.44,0.99,0.1


In [291]:
df5 = df3.swaplevel("Cidx1", "Cidx2", axis=1)
# axis = 1이어야 하는 이유는 Cidx2와 Cidx1의 자리는 위 아래로 바뀌어야하기 때문에 기준이 axis=1이어야 한다.
df5

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.26,0.77,0.46,0.57
M,id_2,0.02,0.62,0.61,0.62
M,id_3,0.94,0.68,0.36,0.44
F,id_1,0.7,0.06,0.67,0.67
F,id_2,0.21,0.13,0.32,0.36
F,id_3,0.57,0.44,0.99,0.1


#### 정렬 df.sort_index(level=0)
+ level=0은 첫번째, level=1은 두번째 ..
+ axis=0은 인덱스, axis=1은 칼럼

In [295]:
#### 정렬 df.sort_index()

print(df3)

print("="*50)

print(df3.sort_index(level=0)) #axis=0이 디폴트값으로 생략되어있는 것

print("="*50)

print(df3.sort_index(level=1))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.26  0.77  0.46  0.57
      id_2   0.02  0.62  0.61  0.62
      id_3   0.94  0.68  0.36  0.44
F     id_1   0.70  0.06  0.67  0.67
      id_2   0.21  0.13  0.32  0.36
      id_3   0.57  0.44  0.99  0.10
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.70  0.06  0.67  0.67
      id_2   0.21  0.13  0.32  0.36
      id_3   0.57  0.44  0.99  0.10
M     id_1   0.26  0.77  0.46  0.57
      id_2   0.02  0.62  0.61  0.62
      id_3   0.94  0.68  0.36  0.44
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.70  0.06  0.67  0.67
M     id_1   0.26  0.77  0.46  0.57
F     id_2   0.21  0.13  0.32  0.36
M     id_2   0.02  0.62  0.61  0.62
F     id_3   0.57  0.44  0.99  0.10
M     id_3   0.94  0.68  0.36  0.44


In [315]:
# 인덱싱 연습문제

print(df3)

print("="*50)

# 1. 첫번째 행과 첫번째 열에 있는 0.55값을 loc를 이용해서 출력
print(df3.loc[("M", "id_1"), ("A", "C")])
# 2. 첫번째 열에 있는 0.55~0.02까지 출력(iloc 이용)
print("="*50)
print(df3.iloc[:1, 0:2])
# 3. 첫번째 행의 모든 칼럼 값들을 출력(loc 이용)
print("="*50)
print(df3.loc[("M", "id_1")])
# 4. 맨 마지막 행에 "ALL"이라는 인덱스를 추가하여 각 열의 합을 출력
print("="*50)
df3.loc[:, 'ALL'] = df3.sum(axis=1)
print(df3)

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.21  0.16  0.65  0.25
      id_2   0.47  0.24  0.16  0.11
      id_3   0.66  0.14  0.20  0.37
F     id_1   0.82  0.10  0.84  0.10
      id_2   0.98  0.47  0.98  0.60
      id_3   0.74  0.04  0.28  0.12
0.21
Cidx1           A      
Cidx2           C     D
Ridx1 Ridx2            
M     id_1   0.21  0.16
Cidx1  Cidx2
A      C        0.21
       D        0.16
B      C        0.65
       D        0.25
Name: (M, id_1), dtype: float64
Cidx1           A           B         ALL
Cidx2           C     D     C     D      
Ridx1 Ridx2                              
M     id_1   0.21  0.16  0.65  0.25  1.27
      id_2   0.47  0.24  0.16  0.11  0.98
      id_3   0.66  0.14  0.20  0.37  1.37
F     id_1   0.82  0.10  0.84  0.10  1.86
      id_2   0.98  0.47  0.98  0.60  3.03
      id_3   0.74  0.04  0.28  0.12  1.18


## 5. 데이터프레임 병합

+ merge() : 두 데이터프레임이 공통된 열 또는 인덱스 기준으로 두 개의 테이블을 합친다.
+ concat() : 기준열을 사용하지 않고 단순히 데이터를 연결한다.

In [316]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=================================================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [319]:
#### SQL : inner join/ R : left join(pandas에선 merge)

pd.merge(df1, df2) #다만, 두 데이터가 연결된 것들만 나온다.
# SQL에선 모든 데이터를 다 살리는 join으로 outer join(left, right, full)이 있다. 여기서도 가능하다.
print(pd.merge(df1, df2, how="left"))
print("=================================================================")
print(pd.merge(df1, df2, how="right"))
print("=================================================================")
print(pd.merge(df1, df2, how="outer"))

   고객번호   이름       금액
0  1001   둘리  10000.0
1  1001   둘리  20000.0
2  1001   둘리  30000.0
3  1002  도우너      NaN
4  1003   또치      NaN
5  1004   길동      NaN
6  1005   희동  15000.0
7  1006  마이콜   5000.0
8  1007   영희      NaN
   고객번호   이름      금액
0  1001   둘리   10000
1  1001   둘리   20000
2  1005   희동   15000
3  1006  마이콜    5000
4  1008  NaN  100000
5  1001   둘리   30000
   고객번호   이름        금액
0  1001   둘리   10000.0
1  1001   둘리   20000.0
2  1001   둘리   30000.0
3  1002  도우너       NaN
4  1003   또치       NaN
5  1004   길동       NaN
6  1005   희동   15000.0
7  1006  마이콜    5000.0
8  1007   영희       NaN
9  1008  NaN  100000.0


In [321]:
#### 키가 여러 개인 경우. 같은 이름으로 다른 성질의 칼럼을 가진 경우

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})
print(df1)
df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})
print(df2)

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
  고객명 데이터
0  춘향  여자
1  몽룡  남자


In [322]:
pd.merge(df1, df2, on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [323]:
#### 다르다면?

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})
print(df1)
df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})
print(df2)

   이름  성적
0  영희   1
1  철수   2
2  철수   3
   성명  점수
0  영희   4
1  영희   5
2  철수   6


In [324]:
#칼럼명이 다른 두 칼럼을 키 값으로 둬야한다면?
#left_on="", right_on=""
pd.merge(df1, df2, left_on="이름", right_on="성명")

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [326]:
#인덱스와 칼럼 값을 공통된 것으로 묶어야 한다면?
#left_index=True, Right_index=True

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print("------------------------------")
df2

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
------------------------------


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [327]:
pd.merge(df1, df2, left_on=("도시", "연도"), right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [328]:
# 인덱스를 기준 열로 사용하는 경우

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("========================================")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


In [330]:
pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [332]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [333]:
#### merge 대신 join도 가능
# basic form : df1.join(df2, how="outer")

df1.join(df2, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [336]:
#### concat(df1, df2, axis=0) 행 기준으로 붙일지 열 기준으로 붙일지 결정


s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2,3,4], index=["A", "B", "C"])
print(s1)
print(s2)

print("="*50)

df = pd.concat([s1, s2])
print(df)

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64
A    0
B    1
A    2
B    3
C    4
dtype: int64


In [343]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])

print(df1)

print("-------------------------------------")

df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])

print(df2)

print(pd.concat([df1, df2], axis=0))
print(pd.concat([df1, df2], axis=1))

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
-------------------------------------
   데이터3  데이터4
a     5     6
c     7     8
   데이터1  데이터2  데이터3  데이터4
a   0.0   1.0   NaN   NaN
b   2.0   3.0   NaN   NaN
c   4.0   5.0   NaN   NaN
a   NaN   NaN   5.0   6.0
c   NaN   NaN   7.0   8.0
   데이터1  데이터2  데이터3  데이터4
a     0     1   5.0   6.0
b     2     3   NaN   NaN
c     4     5   7.0   8.0


## 3. pivot

+ groupby() : DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)
+ pivot() : pandas.pivot(data, index=None, columns=None, values=None)
+ pivot_table() : pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)

#### 1. pivot()

In [347]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [365]:
df1=df[["도시", "인구", "연도"]]
df1
df2=df1.set_index(["도시", "연도"])
df2
df3=df2.unstack("연도")
df3

df_complete = df.set_index(["도시", "연도"])[["인구"]].unstack("연도")
df_complete

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [368]:
df.pivot(columns="연도", index="도시", values="인구")
pd.pivot(data=df, columns="연도", index="도시", values="인구")
df.pivot("도시", "연도", "인구") #(index = , columns = , values = ) 이 순서다.


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### 2. groupby() : 그룹으로 묶어주는 것. 그래서 집계함수와 같이 사용해야한다.

많이 쓰는 함수들 :) 어떤 의미인지 정리해둘 것
+ size(), count()
+ mean(), median(), min(), max()
+ sum(), prod(), std(), var(), quantile()
+ first(), last()
+ agg(), aggregate()
+ describe()
+ apply()
+ transform()

apply -> agg -> transform
다 비슷한 기능. 약간의 차이가 있다.
일반적으로 apply를 많이 쓴다. 그러니 apply, agg, transform 순서로 써보는걸 추천한다.

In [369]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [372]:
g = df2.groupby(by=["key1", "key2"])
g.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,3.0,30.0
A,two,2.0,20.0
B,one,3.0,30.0
B,two,4.0,40.0


In [383]:
#### 다양한 사용방법( 성능상 차이 있을 수 있다. %timeit 으로 점검해보자.)

print(df2.groupby(by="key1").sum())

print("="*50)

print(df2.data1.groupby(df2.key1).sum()) #이 값이 시리즈인 이유는 df2.data1이 이미 시리즈 형태이기 때문.

print("="*50)

print(df2.groupby(by="key1")["data1"].sum())

print("="*50)

print(df2.groupby(by="key1").sum()["data1"])

print("="*50)

# 데이터프레임을 만들고 싶다면? []로 한번 더 묶어주라.
print(df2.groupby(by="key1").sum()[["data1"]])

      data1  data2
key1              
A         8     80
B         7     70
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
key1
A    8
B    7
Name: data1, dtype: int64
      data1
key1       
A         8
B         7


In [384]:
#### 성능점검
%timeit df2.data1.groupby(df2.key1).sum()
%timeit df2.groupby(by="key1")["data1"].sum()
%timeit df2.groupby(by="key1").sum()["data1"]
%timeit df2.groupby(by="key1").sum()[["data1"]]

227 µs ± 8.67 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
232 µs ± 4.54 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
603 µs ± 1.88 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
745 µs ± 817 ns per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [388]:
#### 복합키

df2.data1.groupby([df2.key1, df2.key2]).sum() #df2.key1에 "key1" 이렇게 쓸 수 없다. 왜? df2.data1으로 이미 뽑아왔으니까. df2에서 key1을 다시 가져와야한다. 근데. 이게 성능이 제일 좋아.....
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack()

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [389]:
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [393]:
df["인구"].groupby([df["도시"], df["연도"]]).sum().unstack()

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [395]:
df.인구.groupby([df.지역, df.연도]).sum().unstack()

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


#### 4. apply, agg, transform

In [396]:
import seaborn as sns
iris = sns.load_dataset('iris')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [412]:
def peek_to_ratio(x):
    return x.max() / x.min()

g = iris.groupby("species")
print(g.apply(peek_to_ratio))

print("="*50)

print(g.agg(peek_to_ratio))

print("="*50)

print(g.transform(peek_to_ratio))


#점검
print(iris[iris['species'] == 'setosa']['petal_width'].max())
print(iris[iris['species'] == 'setosa']['petal_width'].min())

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      1.900000     6.000000
3        1.348837     1.913043      1.900000     6.000000
4        1.348837     1.913043      1.900000     6.000000
..

In [414]:
# agg는 여러개의 함수를 동시에 먹일 수 있다. apply는 하나만 가능
iris.groupby("species").agg([np.sum, np.mean, np.std, peek_to_ratio])
# 통계 자료 만들거나 요약 자료 만들 때 유용할까?
# describe가 있는데?

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peek_to_ratio,sum,mean,std,peek_to_ratio,sum,mean,std,peek_to_ratio,sum,mean,std,peek_to_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


In [415]:
iris.describe()
# species 별로는 어려움 :(


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## 7. 활용예제

In [7]:
import seaborn as sns

tips = sns.load_dataset('tips')
print(tips.head())
print(type(tips))

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
<class 'pandas.core.frame.DataFrame'>


In [8]:
# DataFrame에서 기본통계는 df.describe()
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [9]:
#칼럼들의 데이터 형태, 결측치 파악엔 df.info()
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [12]:
#새로운 칼럼 만들기
#식사대금과 팁의 비율

tips['tip_pct'] = (tips['tip'] / tips['total_bill'] * 100).round(1)
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,5.9
1,10.34,1.66,Male,No,Sun,Dinner,3,16.1
2,21.01,3.5,Male,No,Sun,Dinner,3,16.7
3,23.68,3.31,Male,No,Sun,Dinner,2,14.0
4,24.59,3.61,Female,No,Sun,Dinner,4,14.7


In [14]:
#각 성별은 몇명인가?
tips.sex.value_counts()
#tips.groupby('sex').size()

Male      157
Female     87
Name: sex, dtype: int64

In [16]:
#성별과 흡연 여부로 구별
tips.groupby(['sex', 'smoker']).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

In [18]:
tips.pivot_table(index='sex', columns='smoker', values='tip_pct')

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,15.281667,16.06701
Female,18.215152,15.692593


In [22]:
tips.tip_pct.groupby([tips.sex, tips.smoker]).mean()

sex     smoker
Male    Yes       15.281667
        No        16.067010
Female  Yes       18.215152
        No        15.692593
Name: tip_pct, dtype: float64

In [23]:
tips.tip_pct.groupby([tips.sex, tips.smoker]).mean().unstack()

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,15.281667,16.06701
Female,18.215152,15.692593


In [24]:
# aggfunc = 평균, 갯수, 총합 등을 설정할 수 있는 옵션
# margins = True or False. True면 아래 총합을 자동으로 구해준다.
tips.pivot_table("tip_pct", ["sex", "smoker"], aggfunc="count", margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,60
Male,No,97
Female,Yes,33
Female,No,54
All,,244


In [25]:
tips.tip_pct.groupby(tips.sex).mean()

sex
Male      15.766879
Female    16.649425
Name: tip_pct, dtype: float64

In [28]:
tips.pivot_table(index="sex", values="tip_pct", aggfunc="mean")

Unnamed: 0_level_0,tip_pct
sex,Unnamed: 1_level_1
Male,15.766879
Female,16.649425


In [30]:
# 팁의 비율이 요일, 점심/저녁 여부, 인원 수에 어떤 영향을 받는지 살펴볼 수 있게 조회
tips.pivot_table("tip_pct",index=["day","time"],columns="size",aggfunc="mean")

Unnamed: 0_level_0,size,1,2,3,4,5,6
day,time,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Thur,Lunch,18.2,16.402128,14.475,14.54,12.1,17.366667
Thur,Dinner,,16.0,,,,
Fri,Lunch,22.4,18.2,18.8,,,
Fri,Dinner,,16.272727,,11.8,,
Sat,Dinner,23.2,15.528302,15.15,13.815385,10.7,
Sun,Dinner,,18.089744,15.273333,15.311111,16.0,10.4


In [31]:
tips.pivot_table("tip_pct",["day","time", "size"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,18.2
Thur,Lunch,2,16.402128
Thur,Lunch,3,14.475
Thur,Lunch,4,14.54
Thur,Lunch,5,12.1
Thur,Lunch,6,17.366667
Thur,Dinner,2,16.0
Fri,Lunch,1,22.4
Fri,Lunch,2,18.2
Fri,Lunch,3,18.8


In [38]:
#dropna() 결측치 빼고
tips.groupby(["day","time","size"])["tip_pct"].mean().dropna()

day   time    size
Thur  Lunch   1       18.200000
              2       16.402128
              3       14.475000
              4       14.540000
              5       12.100000
              6       17.366667
      Dinner  2       16.000000
Fri   Lunch   1       22.400000
              2       18.200000
              3       18.800000
      Dinner  2       16.272727
              4       11.800000
Sat   Dinner  1       23.200000
              2       15.528302
              3       15.150000
              4       13.815385
              5       10.700000
Sun   Dinner  2       18.089744
              3       15.273333
              4       15.311111
              5       16.000000
              6       10.400000
Name: tip_pct, dtype: float64

In [45]:
#### 성별, 흡연유무별로 가장 많은 팁과 가장 적은 팁의 차이

def peak_to_peak(x):
    return x.max() - x.min()

tips.groupby(["sex", "smoker"])[["tip"]].apply(peak_to_peak)
#tips.groupby(["sex", "smoker"])[["tip"]].agg(peak_to_peak)
#tips.groupby(["sex", "smoker"])[["tip"]].transform(peak_to_peak)

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Male,Yes,9.0
Male,No,7.75
Female,Yes,5.5
Female,No,4.2


In [46]:
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [47]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

In [53]:
titanic['age_class'] = pd.cut(titanic['age'], 
                             bins=[1, 20, 60, 100], 
                             include_lowest=True,
                             labels=['children', 'adult', 'old'])
titanic.age


#pd.qcut()은 구간 지정 없이 균등하게 나눠주는 명령어

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: age, Length: 891, dtype: float64

In [55]:
titanic.survived.groupby([titanic.sex, titanic.age_class, titanic.pclass]).mean()
#titanic.groupby(["sex", "age_class", "pclass"])[["survived"]].mean()

sex     age_class  pclass
female  children   1         0.928571
                   2         1.000000
                   3         0.488889
        adult      1         0.971014
                   2         0.896552
                   3         0.407407
        old        1         1.000000
                   2              NaN
                   3         1.000000
male    children   1         0.500000
                   2         0.437500
                   3         0.186667
        adult      1         0.426829
                   2         0.051948
                   3         0.132948
        old        1         0.083333
                   2         0.333333
                   3         0.000000
Name: survived, dtype: float64

## 8. 시계열 데이터

+ DateTimeIndex 자료형 : 날짜나 시간을 인덱스로 쓸 수 있게 만들어주는 자료형
    - pd.to_datetime() : 문자열을 날짜 타입으로 변환
    - pd.date_range() : 특정 범위의 날짜 인덱스를 생성

In [64]:
date_str = ["2021, 1, 1", "2021, 1, 4", "2021, 1, 6", "2021, 1, 9"]
#"2021, 1, 1" 이렇게 띄어쓰기로 해야된다. 붙여쓰면 읽질 못한다.
idx = pd.to_datetime(date_str)

In [66]:
np.random.seed(1)

s = pd.Series(np.random.randn(4), index=idx)
s

2021-01-01    1.624345
2021-01-04   -0.611756
2021-01-06   -0.528172
2021-01-09   -1.072969
dtype: float64

In [67]:
# 날짜 데이터 생성
date = pd.date_range("2021-1-1", "2021-4-30")
date

# -> ... index=date

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10',
               ...
               '2021-04-21', '2021-04-22', '2021-04-23', '2021-04-24',
               '2021-04-25', '2021-04-26', '2021-04-27', '2021-04-28',
               '2021-04-29', '2021-04-30'],
              dtype='datetime64[ns]', length=120, freq='D')

In [71]:
# 더 편하게 날짜 데이터를 생성하는 방법
date = pd.date_range("2021-01-01", periods=30, freq='B')
date

#freq
    # S : 초
    # T : 분
    # H : 시간
    # D : 일
    # B : 주말이 아닌 평일
    # W : 주(일요일)
    # W-MON : 주(월요일)
    # M : 각 달의 마지막 날
    # MS : 각 달의 첫날
    # BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    # BMS : 주말이 아닌 평일중에서 각 달의 첫날
    # WOM-2THU : 각 달의 두번째 목요일
    # Q-JAN : 각 분기의 첫 달의 마지막 날
    # Q-DEC : 각 분기의 마지막 달의 마지막 날

DatetimeIndex(['2021-01-01', '2021-01-04', '2021-01-05', '2021-01-06',
               '2021-01-07', '2021-01-08', '2021-01-11', '2021-01-12',
               '2021-01-13', '2021-01-14', '2021-01-15', '2021-01-18',
               '2021-01-19', '2021-01-20', '2021-01-21', '2021-01-22',
               '2021-01-25', '2021-01-26', '2021-01-27', '2021-01-28',
               '2021-01-29', '2021-02-01', '2021-02-02', '2021-02-03',
               '2021-02-04', '2021-02-05', '2021-02-08', '2021-02-09',
               '2021-02-10', '2021-02-11'],
              dtype='datetime64[ns]', freq='B')

In [78]:
#### shift 연산 : 날짜를 이동시켜서 연산하는 것?

np.random.seed(1)

ts = pd.Series(np.random.rand(4), index=pd.date_range("2021-01-01", periods=4, freq="M"))
print(ts)

print("="*50)
print(ts.shift(1))
#value를 한칸씩 아래로 내리는 것
#맨 첫번째는 결측치가 생긴다.

print("="*50)
print(ts.shift(-1))
#value를 한칸씩 위로 올리는 것
#가장 아래쪽 데이터는 결측치가 된다.


#### 이번엔 인덱스를 이동시킨다. : df.shift(1, freq="")
print(ts.shift(1, freq="M"))
print("="*50)
print(ts.shift(1, freq="W"))


2021-01-31    0.417022
2021-02-28    0.720324
2021-03-31    0.000114
2021-04-30    0.302333
Freq: M, dtype: float64
2021-01-31         NaN
2021-02-28    0.417022
2021-03-31    0.720324
2021-04-30    0.000114
Freq: M, dtype: float64
2021-01-31    0.720324
2021-02-28    0.000114
2021-03-31    0.302333
2021-04-30         NaN
Freq: M, dtype: float64
2021-02-28    0.417022
2021-03-31    0.720324
2021-04-30    0.000114
2021-05-31    0.302333
Freq: M, dtype: float64
2021-02-07    0.417022
2021-03-07    0.720324
2021-04-04    0.000114
2021-05-02    0.302333
dtype: float64


In [80]:
#### resampling

# 시간 구간을 줄여서 데이터양을 늘리는 방법 : upsampling
# 예) 월 -> 일. 30개의 데이터 증가
# 시간 구간을 늘려서 데이터양을 줄이는 방법 : downsampling
# 예) 일 -> 월. 30개의 데이터가 하나로 감소
# groupby, pivot_table 느낌?


ts = pd.Series(np.random.randn(100), index=pd.date_range("2021-01-01", periods=100, freq="D"))
print(ts)
print("="*50)


2021-01-01    0.403492
2021-01-02    0.593579
2021-01-03   -1.094912
2021-01-04    0.169382
2021-01-05    0.740556
                ...   
2021-04-06    0.420282
2021-04-07    0.810952
2021-04-08    1.044442
2021-04-09   -0.400878
2021-04-10    0.824006
Freq: D, Length: 100, dtype: float64
2021-01-03   -0.032614
2021-01-10   -0.190761
2021-01-17   -0.215449
2021-01-24    0.318309
2021-01-31   -0.055023
2021-02-07    0.134925
2021-02-14    0.296567
2021-02-21    0.287754
2021-02-28   -0.219428
2021-03-07    0.067930
2021-03-14    0.410324
2021-03-21    0.031299
2021-03-28    0.307538
2021-04-04    0.500578
2021-04-11    0.550187
Freq: W-SUN, dtype: float64
2021-01-31   -0.035429
2021-02-28    0.124955
2021-03-31    0.231495
2021-04-30    0.534845
Freq: M, dtype: float64


In [81]:
print(ts.resample("W").mean())

2021-01-03   -0.032614
2021-01-10   -0.190761
2021-01-17   -0.215449
2021-01-24    0.318309
2021-01-31   -0.055023
2021-02-07    0.134925
2021-02-14    0.296567
2021-02-21    0.287754
2021-02-28   -0.219428
2021-03-07    0.067930
2021-03-14    0.410324
2021-03-21    0.031299
2021-03-28    0.307538
2021-04-04    0.500578
2021-04-11    0.550187
Freq: W-SUN, dtype: float64


In [82]:
print(ts.resample("M").mean())

2021-01-31   -0.035429
2021-02-28    0.124955
2021-03-31    0.231495
2021-04-30    0.534845
Freq: M, dtype: float64


In [96]:
ts = pd.Series(np.random.randn(60), index=pd.date_range("2021-01-01", periods=60, freq="T"))
ts.resample('10S').sum()

2021-01-01 00:00:00   -1.195862
2021-01-01 00:00:10    0.000000
2021-01-01 00:00:20    0.000000
2021-01-01 00:00:30    0.000000
2021-01-01 00:00:40    0.000000
                         ...   
2021-01-01 00:58:20    0.000000
2021-01-01 00:58:30    0.000000
2021-01-01 00:58:40    0.000000
2021-01-01 00:58:50    0.000000
2021-01-01 00:59:00    1.009787
Freq: 10S, Length: 355, dtype: float64

In [102]:
#### upsampling

# forward filling : 앞에서 나온 데이터(다운샘플링에서 사용된) 사용하는 방법
# backward filling : 뒤에서 나올 데이터를 미리 사용하는 방법


ts.resample('30S').ffill().head(10)

2021-01-01 00:00:00   -1.195862
2021-01-01 00:00:30   -1.195862
2021-01-01 00:01:00    2.505980
2021-01-01 00:01:30    2.505980
2021-01-01 00:02:00    1.919792
2021-01-01 00:02:30    1.919792
2021-01-01 00:03:00   -1.391694
2021-01-01 00:03:30   -1.391694
2021-01-01 00:04:00    0.450218
2021-01-01 00:04:30    0.450218
Freq: 30S, dtype: float64

In [101]:
ts.resample('30S').bfill().head(10)

2021-01-01 00:00:00   -1.195862
2021-01-01 00:00:30    2.505980
2021-01-01 00:01:00    2.505980
2021-01-01 00:01:30    1.919792
2021-01-01 00:02:00    1.919792
2021-01-01 00:02:30   -1.391694
2021-01-01 00:03:00   -1.391694
2021-01-01 00:03:30    0.450218
2021-01-01 00:04:00    0.450218
2021-01-01 00:04:30    0.627437
Freq: 30S, dtype: float64