In [1]:
import numpy as np
import pandas as pd

In [52]:
data = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

In [53]:
data = np.stack([data])
data

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]])

In [54]:
data = np.stack([data])
data

array([[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]]])

In [55]:
data = data.flatten()
data

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [11]:
a = np.random.randint(0, 10, (100, 200, 5))
b = np.random.randint(0, 10, (100, 200, 2))

In [14]:
c = np.dstack([a, b])

In [16]:
c.shape

(100, 200, 7)

# 1. Pandas에 제공하는 대표적인 자료구조

- Series
    - Index + 값
    
- DataFrame (=Table)
    - 여러 개의 series를 묶어놓은 형태
    - 데이터를 DataFrame에 넣는 것 = 전처리 과정

# 2. Series

- 1차원 배열데이터, Index + 값으로 출력

        pd.Series(data=None, index=None, dtype: 'Dtype | None' = None,
                  name=None, copy: 'bool' = False, fastpath: 'bool' = False,)

In [2]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


## 1) 인덱스 활용

- s.index.name : 인덱스에 이름 지정
- s.name : series 전체에 이름 지정

In [56]:
#### 인덱스를 자유롭게 지정 ####

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [57]:
#### 인덱스와 값을 별도로 추출 가능 ####

print(s.values, type(s.values))
print(s.index)

[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [58]:
#### 인덱스에 이름 지정 ####

s.index.name = "도시"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [59]:
#### series 전체에 이름 지정 ####

s.name = "인구"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


## 2) 벡터화 연산

In [60]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

## 3)  Indexing

- 숫자가 아닌 이름으로도 인덱싱 가능

In [61]:
print(s[0], s[1])
print(s["서울"], s["부산"])
print("----------------------------------------")
print(s[[0, 3, 1]])
print(s[["서울", "대구", "부산"]])
print("----------------------------------------")
print(s[(s > 250e4) & (s < 500e4)])
print("----------------------------------------")
print(s[1:3])
print(s["부산":"인천"])
print("----------------------------------------")
print(s.부산, ",", s.서울)

9904312 3448737
9904312 3448737
----------------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
----------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
----------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
----------------------------------------
3448737 , 9904312


## 4) Series와 Dict

In [62]:
print("서울" in s)
print("대전" in s)
print("----------------------------------------")
print(list(s.items()))
print(s.keys())  # = s.index
print(s.values)
print("----------------------------------------")
s2 = pd.Series({"서울":9631482, "부산":3448737, "인천":2632035, "대전":1490158})
print(s2)

True
False
----------------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]
----------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


## 5) 기타

- 결측치 제거
    - result.dropna()
    - result.notnull() : true, false로 출력
        - result[result.notnull()] : 인덱스로 활용

In [63]:
#### 인덱스 기반 연산 ####

print(s)
print("----------------------------------------")
print(s2)
print("========================================")

result = s - s2           # 같은 인덱스끼리 연산
print(result)             # NaN : 결측치
print("----------------------------------------")
print(s.values - s2.values)      # 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
----------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
----------------------------------------
[272830      0 258416 975894]


In [64]:
result.dropna(inplace=True)
print(result)

부산         0.0
서울    272830.0
인천    258416.0
dtype: float64


In [59]:
#### 결측치 제거 ####

print(result.dropna())
print("----------------------------------------")
print(result)
print("----------------------------------------")
print(result.notnull())     # true, false로 출력
print("----------------------------------------")
print(result[result.notnull()])  # 인덱스로 활용
print("----------------------------------------")
print(result)
print("========================================")

#### s와 s2를 이용해서 인구 증가율 구하기
#### (끝연도 - 시작연도)/시작연도 * 100
result2 = (s2 - s) / s * 100
print("인구증가율")
print(result2)

부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
----------------------------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
----------------------------------------
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
----------------------------------------
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
----------------------------------------
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
인구증가율
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [64]:
#### 데이터 수정, 삭제, 갱신 ####

#### 수정
result2["부산"] = 1.63
print(result2)
print("----------------------------------------")
#### 갱신
result2["대구"] = 1.41
print(result2)
print("----------------------------------------")
#### 삭제
del result2["서울"]
print(result2)

대구    1.410000
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64
----------------------------------------
대구    1.410000
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64
----------------------------------------
대구    1.410000
대전         NaN
부산    1.630000
인천   -8.940335
dtype: float64


# 3. DataFrame

- 2차원 배열데이터

In [65]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],  # 하나하나가 series
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [73]:
df = pd.DataFrame(data)
print(type(df))
df         # 웹브라우저를 통해 출력

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


## 1) 컬럼의 순서(위치) 바꾸기

In [78]:
cols = ['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율']

df = pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [86]:
?pd.DataFrame
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

## 2) 인덱스 변경

In [87]:
print(df.index)   # 기본 인덱스로 잡혀있음

idx = ["서울", "부산", "인천", "대구"]

# df = pd.DataFrame(data, idx, cols)
df = pd.DataFrame(data=data, columns=cols, index=idx)
df

Index(['서울', '부산', '인천', '대구'], dtype='object')


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [88]:
#### 컬럼과 인덱스에 이름 지정 ####

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [89]:
#### 전치 가능 ####
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


## 3) Indexing

### (1) 열 인덱싱

- 여러 열을 가져올 때 꼭 [[ ]] 두개로
- df[0] : 컬럼의 이름이 지정됐으면 숫자 즉, 인덱스로 접근 불가능
- df[ "" : "" ] : 열 인덱스는 슬라이싱 불가능

In [105]:
print(df)
print("===================================================================")

print(df["지역"])
print(type(df["지역"]))
print("-------------------------------------")
print(df[["지역"]])       # [[ ]] : DataFrame형식으로 바꿀 수 있음
print(type(df[["지역"]]))
print("-------------------------------------")
print(df[["2005", "2010"]])   # 여러 열을 가져올 때 꼭 [[]] 두개로

# df[0] : 컬럼의 이름이 지정됐으면 인덱스로 접근 불가능
# df["2015" : "2000"] : 열 인덱스는 슬라이싱 불가능

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
-------------------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
-------------------------------------
특성     2005     2010
도시                  
서울  9762546  9631482
부산  3512547  3393191
인천  2517680  2632035
대구  2456016  2431774


### (2) 행 인덱싱 [ : ]

- 반드시 : 으로 슬라이싱
- 문자로 인덱싱 가능

In [113]:
print(df[0:2])
print("------------------------------------------------------------------")
print(df[:])
print("------------------------------------------------------------------")
print(df["서울":"부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
------------------------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163


### (3) 행과 열 동시 접근

- [ 열 ] [ 행 ]

In [125]:
print(df["2015"]["서울"])        # 하나의 값
print(df["2015"][0])
print("------------------------------------------------------------------")
print(df["2015"][:"서울"])       # 하나의 행
print(df["2015"]["서울":"서울"])
print(df["2015"][:1])
# print(df["2015", "서울"])      # 묶어서 불가능

9904312
9904312
------------------------------------------------------------------
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64


### (4) 열 데이터 수정, 추가, 삭제

In [145]:
print(df)
print("==================================================================================")

#### 수정
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
print(df)
print("----------------------------------------------------------------------------------")
#### 추가
df["2005-2010 증가율"] = ((df["2010"]-df["2005"]) / df["2005"] * 100).round(2)
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972         0.0283          -1.34
부산  경상권  3448737  3393191  3512547  3655437         0.0163          -3.40
인천  수도권  2890451  2632035  2517680  2466338         0.0982           4.54
대구  경상권  2466052  2431774  2456016  2473990         0.0141          -0.99
특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972           2.83          -1.34
부산  경상권  3448737  3393191  3512547  3655437           1.63          -3.40
인천  수도권  2890451  2632035  2517680  2466338           9.82           4.54
대구  경상권  2466052  2431774  2456016  2473990           1.41          -0.99
----------------------------------------------------------------------------------
특성   지역     2015     2010    

In [146]:
#### 삭제
del df["2005-2010 증가율"]
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


-----

## 4) ❗❕ 중간 실습 ❗❕

In [8]:
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]
}

In [9]:
## 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df작성

data = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
data

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [10]:
## 2. 모든 학생의 수학점수를 조회

data["수학"]

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64

In [11]:
## 3. 모든 학생의 국어와 영어 점수를 조회

data[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [12]:
## 4. 모든 학생의 과목 평균점수를 새로운 열(과목평균)로 추가

data["평균점수1"] = ((data["국어"]+data["영어"]+data["수학"])/3).round(2)
data["평균점수2"] = data[:].mean(axis=1).round(2)
data

Unnamed: 0,국어,영어,수학,평균점수1,평균점수2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.67,46.67


In [14]:
## 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정

data["영어"]["방자"] = 80
data["평균점수1"]["방자"] = ((data["국어"]["방자"]+data["영어"]["방자"]+data["수학"]["방자"])/3).round(2)
data["평균점수2"]['방자'] = data[["국어", "영어", "수학"]]['방자':].mean(axis=1).round(2)
data

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data["평균점수1"]["방자"] = ((data["국어"]["방자"]+data["영어"]["방자"]+data["수학"]["방자"])/3).round(2)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data["평균점수2"]['방자'] = data[["국어", "영어", "수학"]]['방자':].T.mean().round(2)


Unnamed: 0,국어,영어,수학,평균점수1,평균점수2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [17]:
## 6. 춘향의 점수를 데이터 프레임 형식으로 출력

# data[["국어", "영어", "수학", "평균점수"]]
print(data[:"춘향"])
print("------------------------------------------------")
print(data.T[["춘향"]])
print(type(data.T[["춘향"]]))

    국어  영어  수학  평균점수1  평균점수2
춘향  80  90  90  86.67  86.67
------------------------------------------------
          춘향
국어     80.00
영어     90.00
수학     90.00
평균점수1  86.67
평균점수2  86.67
<class 'pandas.core.frame.DataFrame'>


In [18]:
## 7. 향단의 점수를 series로 출력

print(data.T["향단"])
print(type(data.T["향단"]))

국어       70.0
영어       60.0
수학       80.0
평균점수1    70.0
평균점수2    70.0
Name: 향단, dtype: float64
<class 'pandas.core.series.Series'>


---- 

## 5) 파일 입출력

- read_csv() : csv파일 불러오기
    - sample2 = pd.read_csv("data/sample2.csv")
- to_csv() : csv파일로 저장하기
    - df.to_csv("data/sample.csv", index=False, header=False)
- read_table() : csv형식이 아닌 파일 불러오기
    - pd.read_table("data/sample3.txt")

----

        names=["c1", "c2", "c3"] : 컬럼 이름 지정
        index_col="c1" : 특정 열을 인덱스로 지정
        sep="\s+" / delimiter="\s+" : csv외의 파일 불러올 때 구분 기호 지정, 정규 표현식 사용 가능
        skiprows=[0, 1, 2], skiprows=3 : 필요없는 줄 건너 뛰기
        na_values=[" ", "누락"] : 결측치를 찾아 NaN로 통일해서 표기
      
-----

        index=False, header=False : 인덱스와 제목은 굳이 저장 안해도 됨. 용량만 차지
        na_rep="누락" : 파일 저장 시 NaN값을 지정값으로 저장 가능

-----

- %% : 매직 명령어 -> 반드시 첫번째 줄에서 시행

In [156]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [158]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [159]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample2.csv


In [161]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [168]:
#### 특정 열을 인덱스로 지정 ####

sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [170]:
%%writefile data/sample3.txt
c1      c2      c3      c4
0.23    0.33    0.454    0.2314
0.123   0.35    0.12     0.95

Overwriting data/sample3.txt


In [194]:
# sample3 = pd.read_table("data/sample3.txt", sep="[ ]+")
# sample3 = pd.read_table("data/sample3.txt", delimiter="\s+")
sample3 = pd.read_table("data/sample3.txt", sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.454,0.2314
1,0.123,0.35,0.12,0.95


In [199]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터 포맷 : 어쩌구 저쩌구
컬럼 설명 : 어쩌구 저쩌구

c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample4.txt


In [204]:
# sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=[0, 1, 2])
sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=3)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [205]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2, , two
누락, 3.33, three

Writing data/sample5.csv


In [208]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [213]:
#### csv 파일로 저장 ####\
df
df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|") # 구분기호 지정 가능
df.to_csv("data/sample8.csv", index=False, header=False)  # 인덱스와 제목은 굳이 저장 안해도 됨. 용량만 차지
sample5.to_csv("data/sample9.csv", na_rep="누락")

## 6) Indexer

- Index를 도와주는 기능
    - loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서, 행우선
        - df.loc["a"] : series로 추출
        - 숫자로 접근 불가능. 이름으로만!
    - iloc : 순서를 나타내는 정수 기반의 인덱서
        - 숫자로만 접근 가능.
    - at : 많은 데이터 중 한개의 값만 가져올 때 유리, 속도 빠름
    - iat
    - ix : 라벨값과 숫자 접근 모두 가능, 비권장

### (1) loc

In [19]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"], columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [26]:
#### 첫번째 행 추출 ####

print(df[0:1])
print("----------------------------------")
print(df.loc["a"])
print(df.loc[["a"]])

    A   B   C   D
a  10  11  12  13
----------------------------------
A    10
B    11
C    12
D    13
Name: a, dtype: int32
    A   B   C   D
a  10  11  12  13


In [38]:
#### 첫번째 열에서 15보다 큰 값을 추출(c행을 추출) ####

print(df["A"])
# print(df.loc[:,"A"])    # 행우선, 행과 열 동시 접근 시 묶어줄 수 있음
print("----------------------------------")
print(df.loc[df.loc[:,"A"]>15])
print(df[df["A"]>15])    # 열 접근시 기본 인덱싱이 편리
print(df[df.A > 15])

a    10
b    14
c    18
Name: A, dtype: int32
----------------------------------
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


In [52]:
#### 행과 열을 모두 사용할 경우 ####

# b행 B열에 있는 한 개의 값을 추출
print(df["B"]["b"])
# print(df["b", "B"])
print("----------------------------------")
print(df.loc["b", "B"])
print(df.loc["b"]["B"])
print("----------------------------------")
print(df.loc["b":, "B":])               # 슬라이스 자유로움
print(df.loc[["b", "c"], ["B", "C"]])   # 행괴 열 각각 따로 지정 가능

15
----------------------------------
15
15
----------------------------------
    B   C   D
b  15  16  17
c  19  20  21
    B   C
b  15  16
c  19  20


In [54]:
#### loc는 반드시 레이블로만 접근

# print(df.loc[1: , 1:])   # 숫자로 접근 불가능. 이름으로만
# print(df.loc[[0, 1], [1, 2]])

### (2) iloc

In [57]:
#### iloc는 반드시 숫자로만 접근

print(df.iloc[1: , 1:])
print(df.iloc[[0, 1], [1, 2]])

    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
b  15  16


### (3) at, iat

-----

    %timeit : 시간 측정 가능
    
-----

In [58]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]

6.56 µs ± 152 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
3.41 µs ± 41.6 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


# 4. Data Manipulation

## 1) 데이터 카운팅

### (1) Series에서 카운팅

In [68]:
s = pd.Series(range(10))
s.count()

s[3] = np.nan
s.count()  # 결측치 제외 후 카운팅

9

### (2) DataFrame에서 카운팅

In [85]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)))
df.count()   # 각 열에 대해서 카운팅

df.iloc[2, 3] = np.nan
df.count()   # 결측치 제외 후 카운팅

0    4
1    4
2    4
3    3
dtype: int64

### (3) 카테고리별 카운팅

- value_counts()

In [87]:
np.random.seed(1)

s = pd.Series(np.random.randint(6, size=100))
s

print(s.value_counts())
print("----------------------------------")
print(df[0].value_counts())
print(df[2].value_counts())   # 각각의 열을 뽑아야 value_counts가능

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64
----------------------------------
3    2
0    1
4    1
Name: 0, dtype: int64
4    2
3    1
2    1
Name: 2, dtype: int64


## 2) 정렬

- sort_values() : 값 기준
- sort_index() : 인덱스 기준
    - ascending=False : 내림차순
    - inplace=True : 원본에 바로 저장
    
- 결측치는 정렬의 대상이 되지 않음

### (1) Series에서의 정렬

In [93]:
np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))

s.value_counts()   # 자동으로 값 기준으로 정렬되어서 나옴
s.value_counts().sort_index()
s.sort_values()    # 값을 가지고 정렬 가능
s.sort_values(ascending=False) # 내림차순

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int32

### (2) DataFrame에서의 정렬

In [108]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
print(df)
print("----------------------")
print(df.sort_values(by=2))       # 2번열을 기준으로 정렬
print("----------------------")
print(df.sort_values(by=[1, 2]))  # 2차, 3차,.. 정렬 가능

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
----------------------
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
----------------------
     0    1    2    3
1  3.0  0.0  2.0  1.0
0  0.0  0.0  3.0  2.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0


In [130]:
df1 = pd.DataFrame({"seq" : [1, 3, 2], "name" : ["park", "lee", "choi"], "age" : [30, 20, 40]})
print(df1)
print("------------------")

# seq를 기준으로 내림차순 정렬
print(df1.sort_values(by="seq", ascending=False))
print("------------------")

# index를 기준으로 정렬
# print(df1.sort_index())
print(df1.sort_index(axis=1))   # 컬럼 이름을 기준으로 정렬

# inplace
df1.sort_index(axis=1) # 복사본에서 정렬되므로 원본 변경할려면 재할당 해야함
df1.sort_values(by=["seq", "name"], axis=0, ascending=False, inplace=True)   # 원본에 바로 저장 가능
df1

   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
------------------
   seq  name  age
1    3   lee   20
2    2  choi   40
0    1  park   30
------------------
   age  name  seq
0   30  park    1
1   20   lee    3
2   40  choi    2


Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


## 3) 행, 열의 집합 연산

In [140]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)), dtype=int)
print(df)
print("-----------------------------------------------------------------")
df.sum()        # 열마다 합계
df.sum(axis=1)  # 행마다 합계

# 행 추가하기
df.loc["ColSum", :] = df.sum()
df["LowSum"] = df.sum(axis=1)
print(df)

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
-----------------------------------------------------------------
           0     1     2     3     4     5     6     7  LowSum
0        8.0   8.0   6.0   2.0   8.0   7.0   2.0   1.0    42.0
1        5.0   4.0   4.0   5.0   7.0   3.0   6.0   4.0    38.0
2        3.0   7.0   6.0   1.0   3.0   5.0   8.0   4.0    37.0
3        6.0   3.0   9.0   2.0   0.0   4.0   2.0   4.0    30.0
ColSum  22.0  22.0  25.0  10.0  18.0  19.0  18.0  13.0   147.0


## 4) apply()

- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

----

- fillna() : NaN으로 채워진 결측치를 원하는 값으로 변경 가능

In [142]:
df = pd.DataFrame({
    "A" : [1, 2, 3, 4, 5],
    "B" : [2, 3, 1, 2, 3],
    "C" : [1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,2,3,5
2,3,1,2
3,4,2,4
4,5,3,4


In [155]:
#### 각 열(행)별로 최대값 - 최솟값 구하기

def diff(x):
    return x.max() - x.min()

##################################################

print(diff(df["A"]), diff(df["B"]), diff(df["C"]))
print("-----------------------------------------")
print(diff(df.loc[0, :]), diff(df.loc[1, :]), diff(df.loc[2, :]), diff(df.loc[3, :]), diff(df.loc[4, :]))
print("=========================================")
print(df.apply(diff, axis=0))
print("-----------------------------------------")
print(df.apply(diff, axis=1))

4 2 4
-----------------------------------------
1 3 2 2 2
A    4
B    2
C    4
dtype: int64
-----------------------------------------
0    1
1    3
2    2
3    2
4    2
dtype: int64


In [166]:
#### 위의 코드를 람다함수로

df.apply(lambda x : x.max()-x.min(), axis=0)

A    4
B    2
C    4
dtype: int64

In [185]:
#### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회

print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())
df.apply(pd.Series.value_counts, axis=0)
df.apply(df.value_counts, axis=0).fillna(0)

1    1
2    1
3    1
4    1
5    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
5    1
2    1
Name: C, dtype: int64


Unnamed: 0,A,B,C
1,1,1.0,1.0
2,1,2.0,1.0
3,1,2.0,0.0
4,1,0.0,2.0
5,1,0.0,1.0


In [182]:
?pd.DataFrame.value_counts

## 5) 실수값을 카테고리값으로 변경

- 양적데이터(숫자) -> 질적데이터(숫자X)
- cut()
    - pd.cut(x=data, bins=[범위], labels=[카테고리지정가능])
- qcut()
    - pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
    - 지료를 n등분해줌

### (1) cut()

In [193]:
# 1~15 : 미성년자, 16~25 : 청년, 26~35 : 중년, 36~60 : 장년, 61~99 : 노년

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], labels=["미성년자", "청년", "장년", "중년", "노년"])
print(cat)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '중년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']


In [198]:
print(type(cat))
print(cat.categories)
print(cat.codes)  # -1은 이상치

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


### (2) qcut()

In [202]:
data = np.random.randn(100)
cat1 = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(cat1)

pd.value_counts(cat1)

['Q3', 'Q1', 'Q1', 'Q1', 'Q1', ..., 'Q2', 'Q1', 'Q2', 'Q1', 'Q2']
Length: 100
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']


Q1    25
Q2    25
Q3    25
Q4    25
dtype: int64

# 5. Index Manipulation

## 1) set_index(), reset_index()

- set_index()
    - 원하는 컬럼을 인덱스로 지정
    - 새로 인덱스를 지정하면 기존 인덱스는 사라짐
    
- reset_index()
    - 기존 인덱스로 돌아오고 지정됐던 인덱스는 다시 컬럼으로 돌아옴
    - drop=True : 지정 인덱스를 컬럼으로 돌리지 않고 바로 삭제 -> 원본이 변함

In [211]:
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.random.rand(3, 5).round(0)]).T, columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [216]:
df2 = df1.set_index("C1")  # 원본 변화 X
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [220]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [226]:
# df2.reset_index()
df2.reset_index(drop=True)
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


## 2) 다중 인덱스

In [237]:
#### 다중 컬럼을 갖는 테이블

np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.random.rand(3, 5).round(0)]).T,
                   columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])  # 다중컬럼
df1.columns.names = ["Cidx1", "Cidx2"]  # 각각의 컬럼에 이름 붙이기
df1

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [259]:
#### 인덱싱

print(df1[("A", "C1")]) # 튜플로 접근
print(df1[("B", "C1")][0:3])
print("---------------------------------")
print(df1.loc[:, ("A", "C1")])
print(df1.loc[0:2]["B", "C1"])
print("---------------------------------")
print(df1.iloc[0:3, 2])

0    A
1    B
2    C
3    D
4    E
Name: (A, C1), dtype: object
0    1.0
1    0.0
2    1.0
Name: (B, C1), dtype: object
---------------------------------
0    A
1    B
2    C
3    D
4    E
Name: (A, C1), dtype: object
0    1.0
1    0.0
2    1.0
Name: (B, C1), dtype: object
---------------------------------
0    1.0
1    0.0
2    1.0
Name: (B, C1), dtype: object


In [29]:
#### 다중 컬럼과 다중 인덱스를 갖는 테이블

np.random.seed(0)
df2 = pd.DataFrame(np.random.rand(6, 4).round(2),
                   columns=[ ["A", "A", "B", "B"], ["C", "D", "C", "D"] ],
                   index=[ ["M", "M", "M", "F", "F", "F"], ["id_"+str(i+1) for i in range(3)]*2 ])
df2.columns.names=["Cidx1", "Cidx2"]
df2.index.names=["Ridx1", "Ridx2"]
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [292]:
#### 첫번째행 첫번째열의 값 추출(0.55)

print(df2[("A", "C")][("M", "id_1")])     # = df2[("A", "C")][0]
print(df2.loc[("M", "id_1"), ("A", "C")]) # = df2.loc["M", "id_1"]["A", "C"]
print(df2.iloc[0, 0])                     # = df2.iloc[0][0]
print("---------------------------------------------------------------------")
print(df2.loc["M"]["A"]["C"][0])          # 순서대로 나열해가도 출력됨

0.55
0.55
0.55
---------------------------------------------------------------------
0.55


    행 인덱스와 열 인덱스 교환
    - stack() : 열을 행으로
    - unstack() : 행을 열로

In [303]:
print(df2)
print("---------------------------------------------------------------------")
print(df2.T)
print("---------------------------------------------------------------------")
print(df2.stack("Cidx1"))          # print(df2.stack(1)) 인덱스로도 지정 가능
print("---------------------------------------------------------------------")
print(df2.unstack("Ridx1"))
print("---------------------------------------------------------------------")
print(df2.stack("Cidx1").unstack("Ridx1"))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
---------------------------------------------------------------------
Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.55  0.42  0.96  0.57  0.02  0.98
      D      0.72  0.65  0.38  0.93  0.83  0.80
B     C      0.60  0.44  0.79  0.07  0.78  0.46
      D      0.54  0.89  0.53  0.09  0.87  0.78
---------------------------------------------------------------------
Cidx2                 C     D
Ridx1 Ridx2 Cidx1            
M     id_1  A      0.55  0.72
            B      0.60  0.54
      id_2  A      0.42  0.65
            B      0.44  0.89
      id_3  A      0

In [9]:
print(df2)
print("----------------------------------------------------")
# 1. 첫번째 열에 있는 0.55 ~ 0.02까지 출력
print(df2.iloc[0:5, 0])
print("----------------------------------------------------")
# 2. 첫번째 행의 모든 컬럼 출력
print(df2.iloc[0, :])
print("----------------------------------------------------")
# 3. 맨 마지막 행의 "ALL"이라는 행 추가하여 각 열의 합 출력
df2.loc[("ALL", "All"), :] = df2.sum(axis=0)  # 다중인덱스의 형태를 유지해야 함
print(df2)
# # 행 추가하기
# df.loc["ColSum", :] = df.sum()
# df["LowSum"] = df.sum(axis=1)

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
----------------------------------------------------
Ridx1  Ridx2
M      id_1     0.55
       id_2     0.42
       id_3     0.96
F      id_1     0.57
       id_2     0.02
Name: (A, C), dtype: float64
----------------------------------------------------
Cidx1  Cidx2
A      C        0.55
       D        0.72
B      C        0.60
       D        0.54
Name: (M, id_1), dtype: float64
----------------------------------------------------
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  

    순서 교환 : swaplevel(i, j, axis=0)

In [15]:
df2.swaplevel("Ridx1", "Ridx2")
df2.swaplevel("Cidx1", "Cidx2", axis=1)

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78
ALL,All,3.5,4.31,3.14,3.7


    다중인덱스, 다중컬럼 정렬 : sort_index(level)

In [31]:
print(df2)
print("======================================")
print(df2.sort_index(level=1, axis=0))
print("--------------------------------------")
print(df2.sort_index(level=1, axis=1))
print("--------------------------------------")
print(df2.sort_index(level=0, axis=0).sort_index(level=1, axis=1))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.57  0.93  0.07  0.09
M     id_1   0.55  0.72  0.60  0.54
F     id_2   0.02  0.83  0.78  0.87
M     id_2   0.42  0.65  0.44  0.89
F     id_3   0.98  0.80  0.46  0.78
M     id_3   0.96  0.38  0.79  0.53
--------------------------------------
Cidx1           A     B     A     B
Cidx2           C     C     D     D
Ridx1 Ridx2                        
M     id_1   0.55  0.60  0.72  0.54
      id_2   0.42  0.44  0.65  0.89
      id_3   0.96  0.79  0.38  0.53
F     id_1   0.57  0.07  0.93  0.09
      id_2   0.02  0.78  0.83  0.87
      id_3   0.98  0.46  

## 3) ❗❕ 중간실습 ❗❕

In [516]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [542]:
# 1. 1차 행 인덱스로 "반"을, 2차 행 인덱스로 "번호"를 가지는 데이터프레임 생성

df_score2 = df_score1.sort_values(by=["반", "번호"]).set_index(["반", "번호"])
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,79,55,57
A,2,67,77,45
A,3,68,67,68
A,4,88,58,78
A,5,85,67,90
B,1,88,44,76
B,2,92,86,89
B,3,54,45,67
B,4,67,78,99
B,5,97,90,89


In [543]:
# 2. 학생의 평균을 나타내는 행을 오른쪽에 추가

df_score2["평균"] = df_score2.mean(axis=1).round(2)
df_score2

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,평균
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.67
A,2,67,77,45,63.0
A,3,68,67,68,67.67
A,4,88,58,78,74.67
A,5,85,67,90,80.67
B,1,88,44,76,69.33
B,2,92,86,89,89.0
B,3,54,45,67,55.33
B,4,67,78,99,81.33
B,5,97,90,89,92.0


In [544]:
# 3. 행 인덱스로 "번호"를 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가진 데이터프레임 생성

df_score2.index.names=["번호", "반"]
df_score2 = df_score2.unstack("번호")
df_score2

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
번호,A,B,A,B,A,B,A,B
반,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79,88,55,44,57,76,63.67,69.33
2,67,92,77,86,45,89,63.0,89.0
3,68,54,67,45,68,67,67.67,55.33
4,88,67,58,78,78,99,74.67,81.33
5,85,97,67,90,90,89,80.67,92.0


In [536]:
# 4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가

df_score2.loc["과목 평균"] = df_score2.mean(axis=0).round(2)
df_score2

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
번호,A,B,A,B,A,B,A,B
반,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.67,69.33
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.67,55.33
4,88.0,67.0,58.0,78.0,78.0,99.0,74.67,81.33
5,85.0,97.0,67.0,90.0,90.0,89.0,80.67,92.0
과목 평균,77.4,79.6,64.8,68.6,67.6,84.0,69.94,77.4


# 6. 데이터 프레임의 합성(병합)

- merge() : join()과 비슷
    - 두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합침
    - 이 때 기준이 되는 열, 행의 데이터를 key라고 함
- concat()
    - 기준열을 사용하지 않고 단순히 데이터를 연결

## 1) merge()

    pd.merge(
        left: 'DataFrame | Series',
        right: 'DataFrame | Series',
        how: 'str' = 'inner',              #조인형태
        on: 'IndexLabel | None' = None,    #키가 여러 개일 때 지정
        left_on: 'IndexLabel | None' = None, right_on: 'IndexLabel | None' = None,  #공통키가 없을 때
        left_index=True, right_index=True  #인덱스를 키로 사용할 때
        ...)

In [47]:
?pd.merge

In [35]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=================================================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [42]:
pd.merge(df1, df2)
pd.merge(df1, df2, how="left")
pd.merge(df1, df2, how="right")
pd.merge(df1, df2, how="outer")  # outer = Full outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [45]:
#### 키가 여러 개인 경우 ####

df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("----------------------------------")
print(df2)
print("----------------------------------")
pd.merge(df1, df2, on="고객명")  # 키 지정해주기

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
----------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자
----------------------------------


Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [48]:
#### 공통된 키가 없는 경우 ####

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("------------------------------")
print(df2)
print("------------------------------")
pd.merge(df1, df2, left_on="이름", right_on="성명")

   이름  성적
0  영희   1
1  철수   2
2  철수   3
------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6
------------------------------


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [50]:
#### 인덱스를 기준열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스) ####

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")

df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")

pd.merge(df1, df2, left_on=["도시","연도"], right_index=True )

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [60]:
#### 인덱스를 기준열로 사용하는 경우(둘 다 인덱스) ####

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

pd.merge(df1, df2, left_index=True, right_index=True)
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

#### merge 대신에 join 사용 가능(둘 다 인덱스가 키일 때) ####
df1.join(df2, how="inner")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


## 2) concat()

- 단순한 연결
- 인자값을 하나의 리스트로 묶어서 넘기기

In [65]:
?pd.concat

### (1) series에서 사용

In [67]:
s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])
print(s1)
print(s2)
print("----------------")

pd.concat([s1, s2])

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64
----------------


A    0
B    1
A    2
B    3
C    4
dtype: int64

### (2)  DataFrame에서 사용

In [78]:
np.random.seed(0)
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=["a", "b", "c"], columns=["data1", "data2"])
print(df1)
print("----------------")
df2 = pd.DataFrame(np.arange(4).reshape(2, 2), index=["a", "c"], columns=["data3", "data3"])
print(df2)
print("----------------")

pd.concat([df1, df2], axis=1)

   data1  data2
a      0      1
b      2      3
c      4      5
----------------
   data3  data3
a      0      1
c      2      3
----------------


Unnamed: 0,data1,data2,data3,data3.1
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


# 7. 그룹분석

- pivot() -> 간단한 경우 사용
    - index=None, columns=None, values=None
- groupby()
    - by=None, axis=0, level=None, as_index=True, sort=True, group_keys=_NoDefault.no_default, 
        squeeze=_NoDefault.no_default, observed=False, dropna=True
- pivot_table()
    - values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, 
        margins_name='All', observed=False, sort=True

## 1) pivot()

In [79]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [86]:
#### 각 도시(index)에서 연도별(columns)로 인구수(values)를 알고싶다 ####

pd.pivot(df, index="도시", columns="연도", values="인구")
df.pivot(index="도시", columns="연도", values="인구")
df.pivot("도시", "연도", "인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [104]:
# set_index(), unstack()

df.set_index(["도시", "연도"])[["인구"]].unstack("연도")
df.set_index(["도시", "연도"]).unstack("연도")[["인구"]]
df[["도시", "연도", "인구"]].set_index(["도시", "연도"]).unstack(1)

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


## 2) groupby()

- 반드시 집계 함수와 같이 사용
    
        size(), count()
        mean(), median(), min(), max()
        sum(), prod(), std(), var(), quantile()
        first(), last()
        agg(), aggregate(), apply(), transform()
        describe()
        ...

In [105]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [109]:
df2.groupby(by="key1").sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [122]:
#### 다양한 접근 표현 ####

print(df2.groupby("key1").sum())
print("-------------------------")
print(df2[["data1", "data2"]].groupby(df2.key1).sum())
print("-------------------------")
print(df2.groupby("key1")["data1"].sum())
print("-------------------------")
print(df2.groupby("key1").sum()["data1"])

      data1  data2
key1              
A         8     80
B         7     70
-------------------------
      data1  data2
key1              
A         8     80
B         7     70
-------------------------
key1
A    8
B    7
Name: data1, dtype: int64
-------------------------
key1
A    8
B    7
Name: data1, dtype: int64


In [137]:
#### 복합키 ####

df2.groupby(["key1", "key2"]).sum()
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack(1)   # 사용 컬럼을 먼저 필터링 가능

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [147]:
#### 각 도시에서 연도별로 인구수를 알고싶다. ####

print(df)

df.groupby(["도시", "연도"])[["인구"]].sum().unstack(1)
df.groupby([df.도시, df.연도]).sum().unstack()
df.인구.groupby([df.도시, df.연도]).sum().unstack(1)

   도시    연도       인구   지역
0  서울  2015  9904312  수도권
1  서울  2010  9631482  수도권
2  서울  2005  9762546  수도권
3  부산  2015  3448737  경상권
4  부산  2010  3393191  경상권
5  부산  2005  3512547  경상권
6  인천  2015  2890451  수도권
7  인천  2010   263203  수도권


연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [153]:
"""
연도      2005  2010  2015
지역
경상권    ....
수도권    ....
"""

df.groupby(by=["지역", "연도"]).sum().unstack(1)
df.groupby(["지역", "연도"])[["인구"]].sum().unstack(1)
df["인구"].groupby([df["지역"], df["연도"]]).sum().unstack(1)

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


### apply(), agg(), transform()

- agg([np.sum, np.mean, np.std, peak_to_peak_ratio]) -> 동시에 여러 결과를 보고 싶을 때 이용

In [34]:
import seaborn as sns

iris = sns.load_dataset("iris")  # 붓꽃의 샘플
iris.head()
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


In [207]:
#### 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율 조회

# 품종별로 묶고(groupby) -> 큰값과 작은값을 구하고(max(), min()) 둘을 나눠서 비율(함수화)

def peak_to_peak_ratio(x):
    return x.max() / x.min()

###########################################################

print(iris.groupby(iris.species).apply(peak_to_peak_ratio))
print("-----------------------------------------------------------------")
print(iris.groupby(iris.species).agg(peak_to_peak_ratio))
print("-----------------------------------------------------------------")
print(iris.groupby(iris.species).transform(peak_to_peak_ratio))

            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-----------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-----------------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      1.900000

In [169]:
def test(x):
    return 1

############################################################

g = iris.groupby("species")

print(g.apply(test))
print("-----------------------------------------------------------------")
print(g.agg(test))         # 모든 컬럼들을 출력
print("-----------------------------------------------------------------")
print(g.transform(test))   # 모든 원소를 전부 대응

species
setosa        1
versicolor    1
virginica     1
dtype: int64
-----------------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa                 1            1             1            1
versicolor             1            1             1            1
virginica              1            1             1            1
-----------------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1            1
146       

In [173]:
iris.groupby("species").agg([np.sum, np.mean, np.std, peak_to_peak_ratio])

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


## 3) ❗❕ groupby 실습 ❗❕

In [61]:
# 1. (iris 데이터 이용) 품종별로 petal_length의 값을 대, 중, 소 세가지 값으로 구분해서 조회

def func_qcut(x):
    return pd.qcut(x, 3, labels=["소", "중", "대"])

###########################################################

iris["petal_length_class"] = iris.groupby("species")["petal_length"].apply(func_qcut)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,소
1,4.9,3.0,1.4,0.2,setosa,소
2,4.7,3.2,1.3,0.2,setosa,소
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,소
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,소
146,6.3,2.5,5.0,1.9,virginica,소
147,6.5,3.0,5.2,2.0,virginica,소
148,6.2,3.4,5.4,2.3,virginica,중


In [235]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

print(df)

  city  fruits  price  quantity
0   부산   apple    100         1
1   부산  orange    200         2
2   부산  banana    250         3
3   부산  banana    300         4
4   서울   apple    150         5
5   서울   apple    200         6
6   서울  banana    400         7


In [242]:
# 2. 도시별로 과일의 가격 평균과 수량 평균을 구하시오

df.groupby("city").mean()

Unnamed: 0_level_0,price,quantity
city,Unnamed: 1_level_1,Unnamed: 2_level_1
부산,212.5,2.5
서울,250.0,6.0


In [243]:
# 3. 도시별, 과일별 가격 평균과 수량평균을 구하시오

df.groupby(["city", "fruits"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100.0,1.0
부산,banana,275.0,3.5
부산,orange,200.0,2.0
서울,apple,175.0,5.5
서울,banana,400.0,7.0


In [244]:
# 4. 위의 3번 문제에서 도시별, 과일별을 인덱스로 처리되지 않게 조회하시오
#    (reference를 조회하여 groupby함수의 인자를 찾아 처리)

#by=None, axis=0, level=None, as_index=True, sort=True, group_keys=_NoDefault.no_default, 
#squeeze=_NoDefault.no_default, observed=False, dropna=True

df.groupby(["city", "fruits"], as_index=False).mean()

Unnamed: 0,city,fruits,price,quantity
0,부산,apple,100.0,1.0
1,부산,banana,275.0,3.5
2,부산,orange,200.0,2.0
3,서울,apple,175.0,5.5
4,서울,banana,400.0,7.0


## 4) pivot_table()

- pivot() + groupby()
        
        aggfunc="mean" : default값은 mean, 다른 함수 사용 가능
        margins=True, margins_name="합계" : 총 합계를 추가, 이름 변경 가능
        fill_value=0 : 결측치 지정 가능

In [180]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [197]:
#### 각 도시에서 연도별로 인구수 구하기

df.pivot_table(values="인구", index="도시", columns="연도")
df.pivot_table("인구", "도시", "연도")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [192]:
#### 연도별, 도시별 인구수를 조회

#df.pivot(index=["연도", "도시"], columns=None, values="인구")
print(df.groupby(["연도", "도시"])[["인구"]].mean())
print("-------------------------------------------")
print(df.pivot_table(values="인구", index=["연도", "도시"]))
df.pivot_table("인구", ["연도", "도시"], aggfunc="mean")

                인구
연도   도시           
2005 부산  3512547.0
     서울  9762546.0
2010 부산  3393191.0
     서울  9631482.0
     인천   263203.0
2015 부산  3448737.0
     서울  9904312.0
     인천  2890451.0
-------------------------------------------
              인구
연도   도시         
2005 부산  3512547
     서울  9762546
2010 부산  3393191
     서울  9631482
     인천   263203
2015 부산  3448737
     서울  9904312
     인천  2890451


Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [196]:
df.pivot_table(values="인구", index="도시", columns="연도", aggfunc="sum", margins=True, margins_name="합계", fill_value=0)

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


# 8. ❗❕ Pandas 실습 ❗❕

## 1) Data Definition

In [3]:
import seaborn as sns

tips = sns.load_dataset("tips")

print(tips.head())
print("-------------------------------------------------------")
print(tips.describe())
print("-------------------------------------------------------")
print(tips.info())  # 데이터 정보 확인

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
-------------------------------------------------------
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000
-------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----  

## 2) EDA(탐색적 데이터 분석)

### (1) 파생 변수 추가

- 식사대금과 팁의 비율을 나타내는 tip_pct라는 변수 추가
- 팁의 비율 = tip/total_bill

In [6]:
tips["tip_pct"] = tips["tip"]/tips["total_bill"]
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,0.146808
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,0.098204


### (2) 성별로 인원수 파악

In [65]:
tips.value_counts("sex")
tips.groupby("sex").count()
tips.groupby("sex").size()

sex
Male      157
Female     87
dtype: int64

### (3) 성별 흡연 유무별로 인원수 파악

In [66]:
tips.groupby(["sex", "smoker"]).count()
tips.groupby(["sex", "smoker"]).size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
dtype: int64

### (4) 위의 두 정보를 테이블로 tip_pct를 조회

- pivot_table() 이용

In [71]:
"""
smorker     yes  no
sex
  Male      ...
  Female    ...
"""

tips.pivot_table(index="sex", columns="smoker", values="tip_pct")
tips.pivot_table(index=["sex", "smoker"], values="tip_pct")
tips.pivot_table(index="sex", columns="smoker", values="tip_pct", margins=True)
tips.pivot_table(index=["sex", "smoker"], values=["size", "tip_pct"])

Unnamed: 0_level_0,Unnamed: 1_level_0,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,2.5,0.152771
Male,No,2.71134,0.160669
Female,Yes,2.242424,0.18215
Female,No,2.592593,0.156921


### (5) 흡연 유무별에 따른 팁 비율 조회

- groupby() 이용

In [72]:
tips.groupby("smoker")["tip_pct"].mean()
tips.groupby("smoker")["tip_pct"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199


### (6) tip의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살펴볼 수 있게 조회

- 어떤 요인이 팁에 가장 큰 영향을 미치는지

In [91]:
tips.pivot_table(index=["day", "time"], columns="size", values="tip_pct", fill_value=0).round(2)
tips.groupby(["day", "time", "size"])[["tip_pct"]].mean().dropna()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


In [98]:
tip_mean = tips.groupby(["day", "time", "size"])[["tip_pct"]].mean()
tip_mean[tip_mean.tip_pct.notnull()]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.181728
Thur,Lunch,2,0.164024
Thur,Lunch,3,0.144599
Thur,Lunch,4,0.145515
Thur,Lunch,5,0.121389
Thur,Lunch,6,0.173706
Thur,Dinner,2,0.159744
Fri,Lunch,1,0.223776
Fri,Lunch,2,0.181969
Fri,Lunch,3,0.187735


### (7) 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이 조회

In [52]:
def Max_min(x):
    return x.max() - x.min()
###############################################################
tips.groupby(["sex", "smoker"])["tip"].agg([max, min, Max_min])

Unnamed: 0_level_0,Unnamed: 1_level_0,max,min,Max_min
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,Yes,10.0,1.0,9.0
Male,No,9.0,1.25,7.75
Female,Yes,6.5,1.0,5.5
Female,No,5.2,1.0,4.2


# 9. 시계열 데이터

- DateTimeIndex 자료형 (날짜를 인덱스로 활용)
    - pd.to_datetime() : 문자열을 날짜 타입으로
    - pd.date_range() : 특정 범위의 날짜 인덱스를 생성
        - periods=n : 주기
        - freq : 단위

## 1) 날짜 타입 변환

In [106]:
date_str = ["2023. 1. 1", "2023. 1. 4", "2023. 1. 6", "2023. 1. 9"]

idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2023-01-01', '2023-01-04', '2023-01-06', '2023-01-09'], dtype='datetime64[ns]', freq=None)

In [103]:
import datetime
datetime.datetime.strptime(date_str[0], "%Y. %M. %d")  # 반복문을 돌려야해서 불편

datetime.datetime(2023, 1, 1, 0, 1)

In [125]:
#### 날짜를 인덱스로 활용 ####

np.random.seed(0)
pd.Series(np.random.randn(4), index=idx)

2023-01-01    1.764052
2023-01-04    0.400157
2023-01-06    0.978738
2023-01-09    2.240893
dtype: float64

## 2) 날짜 데이터 생성

    freq
            S : 초   /   T : 분   /   H : 시간   /   D : 일
            B : 주말이 아닌 평일
            W : 주(일요일)   /   W-MON : 주(월요일)
            M : 각 달의 마지막 날   /   MS : 각 달의 첫날
            BM : 주말이 아닌 평일중에서 각 달의 마지막 날
            BMS : 주말이 아닌 평일중에서 각 달의 첫날
            WOM-2THU : 각 달의 두번째 목요일
            Q-JAN : 각 분기의 첫 달의 마지막 날
            Q-DEC : 각 분기의 마지막 달의 마지막 날

In [124]:
#### 날짜데이터 생성 ####

pd.date_range("2023-1-1", "2023-4-30")
pd.date_range("2023-1-1", periods=30, freq="2W")

DatetimeIndex(['2023-01-01', '2023-01-15', '2023-01-29', '2023-02-12',
               '2023-02-26', '2023-03-12', '2023-03-26', '2023-04-09',
               '2023-04-23', '2023-05-07', '2023-05-21', '2023-06-04',
               '2023-06-18', '2023-07-02', '2023-07-16', '2023-07-30',
               '2023-08-13', '2023-08-27', '2023-09-10', '2023-09-24',
               '2023-10-08', '2023-10-22', '2023-11-05', '2023-11-19',
               '2023-12-03', '2023-12-17', '2023-12-31', '2024-01-14',
               '2024-01-28', '2024-02-11'],
              dtype='datetime64[ns]', freq='2W-SUN')

## 3) shift 연산

In [154]:
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index=pd.date_range("2023-1-1", periods=4, freq="M"))
print(ts)
print("-------------------------")
print(ts.shift(1))
print("-------------------------")
print(ts.shift(-1))
print("-------------------------")
print(ts.shift(1, freq="M"))    # 인덱스가 변화
print("-------------------------")
print(ts.shift(1, freq="W"))

2023-01-31    1.764052
2023-02-28    0.400157
2023-03-31    0.978738
2023-04-30    2.240893
Freq: M, dtype: float64
-------------------------
2023-01-31         NaN
2023-02-28    1.764052
2023-03-31    0.400157
2023-04-30    0.978738
Freq: M, dtype: float64
-------------------------
2023-01-31    0.400157
2023-02-28    0.978738
2023-03-31    2.240893
2023-04-30         NaN
Freq: M, dtype: float64
-------------------------
2023-02-28    1.764052
2023-03-31    0.400157
2023-04-30    0.978738
2023-05-31    2.240893
Freq: M, dtype: float64
-------------------------
2023-02-05    1.764052
2023-03-05    0.400157
2023-04-02    0.978738
2023-05-07    2.240893
dtype: float64


## 4) resampling

- 시간 간격을 재조정
- 방법
    - 다운샘플링 : 시간 구간이 커지면서 데이터 양이 감소
    - 업샘플링 : 시간 구간이 작아지면서 데이터 양이 증가 

### (1) 다운샘플링

- 데이터가 그룹으로 묶이기 때문에 집계연산을 해서 대표값을 구해야 함

In [159]:
ts = pd.Series(np.random.randn(100), index=pd.date_range("2023-1-1", periods=100, freq="D"))
ts.tail(10)

2023-04-01   -0.384880
2023-04-02    0.094352
2023-04-03   -0.042171
2023-04-04   -0.286887
2023-04-05   -0.061626
2023-04-06   -0.107305
2023-04-07   -0.719604
2023-04-08   -0.812993
2023-04-09    0.274516
2023-04-10   -0.890915
Freq: D, dtype: float64

In [164]:
print(ts.resample("W").mean())
print("---------------------------------")
print(ts.resample("M").mean())
print("---------------------------------")
tt = pd.Series(np.random.randn(60), index=pd.date_range("2023-1-1", periods=60, freq="T"))
print(tt.resample("10T").sum())

2023-01-01   -1.540797
2023-01-08   -0.328667
2023-01-15   -0.093005
2023-01-22   -0.396213
2023-01-29    0.005627
2023-02-05   -0.287794
2023-02-12   -0.509738
2023-02-19   -0.021801
2023-02-26   -0.106065
2023-03-05    0.417940
2023-03-12    0.284357
2023-03-19    0.305683
2023-03-26   -0.368555
2023-04-02   -0.194795
2023-04-09   -0.250867
2023-04-16   -0.890915
Freq: W-SUN, dtype: float64
---------------------------------
2023-01-31   -0.221109
2023-02-28   -0.232924
2023-03-31    0.099188
2023-04-30   -0.293751
Freq: M, dtype: float64
---------------------------------
2023-01-01 00:00:00    0.403739
2023-01-01 00:10:00   -3.662432
2023-01-01 00:20:00   -4.556258
2023-01-01 00:30:00   -2.903870
2023-01-01 00:40:00   -5.576132
2023-01-01 00:50:00    0.373248
Freq: 10T, dtype: float64


### (2) 업샘플링

- forward filling : 앞에서 나온 데이터를 그대로 사용
- backward filling : 뒤에서 나온 데이터를 앞에서 미리 사용

In [168]:
print(tt.head(10))
print("-----------------------------------")
print(tt.resample("30S").ffill().head(10))
print("-----------------------------------")
print(tt.resample("30S").bfill().head(10))

2023-01-01 00:00:00   -0.729045
2023-01-01 00:01:00    0.196557
2023-01-01 00:02:00    0.354758
2023-01-01 00:03:00    0.616887
2023-01-01 00:04:00    0.008628
2023-01-01 00:05:00    0.527004
2023-01-01 00:06:00    0.453782
2023-01-01 00:07:00   -1.829740
2023-01-01 00:08:00    0.037006
2023-01-01 00:09:00    0.767902
Freq: T, dtype: float64
-----------------------------------
2023-01-01 00:00:00   -0.729045
2023-01-01 00:00:30   -0.729045
2023-01-01 00:01:00    0.196557
2023-01-01 00:01:30    0.196557
2023-01-01 00:02:00    0.354758
2023-01-01 00:02:30    0.354758
2023-01-01 00:03:00    0.616887
2023-01-01 00:03:30    0.616887
2023-01-01 00:04:00    0.008628
2023-01-01 00:04:30    0.008628
Freq: 30S, dtype: float64
-----------------------------------
2023-01-01 00:00:00   -0.729045
2023-01-01 00:00:30    0.196557
2023-01-01 00:01:00    0.196557
2023-01-01 00:01:30    0.354758
2023-01-01 00:02:00    0.354758
2023-01-01 00:02:30    0.616887
2023-01-01 00:03:00    0.616887
2023-01-01 00: