## 1. Pandas에 제공하는 대표적인 자료구조

- Series
    - 값 + INDEX
    
- DataFrame
    - 여러 개의 Series를 묶어놓은 형태(테이블)

In [1]:
import numpy as np
import pandas as pd

## 2. Series

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052]) # 앞에 인덱스를 명시적으로 달고 배열로 만들어 준다
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


### (1) 인덱스 활용

In [8]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index=["서울","부산","인천","대구"])
print(s)


서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [2]:
?pd.Series

In [11]:
###### 인덱스와 값을 별도로 가져올 수 있다.

print(s.values)
print(s.values, type(s.values))
print(s.index) # 'object' int str 등 모든 것이 들어갈 수 있다.

[9904312 3448737 2890451 2466052]
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [12]:
##### 인덱스에 이름 지정

s.index.name = "도시"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [13]:
##### Series 전체에 이름 지정

s.name = "인구"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


### (2) 벡터화 연산


In [14]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

### (3) Indexing

In [21]:
print(s[0], s[1])
print(s["서울"], s["부산"])

print("--------------------------------------------")

print(s[[0, 3, 1]])
print(s[["서울", "대구", "부산"]])

print("--------------------------------------------")

print(s[(s > 250e4) & (s < 500e4)])

print("--------------------------------------------")

print(s[1:3])
print(s["부산":"인천"])

print("--------------------------------------------")

print(s.부산, ",", s.서울)

9904312 3448737
9904312 3448737
--------------------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
--------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
--------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
--------------------------------------------
3448737 , 9904312


### (4) Series와 dict

In [28]:
# 시리즈는 딕트와 똑같이 사용할 수 있다. 

print("서울" in s)
print("대전" in s)

print("----------------------------------")

print(list(s.items()))
print(s.keys())
print(s.values)

print("----------------------------------")
s2 = pd.Series({"서울" : 9631482, "부산" : 3448737, "인천" : 2632035, "대전" : 1490158})
print(s2)

True
False
----------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]
----------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


### (5) 기타

In [34]:
###### 인덱스 기반 연산

print(s)
print("----------------------------------")
print(s2)
print("==================================")

result = s - s2 # 같은 인덱스를 찾아서 같은 인덱스끼리 연산하고 상대방이 없어서 연산하지 못한 것은 NaN
print(result) # NaN(결측치)

print("==================================")

print(s.values - s2.values) # 단순하게 값만 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
----------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
[272830      0 258416 975894]


In [44]:
##### 결측치 제거

print(result.isnull()) # 결측치가 있거나 누락된 데이터가 있으면 불리언 값으로

print(result.dropna()) # 결측치가 있는 값은 결과에서 빠졌다.

print("==================================")

print(result)

print("==================================")

print(result.notnull()) # 결측치가 있는지 없는지 True/False로 돌려준다. 

print(result[result.notnull()]) # 트루 펄스가 아닌 결과값을 원할 경우

print("==================================")

print(result)

######### s와 s2의 데이터를 이용해서 인구증가율 

# (끝연도 - 시작연도) / 시작연도 * 100

result2 = (s2 - s)/s*100
print(result2)

부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [45]:
##### 데이터를 수정, 삭제, 갱신

# 수정

result2["부산"] = 1.63
print(result2)

대구         NaN
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64


In [47]:
# 갱신
result2["대구"] = 1.41
print(result2)

대구    1.410000
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64


In [48]:
# 삭제
del result2["서울"]
print(result2)

대구    1.410000
대전         NaN
부산    1.630000
인천   -8.940335
dtype: float64


#### 중복제거

In [16]:
df = pd.DataFrame({'c1' : ['a', 'b', 'c'] * 2 + ['b'] + ['c'],
                            'c2' : [1,2,1,1,2,3,3,4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [17]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [19]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


In [20]:
s = pd.Series([1., 2., -999, 3., -1000., 4.])
s

0       1.0
1       2.0
2    -999.0
3       3.0
4   -1000.0
5       4.0
dtype: float64

In [21]:
s.replace(-999, np.nan)

0       1.0
1       2.0
2       NaN
3       3.0
4   -1000.0
5       4.0
dtype: float64

In [22]:
s.replace([-999, -1000], np.nan)

0    1.0
1    2.0
2    NaN
3    3.0
4    NaN
5    4.0
dtype: float64

In [26]:
# s.replace([-999, -1000], 0)
# s.replace([-999, -1000], [np.nan, 0])
s.replace([-999, -1000], [0, 0])

0    1.0
1    2.0
2    0.0
3    3.0
4    0.0
5    4.0
dtype: float64

## 3. DataFrame

In [49]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [55]:
df = pd.DataFrame(data)
print(type(df))
df # print없이 이름만 입력하면 쥬피터에서는 web browser가 담당해서 예쁘게 만들어줌


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [56]:
print(df)

      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141


### (1) 컬럼의 순서(위치) 바꾸기

In [62]:
cols = ['지역','2015', '2010', '2005', '2000',  '2010-2015 증가율']  # 컬럼의 순서를 내마음대로 지정하기
df = pd.DataFrame(data, columns = cols) # 이렇게 설정 적용

In [65]:
#  ?pd.DataFrame

In [64]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

### (2) 인덱스 변경

In [73]:
print(df.index)

idx = ["서울", "부산", "인천", "대구"]
#df = pd.DataFrame(data, columns=cols, index=idx) # 순서를 모르거나 틀릴경우 그냥 이렇게 지정해주면 된다.
df = pd.DataFrame(data, idx, cols) # 순서가 맞을 경우 이렇게 해도 된다.
df

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [74]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [75]:
##### 컬럼과 인덱스에 이름 지정

df.index.name = "도시"
df.columns.name = "특성"

In [76]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [78]:
#### 전치 가능 ## 배열에서 했던 Transpose와 같음

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### (3) Indexing

#### 1) 열 인덱싱

In [88]:
print(df)
print("========================================================")
print(df["지역"]) # Series 형식임을 확인 # 1차원 배열
print(type(df["지역"]))
print("========================================================")
print(df[["지역"]]) # 대괄호를 하나 더 묶어서 2차원 배열로 바꿔줌 # DataFrame으로 변경
print(type(df[["지역"]])) # DataFrame 형식임을 확인
print("========================================================")
print(df[["2005", "2010"]]) # 2개 이상을 뽑을 경우 2차원 배열임을 생각해 [[]]로 묶어서 사용해야함.

# df[0] # 컬럼 이름(인덱스)이 숫자가 아닌 다른 것으로 지정되어 있는 상태에서는 0,1,2, ...번째 컬럼에 숫자 0,1,2, ...으로 접근이 안된다.

# df["2015" : "2020"] # 열 인덱스는 슬라이싱 불가능

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
특성     2005     2010
도시                  
서울  9762546  9631482
부산  3512547  3393191
인천  2517680  2632035
대구  2456016  2431774


#### 2) 행 인덱싱

- 반드시 :으로 슬라이싱

In [92]:
print(df[0:3])
print("========================================================")
print(df[:])
print("========================================================")
print(df["서울":"부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163


#### 3) 열과 행을 동시에 접근

In [98]:
print(df["2015"]["서울"])
print(df["2015"][0])
print("--------------------")
print(df["2015"][:"서울"])
print(df["2015"]["서울":"서울"])
print(df["2015"][:1])
print("--------------------")
# print(df["2015", "서울"])

# 열과 행을 따로따로 써야한다
# 열부터 쓴다! 열 우선 in 기본 인덱스

9904312
9904312
--------------------
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64
--------------------


#### 4) 열 데이터 갱신, 추가, 삭제

In [111]:
print(df)
print("-------------------------")

# 수정

df["2010-2015 증가율"] = df["2010-2015 증가율"]*100 # 이미 존재하는 이름의 컬럼 값을 바꿔주면 수정
print(df)

# 추가

df["2005-2010 증가율"] = ((df["2010"]- df["2005"]) / df["2005"]*100).round(2) # 존재하지 않는 컬럼의 이름을 쓰면 추가
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972    283000000.0
부산  경상권  3448737  3393191  3512547  3655437    163000000.0
인천  수도권  2890451  2632035  2517680  2466338    982000000.0
대구  경상권  2466052  2431774  2456016  2473990    141000000.0
-------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972   2.830000e+10
부산  경상권  3448737  3393191  3512547  3655437   1.630000e+10
인천  수도권  2890451  2632035  2517680  2466338   9.820000e+10
대구  경상권  2466052  2431774  2456016  2473990   1.410000e+10
특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972   2.830000e+10          -1.34
부산  경상권  3448737  3393191  3512547  3655437 

In [110]:
# 삭제

# del df["2005-2010 증가율"]
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972    283000000.0
부산  경상권  3448737  3393191  3512547  3655437    163000000.0
인천  수도권  2890451  2632035  2517680  2466338    982000000.0
대구  경상권  2466052  2431774  2456016  2473990    141000000.0


### (4) 중간실습

In [3]:
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]
}


In [26]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성

df = pd.DataFrame(data)
df

print(df.index)
idx = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, idx)
df

# 강사님 풀이
print("--------------------------------------------")

df = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
df

RangeIndex(start=0, stop=4, step=1)
--------------------------------------------


Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [7]:
# 2. 모든 학생의 수학점수를 조회
df
print(df["수학"])

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64


In [183]:
# 3. 모든 학생의 국어와 영어 점수를 조회
df
print(df[["국어","영어"]])

    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40


In [27]:
# 4. 모든 학생의 각 과목평균점수를 새로운 열(과목평균)로 추가하시오.
df

df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df["과목평균2"]=df[:].mean(axis=1).round(2) # 열이 너무 많을 경우 이렇게 해보자
df

Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.67,46.67


In [211]:
# 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오.
print(df["영어"]["방자"])
df["영어"]["방자"]=80
df["영어"]["방자"]
df
df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df

80


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"]=80


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [28]:
# 5. 강사님 풀이

df["영어"]["방자"]=80

df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2) # 이렇게하면 전체의 평균을 새로 구한다

df["과목평균2"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2) # 방자의 평균만 새로 바꿔주자

df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"]=80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목평균2"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2) # 방자의 평균만 새로 바꿔주자


Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [34]:
# 6. 춘향의 점수를 데이터 프레임 형식으로 출력하시오
print(type(df[0:1]))
print(df[0:1])

# 강사님 풀이

df["춘향":"춘향"]
print(type(df["춘향":"춘향"]))

<class 'pandas.core.frame.DataFrame'>
    국어  영어  수학   과목평균  과목평균2
춘향  80  90  90  86.67  86.67
<class 'pandas.core.frame.DataFrame'>


In [32]:
df[:1]

Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67


In [249]:
# 7. 향단의 점수를 Series로 출력하시오

print(df[2:3])
type(df[2:3])
print("-----------")


print(df.T["향단"])
h_score = pd.Series(df.T["향단"])
print(type(h_score))


    국어  영어  수학  과목평균
향단  70  60  80  70.0
-----------
국어      70.0
영어      60.0
수학      80.0
과목평균    70.0
Name: 향단, dtype: float64
<class 'pandas.core.series.Series'>


In [41]:
# 강사님 풀이

df["향단":"향단"] # 현재 DataFrame

df.T # 별도로 원본에 적용해주거나 따로 저장해주지 않으면 원본은 그대로
df # 그대로임을 확인

df2 = df.T
df2["향단"]
type(df2["향단"]) # Series임을 확인

pandas.core.series.Series

### (5) 파일 입출력

- read_csv()
- to_csv()
- read_table()

In [130]:
%%writefile data/sample2.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three



Writing data/sample2.csv


In [126]:
# %%와 같은 매직 명령어는 쉘의 맨윗줄 맨첫번째에서 실행해야 한다

In [128]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [131]:
sample2 = pd.read_csv("data/sample2.csv", names = ["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [134]:
# 특정한 열을 인덱스로 저장
sample3 = pd.read_csv("data/sample1.csv")
sample3

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [135]:
sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [136]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

Writing data/sample3.txt


In [143]:
pd.read_table("data/sample3.txt") # 컬럼이......

Unnamed: 0,c1 c2 c3 c4
0,0.23 0.33 0.354 0.2389
1,0.123 0.345 0.567 0.986


In [147]:
pd.read_table("data/sample3.txt", delimiter="\s+")
# 고쳐주자, 경고창이 뜬다면 ? 잘 읽고 정규표현식을 알맞게 쓰자.
# delimiter = "," csv로 저장할 때 구분문자를 지정하는 식
# fmt = "%d" 소수점이 신경쓰일 경우, 정수로만 나타내는식
# fmt = "%.5f" 소수점이 신경쓰일 경우, 소수점5자리까지 나타내는식

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [146]:
pd.read_table("data/sample3.txt", sep="\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [156]:
?pd.read_table

In [148]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터포맷 : 어쩌구 저쩌구
컬럼 설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [150]:
#sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=[0,1,2])
sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=3)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [154]:
%%writefile data/sample5.txt
c1, c2, c3
1, 1.11, 
2, , two
누락, 3.33, three

Overwriting data/sample5.txt


In [163]:
sample5 = pd.read_csv("data/sample5.txt", na_values=[" ", "누락"])
# 공백이거나 누락을 결측치로 표시해라
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [164]:
##### csv로 저장

df

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", index=False, header=False)
sample5.to_csv("data/sample9.csv", na_rep="누락")

In [166]:
sample5.to_csv("data/sample9.csv", na_rep="누락")
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


### (6) Indexer

- loc :라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
- iloc : 순서를 나타내는 정수 기반의 인덱서
- at : 값을 한개만 가져올 때 유리함
- iat : 값을 한개만 가져올 때 유리함
- ix : 숫자나 문자를 다 쓸 수 있는 방법 (구형 파이썬 버전이나 책에서 종종 등장)

#### 1) loc

In [3]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=["a","b","c"], columns=["A","B","C","D"])
df

# 행 우선이다
# 한번에 행과 열을 묶어줄 수 있다

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
##### 첫번째 행 추출

print(df[:1])
print(df[:"a"])


print("====================================")

print(df.loc["a"]) # loc는 행 우선이다.

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
A    10
B    11
C    12
D    13
Name: a, dtype: int32


In [16]:
#### 첫번째 열에서 15보다 큰 값을 추출해라

print(df["A"])
print("====================================")
print(df.loc[:,"A"]) # 행과 열을 한곳에 묶어서 쓴다. # 행우선이다

print("====================================")

# 여기 뭔가 잘못되었다.
print(df.loc[df.loc[:, "A"] > 15]) # 항상 loc가 좋은 것은 아니다
print(df.loc[df["A"] > 15])
print(df.loc[df.A > 15]) # 열로 접근하기에는 기본 인덱스가 좋다

a    10
b    14
c    18
Name: A, dtype: int32
a    10
b    14
c    18
Name: A, dtype: int32
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


In [62]:
##### 행과 열을 모두 사용할 경우

# b행 B열에 있는 한 개의 값을 추출

print(df["B"]["b"])
# print(df["B", "b"]) 기본 인덱스는 행과 열을 한곳에 묶어서 쓸 수 없다.

print("====================================")

print(df.loc["b"]["B"])
print(df.loc["b", "B"]) # loc는 한곳에 쓸 수 있따.

print("====================================")

print(df.loc["b": , "B":]) # 슬라이싱도 자유롭다
print("====================================")
print(df.loc[["a", "c"], ["B", "C"]]) # 따로 쓰고 콤마로 사용도 가능하다


15
15
15
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20


In [67]:
##### 반드시 레이블로만 접근

# print(df.loc[1:, 1:]) # 숫자로 접근 불가, 문자로 된 레이블로만 접근가능
# print(df.loc[[0, 1], [1,2]]) # loc도 숫자로 불가능

#### 2) iloc

In [69]:
# iloc는 숫자로도 접근이 가능하다!

print(df.iloc[1:, 1:])

print("====================================")

print(df.iloc[[0, 1],[1, 2]])

    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
b  15  16


#### 3) at, iat

In [75]:
# %timeit df.loc["a", "A"] # 6.38 µs ± 53.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
# %timeit df.at["a", "A"] # 3.3 µs ± 30.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
# 속도에서 약 2배의 차이가 난다 / 데이터가 많고 값을 하나만 뽑을 경우 at, iat를 떠올리자

## 4. Data Manipulation

### (1) 데이터 카운팅

#### 1) Series에서 카운팅

In [80]:
s = pd.Series(range(10))
s

s.count() # 10개가 카운트 되었다.

s[3] = np.nan # 결측치로 일부러 만들어 봄

In [81]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [82]:
s.count() # 결측치는 카운트에서 제외된다.

9

#### 2) DataFrame에서 카운팅

In [86]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)))
df

Unnamed: 0,0,1,2,3
0,0,0,3,2
1,3,0,2,1
2,3,2,4,4
3,4,3,4,2


In [87]:
df.count()

0    4
1    4
2    4
3    4
dtype: int64

In [88]:
df.iloc[2,3] = np.nan # 결측치를 만들었다.
df.count() # 역시 카운트에서 빠졌다.

0    4
1    4
2    4
3    3
dtype: int64

#### 3) 카테고리별로 카운팅

In [89]:
np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
s

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [90]:
s.value_counts() # Series에서만 사용 가능하다

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [91]:
df.value_counts() # 기준이 열이기 때문에, 사용하기 어렵다.

0  1  2  3  
0  0  3  2.0    1
3  0  2  1.0    1
4  3  4  2.0    1
dtype: int64

In [96]:
df[0].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

3    2
0    1
4    1
Name: 0, dtype: int64

In [94]:
df[1].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

0    2
2    1
3    1
Name: 1, dtype: int64

In [95]:
df[2].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

4    2
3    1
2    1
Name: 2, dtype: int64

### (2) 정렬

- sort_values()
- sort_index()
- 결측치는 정렬의 대상이 되지 않는다.

#### 1) Series에서의 정렬

In [97]:
np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
s

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [98]:
s.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [99]:
s.value_counts().sort_index() # 0에서부터 시작하는 index로 정렬이 되었다.

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [101]:
s.sort_values() # 기본이 오름차순

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32

In [102]:
s.sort_values(ascending=False) # 오름차순을 거짓으로 = 내림차순

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int32

#### 2) DataFrame에서의 정렬

In [17]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df)

print("-------------------------------------------------------------")


     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
-------------------------------------------------------------


In [21]:
df.sort_values(by=2) # 2번 열을 기준으로 정렬하겠다.

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [23]:
df.sort_values(by=3) # 3번 열의 값을 기준으로 정렬하겠다.(오름차순)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,4.0


In [24]:
df.sort_values(by=[3, 2]) # 3번 열을 기준으로 정렬하고나서 2번으로 정렬하겠다.

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,4.0


In [118]:
df1 = pd.DataFrame({"seq" : [1, 3, 2], "name" : ["park", "lee", "choi"], "age" : [30, 20, 40]})
print(df1)
print("-----------------------------------------------------")

# seq를 기준으로 정렬(내림차순) # 컬럼 값을 기준으로 한다면 sort_values임
df1.sort_values(by="seq", ascending=False)

   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
-----------------------------------------------------


Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


In [119]:
# index를 기준으로 정렬
df1.sort_index()

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [120]:
?df.sort_values

In [121]:
df1.sort_index(axis=0)

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [131]:
df1.sort_index(axis=0, ascending=False)

Unnamed: 0,age,name,seq
2,40,choi,2
1,20,lee,3
0,30,park,1


In [122]:
df1.sort_index(axis=1)

Unnamed: 0,age,name,seq
0,30,park,1
1,20,lee,3
2,40,choi,2


In [124]:
df1.sort_index(axis=1, ascending=False)

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [130]:
# inplace
df1 = df1.sort_index(axis=1) # 원본을 적용시키기 위해
df1

df1.sort_values(by=["seq", "name"], axis=0, ascending=False, inplace = True) # inplace = True를 써주면 따로 변수에 담지 않아도 적용
df1

Unnamed: 0,age,name,seq
1,20,lee,3
2,40,choi,2
0,30,park,1


#### (3) 행, 열의 집합 연산

In [141]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(10, size=(4,8)))
print(df)

print("------------------------------------------------")

#전치를 해서 행과 열을 바꾸는 방법도 있다. df.T

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
------------------------------------------------


In [142]:
df.sum() # DataFrame의 기본은 열이라서 열을 기준으로 합계를 쭉 내고 있다. axis = 0 열을 기준(기본값)

0    22
1    22
2    25
3    10
4    18
5    19
6    18
7    13
dtype: int64

In [143]:
df.sum(axis=1) # 축의 기준을 바꿔서 행을 기준으로 하도록 바꿨다. axis = 1 행을 기준

0    42
1    38
2    37
3    30
dtype: int64

In [144]:
df.loc["ColSum", :] = df.sum() # 행에 추가하고 싶은 것을 이렇게 이름과 값을 지정하는 것으로 추가할 수 있다.
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0


In [147]:
df["RowSum"] = df.sum(axis=1) # 열에 추가하는 방법
df

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0,42.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0,38.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0,37.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0,30.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0,147.0


### (4) apply()

- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [151]:
df = pd.DataFrame({
    "A" : [1,3,4,3,4],
    "B" : [2,3,1,2,3],
    "C" : [1,5,2,4,4]
})

df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [158]:
##### 각 열(행)별로 최대값에서 최소값을 뺀 값을 구하고자 한다.

def diff(x):
    return x.max() - x.min()

###########################

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("------------------------------------------------")

print(diff(df.loc[0, :]))
print(diff(df.loc[1, :]))
print(diff(df.loc[2, :]))
print(diff(df.loc[3, :]))
print(diff(df.loc[4, :]))

3
2
4
------------------------------------------------
1
2
3
2
1


In [159]:
df.apply(diff, axis=0) # 반복할 필요 없이 한방에 

A    3
B    2
C    4
dtype: int64

In [160]:
df.apply(diff) # axis = 0과 같쥬

A    3
B    2
C    4
dtype: int64

In [161]:
df.apply(diff, axis=1) # axis의 디폴트 값 = 0

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [162]:
##### 위의 코드를 lambda 함수로 바꿔보세요

In [163]:
lambdadiff = lambda x : x.max() - x.min()

In [164]:
df.apply(lambdadiff, axis=1) # lambda의 변수값을 넣어줘도 괜찮다

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [166]:
df.apply(lambda x : x.max() - x.min(), axis=0) # lambda 함수 자체를 넣어줘도 괜찮다.

A    3
B    2
C    4
dtype: int64

In [174]:
##### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("------------------------------------------------")

df.apply(pd.Series.value_counts, axis=0) # 가장 정석적인 방법 
df.apply(df.value_counts, axis=0) # 셋다 똑같다.(메모리에 데이터가 올라가있는 한)
df.apply(pd.value_counts, axis=0) # 셋다 똑같다.(메모리에 데이터가 올라가있는 한)

3    2
4    2
1    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
5    1
2    1
Name: C, dtype: int64
------------------------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [177]:
df.apply(pd.value_counts, axis=0).fillna(0) # Nan으로 되어 있을 때만 사용가능, 바꾸고자하는 값 입력

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [178]:
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


### (5) 실수값을 카테고리값으로 변경

- 양적 데이터(직접적인 비교 분석 연산이 가능) -> 질적 데이터(숫자로 생겼어도 연산할 수가 없는 데이터, 데이터 변형을 통해 분석 가능)
- cut()
- qcut()

In [179]:
# 1 ~ 15 : 미성년자, 16 ~ 25 : 청년, 26 ~ 35 : 중년, 36 ~ 60 : 장년, 61 ~ 99 : 노년

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

pd.cut(x=ages, bins=[1, 15, 25, 36, 60, 99])

[NaN, (1.0, 15.0], (1.0, 15.0], (15.0, 25.0], (15.0, 25.0], ..., (60.0, 99.0], (15.0, 25.0], (36.0, 60.0], (25.0, 36.0], NaN]
Length: 12
Categories (5, interval[int64, right]): [(1, 15] < (15, 25] < (25, 36] < (36, 60] < (60, 99]]

In [185]:
cat = pd.cut(ages, [1, 15, 25, 36, 60, 99],
            labels = ["미성년자", "청년", "중년", "장년", "노년"])
print(cat)
print(type(cat))
print(cat.categories)
print(cat.codes)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']
<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


#### 2) qcut()

In [190]:
data = np.random.randn(100)
cat1 = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(cat1)

pd.value_counts(cat1)

['Q3', 'Q1', 'Q1', 'Q1', 'Q1', ..., 'Q2', 'Q1', 'Q2', 'Q1', 'Q2']
Length: 100
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']


Q1    25
Q2    25
Q3    25
Q4    25
dtype: int64

In [6]:
# 아래의 결과와 같이 qcut은 수량으로 분리하는 것이 아닌, 값의 크기로 분리함

data = [1, 2, 2, 4]
pd.qcut(data, 2, labels=["a","b"])

['a', 'a', 'a', 'b']
Categories (2, object): ['a' < 'b']

In [1]:
?pd.qcut

Object `pd.qcut` not found.


### 5. Index Manipulation

#### (1) set_index(), reset_index()

In [214]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [218]:
# 내가 원하는 컬럼을 인덱스로 바꿔주는 함수

df1.set_index("C1") 
df1 # 원본은 아직 그대로~
df2 = df1.set_index("C1") 
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [220]:
#df2 = df2.set_index("C2") # 기존의 인덱스는 통째로 날아감
#df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [223]:
#df2.reset_index() # 원래의 인덱스로 돌아가는 함수
df2.reset_index(drop = True) # 리셋효과로 돌아올 예정이던 컬럼을 그냥 삭제하는 함수

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


### (2) 다중 인덱스

In [225]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df1.columns.names = ["Cidx1", "Cidx2"]
df1

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [232]:
##### 인덱싱 # 다중컬럼의 경우 튜플로 묶어서 접근하면 된다

df1[("A","C1")]
df1[("B","C1")]

df1[("B", "C1")][0]
df1[("B", "C1")][0:2]


0    1.0
1    0.0
Name: (B, C1), dtype: object

In [240]:
print("--------------------------------")
print(df1.loc[0, ("B", "C1")])
print("--------------------------------")
print(df1.loc[0:3, ("B", "C1")])
print("--------------------------------")
print(df1.iloc[0:3, 2]) # iloc로 할때 맨위의 A, B의 위치는 신경쓰지말고, c1 c2 c3 c4의 인덱스위치 0123만 생각해서 입력하면 된다.

--------------------------------
1.0
--------------------------------
0    1.0
1    0.0
2    1.0
3    1.0
Name: (B, C1), dtype: object
--------------------------------
0    1.0
1    0.0
2    1.0
Name: (B, C1), dtype: object


In [242]:
###### 다중 컬럼과 다중 인덱스를 갖는 테이블

df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_1", "id_2", "id_3", "id_1", "id_2", "id_3"]])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,C,D,C,D
M,id_1,0.68,0.36,0.44,0.7
M,id_2,0.06,0.67,0.67,0.21
M,id_3,0.13,0.32,0.36,0.57
F,id_1,0.44,0.99,0.1,0.21
F,id_2,0.16,0.65,0.25,0.47
F,id_3,0.24,0.16,0.11,0.66


In [17]:
df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_" + str(i+1) for i in range(3)]*2])
df2.columns.names = ["Cidx1", "Cidx2"]
df2.index.names = ["Ridx1", "Ridx2"]
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.77,0.77,0.26,0.75
M,id_2,0.17,0.23,0.6,0.73
M,id_3,0.48,0.74,0.76,0.46
F,id_1,0.11,0.16,0.52,0.32
F,id_2,0.7,0.61,0.9,0.73
F,id_3,0.81,0.87,0.63,0.62


In [245]:
# 첫번째 행, 첫번째 열의 값 추출 : 0.55

In [252]:
print(df2[("A", "C")][0])
print(df2[("A", "C")]["M", "id_1"])

0.09
0.09


In [256]:
print(df2.loc[("M", "id_1"), ("A", "C")])
print(df2.loc["M", "id_1"]["A", "C"])
print(df2.loc["M"]["A"]["C"][0])

0.09
0.09
0.09


In [255]:
print(df2.iloc[(0), (0)])
print(df2.iloc[0, 0])

0.09
0.09


In [262]:
# 행 인덱스와 열 인덱스 교환 # T 안돼냐? T는 통째로(모든 인덱스) 다 바꿔서 ㄴㄴ
# 개별적으로 각각 바꾸는 방식

# stack() : 열을 행으로
# unstack() : 행을 열로

print(df2)
print("---------------------------------------")
print("---------------------------------------")
print(df2.T)
print("---------------------------------------")
print("---------------------------------------")
print(df2.stack("Cidx1"))
print(df2.stack(1))

print("---------------------------------------")
print("---------------------------------------")
print(df2.unstack("Ridx1"))
print("---------------------------------------")
print("---------------------------------------")
print(df2.unstack(1))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.09  0.58  0.93  0.32
      id_2   0.67  0.13  0.72  0.29
      id_3   0.18  0.59  0.02  0.83
F     id_1   0.00  0.68  0.27  0.74
      id_2   0.96  0.25  0.58  0.59
      id_3   0.57  0.22  0.95  0.45
---------------------------------------
---------------------------------------
Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.09  0.67  0.18  0.00  0.96  0.57
      D      0.58  0.13  0.59  0.68  0.25  0.22
B     C      0.93  0.72  0.02  0.27  0.58  0.95
      D      0.32  0.29  0.83  0.74  0.59  0.45
---------------------------------------
---------------------------------------
Cidx2                 C     D
Ridx1 Ridx2 Cidx1            
M     id_1  A      0.09  0.58
            B      0.93  0.32
      id_2  A      0.67  0.13
            B      0.72  0.29


In [7]:
df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_" + str(i+1) for i in range(3)]*2])
df2.columns.names = ["Cidx1", "Cidx2"]
df2.index.names = ["Ridx1", "Ridx2"]
df2

print(df2)
print("-----------------------------------------------")



Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.83  0.35  0.36  0.84
      id_2   0.14  0.42  0.44  0.17
      id_3   0.50  0.97  0.47  0.06
F     id_1   0.06  0.40  0.00  0.20
      id_2   0.38  0.29  0.19  0.58
      id_3   0.75  0.66  0.30  0.32
-----------------------------------------------


In [14]:
# 1. 첫번째 열에 있는 0.55 ~ 0.02까지를 출력해보시오(5번째행까지)

print(df2.iloc[0:5,0])
print(df2.iloc[0:5, 0] )

Ridx1  Ridx2
M      id_1     0.83
       id_2     0.14
       id_3     0.50
F      id_1     0.06
       id_2     0.38
Name: (A, C), dtype: float64
Ridx1  Ridx2
M      id_1     0.83
       id_2     0.14
       id_3     0.50
F      id_1     0.06
       id_2     0.38
Name: (A, C), dtype: float64


In [17]:
# 2. 첫번째 행의 모든 컬럼 출력
print(df2.iloc[0])

Cidx1  Cidx2
A      C        0.83
       D        0.35
B      C        0.36
       D        0.84
Name: (M, id_1), dtype: float64


In [32]:
# 3. 맨 마지막 행에  "ALL"이라는 인덱스를 추가하여 각 열의 합을 출력
# df2.loc["ALL"] = df2[:].sum() # 이렇게 하면 멀티인덱스가 ()로 하나의 각각의 인덱스로 묶여버린다. 필히 확인
df2

df2.loc[("ALL", "ALL"), :] = df2.sum()
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [7]:
##### 순서 교환 : swaplevel(i, j, axis = 0)

In [33]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [34]:
df2.swaplevel("Ridx1", "Ridx2")

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,0.53,0.69,0.37,0.04
id_2,M,0.19,0.72,0.25,0.18
id_3,M,0.97,0.47,0.52,0.89
id_1,F,0.17,0.61,0.15,0.36
id_2,F,0.34,0.01,0.04,0.29
id_3,F,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [35]:
df2.swaplevel("Cidx1", "Cidx2", axis = 1) # 세로로된 녀석들을 바꿔주는 거니 axis = 1

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [30]:
##### 정렬 : sort_index(level)

print(df2)
print("=================================================")

# print(df2.sort_index(level = , axis = ))
print(df2.sort_index(level = 0, axis = 0))
print("=================================================")
print(df2.sort_index(level = 1, axis = 0))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.53  0.69  0.37  0.04
      id_2   0.19  0.72  0.25  0.18
      id_3   0.97  0.47  0.52  0.89
F     id_1   0.17  0.61  0.15  0.36
      id_2   0.34  0.01  0.04  0.29
      id_3   0.29  0.09  0.79  0.07
ALL   ALL    2.49  2.59  2.12  1.83
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    2.49  2.59  2.12  1.83
F     id_1   0.17  0.61  0.15  0.36
      id_2   0.34  0.01  0.04  0.29
      id_3   0.29  0.09  0.79  0.07
M     id_1   0.53  0.69  0.37  0.04
      id_2   0.19  0.72  0.25  0.18
      id_3   0.97  0.47  0.52  0.89
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    2.49  2.59  2.12  1.83
F     id_1   0.17  0.61  0.15  0.36
M     id_1   0.53  0.69  0.37  0.04
F     id_2   0.34  0.01  0.04  0.29
M     id_2   0.19  0.72  0.2

In [79]:
?df2.sort_index

## 4. 데이터 프레임의 합성(병합)

- merge() : join()과 비슷
    - 두 데이터프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.
    - 이 때 기준이 되는 열, 행의 데이터를 key라고 한다.
    
- concat() 
    - 기준열을 사용하지 않고 단순히 데이터를 연결

In [51]:
?pd.merge

### (1) merge
       - pd.merge(
        left: 'DataFrame | Series',
        right: 'DataFrame | Series',
        how: 'str' = 'inner')

In [41]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)
print("=================================================================")
df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [48]:
pd.merge(df1, df2) # 똑같이 존재하는 고객번호를 기준으로 합쳤다. # 기본 = inner join
pd.merge(df1, df2, how ="left") # left join
pd.merge(df1, df2, how ="right") # right join
pd.merge(df1, df2, how ="outer") # full outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [49]:
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

print(df1)
print("------------------------------")
print(df2)

# 공통된 값을 가진? 키로 쓸 수 있는 값이 고객명과 데이터 2가지인 상황

  고객명          날짜     데이터
0  춘향  2019-01-01   20000
1  춘향  2019-01-02   30000
2  몽룡  2019-01-03  100000
------------------------------
  고객명 데이터
0  춘향  여자
1  몽룡  남자


In [53]:
pd.merge(df1, df2, on = "고객명") # 고객명을 키로 df1, df2를 묶어줌

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [55]:
##### 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

print(df1)
print("------------------------------")
print(df2)


print("==============================")

pd.merge(df1, df2, left_on="이름", right_on = "성명") # 키 값을 일치시켜줌

   이름  성적
0  영희   1
1  철수   2
2  철수   3
------------------------------
   성명  점수
0  영희   4
1  영희   5
2  철수   6


Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [57]:
############  키로 묶어주고 싶은데 한쪽은 컬럼, 한쪽은 인덱스인 경우
# 인덱스를 기준 열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
print(df2)
print("------------------------------")
df2

pd.merge(df1, df2, left_on = ["도시", "연도"], right_index=True) 
# df2에는 이중 인덱스를 사용중이므로 df1의 값 2개를 키를 리스트로 설정
# 오른쪽에는 다중인덱스이든 아니든 인덱스가 있냐 없냐만 따져서, index = True로 조건을 설정


   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------
         데이터1  데이터2
부산 2000     0     1
   2005     2     3
서울 2000     4     5
   2005     6     7
   2010     8     9
   2015    10    11
------------------------------


Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [63]:
################ 인덱스를 기준 열로 사용하는 경우(둘 다 인덱스인 경우)

df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("========================================")

pd.merge(df1, df2, left_index=True, right_index=True, how = "outer")

# merge 대신에 join 함수를 사용가능

df1.join(df2) # 기본 값이 left outer join
df1.join(df2, how="inner")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0


Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [71]:
?df1.join

Object `pd.join` not found.


### (2) concat()

#### 1) Series에서 사용

In [81]:
s1 = pd.Series([0, 1], index = ["A", "B"])
s2 = pd.Series([2, 3, 4], index = ["A", "B", "C"])

print(s1)
print(s2)
print("======================================")

A    0
B    1
dtype: int64
A    2
B    3
C    4
dtype: int64


In [82]:
?pd.concat

In [83]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

### (2) DataFrame에서 사용

In [87]:
np.random.seed(1)

df1 = pd.DataFrame(np.arange(6).reshape(3,2),
                  index=['a', 'b', 'c'],
                  columns=['데이터1', '데이터2'])
print(df1)

print("=============================================")

np.random.seed(1)

df2 = pd.DataFrame(np.arange(4).reshape(2,2),
                  index=['a', 'c'],
                  columns=['데이터3', '데이터4'])
print(df2)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
   데이터3  데이터4
a     0     1
c     2     3


In [89]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


In [90]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,0.0,1.0
c,,,2.0,3.0


### 5. 그룹 분석

- pivot()
    - index=None, columns=None, values=None

- groupby()
    - by=None, axis=0, level=None, as_index=True, sort=True, group_keys=_NoDefault.no_default, squeeze=_NoDefault.no_default, observed=False, dropna=True

- pivot_table()
    - values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True


### (1) pivot()

In [91]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [96]:
### 각 도시에서 연도별로 인구수를 알고싶다. # 인덱스 - 컬럼 - 벨류 를 정하는 것으로 원하는대로 다시 꾸며줄 수 있다.

df.pivot(index="도시", columns="연도", values="인구")

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [95]:
pd.pivot(df, index="도시", columns="연도", values="인구") # 위와 똑같이 나온다.

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [97]:
df.pivot("도시","연도","인구") # 위와 똑같이 나온다.

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [105]:
# set_index(), unstack() - pivot 따라하기

df.set_index(["도시", "연도"]) # df에는 현재 인덱스가 없으니 도시와 연도를 인덱스로 묶어준다.
df.set_index(["도시", "연도"])["인구"] # 1차원이라 시리즈로 나왔다.
df.set_index(["도시", "연도"])[["인구"]] # 2차원 데이터프레임으로 뽑아내기 위해 []를 한번더(2중으로)
df.set_index(["도시", "연도"])[["인구"]].unstack("연도") # 마지막으로 연도를 행에서 열로 옮겨준다.
df.set_index(["도시", "연도"]).unstack("연도")[["인구"]] # unstack을 먼저하고 인구를 뒤에 뽑든, 순서를 바꾸든 결과는 같다
df[["도시","연도","인구"]].set_index(["도시","연도"]).unstack(1) # 결과는 같은데 어렵다 이거

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


### (2) groupby()

- 반드시 집계함수와 함께 사용

        size(), count()
        mean(), median(), max(), min()
        sum(), prod(), std(), var(), quantile()
        first(), last()
        agg(), aggregate(), apply(), transform()
        describe()
        ...

In [106]:
df2 = pd.DataFrame({
    "key1":["A", "A", "B", "B", "A"],
    "key2":["one", "two", "one", "two", "one"],
    "data1":[1, 2, 3, 4, 5],
    "data2":[10, 20, 30, 40, 50]
})

df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [107]:
df2.groupby(by="key1").sum()  # key2는 합계가 불가능한 값들이라 sum을 쓰는 순간 자연스럽게 결과에서 빠짐

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


In [116]:
#### 다양한 접근 표현

print(df2.groupby("key1").sum()) # key2는 합계가 불가능한 값들이라 sum을 쓰는 순간 자연스럽게 결과에서 빠짐
print("----------------------------------------")
print(df2[["data1", "data2"]].groupby(df2.key1).sum()) # 앞에서 data1,data2만 가져왔기에 단순히 key1은 불가능 -> df.key1 입력
print("----------------------------------------")
print(df2.groupby("key1")["data1"].sum())
print("----------------------------------------")
print(df2.groupby("key1").sum()["data1"])

      data1  data2
key1              
A         8     80
B         7     70
----------------------------------------
      data1  data2
key1              
A         8     80
B         7     70
----------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64
----------------------------------------
key1
A    8
B    7
Name: data1, dtype: int64


In [121]:
#### 복합 키

df2.groupby(["key1", "key2"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


In [122]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

In [123]:
df2.data1.groupby([df2.key1, df2.key2]).sum().unstack() # 기본값이 가장 안쪽에 있는 행이기에 key2가 열로 가버림

key2,one,two
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,2
B,3,4


In [10]:
##### 각 도시에서 연도별로 인구수를 알고 싶다.(df사용)
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [11]:
df.인구.groupby([df.도시, df.연도]).sum().unstack("연도")
df.groupby([df.도시, df.연도]).sum().unstack()
df.groupby(["도시","연도"])[["인구"]].sum().unstack()
df.groupby(["도시","연도"]).sum().unstack

<bound method DataFrame.unstack of               인구
도시 연도           
부산 2005  3512547
   2010  3393191
   2015  3448737
서울 2005  9762546
   2010  9631482
   2015  9904312
인천 2010   263203
   2015  2890451>

In [15]:
"""
연도 2005 2010 2015
지역
경상권 ...
수도권 ...
"""


# df.groupby(by=['도시', '연도]').sum().unstack('연도') 어딘가 틀렸음
df.groupby(["지역","연도"])[["인구"]].sum().unstack()
df.groupby([df["도시"], df["연도"]]).sum().unstack()
df["인구"].groupby([df["도시"], df["연도"]]).sum().unstack()

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


#### apply(), agg(), transform()

In [2]:
import seaborn as sns

iris = sns.load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [136]:
# 각 붓꽃별로 가장 큰 값과 가장 작은 값의 비율을 조회

def peak_to_peak_ratio(x):
    return x.max() / x.min()

####################

print(iris.groupby(iris.species).apply(peak_to_peak_ratio))
print("-------------------------------------------------------")
print(iris.groupby(iris.species).agg(peak_to_peak_ratio))
print("-------------------------------------------------------")
print(iris.groupby(iris.species).transform(peak_to_peak_ratio))


            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------------------------------------
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          1.348837     1.913043      1.900000     6.000000
versicolor      1.428571     1.700000      1.700000     1.800000
virginica       1.612245     1.727273      1.533333     1.785714
-------------------------------------------------------
     sepal_length  sepal_width  petal_length  petal_width
0        1.348837     1.913043      1.900000     6.000000
1        1.348837     1.913043      1.900000     6.000000
2        1.348837     1.913043      1.900000     6.000000
3     

In [201]:
def test(x):
    return 1

###################

g = iris.groupby("species")
print(g.apply(test))
print(g.agg(test))
print(g.transform(test))

species
setosa        1
versicolor    1
virginica     1
dtype: int64
            sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa                 1            1             1            1
versicolor             1            1             1            1
virginica              1            1             1            1
     sepal_length  sepal_width  petal_length  petal_width
0               1            1             1            1
1               1            1             1            1
2               1            1             1            1
3               1            1             1            1
4               1            1             1            1
..            ...          ...           ...          ...
145             1            1             1            1
146             1            1             1            1
147             1            1             1            1
148             1         

In [141]:
iris.groupby("species").agg([np.sum, np.mean, np.std, peak_to_peak_ratio]) # 한 개가 아닌 여러개의 함수를 사용하고 싶을 떄 agg

Unnamed: 0_level_0,sepal_length,sepal_length,sepal_length,sepal_length,sepal_width,sepal_width,sepal_width,sepal_width,petal_length,petal_length,petal_length,petal_length,petal_width,petal_width,petal_width,petal_width
Unnamed: 0_level_1,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio,sum,mean,std,peak_to_peak_ratio
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
setosa,250.3,5.006,0.35249,1.348837,171.4,3.428,0.379064,1.913043,73.1,1.462,0.173664,1.9,12.3,0.246,0.105386,6.0
versicolor,296.8,5.936,0.516171,1.428571,138.5,2.77,0.313798,1.7,213.0,4.26,0.469911,1.7,66.3,1.326,0.197753,1.8
virginica,329.4,6.588,0.63588,1.612245,148.7,2.974,0.322497,1.727273,277.6,5.552,0.551895,1.533333,101.3,2.026,0.27465,1.785714


### groupby 실습

In [188]:
# 1. (iris데이터 사용) 품종별로 petal_length의 값을 대, 중, 소의 3가지 값으로 구분해서 조회
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [5]:
# 1. (iris데이터 사용) 품종별로 petal_length의 값을 대, 중, 소의 3가지 값으로 구분해서 조회
# 강사님 풀이
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [11]:
def func_qcut(x):
    return pd.qcut(x, 3, labels=["대", "중", "소"])

###################################################################

#iris["petal_length_class"] 

iris.groupby("species")["petal_length"].apply(func_qcut)

iris["petal_length_class"] = iris.groupby("species")["petal_length"].apply(func_qcut) # 복습하자

iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,대
146,6.3,2.5,5.0,1.9,virginica,대
147,6.5,3.0,5.2,2.0,virginica,대
148,6.2,3.4,5.4,2.3,virginica,중


In [14]:
iris["petal_length_class"] = iris.groupby("species")["petal_length"].agg(func_qcut) # 얘는 값을 못구하네
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,
1,4.9,3.0,1.4,0.2,setosa,
2,4.7,3.2,1.3,0.2,setosa,
3,4.6,3.1,1.5,0.2,setosa,
4,5.0,3.6,1.4,0.2,setosa,
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,
146,6.3,2.5,5.0,1.9,virginica,
147,6.5,3.0,5.2,2.0,virginica,
148,6.2,3.4,5.4,2.3,virginica,


In [15]:
iris["petal_length_class"] = iris.groupby("species")["petal_length"].transform(func_qcut) # 얘는 되네..
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_length_class
0,5.1,3.5,1.4,0.2,setosa,대
1,4.9,3.0,1.4,0.2,setosa,대
2,4.7,3.2,1.3,0.2,setosa,대
3,4.6,3.1,1.5,0.2,setosa,중
4,5.0,3.6,1.4,0.2,setosa,대
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,대
146,6.3,2.5,5.0,1.9,virginica,대
147,6.5,3.0,5.2,2.0,virginica,대
148,6.2,3.4,5.4,2.3,virginica,중


# 바로 밑에 이거 ㄹㅇ 중요 감동

In [292]:
print(iris.groupby(["species"])[["petal_length"]].agg([np.max, np.min]))

           petal_length     
                   amax amin
species                     
setosa              1.9  1.0
versicolor          5.1  3.0
virginica           6.9  4.5


In [298]:
bms_setosa = pd.qcut(iris.petal_length[0:50], 3, labels = ["소", "중", "대"])
bms_versicolor = pd.qcut(iris.petal_length[50:100], 3, labels = ["소", "중", "대"])
bms_virginica = pd.qcut(iris.petal_length[100:], 3, labels = ["소", "중", "대"])

In [303]:
print(bms_setosa)

list

In [305]:
bms_iris=pd.concat([bms_setosa, bms_versicolor, bms_virginica])

In [306]:
bms_iris

0      소
1      소
2      소
3      중
4      소
      ..
145    소
146    소
147    소
148    중
149    소
Name: petal_length, Length: 150, dtype: category
Categories (3, object): ['소' < '중' < '대']

In [190]:
iris2=iris.set_index("species")
iris2

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.1,3.5,1.4,0.2
setosa,4.9,3.0,1.4,0.2
setosa,4.7,3.2,1.3,0.2
setosa,4.6,3.1,1.5,0.2
setosa,5.0,3.6,1.4,0.2
...,...,...,...,...
virginica,6.7,3.0,5.2,2.3
virginica,6.3,2.5,5.0,1.9
virginica,6.5,3.0,5.2,2.0
virginica,6.2,3.4,5.4,2.3


In [209]:
iris.groupby("species").median()["petal_length"]

species
setosa        1.50
versicolor    4.35
virginica     5.55
Name: petal_length, dtype: float64

In [191]:
print(iris2["petal_length"].value_counts())

1.4    13
1.5    13
5.1     8
4.5     8
1.6     7
1.3     7
5.6     6
4.7     5
4.9     5
4.0     5
4.2     4
5.0     4
4.4     4
4.8     4
1.7     4
3.9     3
4.6     3
5.7     3
4.1     3
5.5     3
6.1     3
5.8     3
3.3     2
5.4     2
6.7     2
5.3     2
5.9     2
6.0     2
1.2     2
4.3     2
1.9     2
3.5     2
5.2     2
3.0     1
1.1     1
3.7     1
3.8     1
6.6     1
6.3     1
1.0     1
6.9     1
3.6     1
6.4     1
Name: petal_length, dtype: int64


In [17]:
df = pd.DataFrame({
    'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'],
    'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'],
    'price': [100, 200, 250, 300, 150, 200, 400],
    'quantity': [1, 2, 3, 4, 5, 6, 7]
})

print(df)

  city  fruits  price  quantity
0   부산   apple    100         1
1   부산  orange    200         2
2   부산  banana    250         3
3   부산  banana    300         4
4   서울   apple    150         5
5   서울   apple    200         6
6   서울  banana    400         7


In [18]:
# 2. 도시별로 과일의 가격 평균과 수량 평균을 구하시오
df.groupby("city").mean()[["price","quantity"]]

print(df.groupby(["city"]).mean())
print(df.groupby("city").mean())

      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0
      price  quantity
city                 
부산    212.5       2.5
서울    250.0       6.0


In [205]:
# 3. 도시별, 과일별 가격 평균과 수량 평균을 구하시오.
df.groupby(["city","fruits"]).mean()[["price","quantity"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,price,quantity
city,fruits,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,apple,100.0,1.0
부산,banana,275.0,3.5
부산,orange,200.0,2.0
서울,apple,175.0,5.5
서울,banana,400.0,7.0


In [214]:
# 4. 위의 3번 문제에서 도시별, 과일별을 인덱스로 처리되지 않게 조회(reference를 조회하여 groupby 함수의 인자를 찾아서 처리)
df.groupby(["city","fruits"], as_index=False).mean()[["price","quantity"]]

Unnamed: 0,price,quantity
0,100.0,1.0
1,275.0,3.5
2,200.0,2.0
3,175.0,5.5
4,400.0,7.0


In [19]:
print(df.groupby(["city","fruits"], as_index=False).mean()) #강사님 풀이

  city  fruits  price  quantity
0   부산   apple  100.0       1.0
1   부산  banana  275.0       3.5
2   부산  orange  200.0       2.0
3   서울   apple  175.0       5.5
4   서울  banana  400.0       7.0


In [215]:
?df.groupby

### (4) pivot_table()

- pivot() + groupby()
- pivot_table()
    - values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True
    - margins = True : 행과 열에 ALL이라는 인덱스가 생김
    - aggfunc = sum : aggfunc의 기본값은 mean이지만 sum으로 써줄 경우 ALL의 값이 모두 Sum으로 바뀜
    - fill_value = 0 : NaN이 0으로 채워짐

In [145]:
##### 각 도시에서 연도별로 인구수를 알고 싶다.
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

df = pd.DataFrame(data)
df

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [152]:
df.pivot_table(values="인구", columns="도시", index="연도")

도시,부산,서울,인천
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2005,3512547.0,9762546.0,
2010,3393191.0,9631482.0,263203.0
2015,3448737.0,9904312.0,2890451.0


In [155]:
##### 연도별, 도시별 인구 수를 조회

df.pivot(index=["연도", "도시"], columns="인구", values="인구")

Unnamed: 0_level_0,인구,263203,2890451,3393191,3448737,3512547,9631482,9762546,9904312
연도,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2005,부산,,,,,3512547.0,,,
2005,서울,,,,,,,9762546.0,
2010,부산,,,3393191.0,,,,,
2010,서울,,,,,,9631482.0,,
2010,인천,263203.0,,,,,,,
2015,부산,,,,3448737.0,,,,
2015,서울,,,,,,,,9904312.0
2015,인천,,2890451.0,,,,,,


In [156]:
df.groupby(["연도","도시"])[["인구"]].mean() # 구조를 파악하기가 쉬움

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547.0
2005,서울,9762546.0
2010,부산,3393191.0
2010,서울,9631482.0
2010,인천,263203.0
2015,부산,3448737.0
2015,서울,9904312.0
2015,인천,2890451.0


In [159]:
df.pivot_table(values="인구", index=["연도", "도시"], aggfunc="mean")
# 쓰기는 쉽지만, 코드만 봤을 때 구조를 파악하기 힘듬
# aggfunc="mean"이 생략되어 있고 default값임. 평균 외에 다른 sum 등으로 변경가능

Unnamed: 0_level_0,Unnamed: 1_level_0,인구
연도,도시,Unnamed: 2_level_1
2005,부산,3512547
2005,서울,9762546
2010,부산,3393191
2010,서울,9631482
2010,인천,263203
2015,부산,3448737
2015,서울,9904312
2015,인천,2890451


In [164]:
df.pivot_table(values="인구", index="도시", columns = "연도", aggfunc="sum", margins=True, margins_name="합계", fill_value=0)
# margins 총 평균, 총 합계를 아래에 만들어줌
# margins_name = margins값의 이름
# fill_value = NaN 값을 바꿔주는 펑션

연도,2005,2010,2015,합계
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
부산,3512547,3393191,3448737,10354475
서울,9762546,9631482,9904312,29298340
인천,0,263203,2890451,3153654
합계,13275093,13287876,16243500,42806469


### (5) Crosstab()

In [None]:
pd.crosstab(df.c1, df.c2) # c1과 c2를 교차시켜서 뽑아내줘

In [None]:
pd.crosstab(df.c1, df.c2, values=df.c3, aggfunc=sum, margins=True)

### 중간실습

In [4]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [6]:
#1. 1차 행 인덱스로 "반"을, 2차 행 인덱스로 "번호"를 가지는 데이터프레임을 생성

kor = [79, 67, 88, 68, 92, 54, 67, 88, 97, 85]
eng = [55, 77, 44, 67, 86, 45, 78, 58, 90, 67]
mat = [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
print(kor)


df2 = pd.DataFrame(np.vstack([list(kor), list(eng), list(mat)]),
                columns=[["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"], [1, 2, 1, 3, 2, 3, 4, 4, 5, 5]],
                index = [["국어", "영어", "수학"]])
df2.columns.names = ["반", "번호"]
print(df2.sort_index())

df3 = df2.sort_index()
df3

[79, 67, 88, 68, 92, 54, 67, 88, 97, 85]
반    A       B   A   B           A   B   A
번호   1   2   1   3   2   3   4   4   5   5
국어  79  67  88  68  92  54  67  88  97  85
수학  57  45  76  68  89  67  99  78  89  90
영어  55  77  44  67  86  45  78  58  90  67


반,A,A,B,A,B,B,B,A,B,A
번호,1,2,1,3,2,3,4,4,5,5
국어,79,67,88,68,92,54,67,88,97,85
수학,57,45,76,68,89,67,99,78,89,90
영어,55,77,44,67,86,45,78,58,90,67


In [351]:
?df.div

In [370]:
#2. 학생의 평균을 나타내는 행을 오른쪽에 추가

df3["StudentAvg"] =  df3.mean(axis=1).round(2)
df3

Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학,StudentAvg
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,1,79,55,57,63.67
A,2,67,77,45,63.0
A,3,68,67,68,67.67
A,4,88,58,78,74.67
A,5,85,67,90,80.67
B,1,88,44,76,69.33
B,2,92,86,89,89.0
B,3,54,45,67,55.33
B,4,67,78,99,81.33
B,5,97,90,89,92.0


In [371]:
#3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을,
# 2차 열 인덱스로 "반"을 가지는 데이터프레임 생성

In [375]:
print(df3.unstack("반"))
df4 = df3.unstack("반")

df4

    국어      영어      수학     StudentAvg       
반    A   B   A   B   A   B          A      B
번호                                          
1   79  88  55  44  57  76      63.67  69.33
2   67  92  77  86  45  89      63.00  89.00
3   68  54  67  45  68  67      67.67  55.33
4   88  67  58  78  78  99      74.67  81.33
5   85  97  67  90  90  89      80.67  92.00


Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,StudentAvg,StudentAvg
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79,88,55,44,57,76,63.67,69.33
2,67,92,77,86,45,89,63.0,89.0
3,68,54,67,45,68,67,67.67,55.33
4,88,67,58,78,78,99,74.67,81.33
5,85,97,67,90,90,89,80.67,92.0


In [280]:
#4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가

In [376]:
df4.loc["SubAvg", :] = df4.mean(axis=0).round(2)

In [377]:
df4

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,StudentAvg,StudentAvg
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.67,69.33
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.67,55.33
4,88.0,67.0,58.0,78.0,78.0,99.0,74.67,81.33
5,85.0,97.0,67.0,90.0,90.0,89.0,80.67,92.0
SubAvg,77.4,79.6,64.8,68.6,67.6,84.0,69.94,77.4


In [None]:
df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_" + str(i+1) for i in range(3)]*2])
df2.columns.names = ["Cidx1", "Cidx2"]
df2.index.names = ["Ridx1", "Ridx2"]
df2

print(df2)
print("-----------------------------------------------")

# 1. 첫번째 열에 있는 0.55 ~ 0.02까지를 출력해보시오(5번쨰행까지)
print(df2[('A','C')][0:5])
print(df2.iloc[:-1,0])
print(df2.iloc[0:5, 0])

# 2. 첫번째 행의 모든 컬럼 출력
print(df2.iloc[0, :])
print(df2.iloc[0:, 0])
print(df2.loc[("M", "id_1")])

# 3. 맨 마지막 행에  "ALL"이라는 인덱스를 추가하여 각 열의 합을 출력
df2.loc["ALL"] = df2[:].sum() # 이렇게 하면 멀티인덱스가 ()로 하나의 각각의 인덱스로 묶여버린다. 필히 확인
df2.loc[("ALL", "ALL"), :] = df2.sum()
df2.loc[('ALL',''),:] = df2.sum()
df2

# 중간실습

df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

#1. 1차 행 인덱스로 "반"을, 2차 행 인덱스로 "번호"를 가지는 데이터프레임을 생성

kor = [79, 67, 88, 68, 92, 54, 67, 88, 97, 85]
eng = [55, 77, 44, 67, 86, 45, 78, 58, 90, 67]
mat = [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
print(kor)

df2 = pd.DataFrame(np.vstack([list(kor), list(eng), list(mat)]),
                columns=[["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"], [1, 2, 1, 3, 2, 3, 4, 4, 5, 5]],
                index = [["국어", "영어", "수학"]])
df2.columns.names = ["반", "번호"]
print(df_score2.sort_index())

df3 = df_score2.sort_index()
df3

print("--------------------------------------------")

df2=df2.set_index(["반","번호"])
df3=df2.sort_index()
df3


#2. 학생의 평균을 나타내는 행을 오른쪽에 추가

df3["StudentAvg"] =  df3.mean(axis=1).round(2)
df3

print(df3.unstack("반"))
df4 = df3.unstack("반")
df4

#4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가
df4.loc["SubAvg", :] = df4.mean(axis=0).round(2)
df4

## 6. Pandas 실습

- 데이터 수집 -> 전처리 -> 분석 -> 시각화

### (1) Data Definition

In [22]:
import seaborn as sns

tips = sns.load_dataset("tips")
print(tips.head()) # 데이터를 처음 손에 넣으면 가볍게 head로 어떤 데이터인지 확인해본다
print("-------------------------------------------------")
print(tips.describe()) # describe를 통해 기술통계 확인
print("-------------------------------------------------")
tips.info() # 어떤 데이터인지 확인

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4
-------------------------------------------------
       total_bill         tip        size
count  244.000000  244.000000  244.000000
mean    19.785943    2.998279    2.569672
std      8.902412    1.383638    0.951100
min      3.070000    1.000000    1.000000
25%     13.347500    2.000000    2.000000
50%     17.795000    2.900000    2.000000
75%     24.127500    3.562500    3.000000
max     50.810000   10.000000    6.000000
-------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total

### (2) EDA(탐색적 데이터 분석)

#### 1) 파생 변수 추가

- 식사대금과 팁의 비율을 나타내는 tip_pct라는 변수 추가
- 팁의 비율 : tip / total_bill

In [23]:
tips["tip_pct"] = round(tips.tip / tips.total_bill, 2)
tips2=tips
tips2

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,tip_pct
0,16.99,1.01,Female,No,Sun,Dinner,2,0.06
1,10.34,1.66,Male,No,Sun,Dinner,3,0.16
2,21.01,3.50,Male,No,Sun,Dinner,3,0.17
3,23.68,3.31,Male,No,Sun,Dinner,2,0.14
4,24.59,3.61,Female,No,Sun,Dinner,4,0.15
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,0.20
240,27.18,2.00,Female,Yes,Sat,Dinner,2,0.07
241,22.67,2.00,Male,Yes,Sat,Dinner,2,0.09
242,17.82,1.75,Male,No,Sat,Dinner,2,0.10


#### 2) 성별로 인원수 파악

In [26]:
tips2.groupby("sex").count() # 데이터프레임 형식으로 리턴

Unnamed: 0_level_0,total_bill,tip,smoker,day,time,size,tip_pct
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Male,157,157,157,157,157,157,157
Female,87,87,87,87,87,87,87


In [27]:
tips2.groupby("sex").size() # 시리즈 형식으로 리턴

sex
Male      157
Female     87
dtype: int64

In [25]:
tips["sex"].value_counts() # 시리즈 형식으로 리턴

Male      157
Female     87
Name: sex, dtype: int64

In [28]:
tips["size"].sum() # 식당에 온 모든 사람

627

#### 3) 성별, 흡연 유무별로 인원수 파악

In [30]:
tips2.groupby(["sex","smoker"])["size"].size()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
Name: size, dtype: int64

In [29]:
tips2.groupby(["sex","smoker"])["size"].count()

sex     smoker
Male    Yes       60
        No        97
Female  Yes       33
        No        54
Name: size, dtype: int64

#### 4) 위의 두 정보를 하나의 테이블로 tip_pct를 조회
- pivot_table() 사용

In [41]:
"""
smoker    yes    no
sex
 male     ..
 female   ..
"""
tips2.groupby(["sex","smoker"])["tip_pct"].mean()

sex     smoker
Male    Yes       0.152667
        No        0.161031
Female  Yes       0.182424
        No        0.156852
Name: tip_pct, dtype: float64

In [285]:
tips2.pivot_table(values="tip_pct", columns="smoker", index="sex")

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152667,0.161031
Female,0.182424,0.156852


In [35]:
tips2.pivot_table(values="tip_pct", index=["sex", "smoker"], margins=True) # 합계를 추가해주는 margins

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct
sex,smoker,Unnamed: 2_level_1
Male,Yes,0.152667
Male,No,0.161031
Female,Yes,0.182424
Female,No,0.156852
All,,0.160943


In [37]:
tips2.pivot_table(values=["tip_pct", "size"], index=["sex", "smoker"])

Unnamed: 0_level_0,Unnamed: 1_level_0,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Male,Yes,2.5,0.152667
Male,No,2.71134,0.161031
Female,Yes,2.242424,0.182424
Female,No,2.592593,0.156852


In [283]:
?tips2.groupby

#### 5) 흡연 유무별에 따른 팁 비율을 조회
- groupby() 사용

In [38]:
tips2.groupby(["smoker"])["tip_pct"].mean()

smoker
Yes    0.163226
No     0.159536
Name: tip_pct, dtype: float64

In [39]:
tips2.groupby(["smoker"])["tip_pct"].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Yes,93.0,0.163226,0.08506,0.04,0.11,0.15,0.2,0.71
No,151.0,0.159536,0.039889,0.06,0.14,0.16,0.185,0.29


#### 6) tip의 비율이 요일과 점심/저녁 여부, 인원수에 어떤 영향을 받는지 살표볼 수 있게 조회

- 어떤 요인이 가장 크게 작용하는지 확인

In [54]:
tips2.groupby(["day","time","size"])[["tip_pct"]].mean().dropna() # [[]]으로 tip_pct를 묶으면 데이터프레임, []는 시리즈
# dropna()를 끝에 붙여줌으로써 결측치 제거

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.18
Thur,Lunch,2,0.16383
Thur,Lunch,3,0.145
Thur,Lunch,4,0.146
Thur,Lunch,5,0.12
Thur,Lunch,6,0.173333
Thur,Dinner,2,0.16
Fri,Lunch,1,0.22
Fri,Lunch,2,0.182
Fri,Lunch,3,0.19


In [57]:
tip_mean = tips2.groupby(["day","time","size"])[["tip_pct"]].mean()
tip_mean[tip_mean.tip_pct.notnull()] # 어렵지만 인덱스에서 결측치를 제거하고자 했을 때 사용법

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,tip_pct
day,time,size,Unnamed: 3_level_1
Thur,Lunch,1,0.18
Thur,Lunch,2,0.16383
Thur,Lunch,3,0.145
Thur,Lunch,4,0.146
Thur,Lunch,5,0.12
Thur,Lunch,6,0.173333
Thur,Dinner,2,0.16
Fri,Lunch,1,0.22
Fri,Lunch,2,0.182
Fri,Lunch,3,0.19


In [44]:
tips.pivot_table("tip_pct", ["day", "time", "size"])
print(tips.pivot_table("tip_pct", ["day", "time", "size"]))

                   tip_pct
day  time   size          
Thur Lunch  1     0.180000
            2     0.163830
            3     0.145000
            4     0.146000
            5     0.120000
            6     0.173333
     Dinner 2     0.160000
Fri  Lunch  1     0.220000
            2     0.182000
            3     0.190000
     Dinner 2     0.161818
            4     0.120000
Sat  Dinner 1     0.235000
            2     0.155660
            3     0.151667
            4     0.139231
            5     0.110000
Sun  Dinner 2     0.180769
            3     0.153333
            4     0.153333
            5     0.160000
            6     0.100000


In [53]:
?tips.groupby

#### 7) 성별, 흡연 유무별로 가장 많은 팁과 가장 적은 팁의 차이 조회

In [284]:
tipmax = tips2.groupby(["smoker","sex"])["tip_pct"].max()
tipmin = tips2.groupby(["smoker","sex"])["tip_pct"].min()
tipmax
tipmin


smoker  sex   
Yes     Male      0.04
        Female    0.06
No      Male      0.07
        Female    0.06
Name: tip_pct, dtype: float64

In [274]:
print(max(tipmax)-min(tipmin))

0.6699999999999999


In [268]:
tipmax

smoker  sex   
Yes     Male      0.71
        Female    0.42
No      Male      0.29
        Female    0.25
Name: tip_pct, dtype: float64

In [60]:
def peak_to_pick_ratio(x):
    return x.max() - x.min()

print(tips.groupby(["sex","smoker"])[["tip"]].apply(peak_to_pick_ratio))

                tip
sex    smoker      
Male   Yes     9.00
       No      7.75
Female Yes     5.50
       No      4.20


In [61]:
tips.groupby(["sex","smoker"]).max() - tips.groupby(["sex","smoker"]).min()

  tips.groupby(["sex","smoker"]).max() - tips.groupby(["sex","smoker"]).min()
  tips.groupby(["sex","smoker"]).max() - tips.groupby(["sex","smoker"]).min()


Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,size,tip_pct
sex,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Male,Yes,43.56,9.0,4,0.67
Male,No,40.82,7.75,4,0.22
Female,Yes,41.23,5.5,3,0.36
Female,No,28.58,4.2,5,0.19


## 7. 시계열 데이터

- DateTimeIndex 자료형
    - pd.to_datetime() : 문자열을 날짜 타입으로 변환
    - pd.date_range() : 특정 범위의 날짜 인덱스를 생성

### (1) 날짜 인덱스

In [73]:
date_str = ["2023, 1, 1", "2023, 1, 4", "2023, 1, 6", "2023, 1, 9"]

idx = pd.to_datetime(date_str) # 인덱스로 활용하기 위해서 이렇게 묶어줌 # idx라는 변수에 넣어줌(밑에서 쓰려고)

In [65]:
import datetime

datetime.datetime.strptime(date_str[0], "%Y, %m, %d")

datetime.datetime(2023, 1, 1, 0, 0)

In [72]:
#### 날짜를 인덱스로 활용

np.random.seed(0)

pd.Series(np.random.randn(4), index=idx)

2023-01-01    1.764052
2023-01-04    0.400157
2023-01-06    0.978738
2023-01-09    2.240893
dtype: float64

### (2) 날짜 데이터 생성

In [75]:
#### 날짜 데이터 생성

pd.date_range("2023-1-1", "2023-4-30")
pd.date_range("2023-1-1", periods=30)

DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04',
               '2023-01-05', '2023-01-06', '2023-01-07', '2023-01-08',
               '2023-01-09', '2023-01-10', '2023-01-11', '2023-01-12',
               '2023-01-13', '2023-01-14', '2023-01-15', '2023-01-16',
               '2023-01-17', '2023-01-18', '2023-01-19', '2023-01-20',
               '2023-01-21', '2023-01-22', '2023-01-23', '2023-01-24',
               '2023-01-25', '2023-01-26', '2023-01-27', '2023-01-28',
               '2023-01-29', '2023-01-30'],
              dtype='datetime64[ns]', freq='D')

In [76]:
?pd.date_range

In [77]:
"""
freq
    S : 초
    T : 분
    H : 시간
    D : 일
    B : 주말이 아닌 평일
    W : 주(일요일)
    W-MON : 주(월요일)
    M : 각 달의 마지막 날
    MS : 각 달의 첫날
    BM : 주말이 아닌 평일중에서 각 달의 마지막 날
    BMS : 주말이 아닌 평일중에서 각 달의 첫날
    WOM-2THU : 각 달의 두번째 목요일
    Q-JAN : 각 분기의 첫 달의 마지막 날
    Q-DEC : 각 분기의 마지막 달의 마지막 날
"""

'\nfreq\n    S : 초\n    T : 분\n    H : 시간\n    D : 일\n    B : 주말이 아닌 평일\n    W : 주(일요일)\n    W-MON : 주(월요일)\n    M : 각 달의 마지막 날\n    MS : 각 달의 첫날\n    BM : 주말이 아닌 평일중에서 각 달의 마지막 날\n    BMS : 주말이 아닌 평일중에서 각 달의 첫날\n    WOM-2THU : 각 달의 두번째 목요일\n    Q-JAN : 각 분기의 첫 달의 마지막 날\n    Q-DEC : 각 분기의 마지막 달의 마지막 날\n'

In [78]:
pd.date_range("2023-1-1", periods=30, freq="B") # 주말이 아닌 평일 # 기본 값은 D : 1일

DatetimeIndex(['2023-01-02', '2023-01-03', '2023-01-04', '2023-01-05',
               '2023-01-06', '2023-01-09', '2023-01-10', '2023-01-11',
               '2023-01-12', '2023-01-13', '2023-01-16', '2023-01-17',
               '2023-01-18', '2023-01-19', '2023-01-20', '2023-01-23',
               '2023-01-24', '2023-01-25', '2023-01-26', '2023-01-27',
               '2023-01-30', '2023-01-31', '2023-02-01', '2023-02-02',
               '2023-02-03', '2023-02-06', '2023-02-07', '2023-02-08',
               '2023-02-09', '2023-02-10'],
              dtype='datetime64[ns]', freq='B')

In [79]:
pd.date_range("2023-1-1", periods=30, freq="W") # week


DatetimeIndex(['2023-01-01', '2023-01-08', '2023-01-15', '2023-01-22',
               '2023-01-29', '2023-02-05', '2023-02-12', '2023-02-19',
               '2023-02-26', '2023-03-05', '2023-03-12', '2023-03-19',
               '2023-03-26', '2023-04-02', '2023-04-09', '2023-04-16',
               '2023-04-23', '2023-04-30', '2023-05-07', '2023-05-14',
               '2023-05-21', '2023-05-28', '2023-06-04', '2023-06-11',
               '2023-06-18', '2023-06-25', '2023-07-02', '2023-07-09',
               '2023-07-16', '2023-07-23'],
              dtype='datetime64[ns]', freq='W-SUN')

### (3) shift 연산

In [84]:
np.random.seed(0)

ts = pd.Series(np.random.randn(4), index=pd.date_range("2023-1-1", periods=4, freq="M"))
print(ts)

print("--------------------------------------------------------------------------------------")

print(ts.shift(1)) # 값이 한칸씩 이동했음

print("--------------------------------------------------------------------------------------")

print(ts.shift(-1))

print("--------------------------------------------------------------------------------------")

print(ts.shift(1, freq="M")) # 현재 날짜가 "M"이라 각달의 마지막날인데 그 달이 다음 값(다음달 마지막날)로 이동

print("--------------------------------------------------------------------------------------")

print(ts.shift(1, freq="W"))  # 일요일로 옮겨감

2023-01-31    1.764052
2023-02-28    0.400157
2023-03-31    0.978738
2023-04-30    2.240893
Freq: M, dtype: float64
--------------------------------------------------------------------------------------
2023-01-31         NaN
2023-02-28    1.764052
2023-03-31    0.400157
2023-04-30    0.978738
Freq: M, dtype: float64
--------------------------------------------------------------------------------------
2023-01-31    0.400157
2023-02-28    0.978738
2023-03-31    2.240893
2023-04-30         NaN
Freq: M, dtype: float64
--------------------------------------------------------------------------------------
2023-02-28    1.764052
2023-03-31    0.400157
2023-04-30    0.978738
2023-05-31    2.240893
Freq: M, dtype: float64
--------------------------------------------------------------------------------------
2023-02-05    1.764052
2023-03-05    0.400157
2023-04-02    0.978738
2023-05-07    2.240893
dtype: float64


### (4) resampling

- 시간 간격을 다시 재조정
- 방법
    - 다운 샘플링 : 시간 구간이 커지면서 데이터 양이 감소
    - 업 샘플링 : 시간 구간이 작아지면서 데이터 양이 증가

#### 1) 다운 샘플링

- 데이터가 그룹으로 묶이기 때문에 집계 연산을 해서 대표값을 구해야 한다.

In [87]:
ts = pd.Series(np.random.randn(100), 
         index=pd.date_range("2023-1-1", periods=100, freq="D"))
ts.tail(10)

2023-04-01   -0.135950
2023-04-02    1.136891
2023-04-03    0.097725
2023-04-04    0.582954
2023-04-05   -0.399449
2023-04-06    0.370056
2023-04-07   -1.306527
2023-04-08    1.658131
2023-04-09   -0.118164
2023-04-10   -0.680178
Freq: D, dtype: float64

In [89]:
print(ts.resample("W").mean()) # 일주일 단위로 줄였따.

2023-01-01    0.640132
2023-01-08   -0.138592
2023-01-15    0.226693
2023-01-22   -0.400548
2023-01-29   -0.415256
2023-02-05    0.081247
2023-02-12   -0.328295
2023-02-19   -0.204610
2023-02-26   -0.412013
2023-03-05   -0.327269
2023-03-12   -0.127634
2023-03-19    0.132875
2023-03-26    0.370746
2023-04-02    0.348225
2023-04-09    0.126389
2023-04-16   -0.680178
Freq: W-SUN, dtype: float64


In [90]:
print(ts.resample("M").mean()) # 한달 단위로 줄였다.

2023-01-31   -0.167546
2023-02-28   -0.228882
2023-03-31    0.092929
2023-04-30    0.120549
Freq: M, dtype: float64


In [100]:
ts = pd.Series(np.random.randn(60), 
         index=pd.date_range("2023-1-1", periods=60, freq="T"))
ts.tail(10)
print(ts.resample("10T").sum())

2023-01-01 00:00:00   -0.824871
2023-01-01 00:10:00   -3.453350
2023-01-01 00:20:00    0.403739
2023-01-01 00:30:00   -3.662432
2023-01-01 00:40:00   -4.556258
2023-01-01 00:50:00   -2.903870
Freq: 10T, dtype: float64


#### 2) 업 샘플링
- forward filling : 앞에서 나온 데이터를 그대로 사용
- backward filling : 뒤에서 나온 데이터를 앞에서 미리 사용

In [107]:
print(ts.head(10))
print("--------------------------------------------------------------------------------------")
print(ts.resample("30S").ffill().head(10))
print("--------------------------------------------------------------------------------------")
print(ts.resample("30S").bfill().head(10))

2023-01-01 00:00:00   -0.384645
2023-01-01 00:01:00   -0.443836
2023-01-01 00:02:00    1.078197
2023-01-01 00:03:00   -2.559185
2023-01-01 00:04:00    1.181379
2023-01-01 00:05:00   -0.631904
2023-01-01 00:06:00    0.163929
2023-01-01 00:07:00    0.096321
2023-01-01 00:08:00    0.942468
2023-01-01 00:09:00   -0.267595
Freq: T, dtype: float64
--------------------------------------------------------------------------------------
2023-01-01 00:00:00   -0.384645
2023-01-01 00:00:30   -0.384645
2023-01-01 00:01:00   -0.443836
2023-01-01 00:01:30   -0.443836
2023-01-01 00:02:00    1.078197
2023-01-01 00:02:30    1.078197
2023-01-01 00:03:00   -2.559185
2023-01-01 00:03:30   -2.559185
2023-01-01 00:04:00    1.181379
2023-01-01 00:04:30    1.181379
Freq: 30S, dtype: float64
--------------------------------------------------------------------------------------
2023-01-01 00:00:00   -0.384645
2023-01-01 00:00:30   -0.443836
2023-01-01 00:01:00   -0.443836
2023-01-01 00:01:30    1.078197
2023-01-

--------------------------------------------------------------------------------------


AttributeError: 'Series' object has no attribute 'resamlple'