## 1. Pandas에 제공하는 대표적인 자료구조

- Series
    - 값 + INDEX
    
- DataFrame
    - 여러 개의 Series를 묶어놓은 형태(테이블)

In [1]:
import numpy as np
import pandas as pd

## 2. Series

In [4]:
s = pd.Series([9904312, 3448737, 2890451, 2466052]) # 앞에 인덱스를 명시적으로 달고 배열로 만들어 준다
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


### (1) 인덱스 활용

In [8]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052],
             index=["서울","부산","인천","대구"])
print(s)


서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [2]:
?pd.Series

In [11]:
###### 인덱스와 값을 별도로 가져올 수 있다.

print(s.values)
print(s.values, type(s.values))
print(s.index) # 'object' int str 등 모든 것이 들어갈 수 있다.

[9904312 3448737 2890451 2466052]
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [12]:
##### 인덱스에 이름 지정

s.index.name = "도시"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64


In [13]:
##### Series 전체에 이름 지정

s.name = "인구"
print(s)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


### (2) 벡터화 연산


In [14]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

### (3) Indexing

In [21]:
print(s[0], s[1])
print(s["서울"], s["부산"])

print("--------------------------------------------")

print(s[[0, 3, 1]])
print(s[["서울", "대구", "부산"]])

print("--------------------------------------------")

print(s[(s > 250e4) & (s < 500e4)])

print("--------------------------------------------")

print(s[1:3])
print(s["부산":"인천"])

print("--------------------------------------------")

print(s.부산, ",", s.서울)

9904312 3448737
9904312 3448737
--------------------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
--------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
--------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
--------------------------------------------
3448737 , 9904312


### (4) Series와 dict

In [28]:
# 시리즈는 딕트와 똑같이 사용할 수 있다. 

print("서울" in s)
print("대전" in s)

print("----------------------------------")

print(list(s.items()))
print(s.keys())
print(s.values)

print("----------------------------------")
s2 = pd.Series({"서울" : 9631482, "부산" : 3448737, "인천" : 2632035, "대전" : 1490158})
print(s2)

True
False
----------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
Index(['서울', '부산', '인천', '대구'], dtype='object', name='도시')
[9904312 3448737 2890451 2466052]
----------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


### (5) 기타

In [34]:
###### 인덱스 기반 연산

print(s)
print("----------------------------------")
print(s2)
print("==================================")

result = s - s2 # 같은 인덱스를 찾아서 같은 인덱스끼리 연산하고 상대방이 없어서 연산하지 못한 것은 NaN
print(result) # NaN(결측치)

print("==================================")

print(s.values - s2.values) # 단순하게 값만 순서대로 연산

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
----------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64
대구         NaN
대전         NaN
부산         0.0
서울    272830.0
인천    258416.0
dtype: float64
[272830      0 258416 975894]


In [44]:
##### 결측치 제거

print(result.isnull()) # 결측치가 있거나 누락된 데이터가 있으면 불리언 값으로

print(result.dropna()) # 결측치가 있는 값은 결과에서 빠졌다.

print("==================================")

print(result)

print("==================================")

print(result.notnull()) # 결측치가 있는지 없는지 True/False로 돌려준다. 

print(result[result.notnull()]) # 트루 펄스가 아닌 결과값을 원할 경우

print("==================================")

print(result)

######### s와 s2의 데이터를 이용해서 인구증가율 

# (끝연도 - 시작연도) / 시작연도 * 100

result2 = (s2 - s)/s*100
print(result2)

부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [45]:
##### 데이터를 수정, 삭제, 갱신

# 수정

result2["부산"] = 1.63
print(result2)

대구         NaN
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64


In [47]:
# 갱신
result2["대구"] = 1.41
print(result2)

대구    1.410000
대전         NaN
부산    1.630000
서울   -2.754659
인천   -8.940335
dtype: float64


In [48]:
# 삭제
del result2["서울"]
print(result2)

대구    1.410000
대전         NaN
부산    1.630000
인천   -8.940335
dtype: float64


#### 중복제거

In [16]:
df = pd.DataFrame({'c1' : ['a', 'b', 'c'] * 2 + ['b'] + ['c'],
                            'c2' : [1,2,1,1,2,3,3,4]})
df

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
3,a,1
4,b,2
5,c,3
6,b,3
7,c,4


In [17]:
df.duplicated()

0    False
1    False
2    False
3     True
4     True
5    False
6    False
7    False
dtype: bool

In [19]:
df.drop_duplicates()

Unnamed: 0,c1,c2
0,a,1
1,b,2
2,c,1
5,c,3
6,b,3
7,c,4


In [20]:
s = pd.Series([1., 2., -999, 3., -1000., 4.])
s

0       1.0
1       2.0
2    -999.0
3       3.0
4   -1000.0
5       4.0
dtype: float64

In [21]:
s.replace(-999, np.nan)

0       1.0
1       2.0
2       NaN
3       3.0
4   -1000.0
5       4.0
dtype: float64

In [22]:
s.replace([-999, -1000], np.nan)

0    1.0
1    2.0
2    NaN
3    3.0
4    NaN
5    4.0
dtype: float64

In [26]:
# s.replace([-999, -1000], 0)
# s.replace([-999, -1000], [np.nan, 0])
s.replace([-999, -1000], [0, 0])

0    1.0
1    2.0
2    0.0
3    3.0
4    0.0
5    4.0
dtype: float64

## 3. DataFrame

In [49]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [55]:
df = pd.DataFrame(data)
print(type(df))
df # print없이 이름만 입력하면 쥬피터에서는 web browser가 담당해서 예쁘게 만들어줌


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [56]:
print(df)

      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141


### (1) 컬럼의 순서(위치) 바꾸기

In [62]:
cols = ['지역','2015', '2010', '2005', '2000',  '2010-2015 증가율']  # 컬럼의 순서를 내마음대로 지정하기
df = pd.DataFrame(data, columns = cols) # 이렇게 설정 적용

In [65]:
#  ?pd.DataFrame

In [64]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

### (2) 인덱스 변경

In [73]:
print(df.index)

idx = ["서울", "부산", "인천", "대구"]
#df = pd.DataFrame(data, columns=cols, index=idx) # 순서를 모르거나 틀릴경우 그냥 이렇게 지정해주면 된다.
df = pd.DataFrame(data, idx, cols) # 순서가 맞을 경우 이렇게 해도 된다.
df

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')


Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [74]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [75]:
##### 컬럼과 인덱스에 이름 지정

df.index.name = "도시"
df.columns.name = "특성"

In [76]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [78]:
#### 전치 가능 ## 배열에서 했던 Transpose와 같음

df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### (3) Indexing

#### 1) 열 인덱싱

In [88]:
print(df)
print("========================================================")
print(df["지역"]) # Series 형식임을 확인 # 1차원 배열
print(type(df["지역"]))
print("========================================================")
print(df[["지역"]]) # 대괄호를 하나 더 묶어서 2차원 배열로 바꿔줌 # DataFrame으로 변경
print(type(df[["지역"]])) # DataFrame 형식임을 확인
print("========================================================")
print(df[["2005", "2010"]]) # 2개 이상을 뽑을 경우 2차원 배열임을 생각해 [[]]로 묶어서 사용해야함.

# df[0] # 컬럼 이름(인덱스)이 숫자가 아닌 다른 것으로 지정되어 있는 상태에서는 0,1,2, ...번째 컬럼에 숫자 0,1,2, ...으로 접근이 안된다.

# df["2015" : "2020"] # 열 인덱스는 슬라이싱 불가능

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권
<class 'pandas.core.frame.DataFrame'>
특성     2005     2010
도시                  
서울  9762546  9631482
부산  3512547  3393191
인천  2517680  2632035
대구  2456016  2431774


#### 2) 행 인덱싱

- 반드시 :으로 슬라이싱

In [92]:
print(df[0:3])
print("========================================================")
print(df[:])
print("========================================================")
print(df["서울":"부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163


#### 3) 열과 행을 동시에 접근

In [98]:
print(df["2015"]["서울"])
print(df["2015"][0])
print("--------------------")
print(df["2015"][:"서울"])
print(df["2015"]["서울":"서울"])
print(df["2015"][:1])
print("--------------------")
# print(df["2015", "서울"])

# 열과 행을 따로따로 써야한다
# 열부터 쓴다! 열 우선 in 기본 인덱스

9904312
9904312
--------------------
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64
도시
서울    9904312
Name: 2015, dtype: int64
--------------------


#### 4) 열 데이터 갱신, 추가, 삭제

In [111]:
print(df)
print("-------------------------")

# 수정

df["2010-2015 증가율"] = df["2010-2015 증가율"]*100 # 이미 존재하는 이름의 컬럼 값을 바꿔주면 수정
print(df)

# 추가

df["2005-2010 증가율"] = ((df["2010"]- df["2005"]) / df["2005"]*100).round(2) # 존재하지 않는 컬럼의 이름을 쓰면 추가
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972    283000000.0
부산  경상권  3448737  3393191  3512547  3655437    163000000.0
인천  수도권  2890451  2632035  2517680  2466338    982000000.0
대구  경상권  2466052  2431774  2456016  2473990    141000000.0
-------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972   2.830000e+10
부산  경상권  3448737  3393191  3512547  3655437   1.630000e+10
인천  수도권  2890451  2632035  2517680  2466338   9.820000e+10
대구  경상권  2466052  2431774  2456016  2473990   1.410000e+10
특성   지역     2015     2010     2005     2000  2010-2015 증가율  2005-2010 증가율
도시                                                                       
서울  수도권  9904312  9631482  9762546  9853972   2.830000e+10          -1.34
부산  경상권  3448737  3393191  3512547  3655437 

In [110]:
# 삭제

# del df["2005-2010 증가율"]
print(df)

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972    283000000.0
부산  경상권  3448737  3393191  3512547  3655437    163000000.0
인천  수도권  2890451  2632035  2517680  2466338    982000000.0
대구  경상권  2466052  2431774  2456016  2473990    141000000.0


### (4) 중간실습

In [3]:
data = {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70]
}


In [26]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성

df = pd.DataFrame(data)
df

print(df.index)
idx = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, idx)
df

# 강사님 풀이
print("--------------------------------------------")

df = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
df

RangeIndex(start=0, stop=4, step=1)
--------------------------------------------


Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [7]:
# 2. 모든 학생의 수학점수를 조회
df
print(df["수학"])

춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64


In [183]:
# 3. 모든 학생의 국어와 영어 점수를 조회
df
print(df[["국어","영어"]])

    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40


In [27]:
# 4. 모든 학생의 각 과목평균점수를 새로운 열(과목평균)로 추가하시오.
df

df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df["과목평균2"]=df[:].mean(axis=1).round(2) # 열이 너무 많을 경우 이렇게 해보자
df

Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,40,70,46.67,46.67


In [211]:
# 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오.
print(df["영어"]["방자"])
df["영어"]["방자"]=80
df["영어"]["방자"]
df
df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df

80


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"]=80


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [28]:
# 5. 강사님 풀이

df["영어"]["방자"]=80

df["과목평균"]=((df["국어"]+df["영어"]+df["수학"])/3).round(2) # 이렇게하면 전체의 평균을 새로 구한다

df["과목평균2"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2) # 방자의 평균만 새로 바꿔주자

df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"]=80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목평균2"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2) # 방자의 평균만 새로 바꿔주자


Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67
몽룡,90,70,60,73.33,73.33
향단,70,60,80,70.0,70.0
방자,30,80,70,60.0,60.0


In [34]:
# 6. 춘향의 점수를 데이터 프레임 형식으로 출력하시오
print(type(df[0:1]))
print(df[0:1])

# 강사님 풀이

df["춘향":"춘향"]
print(type(df["춘향":"춘향"]))

<class 'pandas.core.frame.DataFrame'>
    국어  영어  수학   과목평균  과목평균2
춘향  80  90  90  86.67  86.67
<class 'pandas.core.frame.DataFrame'>


In [32]:
df[:1]

Unnamed: 0,국어,영어,수학,과목평균,과목평균2
춘향,80,90,90,86.67,86.67


In [249]:
# 7. 향단의 점수를 Series로 출력하시오

print(df[2:3])
type(df[2:3])
print("-----------")


print(df.T["향단"])
h_score = pd.Series(df.T["향단"])
print(type(h_score))


    국어  영어  수학  과목평균
향단  70  60  80  70.0
-----------
국어      70.0
영어      60.0
수학      80.0
과목평균    70.0
Name: 향단, dtype: float64
<class 'pandas.core.series.Series'>


In [41]:
# 강사님 풀이

df["향단":"향단"] # 현재 DataFrame

df.T # 별도로 원본에 적용해주거나 따로 저장해주지 않으면 원본은 그대로
df # 그대로임을 확인

df2 = df.T
df2["향단"]
type(df2["향단"]) # Series임을 확인

pandas.core.series.Series

### (5) 파일 입출력

- read_csv()
- to_csv()
- read_table()

In [130]:
%%writefile data/sample2.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three



Writing data/sample2.csv


In [126]:
# %%와 같은 매직 명령어는 쉘의 맨윗줄 맨첫번째에서 실행해야 한다

In [128]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [131]:
sample2 = pd.read_csv("data/sample2.csv", names = ["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,c1,c2,c3
1,1,1.11,one
2,2,2.22,two
3,3,3.33,three


In [134]:
# 특정한 열을 인덱스로 저장
sample3 = pd.read_csv("data/sample1.csv")
sample3

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [135]:
sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [136]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.354 0.2389
0.123 0.345 0.567 0.986

Writing data/sample3.txt


In [143]:
pd.read_table("data/sample3.txt") # 컬럼이......

Unnamed: 0,c1 c2 c3 c4
0,0.23 0.33 0.354 0.2389
1,0.123 0.345 0.567 0.986


In [147]:
pd.read_table("data/sample3.txt", delimiter="\s+")
# 고쳐주자, 경고창이 뜬다면 ? 잘 읽고 정규표현식을 알맞게 쓰자.
# delimiter = "," csv로 저장할 때 구분문자를 지정하는 식
# fmt = "%d" 소수점이 신경쓰일 경우, 정수로만 나타내는식
# fmt = "%.5f" 소수점이 신경쓰일 경우, 소수점5자리까지 나타내는식

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [146]:
pd.read_table("data/sample3.txt", sep="\s+")

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [156]:
?pd.read_table

In [148]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터포맷 : 어쩌구 저쩌구
컬럼 설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [150]:
#sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=[0,1,2])
sample4 = pd.read_table("data/sample4.txt", sep=",", skiprows=3)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [154]:
%%writefile data/sample5.txt
c1, c2, c3
1, 1.11, 
2, , two
누락, 3.33, three

Overwriting data/sample5.txt


In [163]:
sample5 = pd.read_csv("data/sample5.txt", na_values=[" ", "누락"])
# 공백이거나 누락을 결측치로 표시해라
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [164]:
##### csv로 저장

df

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", index=False, header=False)
sample5.to_csv("data/sample9.csv", na_rep="누락")

In [166]:
sample5.to_csv("data/sample9.csv", na_rep="누락")
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


### (6) Indexer

- loc :라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
- iloc : 순서를 나타내는 정수 기반의 인덱서
- at : 값을 한개만 가져올 때 유리함
- iat : 값을 한개만 가져올 때 유리함
- ix : 숫자나 문자를 다 쓸 수 있는 방법 (구형 파이썬 버전이나 책에서 종종 등장)

#### 1) loc

In [3]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=["a","b","c"], columns=["A","B","C","D"])
df

# 행 우선이다
# 한번에 행과 열을 묶어줄 수 있다

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
##### 첫번째 행 추출

print(df[:1])
print(df[:"a"])


print("====================================")

print(df.loc["a"]) # loc는 행 우선이다.

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
A    10
B    11
C    12
D    13
Name: a, dtype: int32


In [16]:
#### 첫번째 열에서 15보다 큰 값을 추출해라

print(df["A"])
print("====================================")
print(df.loc[:,"A"]) # 행과 열을 한곳에 묶어서 쓴다. # 행우선이다

print("====================================")

# 여기 뭔가 잘못되었다.
print(df.loc[df.loc[:, "A"] > 15]) # 항상 loc가 좋은 것은 아니다
print(df.loc[df["A"] > 15])
print(df.loc[df.A > 15]) # 열로 접근하기에는 기본 인덱스가 좋다

a    10
b    14
c    18
Name: A, dtype: int32
a    10
b    14
c    18
Name: A, dtype: int32
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


In [62]:
##### 행과 열을 모두 사용할 경우

# b행 B열에 있는 한 개의 값을 추출

print(df["B"]["b"])
# print(df["B", "b"]) 기본 인덱스는 행과 열을 한곳에 묶어서 쓸 수 없다.

print("====================================")

print(df.loc["b"]["B"])
print(df.loc["b", "B"]) # loc는 한곳에 쓸 수 있따.

print("====================================")

print(df.loc["b": , "B":]) # 슬라이싱도 자유롭다
print("====================================")
print(df.loc[["a", "c"], ["B", "C"]]) # 따로 쓰고 콤마로 사용도 가능하다


15
15
15
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20


In [67]:
##### 반드시 레이블로만 접근

# print(df.loc[1:, 1:]) # 숫자로 접근 불가, 문자로 된 레이블로만 접근가능
# print(df.loc[[0, 1], [1,2]]) # loc도 숫자로 불가능

#### 2) iloc

In [69]:
# iloc는 숫자로도 접근이 가능하다!

print(df.iloc[1:, 1:])

print("====================================")

print(df.iloc[[0, 1],[1, 2]])

    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
b  15  16


#### 3) at, iat

In [75]:
# %timeit df.loc["a", "A"] # 6.38 µs ± 53.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
# %timeit df.at["a", "A"] # 3.3 µs ± 30.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
# 속도에서 약 2배의 차이가 난다 / 데이터가 많고 값을 하나만 뽑을 경우 at, iat를 떠올리자

## 4. Data Manipulation

### (1) 데이터 카운팅

#### 1) Series에서 카운팅

In [80]:
s = pd.Series(range(10))
s

s.count() # 10개가 카운트 되었다.

s[3] = np.nan # 결측치로 일부러 만들어 봄

In [81]:
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [82]:
s.count() # 결측치는 카운트에서 제외된다.

9

#### 2) DataFrame에서 카운팅

In [86]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)))
df

Unnamed: 0,0,1,2,3
0,0,0,3,2
1,3,0,2,1
2,3,2,4,4
3,4,3,4,2


In [87]:
df.count()

0    4
1    4
2    4
3    4
dtype: int64

In [88]:
df.iloc[2,3] = np.nan # 결측치를 만들었다.
df.count() # 역시 카운트에서 빠졌다.

0    4
1    4
2    4
3    3
dtype: int64

#### 3) 카테고리별로 카운팅

In [89]:
np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
s

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [90]:
s.value_counts() # Series에서만 사용 가능하다

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [91]:
df.value_counts() # 기준이 열이기 때문에, 사용하기 어렵다.

0  1  2  3  
0  0  3  2.0    1
3  0  2  1.0    1
4  3  4  2.0    1
dtype: int64

In [96]:
df[0].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

3    2
0    1
4    1
Name: 0, dtype: int64

In [94]:
df[1].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

0    2
2    1
3    1
Name: 1, dtype: int64

In [95]:
df[2].value_counts() # DataFrame에서 쓰려면 이렇게 열별로 따로 뽑아서 사용해야 한다

4    2
3    1
2    1
Name: 2, dtype: int64

### (2) 정렬

- sort_values()
- sort_index()
- 결측치는 정렬의 대상이 되지 않는다.

#### 1) Series에서의 정렬

In [97]:
np.random.seed(1)

s = pd.Series(np.random.randint(6, size = 100))
s

0     5
1     3
2     4
3     0
4     1
     ..
95    4
96    5
97    2
98    4
99    3
Length: 100, dtype: int32

In [98]:
s.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [99]:
s.value_counts().sort_index() # 0에서부터 시작하는 index로 정렬이 되었다.

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [101]:
s.sort_values() # 기본이 오름차순

57    0
38    0
39    0
85    0
28    0
     ..
71    5
40    5
46    5
11    5
0     5
Length: 100, dtype: int32

In [102]:
s.sort_values(ascending=False) # 오름차순을 거짓으로 = 내림차순

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int32

#### 2) DataFrame에서의 정렬

In [17]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4,4)), dtype=float)
print(df)

print("-------------------------------------------------------------")


     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
-------------------------------------------------------------


In [21]:
df.sort_values(by=2) # 2번 열을 기준으로 정렬하겠다.

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,4.0
3,4.0,3.0,4.0,2.0


In [23]:
df.sort_values(by=3) # 3번 열의 값을 기준으로 정렬하겠다.(오름차순)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,4.0


In [24]:
df.sort_values(by=[3, 2]) # 3번 열을 기준으로 정렬하고나서 2번으로 정렬하겠다.

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,4.0


In [118]:
df1 = pd.DataFrame({"seq" : [1, 3, 2], "name" : ["park", "lee", "choi"], "age" : [30, 20, 40]})
print(df1)
print("-----------------------------------------------------")

# seq를 기준으로 정렬(내림차순) # 컬럼 값을 기준으로 한다면 sort_values임
df1.sort_values(by="seq", ascending=False)

   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
-----------------------------------------------------


Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


In [119]:
# index를 기준으로 정렬
df1.sort_index()

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [120]:
?df.sort_values

In [121]:
df1.sort_index(axis=0)

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [131]:
df1.sort_index(axis=0, ascending=False)

Unnamed: 0,age,name,seq
2,40,choi,2
1,20,lee,3
0,30,park,1


In [122]:
df1.sort_index(axis=1)

Unnamed: 0,age,name,seq
0,30,park,1
1,20,lee,3
2,40,choi,2


In [124]:
df1.sort_index(axis=1, ascending=False)

Unnamed: 0,seq,name,age
0,1,park,30
1,3,lee,20
2,2,choi,40


In [130]:
# inplace
df1 = df1.sort_index(axis=1) # 원본을 적용시키기 위해
df1

df1.sort_values(by=["seq", "name"], axis=0, ascending=False, inplace = True) # inplace = True를 써주면 따로 변수에 담지 않아도 적용
df1

Unnamed: 0,age,name,seq
1,20,lee,3
2,40,choi,2
0,30,park,1


#### (3) 행, 열의 집합 연산

In [141]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(10, size=(4,8)))
print(df)

print("------------------------------------------------")

#전치를 해서 행과 열을 바꾸는 방법도 있다. df.T

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
------------------------------------------------


In [142]:
df.sum() # DataFrame의 기본은 열이라서 열을 기준으로 합계를 쭉 내고 있다. axis = 0 열을 기준(기본값)

0    22
1    22
2    25
3    10
4    18
5    19
6    18
7    13
dtype: int64

In [143]:
df.sum(axis=1) # 축의 기준을 바꿔서 행을 기준으로 하도록 바꿨다. axis = 1 행을 기준

0    42
1    38
2    37
3    30
dtype: int64

In [144]:
df.loc["ColSum", :] = df.sum() # 행에 추가하고 싶은 것을 이렇게 이름과 값을 지정하는 것으로 추가할 수 있다.
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0


In [147]:
df["RowSum"] = df.sum(axis=1) # 열에 추가하는 방법
df

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0,42.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0,38.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0,37.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0,30.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0,147.0


### (4) apply()

- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [151]:
df = pd.DataFrame({
    "A" : [1,3,4,3,4],
    "B" : [2,3,1,2,3],
    "C" : [1,5,2,4,4]
})

df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [158]:
##### 각 열(행)별로 최대값에서 최소값을 뺀 값을 구하고자 한다.

def diff(x):
    return x.max() - x.min()

###########################

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("------------------------------------------------")

print(diff(df.loc[0, :]))
print(diff(df.loc[1, :]))
print(diff(df.loc[2, :]))
print(diff(df.loc[3, :]))
print(diff(df.loc[4, :]))

3
2
4
------------------------------------------------
1
2
3
2
1


In [159]:
df.apply(diff, axis=0) # 반복할 필요 없이 한방에 

A    3
B    2
C    4
dtype: int64

In [160]:
df.apply(diff) # axis = 0과 같쥬

A    3
B    2
C    4
dtype: int64

In [161]:
df.apply(diff, axis=1) # axis의 디폴트 값 = 0

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [162]:
##### 위의 코드를 lambda 함수로 바꿔보세요

In [163]:
lambdadiff = lambda x : x.max() - x.min()

In [164]:
df.apply(lambdadiff, axis=1) # lambda의 변수값을 넣어줘도 괜찮다

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [166]:
df.apply(lambda x : x.max() - x.min(), axis=0) # lambda 함수 자체를 넣어줘도 괜찮다.

A    3
B    2
C    4
dtype: int64

In [174]:
##### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("------------------------------------------------")

df.apply(pd.Series.value_counts, axis=0) # 가장 정석적인 방법 
df.apply(df.value_counts, axis=0) # 셋다 똑같다.(메모리에 데이터가 올라가있는 한)
df.apply(pd.value_counts, axis=0) # 셋다 똑같다.(메모리에 데이터가 올라가있는 한)

3    2
4    2
1    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
5    1
2    1
Name: C, dtype: int64
------------------------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [177]:
df.apply(pd.value_counts, axis=0).fillna(0) # Nan으로 되어 있을 때만 사용가능, 바꾸고자하는 값 입력

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [178]:
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


### (5) 실수값을 카테고리값으로 변경

- 양적 데이터(직접적인 비교 분석 연산이 가능) -> 질적 데이터(숫자로 생겼어도 연산할 수가 없는 데이터, 데이터 변형을 통해 분석 가능)
- cut()
- qcut()

In [179]:
# 1 ~ 15 : 미성년자, 16 ~ 25 : 청년, 26 ~ 35 : 중년, 36 ~ 60 : 장년, 61 ~ 99 : 노년

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

pd.cut(x=ages, bins=[1, 15, 25, 36, 60, 99])

[NaN, (1.0, 15.0], (1.0, 15.0], (15.0, 25.0], (15.0, 25.0], ..., (60.0, 99.0], (15.0, 25.0], (36.0, 60.0], (25.0, 36.0], NaN]
Length: 12
Categories (5, interval[int64, right]): [(1, 15] < (15, 25] < (25, 36] < (36, 60] < (60, 99]]

In [185]:
cat = pd.cut(ages, [1, 15, 25, 36, 60, 99],
            labels = ["미성년자", "청년", "중년", "장년", "노년"])
print(cat)
print(type(cat))
print(cat.categories)
print(cat.codes)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']
<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


#### 2) qcut()

In [190]:
data = np.random.randn(100)
cat1 = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(cat1)

pd.value_counts(cat1)

['Q3', 'Q1', 'Q1', 'Q1', 'Q1', ..., 'Q2', 'Q1', 'Q2', 'Q1', 'Q2']
Length: 100
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']


Q1    25
Q2    25
Q3    25
Q4    25
dtype: int64

In [6]:
# 아래의 결과와 같이 qcut은 수량으로 분리하는 것이 아닌, 값의 크기로 분리함

data = [1, 2, 2, 4]
pd.qcut(data, 2, labels=["a","b"])

['a', 'a', 'a', 'b']
Categories (2, object): ['a' < 'b']

In [1]:
?pd.qcut

Object `pd.qcut` not found.


### 5. Index Manipulation

#### (1) set_index(), reset_index()

In [214]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=["C1", "C2", "C3", "C4"])
df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [218]:
# 내가 원하는 컬럼을 인덱스로 바꿔주는 함수

df1.set_index("C1") 
df1 # 원본은 아직 그대로~
df2 = df1.set_index("C1") 
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [220]:
#df2 = df2.set_index("C2") # 기존의 인덱스는 통째로 날아감
#df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [223]:
#df2.reset_index() # 원래의 인덱스로 돌아가는 함수
df2.reset_index(drop = True) # 리셋효과로 돌아올 예정이던 컬럼을 그냥 삭제하는 함수

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


### (2) 다중 인덱스

In [225]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=[["A", "A", "B", "B"], ["C1", "C2", "C1", "C2"]])
df1.columns.names = ["Cidx1", "Cidx2"]
df1

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [232]:
##### 인덱싱 # 다중컬럼의 경우 튜플로 묶어서 접근하면 된다

df1[("A","C1")]
df1[("B","C1")]

df1[("B", "C1")][0]
df1[("B", "C1")][0:2]


0    1.0
1    0.0
Name: (B, C1), dtype: object

In [240]:
print("--------------------------------")
print(df1.loc[0, ("B", "C1")])
print("--------------------------------")
print(df1.loc[0:3, ("B", "C1")])
print("--------------------------------")
print(df1.iloc[0:3, 2]) # iloc로 할때 맨위의 A, B의 위치는 신경쓰지말고, c1 c2 c3 c4의 인덱스위치 0123만 생각해서 입력하면 된다.

--------------------------------
1.0
--------------------------------
0    1.0
1    0.0
2    1.0
3    1.0
Name: (B, C1), dtype: object
--------------------------------
0    1.0
1    0.0
2    1.0
Name: (B, C1), dtype: object


In [242]:
###### 다중 컬럼과 다중 인덱스를 갖는 테이블

df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_1", "id_2", "id_3", "id_1", "id_2", "id_3"]])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,A,B,B
Unnamed: 0_level_1,Unnamed: 1_level_1,C,D,C,D
M,id_1,0.68,0.36,0.44,0.7
M,id_2,0.06,0.67,0.67,0.21
M,id_3,0.13,0.32,0.36,0.57
F,id_1,0.44,0.99,0.1,0.21
F,id_2,0.16,0.65,0.25,0.47
F,id_3,0.24,0.16,0.11,0.66


In [17]:
df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_" + str(i+1) for i in range(3)]*2])
df2.columns.names = ["Cidx1", "Cidx2"]
df2.index.names = ["Ridx1", "Ridx2"]
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.77,0.77,0.26,0.75
M,id_2,0.17,0.23,0.6,0.73
M,id_3,0.48,0.74,0.76,0.46
F,id_1,0.11,0.16,0.52,0.32
F,id_2,0.7,0.61,0.9,0.73
F,id_3,0.81,0.87,0.63,0.62


In [245]:
# 첫번째 행, 첫번째 열의 값 추출 : 0.55

In [252]:
print(df2[("A", "C")][0])
print(df2[("A", "C")]["M", "id_1"])

0.09
0.09


In [256]:
print(df2.loc[("M", "id_1"), ("A", "C")])
print(df2.loc["M", "id_1"]["A", "C"])
print(df2.loc["M"]["A"]["C"][0])

0.09
0.09
0.09


In [255]:
print(df2.iloc[(0), (0)])
print(df2.iloc[0, 0])

0.09
0.09


In [262]:
# 행 인덱스와 열 인덱스 교환 # T 안돼냐? T는 통째로(모든 인덱스) 다 바꿔서 ㄴㄴ
# 개별적으로 각각 바꾸는 방식

# stack() : 열을 행으로
# unstack() : 행을 열로

print(df2)
print("---------------------------------------")
print("---------------------------------------")
print(df2.T)
print("---------------------------------------")
print("---------------------------------------")
print(df2.stack("Cidx1"))
print(df2.stack(1))

print("---------------------------------------")
print("---------------------------------------")
print(df2.unstack("Ridx1"))
print("---------------------------------------")
print("---------------------------------------")
print(df2.unstack(1))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.09  0.58  0.93  0.32
      id_2   0.67  0.13  0.72  0.29
      id_3   0.18  0.59  0.02  0.83
F     id_1   0.00  0.68  0.27  0.74
      id_2   0.96  0.25  0.58  0.59
      id_3   0.57  0.22  0.95  0.45
---------------------------------------
---------------------------------------
Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.09  0.67  0.18  0.00  0.96  0.57
      D      0.58  0.13  0.59  0.68  0.25  0.22
B     C      0.93  0.72  0.02  0.27  0.58  0.95
      D      0.32  0.29  0.83  0.74  0.59  0.45
---------------------------------------
---------------------------------------
Cidx2                 C     D
Ridx1 Ridx2 Cidx1            
M     id_1  A      0.09  0.58
            B      0.93  0.32
      id_2  A      0.67  0.13
            B      0.72  0.29


In [7]:
df2 = pd.DataFrame(np.random.rand(6,4).round(2),
                  columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index = [["M", "M", "M", "F", "F", "F"], 
                           ["id_" + str(i+1) for i in range(3)]*2])
df2.columns.names = ["Cidx1", "Cidx2"]
df2.index.names = ["Ridx1", "Ridx2"]
df2

print(df2)
print("-----------------------------------------------")



Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.83  0.35  0.36  0.84
      id_2   0.14  0.42  0.44  0.17
      id_3   0.50  0.97  0.47  0.06
F     id_1   0.06  0.40  0.00  0.20
      id_2   0.38  0.29  0.19  0.58
      id_3   0.75  0.66  0.30  0.32
-----------------------------------------------


In [14]:
# 1. 첫번째 열에 있는 0.55 ~ 0.02까지를 출력해보시오(5번째행까지)

print(df2.iloc[0:5,0])
print(df2.iloc[0:5, 0] )

Ridx1  Ridx2
M      id_1     0.83
       id_2     0.14
       id_3     0.50
F      id_1     0.06
       id_2     0.38
Name: (A, C), dtype: float64
Ridx1  Ridx2
M      id_1     0.83
       id_2     0.14
       id_3     0.50
F      id_1     0.06
       id_2     0.38
Name: (A, C), dtype: float64


In [17]:
# 2. 첫번째 행의 모든 컬럼 출력
print(df2.iloc[0])

Cidx1  Cidx2
A      C        0.83
       D        0.35
B      C        0.36
       D        0.84
Name: (M, id_1), dtype: float64


In [32]:
# 3. 맨 마지막 행에  "ALL"이라는 인덱스를 추가하여 각 열의 합을 출력
# df2.loc["ALL"] = df2[:].sum() # 이렇게 하면 멀티인덱스가 ()로 하나의 각각의 인덱스로 묶여버린다. 필히 확인
df2

df2.loc[("ALL", "ALL"), :] = df2.sum()
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [7]:
##### 순서 교환 : swaplevel(i, j, axis = 0)

In [33]:
df2

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [34]:
df2.swaplevel("Ridx1", "Ridx2")

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,0.53,0.69,0.37,0.04
id_2,M,0.19,0.72,0.25,0.18
id_3,M,0.97,0.47,0.52,0.89
id_1,F,0.17,0.61,0.15,0.36
id_2,F,0.34,0.01,0.04,0.29
id_3,F,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [35]:
df2.swaplevel("Cidx1", "Cidx2", axis = 1) # 세로로된 녀석들을 바꿔주는 거니 axis = 1

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.53,0.69,0.37,0.04
M,id_2,0.19,0.72,0.25,0.18
M,id_3,0.97,0.47,0.52,0.89
F,id_1,0.17,0.61,0.15,0.36
F,id_2,0.34,0.01,0.04,0.29
F,id_3,0.29,0.09,0.79,0.07
ALL,ALL,7.47,7.77,6.36,5.49


In [30]:
##### 정렬 : sort_index(level)

print(df2)
print("=================================================")

# print(df2.sort_index(level = , axis = ))
print(df2.sort_index(level = 0, axis = 0))
print("=================================================")
print(df2.sort_index(level = 1, axis = 0))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.53  0.69  0.37  0.04
      id_2   0.19  0.72  0.25  0.18
      id_3   0.97  0.47  0.52  0.89
F     id_1   0.17  0.61  0.15  0.36
      id_2   0.34  0.01  0.04  0.29
      id_3   0.29  0.09  0.79  0.07
ALL   ALL    2.49  2.59  2.12  1.83
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    2.49  2.59  2.12  1.83
F     id_1   0.17  0.61  0.15  0.36
      id_2   0.34  0.01  0.04  0.29
      id_3   0.29  0.09  0.79  0.07
M     id_1   0.53  0.69  0.37  0.04
      id_2   0.19  0.72  0.25  0.18
      id_3   0.97  0.47  0.52  0.89
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
ALL   ALL    2.49  2.59  2.12  1.83
F     id_1   0.17  0.61  0.15  0.36
M     id_1   0.53  0.69  0.37  0.04
F     id_2   0.34  0.01  0.04  0.29
M     id_2   0.19  0.72  0.2

In [79]:
?df2.sort_index