## PANDAS에서 제공하는 대표적인 자료구조

+ Series

+ DataFrame

+ https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

### 1. Series

+ 값 과 index를 하나로 합친 구조

In [3]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
print(s)
print(type(s))

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [4]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448737)
(2, 2890451)
(3, 2466052)


In [9]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"])
print(s)

print("--------------------------------------------")

print(s.values, type(s.values))
print(s.index)

print("--------------------------------------------")

# 인덱스에 이름 지정
s.index.name = "도시"
print(s)

print("--------------------------------------------")

# Series 전체에 이름 지정
s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------
[9904312 3448737 2890451 2466052] <class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')
--------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
--------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [10]:
##### 벡터화 연산

s1 = s / 1000000
print(s1)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [18]:
##### 인덱싱

print(s[1], s["부산"])

print("-------------------------------------------")

print(s[1:3])
print(s["부산":"대구"])

print("-------------------------------------------")

print(s[[0, 3, 1]])
print(s[["서울", "대구", "부산"]])

print("-------------------------------------------")

print(s[(s>250e4) & (s<500e4)])

print("-------------------------------------------")

print(s.부산, ", ", s.서울)

3448737 3448737
-------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
-------------------------------------------
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64
-------------------------------------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
-------------------------------------------
3448737 ,  9904312


In [36]:
##### Series와 dict

print("서울" in s)
print("대전" in s)

print("-------------------------------------------")

print(list(s.items()))

print("-------------------------------------------")

s2 = pd.Series({"서울":9631482, "부산":3448737, "인천":2632035, "대전":1490158})
print(s2)

True
False
-------------------------------------------
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
-------------------------------------------
서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [31]:
##### 인덱스 기반 연산

print(s)
print("--------------------------")
print(s2)
print("--------------------------")

result = s - s2
print(result)

print("--------------------------")

print(s.values - s2.values)

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64
--------------------------
서울    9904312
부산    3448737
인천    2890451
대전    1490158
dtype: int64
--------------------------
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
--------------------------
[     0      0      0 975894]


In [38]:
##### 결측치 제거

print(result)
print(result.notnull())
print(result[result.notnull()])

print("-------------------------------------------------")

# s와 s2 데이터를 이용해서 인구 증가율 : (끝 연도 - 시작 연도) / 시작 연도 * 100
result2 = (s2 - s) / s * 100
print(result2)

result2 = result2[result2.notnull()]
print(result2)

대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산    0.0
서울    0.0
인천    0.0
dtype: float64
-------------------------------------------------
대구         NaN
대전         NaN
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64
부산    0.000000
서울   -2.754659
인천   -8.940335
dtype: float64


In [42]:
##### 데이터를 수정, 삭제, 갱신

result2["부산"] = 1.63     # 수정
print(result2)

result2["대구"] = 1.41     # 갱신
print(result2)

del result2["서울"]        # 삭제
print(result2)

부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64
부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### 2. DataFrame

+ 여러 개의 Series를 묶어놓은 형태

In [43]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [45]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [47]:
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


#### (1) 컬럼의 순서(위치) 바꾸기

In [51]:
# ?pd.DataFrame

cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]

df = pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


#### (2) 인덱스 변경

In [52]:
idx = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data, columns=cols, index=idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [53]:
print(df.values)
print(df.columns)
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [54]:
##### 컬럼과 인덱스에 이름 지정

df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [55]:
##### 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### (3) 인덱싱

In [65]:
##### 열 인덱싱

print(df)
print("--------------------------------------------------------------------------")

print(df["지역"])
print(type(df["지역"]))

print("--------------------------------------------------")

print(df[["지역"]])
print(type(df[["지역"]]))

print("--------------------------------------------------")

print(df[["2015", "2010"]])

# df[0]
# df[["2015" : "2010"]]

SyntaxError: invalid syntax (<ipython-input-65-ffa0c63ddb03>, line 19)

In [73]:
##### 행 인덱싱 (반드시 : 으로 슬라이싱)

print(df[:])
print("--------------------------------------------------")
print(df[:1])
print("--------------------------------------------------")
print(df[1:3])
print("--------------------------------------------------")
print(df["서울":"부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141
--------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
--------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
--------------------------------------------------
특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                   

In [78]:
##### 동시에 행과 열에 접근

print(df["2005"]["서울"])
# print(df["2005", "서울"])

print("----------------------------------------------")

# 2005년도와 2010년도의 서울 인구 조회
df[["2005", "2010"]][:"서울"]

9762546
----------------------------------------------


특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


#### (4) 열 데이터 갱신, 추가, 삭제

In [81]:
# 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

# 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

# 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


#### (5) 실습

In [11]:
data = {
    "국어" : [80, 90, 70, 30], 
    "영어" : [90, 70, 60, 40], 
    "수학" : [90, 60, 80, 70]
}

In [12]:
##### 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프레임 df를 작성
df = pd.DataFrame(data, index=["춘향", "몽룡", "향단", "방자"])
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽룡,90,70,60
향단,70,60,80
방자,30,40,70


In [None]:
##### 2. 모든 학생의 수학 점수를 조회
df["수학"]

In [5]:
##### 3. 모든 학생의 국어와 영어 점수를 조회
df[["국어", "영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽룡,90,70
향단,70,60
방자,30,40


In [13]:
##### 4. 모든 학생의 각 과목평균점수를 새로운 열(과목평균)로 추가하시오
df["과목평균"] = (df[:].mean(axis=1)).round(2)
df

Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.67


In [16]:
##### 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오
df["영어"]["방자"] = 80
df["과목평균"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목평균"]["방자"] = (df[["국어", "영어", "수학"]]["방자":"방자"].mean(axis=1)).round(2)


Unnamed: 0,국어,영어,수학,과목평균
춘향,80,90,90,86.67
몽룡,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [18]:
##### 6. 춘향의 점수를 데이터 프레임 형식으로 출력하시오.
print(df[0:1])
print(df["춘향":"춘향"])

    국어  영어  수학   과목평균
춘향  80  90  90  86.67
    국어  영어  수학   과목평균
춘향  80  90  90  86.67


In [21]:
##### 7. 향단의 점수를 Series로 출력하시오.

df2 = df.T
df2
df2["향단"]

국어      70.0
영어      60.0
수학      80.0
과목평균    70.0
Name: 향단, dtype: float64

#### (6) 파일 입출력

+ read_csv()
+ to_csv()
+ read_table()

In [84]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [85]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [86]:
%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [88]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [89]:
# 특정한 열을 인덱스로 지정

sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [90]:
%%writefile data/sample3.txt
c1     c2     c3       c4
0.23   0.33   0.354    0.2389
0.123  0.345  0.567    0.986

Overwriting data/sample3.txt


In [92]:
sample3 = pd.read_table("data/sample3.txt", sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.354,0.2389
1,0.123,0.345,0.567,0.986


In [93]:
%%writefile data/sample4.txt
파일제목 : sample4.txt
데이터포맷의 설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample4.txt


In [97]:
# sample4 = pd.read_table("data/sample4.txt", skiprows=[0, 1], sep=",")
sample4 = pd.read_table("data/sample4.txt", skiprows=2, sep=",")
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [98]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2, , two
누락, 3.33, three

Overwriting data/sample5.csv


In [99]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [106]:
##### 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", index=False, header=False)
sample5.to_csv("data/sample9.txt", sep=":", na_rep="누락")

#### (7) Indexer

+ loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc : 순서를 나타내는 정수 기반의 인덱서
+ ix
+ at
+ iat

---
+ loc

In [23]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), index=["a", "b", "c"],
                 columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [27]:
##### 행에 접근

print(df[:1])
print(df[:"a"])

print("-------------------------------------")

print(df.loc["a"])

print("-------------------------------------")

print(df.loc[df["A"] > 15])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13
-------------------------------------
A    10
B    11
C    12
D    13
Name: a, dtype: int32
-------------------------------------
    A   B   C   D
c  18  19  20  21


In [33]:
##### 행과 열에 접근

# b행 B열에 있는 하나의 값을 추출
print(df["B"]["b"])
# print(df["B", "b"])

print("-----------------------------------")

print(df.loc["b"]["B"])
print(df.loc["b", "B"])

print("-----------------------------------")

print(df.loc["b":, "B":])
print(df.loc[["a", "c"], ["B", "C"]])

print("-----------------------------------")

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 조회
df.loc[:, df.loc["a", :] <= 11]


15
-----------------------------------
15
15
-----------------------------------
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20
-----------------------------------


Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [35]:
# 반드시 레이블로만 접근
# print(df.loc[1:, 1:])

+ iloc

In [56]:
print(df["A"]["a"])
#print(df[0][0])

print("----------------------------------")

#df.loc[0, 0]
print(df.loc["a", "A"])

print("----------------------------------")

print(df.iloc[0, 0])
print(df.iloc[:2, 2])
print(df.iloc[0, -2:])

print("----------------------------------")

"""
    B   C
c   19  20
"""
print(df.iloc[[2], [1, 2]])
print(df.iloc[2:, 1:3])
pd.DataFrame(df.iloc[2, 1:3]).T


10
----------------------------------
10
----------------------------------
10
a    12
b    16
Name: C, dtype: int32
C    12
D    13
Name: a, dtype: int32
----------------------------------
    B   C
c  19  20
    B   C
c  19  20


Unnamed: 0,B,C
c,19,20


+ at

In [59]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]

5.78 µs ± 54.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
2.99 µs ± 82.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


---
### 3. Data Manipulation

#### (1) 데이터의 갯수 세기

In [62]:
##### Series

s = pd.Series(range(10))
s

s[3] = np.nan
s

s.count()

9

In [65]:
##### DataFrame

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df

df.count()

df.iloc[2, 3] = np.nan
df.count()

0    4
1    4
2    4
3    3
dtype: int64

#### (2) 카테고리별로 개수 세기

In [70]:
np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))
s2

s2.value_counts()

df[0].value_counts()
df[1].value_counts()

0.0    2
2.0    1
3.0    1
Name: 1, dtype: int64

#### (3) 정렬

+ sort_index()
+ sort_values()
+ 결측치는 정렬의 대상이 되지 않는다.

In [76]:
##### Series

np.random.seed(1)
s = pd.Series(np.random.randint(6, size=100))

s.value_counts().sort_index()
s.value_counts().sort_values()
s.sort_values()
s.sort_values(ascending=False)

0     5
74    5
23    5
32    5
40    5
     ..
68    0
57    0
77    0
38    0
78    0
Length: 100, dtype: int32

In [99]:
##### DataFrame

np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
print(df)
print("-------------------------------------------------------------")

df.sort_values(by=2)
df.sort_values(by=[1, 2])
print("-------------------------------------------------------------")

df1 = pd.DataFrame({
    "seq":[1, 3, 2], "name":["park", "lee", "choi"], "age":[30, 20, 40]
                   })
print(df1)
print("-------------------------------------------------------------")

# seq를 기준으로 정렬(내림차순)
df1.sort_values(by="seq", ascending=False, axis=0)

# index를 기준으로 정렬
df1.sort_index()
df1.sort_index(axis=0)
df1.sort_index(axis=1, ascending=False)

# inplace
df1.sort_values(by=["seq", "name"], inplace=True)
df1
print("-------------------------------------------------------------")

# 결측치의 위치 선정
df2 = pd.DataFrame({
    "seq":[1, np.nan, 2], "name":["park", "lee", "choi"], "age":[30, 20, 40]
    })
print(df2)
print("-------------------------------------------------------------")

df2.sort_values(by="seq", na_position="first")

     0    1    2    3
0  0.0  0.0  3.0  2.0
1  3.0  0.0  2.0  1.0
2  3.0  2.0  4.0  4.0
3  4.0  3.0  4.0  2.0
-------------------------------------------------------------
-------------------------------------------------------------
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
-------------------------------------------------------------
-------------------------------------------------------------
   seq  name  age
0  1.0  park   30
1  NaN   lee   20
2  2.0  choi   40
-------------------------------------------------------------


Unnamed: 0,seq,name,age
1,,lee,20
0,1.0,park,30
2,2.0,choi,40


#### (4) 행, 열의 집계 연산(합계, 평균, ...)

In [105]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
print(df)
print("----------------------------------------------------------")

df.sum()
df.sum(axis=0)

df.loc["ColSum", :] = df.sum()
df

df["RowSum"] = df.sum(axis=1)
df

   0  1  2  3  4  5  6  7
0  5  8  9  5  0  0  1  7
1  6  9  2  4  5  2  4  2
2  4  7  7  9  1  7  0  6
3  9  9  7  6  9  1  0  1
----------------------------------------------------------


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColSum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


#### (5) apply()

+ 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
+ 인수로 행 또는 열을 받는 함수를 apply()의 인자로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용

In [106]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [109]:
##### 각 열(행)별로 최대값에 최소값을 뺀 값을 구하고자 한다.

def diff(x):
    return x.max() - x.min()

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("------------------------------")

print(df.apply(diff, axis=0))
print(df.apply(diff, axis=1))

3
2
4
------------------------------
A    3
B    2
C    4
dtype: int64
0    1
1    2
2    3
3    2
4    1
dtype: int64


In [110]:
##### 람다 함수
df.apply(lambda x:x.max()-x.min(), axis=0)

A    3
B    2
C    4
dtype: int64

In [112]:
##### 각 열에 대해 어떤 값이 얼마나 사용되었는지 조회

print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("------------------------------------------------")

df.apply(pd.value_counts, axis=0)

3    2
4    2
1    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
2    1
5    1
Name: C, dtype: int64
------------------------------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


#### (6) 실수값을 카테고리로 변경(양적 데이터 -> 질적 데이터)

+ cut()
+ qcut()

In [113]:
# 1~15:미성년자, 16~25:청년, 26~35:중년, 36~60:장년, 61~99:노년

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], 
             labels=["미성년자", "청년", "중년", "장년", "노년"])
print(cat)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']


In [116]:
print(type(cat))
print(cat.categories)
print(cat.codes)

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [121]:
##### qcut

data = np.random.randn(100)

cat1 = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
print(data)
print(cat1)

pd.value_counts(cat1)

[ 0.65458015 -0.05118845 -0.72559712 -0.86776868 -0.13597733 -0.79726979
  0.28267571 -0.82609743  0.6210827   0.9561217  -0.70584051  1.19268607
 -0.23794194  1.15528789  0.43816635  1.12232832 -0.9970198  -0.10679399
  1.45142926 -0.61803685 -2.03720123 -1.94258918 -2.50644065 -2.11416392
 -0.41163916  1.27852808 -0.44222928  0.32352735 -0.10999149  0.00854895
 -0.16819884 -0.17418034  0.4611641  -1.17598267  1.01012718  0.92001793
 -0.19505734  0.80539342 -0.70134443 -0.53722302  0.15626385 -0.19022103
 -0.44873803 -0.67244804 -0.55749472  0.93916874 -1.94332341  0.35249436
 -0.23643695  0.7278135   0.51507361 -2.78253447  0.58464661  0.32427424
  0.02186284 -0.46867382  0.85328122 -0.41302931  1.83471763  0.56438286
  2.13782807 -0.785534   -1.75592564  0.7147896   0.85270406  0.0353601
 -1.53879325 -0.44789518  0.61798553 -0.18417633 -0.11598519 -0.17545897
 -0.93391466 -0.53302033 -1.42655542  1.76795995 -0.47537288  0.47761018
 -1.02188594  0.79452824 -1.87316098  0.92061512 -0.

Q1    25
Q2    25
Q3    25
Q4    25
dtype: int64