## pandas에서 제공하는 대표적인 자료 구조

+ Series
+ DataFrame
+ https://pandas.pydata.org

In [1]:
import numpy as np
import pandas as pd

### 1. Series
- 값과 인덱스를 하나로 합친 구조 : 데이터 검색에 특화

In [282]:
s = pd.Series([9904312, 3448737, 2890451, 2466052])
print(s)

0    9904312
1    3448737
2    2890451
3    2466052
dtype: int64


In [283]:
for i in enumerate([9904312, 3448737, 2890451, 2466052]): print(*i)

0 9904312
1 3448737
2 2890451
3 2466052


In [284]:
##### 인덱스를 자유롭게 지정

s = pd.Series([9904312, 3448737, 2890451, 2466052], index=["서울", "부산", "인천", "대구"]) # 하나의 열로서 기능
print(s)

print('---------------------------------------------')

print(s.index)
print(s.values)
print(type(s.values))

print("---------------------------------------------")

s.index.name="도시"
print(s)

print("---------------------------------------------")

s.name = "인구"
print(s)

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
---------------------------------------------
Index(['서울', '부산', '인천', '대구'], dtype='object')
[9904312 3448737 2890451 2466052]
<class 'numpy.ndarray'>
---------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64
---------------------------------------------
도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [285]:
?pd.Series

In [286]:
##### 벡터화 연산
print(s / 1000000)

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [287]:
##### 인덱싱
print(s[1], s["부산"], s["서울"])

print("------------")

print(s[1:3])
print(s["부산":"인천"])

print("------------")

print(s.부산, ",", s.서울)

print("------------")

print(s[(s>250e4) & (s<500e4)])

3448737 3448737 9904312
------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64
------------
3448737 , 9904312
------------
도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64


In [288]:
##### Series와 dict
###### index, values == keys, values

print("서울" in s)
print("대전" in s)

print("-------------")

print(s.items()) # 주소
print(list(s.items()))

print("-------------")

s2 = pd.Series({'서울' : 9904312, "부산" : 3448737, "인천" : 2890451, "대전" : 1490158})
s2.name = "인구"
s2.index.name = "도시"
print(s2)

True
False
-------------
<zip object at 0x00000296E7368440>
[('서울', 9904312), ('부산', 3448737), ('인천', 2890451), ('대구', 2466052)]
-------------
도시
서울    9904312
부산    3448737
인천    2890451
대전    1490158
Name: 인구, dtype: int64


In [289]:
##### 인덱스 기반 연산

print(s)

print("")

print(s2)

print("")

result = s - s2
print(result) # 인덱스가 같은 것끼리 연산, 같은 인덱스가 없으면 NaN(결측치 발생)

print("")

print(s.values - s2.values) # 대전 - 대구

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

도시
서울    9904312
부산    3448737
인천    2890451
대전    1490158
Name: 인구, dtype: int64

도시
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
Name: 인구, dtype: float64

[     0      0      0 975894]


In [290]:
##### 결측치 제거
print(result)
print(result.notnull())
print(result[result.notnull()])

도시
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
Name: 인구, dtype: float64
도시
대구    False
대전    False
부산     True
서울     True
인천     True
Name: 인구, dtype: bool
도시
부산    0.0
서울    0.0
인천    0.0
Name: 인구, dtype: float64


In [291]:
##### 데이터 수정, 삭제, 추가

print(result)
print("-----------------------")
result["부산"] = 1.63 # 수정
print(result)
print("-----------------------")
result["경기"] = 2.45 # 추가
print(result)
print("-----------------------")
del result["서울"]
print(result)         # 삭제

도시
대구    NaN
대전    NaN
부산    0.0
서울    0.0
인천    0.0
Name: 인구, dtype: float64
-----------------------
도시
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
Name: 인구, dtype: float64
-----------------------
도시
대구     NaN
대전     NaN
부산    1.63
서울    0.00
인천    0.00
경기    2.45
Name: 인구, dtype: float64
-----------------------
도시
대구     NaN
대전     NaN
부산    1.63
인천    0.00
경기    2.45
Name: 인구, dtype: float64


### 2. DataFrame

- 여러개의 시리즈Series를 묶어놓은 것

In [292]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [293]:
df = pd.DataFrame(data)
print(df) # 파이썬으로 출력
df # 웹브라우저 형태(인터페이스 사용)로 출력

      2015     2010     2005     2000   지역  2010-2015 증가율
0  9904312  9631482  9762546  9853972  수도권         0.0283
1  3448737  3393191  3512547  3655437  경상권         0.0163
2  2890451  2632035  2517680  2466338  수도권         0.0982
3  2466052  2431774  2456016  2473990  경상권         0.0141


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


#### (1) 컬럼의 순서(위치) 바꾸기

In [294]:
cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
df = pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [71]:
?pd.DataFrame

#### (2) 인덱스 변경

In [295]:
idx = ["서울", "부산", "인천", "대구"]

df = pd.DataFrame(data, columns=cols, index=idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [296]:
print(df.values)
print(df.columns) # column명도 일종의 인덱스
print(df.index)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')
Index(['서울', '부산', '인천', '대구'], dtype='object')


In [297]:
##### 컬럼과 인덱스에 이름 부여

df.index.name = "도시"
df.columns.name = "특성"

df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [298]:
##### 전치
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


#### (3) 인덱싱

In [299]:
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [300]:
##### 열 인덱싱
print(df["지역"])
print(type(df["지역"]))

print("----------------------------")

print(df[['지역', '2005']]) # [[]]
print(type(df[['지역', '2005']]))

print("----------------------------")

print(df[['지역']]) # [[]] 하나의 열이지만 데이터프레임

# 주어진 열 이름이 아닌 기본 숫자로 접근 불가
# print(df[0])
# print(df[["2015":"2005"]]) # 슬라이싱 사용 불가

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object
<class 'pandas.core.series.Series'>
----------------------------
특성   지역     2005
도시              
서울  수도권  9762546
부산  경상권  3512547
인천  수도권  2517680
대구  경상권  2456016
<class 'pandas.core.frame.DataFrame'>
----------------------------
특성   지역
도시     
서울  수도권
부산  경상권
인천  수도권
대구  경상권


In [301]:
##### 행 인덱싱 (반드시 : 으로 슬라이싱)
##### 행은 지정한 이름과 기본값(숫자) 모두 접근 가능

print(df[0:1])

print("")

print(df[0:2])

print("")

print(df[:])

print("")

print(df["서울":"서울"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283


In [302]:
##### 열과 행에 동시에 접근할 때

print(df["2005"]["대구"])

2456016


In [303]:
# 2005 - 2015

print(df[["2015", "2010", "2005"]]["서울":"인천"])

특성     2015     2010     2005
도시                           
서울  9904312  9631482  9762546
부산  3448737  3393191  3512547
인천  2890451  2632035  2517680


#### (4) 추가, 수정, 삭제

In [304]:
# 수정

df["2010-2015 증가율"] = df["2010-2015 증가율"]*100
df

# 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

# 삭제
del df["2005-2010 증가율"]
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,2.83
부산,경상권,3448737,3393191,3512547,3655437,1.63
인천,수도권,2890451,2632035,2517680,2466338,9.82
대구,경상권,2466052,2431774,2456016,2473990,1.41


#### (5) 실습
    - # 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프래임 df를 작성
    - # 2. 모든 학생의 수학 점수를 조회
    - # 3. 모든 학생의 국어와 영어 점수를 조회
    - # 4. 모든 학생의 각 과목 평균점수를 새로운 열(과목 평균)로 추가
    - # 5. 방자의 영어 점수를 80점으로 수정하고 평균 점수도 수정
    - # 6. 춘향의 점수를 데이터 프레임 형식으로 출력
    - # 7. 향단의 점수를 Series로 출력

In [14]:
data = {
    "국어" : [80, 90, 70, 30], 
    "영어" : [90, 70, 60, 40], 
    "수학" : [90, 60, 80, 70]
}

In [15]:
# 1. 인덱스를 춘향, 몽룡, 향단, 방자로 구성된 데이터 프래임 df를 작성
df = pd.DataFrame(data, index=['춘향', '몽룡', '향단', '방자'])
print(df)

    국어  영어  수학
춘향  80  90  90
몽룡  90  70  60
향단  70  60  80
방자  30  40  70


In [10]:
# 2) 모든 학생의 수학 점수를 조회
print(df[["수학"]])

print("------------")

# 3) 모든 학생의 국어와 영어 점수를 조회
print(df[["국어", "영어"]])

print("------------")

# 4) 모든 학생의 각 과목 평균점수를 새로운 열(과목 평균)로 추가
# df["과목 평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
df["과목 평균"] = (df.sum(axis=1))/3
print(df)

print("------------")

# 5) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 수정하시오.
df['영어']['방자'] = 80
df["과목 평균"] = ((df["국어"] + df["영어"] + df["수학"]) / 3).round(2)
print(df)

print("------------")

# 6) 춘향의 점수를 데이터 프레임 형식으로 출력
dfT = df.T

print(dfT[['춘향']])

print("------------")

# 7) 향단의 점수를 Series로 출력
print(dfT['향단'])

    수학
춘향  90
몽룡  60
향단  80
방자  70
------------
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40
------------
    국어  영어  수학      과목 평균
춘향  80  90  90  86.666667
몽룡  90  70  60  73.333333
향단  70  60  80  70.000000
방자  30  40  70  46.666667
------------
    국어  영어  수학  과목 평균
춘향  80  90  90  86.67
몽룡  90  70  60  73.33
향단  70  60  80  70.00
방자  30  80  70  60.00
------------
          춘향
국어     80.00
영어     90.00
수학     90.00
과목 평균  86.67
------------
국어       70.0
영어       60.0
수학       80.0
과목 평균    70.0
Name: 향단, dtype: float64


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80


In [16]:
df['영어']['방자'] = 80
df["과목 평균"] = ((df.sum(axis=1)) / 3).round(2)
print(df)

df.loc["향단"]

    국어  영어  수학  과목 평균
춘향  80  90  90  86.67
몽룡  90  70  60  73.33
향단  70  60  80  70.00
방자  30  80  70  60.00


국어       70.0
영어       60.0
수학       80.0
과목 평균    70.0
Name: 향단, dtype: float64

In [273]:
# 5) 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 수정하시오.
df['영어']['방자'] = 80
df["과목 평균"]['방자'] = ((df['국어']['방자']+df['수학']['방자']+df['영어']['방자'])/3).round(2)
print(df)

    국어  영어  수학  과목 평균
춘향  80  90  90  86.67
몽룡  90  70  60  73.33
향단  70  60  80  70.00
방자  30  80  70  60.00


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['영어']['방자'] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목 평균"]['방자'] = ((df['국어']['방자']+df['수학']['방자']+df['영어']['방자'])/3).round(2)


#### (6) 파일 입출력
- read_csv()
- to_csv()
- read_table()

In [116]:
%%writefile data/sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample1.csv


In [117]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [119]:
# 컬럼명을 쓰지 않으면 첫번째 행을 컬럼명으로 만듦

%%writefile data/sample2.csv
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample2.csv


In [120]:
sample2 = pd.read_csv("data/sample2.csv")
sample2

Unnamed: 0,1,1.11,one
0,2,2.22,two
1,3,3.33,three


In [124]:
?pd.read_csv

In [125]:
sample2 = pd.read_csv("data/sample2.csv", names=['c1', 'c2', 'c3'])
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [126]:
sample3 = pd.read_csv("data/sample2.csv", names=['c1', 'c2', 'c3'], index_col='c1')
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [130]:
%%writefile data/sample3.txt
c1    c2    c3    c4
0.23  0.33  0.345 0.238
0.123 0.345 0.567 0.986

Overwriting data/sample3.txt


In [138]:
sample3 = pd.read_table('data/sample3.txt', sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.345,0.238
1,0.123,0.345,0.567,0.986


In [157]:
?pd.read_table

In [160]:
%%writefile data/sample4.txt
파일제목:sample4.txt
데이터설명 : 어쩌구 저쩌구
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting data/sample4.txt


In [162]:
# sample4 = pd.read_table('data/sample4.txt', sep=",", skiprows=[0, 1])
sample4 = pd.read_table('data/sample4.txt', sep=",", skiprows=2)
sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [175]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2, 없음, two
누락, 3.33, three

Overwriting data/sample5.csv


In [179]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", " 없음", "누락"])
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


In [217]:
##### 저장

df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", header=False, index=False)
df

sample5.to_csv('data/sample9.txt', sep=":", na_rep="누락") # na_rep="결측치표현"

#### (7) Indexer

- loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
- iloc : 순서를 나타내는 정수 기반의 인덱서
- at : 하나의 값만 조회
- iat

#### loc

In [1]:
import pandas as pd

In [150]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), columns=["A", "B", "C", "D"],
            index=["a", "b", "c"])

df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [14]:
##### 행에 접근

print(df["b":"b"]) # return type : DataFrame
print(df[:"b"])
print(df[1:2])
print(df[0:1])
print(df[1:3])

print("----------------------")

print(df.loc["b"]) # return type : Series
# print(df.loc[1]) # loc는 숫자 인덱스 사용 불가(라벨 값 기준으로 하기 때문)

    A   B   C   D
b  14  15  16  17
    A   B   C   D
a  10  11  12  13
b  14  15  16  17
    A   B   C   D
b  14  15  16  17
    A   B   C   D
a  10  11  12  13
    A   B   C   D
b  14  15  16  17
c  18  19  20  21
----------------------
A    14
B    15
C    16
D    17
Name: b, dtype: int32


In [21]:
##### 행과 열에 접근

# b행 b열에 있는 하나의 값 조회
print(df['B']["b"])
print(df['B'][1])
# print(df['B', 'b']) # 에러
print("----------------")
print(df.loc["b"]["B"]) # 행 먼저 접근
print(df.loc["b", "B"])
print(df.loc["b":, "B":]) # 기본 인덱서로는 슬라이싱 안 되는데 이건 됨
print(df.loc[["a", "c"], ["B", "C"]])

15
15
----------------
15
15
    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20


In [175]:
# A열에 있는 값이 15보다 큰 행만 조회
print(df[df['A'][:]>15])
print(df.loc[df.loc[:]["A"]>15])
print(df.loc[df["A"]>15])
df["A"]>15
df['A'][:]>15

    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21
    A   B   C   D
c  18  19  20  21


a    False
b    False
c     True
Name: A, dtype: bool

In [70]:
# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컬럼을 조회
print(df[df.loc['a'] <= 11])


  print(df[df.loc['a'] <= 11])


IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match).

In [218]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4), columns=["A", "B", "C", "D"],
            index=["a", "b", "c"])
df = df.T
print(df)

(df[df['a']<=11]).T

    a   b   c
A  10  14  18
B  11  15  19
C  12  16  20
D  13  17  21


Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


#### iloc

In [30]:
print(df["A"]["a"])
# print(df[0][0])

print("-----------")

print(df.loc["a", "A"])
# print(df.loc[0, 0]) # 행은 가능하나 열이 불가

print("-----------")

print(df.iloc[0, 0])

10
-----------
10
-----------
10


#### at, iat

In [45]:
%timeit df.loc["a","A"]
%timeit df.at["a","A"]

10.9 µs ± 494 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
3.98 µs ± 211 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


### 3. Data Manipulation

#### (1) 데이터의 개수 세기

In [62]:
##### Series

s = pd.Series(range(10))
s

print(len(s))
print(s.count())

s[3] = np.nan

s
print(s.count())

10
10
9


In [75]:
##### DataFrame
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 5)))
df

df.count() # 열별로 값 세줌

df.iloc[2,3] = np.nan
df

df.count()
df

Unnamed: 0,0,1,2,3,4
0,0,0,3,2.0,3
1,0,2,1,3.0,2
2,4,4,4,,4
3,2,3,3,2.0,1


In [79]:
##### 카테고리별로 개수 세기

np.random.seed(2)

s2 = pd.Series(np.random.randint(6, size=100))
s2

print(s2.value_counts())
df.value_counts()

2    22
0    18
3    16
5    15
4    15
1    14
dtype: int64


0  1  2  3    4
0  0  3  2.0  3    1
   2  1  3.0  2    1
2  3  3  2.0  1    1
dtype: int64

#### (2) 정렬

- sort_index()
- sort_values()

In [92]:
##### Series
np.random.seed(2)
s = pd.Series(np.random.randint(6, size=100))

print(s.value_counts().sort_index())
print("-------------------------------")
print(s.value_counts().sort_values())
print("-------------------------------")
print(s.sort_values())

0    18
1    14
2    22
3    16
4    15
5    15
dtype: int64
-------------------------------
1    14
5    15
4    15
3    16
0    18
2    22
dtype: int64
-------------------------------
0     0
93    0
92    0
88    0
74    0
     ..
10    5
98    5
68    5
86    5
49    5
Length: 100, dtype: int32


In [97]:
np.random.seed(3)
s = pd.Series(np.random.randint(6, size=10))

print(s.value_counts().sort_index())
print("-------------------------------")
print(s.value_counts().sort_values())
print("-------------------------------")
print(s.sort_values())
s

0    4
1    1
2    1
3    2
5    2
dtype: int64
-------------------------------
2    1
1    1
3    2
5    2
0    4
dtype: int64
-------------------------------
1    0
4    0
5    0
6    0
2    1
0    2
3    3
9    3
7    5
8    5
dtype: int32


0    2
1    0
2    1
3    3
4    0
5    0
6    0
7    5
8    5
9    3
dtype: int32

In [140]:
##### DataFrame

np.random.seed(2)

df = pd.DataFrame(np.random.randint(5, size=(4, 4)))
print(df)
                  
print("--------------------------")

df.sort_values(by=3)
print(df)
# df.sort_values(by=[2, 4])
df # 달라지는 게 없는데...

print("--------------------------")

df1 = pd.DataFrame({"seq":[1, 3, 2], "name":["park", "lee", "choi"], "age":[30, 20, 40]})
print(df1)

# seq를 기준으로 정렬(내림차순)
# df1.sort_values(by='seq', ascending=False, axis=1) 
## seq를 기준으로 했는데 행을 기준으로 하라고 하니까 오류

df1.sort_values(by='seq', ascending=False, axis=0)

# index 기준으로 정렬
df1.sort_index()
df1.sort_index(axis=0) # index로 정렬
df1.sort_index(axis=1) # column으로 정렬(알파벳 순인가봄)
# df1.sort_index(axis=1, ascending=False)
df1.sort_values(by="seq", ascending=False, inplace=True)
df1

   0  1  2  3
0  0  0  3  2
1  3  0  2  1
2  3  2  4  4
3  4  3  4  2
--------------------------
   0  1  2  3
0  0  0  3  2
1  3  0  2  1
2  3  2  4  4
3  4  3  4  2
--------------------------
   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40


Unnamed: 0,seq,name,age
1,3,lee,20
2,2,choi,40
0,1,park,30


In [141]:
?df.sort_values

In [137]:
?df.sort_index

#### (3) 행, 열의 집계 연산(합계, 평균, ...)

In [148]:
np.random.seed(2)

df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
print(df)

print("---------------------------")

df.sum()
df.sum(axis=0) # 열을 기준으로 합
df.sum(axis=1) # 행을 기준으로 합
df.loc['ColSum', :] = df.sum() # 행 하나 추가(모든 열에 대해)
df['RowSum'] = df.sum(axis=1)
df

   0  1  2  3  4  5  6  7
0  8  8  6  2  8  7  2  1
1  5  4  4  5  7  3  6  4
2  3  7  6  1  3  5  8  4
3  6  3  9  2  0  4  2  4
---------------------------


Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,8.0,8.0,6.0,2.0,8.0,7.0,2.0,1.0,42.0
1,5.0,4.0,4.0,5.0,7.0,3.0,6.0,4.0,38.0
2,3.0,7.0,6.0,1.0,3.0,5.0,8.0,4.0,37.0
3,6.0,3.0,9.0,2.0,0.0,4.0,2.0,4.0,30.0
ColSum,22.0,22.0,25.0,10.0,18.0,19.0,18.0,13.0,147.0


#### (4) apply()
- 행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용
- 인수로 행 또는 열을 받는 함수를 apply()의 인자로 넣으면 각 열(또는 행)을 반복하여 그 함수에 적용
- map과 유사하나 2차원

In [154]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]
})
df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [157]:
def diff(x):
    return x.max() - x.min()

##################################

print(diff(df["A"]))
print(diff(df["B"]))
print(diff(df["C"]))

print("----------------------------")

df.apply(diff, axis=0)
df.apply(diff, axis=1)

3
2
4
----------------------------


0    1
1    2
2    3
3    2
4    1
dtype: int64

In [159]:
# lambda 함수

df.apply((lambda x: x.max() - x.min()), axis=0)

A    3
B    2
C    4
dtype: int64

In [165]:
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("-----------------------")

df.apply(pd.value_counts, axis=0) # 1~5까지 각각의 컬럼에 얼마나 나오는지

3    2
4    2
1    1
Name: A, dtype: int64
2    2
3    2
1    1
Name: B, dtype: int64
4    2
1    1
5    1
2    1
Name: C, dtype: int64
-----------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


#### (5) 숫자값을 카테고리로 변경(양적 데이터 -> 질적 데이터)
- cut()
- qcut()

In [190]:
# 1~15 : 미성년자
# 16 ~ 25 : 청년
# 26 ~ 35 : 중년
# 35 ~ 60 : 장년
# 61 ~ 99 : 노년
# 100살은...?

ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99], labels=["미성년자", "청년", "중년", "장년", "노년"]) 
# 마지막 범위만 주면 그 다음부터 범주값 시작

cat

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']

In [192]:
print(type(cat))
print(cat.categories)
print(cat.codes) # 이상치는 -1로

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [195]:
##### qcut

data = np.random.randn(100)

cat = pd.qcut(data, 4, labels=["Q1","Q2","Q3","Q4"])
print(data)
print("")
print(cat)
print("")
print(pd.value_counts(cat))

[ 1.63239402 -1.01619828  0.29478797 -0.23658228  1.97880604 -1.11824832
  0.82761505 -1.50489458 -0.06858675  0.59853597 -0.35023918 -1.37476753
  0.40300417 -2.9323061  -0.58931466  0.03314237 -0.18274278 -1.23209794
  0.96794689  0.72519386  0.01540653  1.53637132 -0.11340278  0.30808058
  1.66497007 -0.12429483 -0.25753013  1.07732661 -0.18521742  1.165137
  0.2938375  -0.72179037 -0.89103186 -0.64555715  0.68986885 -0.18087457
  0.80878839  0.13639302  0.01144263  1.90261117 -1.51672292  0.03283329
  1.02398188  0.17233818  0.90467554  0.46929931 -0.26021229  0.2230897
 -1.14349196 -0.6016427   0.3124402   0.39265445  0.87414269 -1.90906996
  0.46970571  0.43018817  0.66538996 -0.84862911 -0.15564226 -0.94180036
  0.38720095 -0.28394322  0.97557339  1.0061689  -0.71352523  1.13765608
  0.60455917 -1.29860708  0.66953579 -0.1310936  -1.25054639  1.57510078
 -0.3420158   1.01886728  0.52118032 -0.59525288 -1.69188736 -0.19549318
  0.76777205 -0.67122674 -0.46446161  0.3206774  -0.13

In [193]:
?pd.qcut

In [196]:
?np.random.randn

### 4. Index Manipulation

##### (1) set_index(), reset_index()

In [201]:
np.random.seed(0)

data = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T, columns=["C1", "C2", "C3", "C4"])
data

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [202]:
data2 = data.set_index("C1") # 기존 컬럼을 인덱스로 바꿀 때 사용
data2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [211]:
data2.set_index("C2") #원본이 바뀐 것 아님
data2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [210]:
data2.reset_index("C1") # 원본이 바뀐 거 아님

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [213]:
data2.reset_index(drop=True) # 기존에 인덱스가 됐던 C1을 아예 삭제

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


#### (2) 다중 인덱스 조작

In [236]:
##### 다중 컬럼

df = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T, 
                    columns=[["A", "A", "B", "B"],["C1", "C2", "C1", "C2"]])
df.columns.names = ["Cidx1", "Cidx2"]
df

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,0.0,0.0
1,B,1.0,1.0,1.0
2,C,1.0,1.0,1.0
3,D,0.0,0.0,1.0
4,E,1.0,1.0,1.0


In [249]:
##### 인덱싱

df['B']['C2']
df["A", "C2"]
df[("A", "C2")]

df["A","C2"][1:]

print("-------")

df.loc[1]["A", "C2"]
df.loc[2:]["A", "C2"]
df.loc[2:, ("A", "C2")]

df.iloc[1][1]
df.iloc[2:, 1]

-------


2    1.0
3    0.0
4    1.0
Name: (A, C2), dtype: object

In [255]:
##### 다중 컬럼과 다중 인덱스
np.random.seed(0)

df = pd.DataFrame(np.round(np.random.rand(6, 4), 2),
                 columns=[['A', 'A', 'B', 'B'], ['C', 'D', 'C', 'D']],
                 index=[['M', 'M', 'M', 'F', 'F', 'F'], ["id_"+str(i+1) for i in range(3)]*2])
df

df.columns.names = ["Cidx1", "Cidx2"]
df.index.names = ["Ridx1", "Ridx2"]

df

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [275]:
"""
loc
___
Ridx2
id_1    0.55
"""

print(df.loc['M']['A']['C'][:1])

print("---------------------")

"""
기본 인덱스
___
0.55
"""

print(df['A','C']['M', 'id_1'])
# print(df[('A', 'C')][0]) # 행은 기본 인덱싱에서 숫자로 접근 가능

print("---------------------")

"""
iloc
---
0.55
"""

print(df.iloc[0][0])

print("---------------------")

"""
iloc
---
Ridx1    Ridx2
M        id_1    0.55
"""
print(df.iloc[:1])
print(df.iloc[:1, 0])
print(df.iloc[:4, 1:3])

Ridx2
id_1    0.55
Name: C, dtype: float64
---------------------
0.55
---------------------
0.55
---------------------
Cidx1           A          B      
Cidx2           C     D    C     D
Ridx1 Ridx2                       
M     id_1   0.55  0.72  0.6  0.54
Ridx1  Ridx2
M      id_1     0.55
Name: (A, C), dtype: float64
Cidx1           A     B
Cidx2           D     C
Ridx1 Ridx2            
M     id_1   0.72  0.60
      id_2   0.65  0.44
      id_3   0.38  0.79
F     id_1   0.93  0.07


In [280]:
##### 행 인덱스와 열 인덱스를 교환(위치 바꾸기) : stack() - 열을 행으로, unstack() - 행을 열로

print(df.T)
print("-------------------------------------------")

# df.stack("Cidx1")
# df.stack(0)
df.stack(1)

print("-------------------------------------------")

# df.unstack("Ridx1")
df.unstack("Ridx2")

Ridx1           M                 F            
Ridx2        id_1  id_2  id_3  id_1  id_2  id_3
Cidx1 Cidx2                                    
A     C      0.55  0.42  0.96  0.57  0.02  0.98
      D      0.72  0.65  0.38  0.93  0.83  0.80
B     C      0.60  0.44  0.79  0.07  0.78  0.46
      D      0.54  0.89  0.53  0.09  0.87  0.78
-------------------------------------------
-------------------------------------------


Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.57,0.02,0.98,0.93,0.83,0.8,0.07,0.78,0.46,0.09,0.87,0.78
M,0.55,0.42,0.96,0.72,0.65,0.38,0.6,0.44,0.79,0.54,0.89,0.53


In [281]:
##### 순서 교환 : swaplevel()

df.swaplevel("Ridx1", "Ridx2", axis=0) # 행이지만 바꾸는 방향이 좌우이므로 axis = 0
print(df)
df.swaplevel("Cidx1", "Cidx2", axis=1) # 열이지만 바꾸는 방향이 상하이므로 axis = 1

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78


Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.55,0.72,0.6,0.54
M,id_2,0.42,0.65,0.44,0.89
M,id_3,0.96,0.38,0.79,0.53
F,id_1,0.57,0.93,0.07,0.09
F,id_2,0.02,0.83,0.78,0.87
F,id_3,0.98,0.8,0.46,0.78


In [288]:
##### 정렬 : sort_index(level)

print(df)
print("-------------------------------------")

print(df.sort_index(level=0, axis=0))
print("-------------------------------------")

print(df.sort_index(level=1, axis=0))
print("-------------------------------------")

print(df.sort_index(level=1, axis=1))

Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
-------------------------------------
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.57  0.93  0.07  0.09
      id_2   0.02  0.83  0.78  0.87
      id_3   0.98  0.80  0.46  0.78
M     id_1   0.55  0.72  0.60  0.54
      id_2   0.42  0.65  0.44  0.89
      id_3   0.96  0.38  0.79  0.53
-------------------------------------
Cidx1           A           B      
Cidx2           C     D     C     D
Ridx1 Ridx2                        
F     id_1   0.57  0.93  0.07  0.09
M     id_1   0.55  0.72  0.60  0.54
F     id_2   0.02  0.83  0.78  0.87
M     id_2   0.42  0.65  0.44  0.89
F     id_3   0.98  0.80 

#### 실습 문제

In [291]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1


Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [306]:
#1. 1차 행 인덱스로 "반"을, 2차 행 인덱스로 "번호"를 가지는 데이터 프레임 작성
df = df_score1.set_index(["반", "번호"])
print(df)

#2. 위의 데이터를 인덱스로 정렬
df = df.sort_index(level=0)
print(df)

#3. 학생의 평균을 나타내는 행을 오른쪽에 추가
df["평균"] = df.sum(axis=1) / 3
print(df)

#4. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을, 2차 열 인덱스로 "반"을 가지는 
# 데이터프레임 작성
df = df.unstack("반")
print(df)

#5. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가
df.loc["평균"] = df.sum(axis=0) / 5
df

      국어  영어  수학
반 번호            
A 1   79  55  57
  2   67  77  45
B 1   88  44  76
A 3   68  67  68
B 2   92  86  89
  3   54  45  67
  4   67  78  99
A 4   88  58  78
B 5   97  90  89
A 5   85  67  90
      국어  영어  수학
반 번호            
A 1   79  55  57
  2   67  77  45
  3   68  67  68
  4   88  58  78
  5   85  67  90
B 1   88  44  76
  2   92  86  89
  3   54  45  67
  4   67  78  99
  5   97  90  89
      국어  영어  수학         평균
반 번호                       
A 1   79  55  57  63.666667
  2   67  77  45  63.000000
  3   68  67  68  67.666667
  4   88  58  78  74.666667
  5   85  67  90  80.666667
B 1   88  44  76  69.333333
  2   92  86  89  89.000000
  3   54  45  67  55.333333
  4   67  78  99  81.333333
  5   97  90  89  92.000000
    국어      영어      수학             평균           
반    A   B   A   B   A   B          A          B
번호                                              
1   79  88  55  44  57  76  63.666667  69.333333
2   67  92  77  86  45  89  63.000000  89.000000
3   68  54 

Unnamed: 0_level_0,국어,국어,영어,영어,수학,수학,평균,평균
반,A,B,A,B,A,B,A,B
번호,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
1,79.0,88.0,55.0,44.0,57.0,76.0,63.666667,69.333333
2,67.0,92.0,77.0,86.0,45.0,89.0,63.0,89.0
3,68.0,54.0,67.0,45.0,68.0,67.0,67.666667,55.333333
4,88.0,67.0,58.0,78.0,78.0,99.0,74.666667,81.333333
5,85.0,97.0,67.0,90.0,90.0,89.0,80.666667,92.0
평균,77.4,79.6,64.8,68.6,67.6,84.0,69.933333,77.4
