## Pandas에서 제공하는 대표적인 자료구조

    1) Series
        -> 값 + index
        
    2) DataFrame(table)
        -> 여러 개의 Series를 묶어놓은 형태
        
    3) https://pandas.pydata.org

In [1]:
import pandas as pd
import numpy as np

### Series(p.58)

In [4]:
s = pd.Series([9904312, 3448738, 2890451, 2466052])
print(s)
print(type(s))

0    9904312
1    3448738
2    2890451
3    2466052
dtype: int64
<class 'pandas.core.series.Series'>


In [5]:
# 자동적으로 인덱스 값을 리스트로 출력해주는 함수: enumerate()
for i in enumerate([9904312, 3448738, 2890451, 2466052]):
    print(i)

(0, 9904312)
(1, 3448738)
(2, 2890451)
(3, 2466052)


In [24]:
# Index 사용자 임의 지정
s = pd.Series([9904312, 3448738, 2890451, 2466052], 
              index=["서울", "부산", "인천", "대구"])
print(s)

print("\n===============================================\n")

print(s.values) # 값만 따로 추출, 타입은 numpy.array 로 출력
a=s.values
print(type(a))

print(s.index) # 인덱스 추출

print("\n===============================================\n")
print("<Index 이름 지정>\n")
s.index.name = "도시" # 인덱스에 변수명 정하기
print(s)

print("\n===============================================\n")
print("<Seires 이름 지정>\n")

s.name = "인구"
print(s)

서울    9904312
부산    3448738
인천    2890451
대구    2466052
dtype: int64


[9904312 3448738 2890451 2466052]
<class 'numpy.ndarray'>
Index(['서울', '부산', '인천', '대구'], dtype='object')


<Index 이름 지정>

도시
서울    9904312
부산    3448738
인천    2890451
대구    2466052
dtype: int64


<Seires 이름 지정>

도시
서울    9904312
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64


In [25]:
# 벡터화 연산

s1 = s/ 1000000 # 인덱스에는 영향이 없음
print(s1)

도시
서울    9.904312
부산    3.448738
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64


In [63]:
# 인덱싱

print(s[1], s["부산"])

print("\n===============================================\n")

print(s[[0, 3, 1]], s[["서울", "대구", "부산"]])

print("\n===============================================\n")
print("<250만 이상, 500만 이하인 도시>\n")

print(s[(s > 25e4) &(s <500e4)])

print("\n===============================================\n")
print("<슬라이싱>\n")

print(s[1:3], "\n")
print(s["부산":"대구"])

print("\n===============================================\n")

print(s.부산,",", s.대구)

3448738 3448738


도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64 도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64


<250만 이상, 500만 이하인 도시>

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64


<슬라이싱>

도시
부산    3448738
인천    2890451
Name: 인구, dtype: int64 

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64


3448738 , 2466052


In [74]:
# Series 와 dict

print("서울" in s)
print("대전" in s)

print("\n===============================================\n")
print("<Tuple로 출력>\n")
print(s.items())
for k, v in s.items():
    print("%s = %d"%(k, v))
    
print("\n===============================================\n")
print("<Dict 형식을 통한 Serise 만들기>\n")

s2 = pd.Series({"서울":9631482, "부산":3448737, 
                "인천":2632035, "대전":1490158 })
print(s2)

True
False


<Tuple로 출력>

<zip object at 0x0000024EFC2C0440>
서울 = 9904312
부산 = 3448738
인천 = 2890451
대구 = 2466052


<Dict 형식을 통한 Serise 만들기>

서울    9631482
부산    3448737
인천    2632035
대전    1490158
dtype: int64


In [118]:
# 결측치 제거

print(ds)
print(ds.notnull()) # 결측치 인지 아닌지 bool 값으로
print(ds[ds.notnull()]) #결측치 제거

print("\n===============================================\n")
print("<인구증가율>\n") # (끝연도 - 시작연도/ 시작연도) * 100

ds2 = (s2 - s)/s * 100
print(ds2, "\n")
ds2 = ds2[ds2.notnull()]
print(ds2)

대구         NaN
대전         NaN
부산   -0.000029
서울   -2.754659
인천   -8.940335
dtype: float64
대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool
부산   -0.000029
서울   -2.754659
인천   -8.940335
dtype: float64


<인구증가율>

대구         NaN
대전         NaN
부산   -0.000029
서울   -2.754659
인천   -8.940335
dtype: float64 

부산   -0.000029
서울   -2.754659
인천   -8.940335
dtype: float64


In [120]:
# 데이터를 수정, 삭제, 갱신


ds2["부산"] = 1.63
print(d2,"\n")

ds2["대구"] = 1.41
print(ds2, "\n")

del ds2["서울"]
print(ds2)

부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64 

부산    1.630000
서울   -2.754659
인천   -8.940335
대구    1.410000
dtype: float64 

부산    1.630000
인천   -8.940335
대구    1.410000
dtype: float64


### DataFrame

In [2]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}

In [3]:
print(type(data))
print(data)

<class 'dict'>
{'2015': [9904312, 3448737, 2890451, 2466052], '2010': [9631482, 3393191, 2632035, 2431774], '2005': [9762546, 3512547, 2517680, 2456016], '2000': [9853972, 3655437, 2466338, 2473990], '지역': ['수도권', '경상권', '수도권', '경상권'], '2010-2015 증가율': [0.0283, 0.0163, 0.0982, 0.0141]}


In [3]:
df = pd.DataFrame(data)
print(type(df))
df

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,2015,2010,2005,2000,지역,2010-2015 증가율
0,9904312,9631482,9762546,9853972,수도권,0.0283
1,3448737,3393191,3512547,3655437,경상권,0.0163
2,2890451,2632035,2517680,2466338,수도권,0.0982
3,2466052,2431774,2456016,2473990,경상권,0.0141


In [14]:
# 컬럼의 위치 변경
cols = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
df = pd.DataFrame(data, columns=cols)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
0,수도권,9904312,9631482,9762546,9853972,0.0283
1,경상권,3448737,3393191,3512547,3655437,0.0163
2,수도권,2890451,2632035,2517680,2466338,0.0982
3,경상권,2466052,2431774,2456016,2473990,0.0141


In [15]:
# 인덱스 변경
idx = ["서울", "부산","인천","대구"]
df = pd.DataFrame(data, columns=cols, index=idx)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [17]:
print(df.values)
print(df.columns)

[['수도권' 9904312 9631482 9762546 9853972 0.0283]
 ['경상권' 3448737 3393191 3512547 3655437 0.0163]
 ['수도권' 2890451 2632035 2517680 2466338 0.0982]
 ['경상권' 2466052 2431774 2456016 2473990 0.0141]]
Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')


In [19]:
df.index.name  = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [20]:
# 전치 가능
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


In [88]:
# 열 인덱싱
print(df)
print("\n===============================================\n")
print(df["지역"])
print(type(df["지역"]))
print("\n===============================================\n")
print(df[["지역"]])
print(type(df[["지역"]]))
print("\n===============================================\n")
df[["2015", "2010"]]
print("\n===============================================\n")
# df[0] # 숫자로 접근 불가능, 열의 슬라이싱 불가, 문자로 이미 지정되어있기 때문


    국어  영어  수학  과목 평균
춘향  80  90  90  86.66
몽령  90  70  60  73.33
향단  70  60  80  70.00
방자  30  80  70  60.00




KeyError: '지역'

In [40]:
# 행 인덱싱(2개 이상 데이터를 추출할 때 반드시 : 으로 슬라이싱)
print(df[:])
print("\n===============================================\n")
print(df[:1])
print("\n===============================================\n")
print(df[1:2])
print("\n===============================================\n")
print(df["서울":"부산"])

특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163
인천  수도권  2890451  2632035  2517680  2466338         0.0982
대구  경상권  2466052  2431774  2456016  2473990         0.0141


특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283


특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
부산  경상권  3448737  3393191  3512547  3655437         0.0163


특성   지역     2015     2010     2005     2000  2010-2015 증가율
도시                                                        
서울  수도권  9904312  9631482  9762546  9853972         0.0283
부산  경상권  3448737  3393191  3512547  3655437         0.0163


In [48]:
# 동시에 행과 열에 접근

df["2005"]["서울"]
print("\n===============================================\n")
#2005년도와 2010년 서울 인구
df[["2005","2010"]][:"서울"] # 2개 이상의 값을 출력하기 위해서는 행에 슬라이싱을 해야함





특성,2005,2010
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9762546,9631482


In [19]:
# 열 데이터 갱신, 추가, 삭제
#df["2010-2015 증가율"] = df["2010-2015 증가율"] *100
#df

df["2005-2010 증가율"] = ((df["2010"]-df["2005"])/df["2005"] *100).round(2)
df

Unnamed: 0,2015,2010,2005,2000,지역,2005-2010 증가율
0,9904312,9631482,9762546,9853972,수도권,-1.34
1,3448737,3393191,3512547,3655437,경상권,-3.4
2,2890451,2632035,2517680,2466338,수도권,4.54
3,2466052,2431774,2456016,2473990,경상권,-0.99


### 실습

In [20]:
data= {
    "국어":[80, 90, 70, 30],
    "영어":[90, 70, 60, 40],
    "수학":[90, 60, 80, 70],
}

In [37]:
# 1. 인덱스를 춘향, 몽령, 향단, 방자로 구성된 데이터 프레임 df를 작성
idx = ["춘향","몽령","향단","방자"]
df = pd.DataFrame(data, index=idx)
df

Unnamed: 0,국어,영어,수학
춘향,80,90,90
몽령,90,70,60
향단,70,60,80
방자,30,40,70


In [40]:
# 2. 모든 학생의 수학 점수를 나타내시오.
df[["수학"]]

Unnamed: 0,수학
춘향,90
몽령,60
향단,80
방자,70


In [39]:
# 3. 모든 학생의 국어와 영어 점수를 나타내시오.
df[["국어","영어"]]

Unnamed: 0,국어,영어
춘향,80,90
몽령,90,70
향단,70,60
방자,30,40


In [63]:
# 4. 모든 학생의 각 과목평균 점수를 새로운 열로 추가하시오.
#df["과목 평균"] = ((df["국어"]+df["영어"]+df["수학"])/3).round(2)
df["과목 평균"] = (df[:].mean(axis=1)).round(2)
df

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.65
몽령,90,70,60,73.33
향단,70,60,80,70.0
방자,30,40,70,46.69


In [84]:
# 5. 방자의 영어점수를 80점으로 수정하고 평균점수도 다시 수정하시오.

df["영어"]["방자"] = 80
df["과목 평균"]["방자"]\
= (df[["국어","영어","수학"]]["방자":"방자"].mean(axis=1)).round(2)
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["과목 평균"]["방자"]\


Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.66
몽령,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [95]:
# 6. 춘향의 점수를 데이터 프레임으로 나타내시오
#df[:"춘향"]
df[:1]

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.66


In [120]:
# 7.향단의 점수를 Series로 나타내시오.
print(df["향단":"향단"])
print("\n===============================================\n")
print(df[2:3])

print("\n===============================================\n")
result = pd.Series([i for i in df["향단":"향단"].values],
                  index=[i for i in df[2:3].index])
print(result)

df2 = df.T
print(df2["향단"])
print(type(df2["향단"]))

print("\n===============================================\n")

print(type(df.loc["향단"]))
df.loc["향단"]

    국어  영어  수학  과목 평균
향단  70  60  80   70.0


    국어  영어  수학  과목 평균
향단  70  60  80   70.0


향단    [70.0, 60.0, 80.0, 70.0]
dtype: object
국어       70.0
영어       60.0
수학       80.0
과목 평균    70.0
Name: 향단, dtype: float64
<class 'pandas.core.series.Series'>


<class 'pandas.core.series.Series'>


국어       70.0
영어       60.0
수학       80.0
과목 평균    70.0
Name: 향단, dtype: float64

### 데이터 입출력

+ read_csv()
+ to_csv()
+ read_table()

In [128]:
%%writefile data/sample1.csv # 매직명령어, 가장 첫줄에 나와야함
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample1.csv


In [131]:
sample1 = pd.read_csv("data/sample1.csv")
sample1

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [132]:
%%writefile data/sample2.csv 
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample2.csv


In [133]:
sample2 = pd.read_csv("data/sample2.csv", names=["c1", "c2", "c3"]) #이름 지정후 불러오기
sample2

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [134]:
# 특정한 열을 인덱스로 지정
sample3 = pd.read_csv("data/sample1.csv", index_col="c1")
sample3

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [135]:
%%writefile data/sample3.txt
c1     c2     c3      c4
0.23   0.33   0.345   0.2389
0.123  0.345  0.567   0.986

Writing data/sample3.txt


In [137]:
sample3 = pd.read_table("data/sample3.txt", sep="\s+")
sample3

Unnamed: 0,c1,c2,c3,c4
0,0.23,0.33,0.345,0.2389
1,0.123,0.345,0.567,0.986


In [140]:
%%writefile data/sample4.txt
파일제목 : samlple4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Writing data/sample4.txt


In [143]:
#sample4 = pd.read_csv("data/sample4.txt", skiprows=[0, 1]) #행을 건너뛰어서 불러오기
sample4 = pd.read_csv("data/sample4.txt", skiprows=2) # skiprow=num or [num, num] : num은 몇 번째 줄 부터, [num, num] 은 지정해서
 :sample4

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [147]:
%%writefile data/sample5.csv
c1, c2, c3
1, 1.11, 
2, , two
누락, 3.33, three

Overwriting data/sample5.csv


In [330]:
sample5 = pd.read_csv("data/sample5.csv", na_values=[" ", "누락"]) # 결측치 표시
print(sample5)
sample5.loc[1:2]

    c1    c2      c3
0  1.0  1.11     NaN
1  2.0   NaN     two
2  NaN  3.33   three


Unnamed: 0,c1,c2,c3
1,2.0,,two
2,,3.33,three


In [157]:
# csv로 저장
df.to_csv("data/sample6.csv")
df.to_csv("data/sample7.txt", sep="|")
df.to_csv("data/sample8.csv", index=False, header=False) # 데이터만 추출하여 저장
sample5.to_csv("data/sample9.txt", sep=":", na_rep="누락")

In [153]:
df

Unnamed: 0,국어,영어,수학,과목 평균
춘향,80,90,90,86.66
몽령,90,70,60,73.33
향단,70,60,80,70.0
방자,30,80,70,60.0


In [155]:
sample5

Unnamed: 0,c1,c2,c3
0,1.0,1.11,
1,2.0,,two
2,,3.33,three


### Indexer
+ loc : 라벨값 기반의 2차원 인덱싱을 지원하는 인덱서
+ iloc : 순서를 나타내는 정수 기반의 인덱서
+ ix
+ at : loc에서 값을 1개만 가져올때(성능향상)
+ iat: 

#### loc

In [165]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=["a","b","c"],
                  columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [182]:
# 첫번째 행 추출
print(df[:1])
print(df[:"a"])

print("\n--------\n")

print(df.loc["a"])

print(type(df.loc["a"]))

print("\n--------\n")

print(df.loc[df.A > 15]) 

print("\n--------\n")

def select_row(df, num): 
    return df.A > num

print(df.loc[select_row(df, 15)])

    A   B   C   D
a  10  11  12  13
    A   B   C   D
a  10  11  12  13

--------

A    10
B    11
C    12
D    13
Name: a, dtype: int32
<class 'pandas.core.series.Series'>

--------

    A   B   C   D
c  18  19  20  21

--------

    A   B   C   D
c  18  19  20  21


In [204]:
# 행과 열을 모두 받을 경우

# a행 A열에 있는 하나의 값 추출
print(df["A"]["a"])
#printdf["A", "a"]

print("\n--------\n")

print(df.loc["a"]["A"])
print(df.loc["a", "A"])

print("\n--------\n")

print(df.loc["b": , "B":])
print(df.loc[["a", "c"], ["B", "C"]])

print("\n--------\n")

# 모든 행에 대해서 첫번째 행에 있는 값이 11보다 작거나 같은 행의 컴럼을 추출
print(df.loc[:, df.loc["a", :] <= 11])

10

--------

10
10

--------

    B   C   D
b  15  16  17
c  19  20  21
    B   C
a  11  12
c  19  20

--------

    A   B
a  10  11
b  14  15
c  18  19


#### iloc

In [231]:
df.iloc[0, 1] # 숫자로만 접근

print(df.iloc[:2, 2])
print("\n--------\n")

print(df.iloc[0, -2:])
print("\n--------\n")

"""

    B  C
c  19 20
"""
print(df.iloc[0, 1:3])

print("\n--------\n")

print(df.iloc[2:, 1:3])

print("\n--------\n")

print(df.iloc[[2], [1, 2]])

a    12
b    16
Name: C, dtype: int32

--------

C    12
D    13
Name: a, dtype: int32

--------

B    11
C    12
Name: a, dtype: int32

--------

    B   C
c  19  20

--------

    B   C
c  19  20


#### at

In [234]:
%timeit df.loc["a", "A"]
%timeit df.at["a", "A"]

18 µs ± 2.35 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)
9.94 µs ± 1.06 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


---
### 데이터 조작

In [256]:
### 데이터 갯수 세기


# Series에서의 갯수 세기
s = pd.Series(range(10))
s.count()


s[3] = np.nan
s.count()

# DataFrame에서의 갯수세기(데이터에 결측치를 찾아 낼때 유용하게 씀)
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.count()

df.iloc[2, 3] = np.nan
df.count()

# titanic 예제
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head()
# titanic.count()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [325]:
### 카테고리별로 갯수 세기: value_counts()

np.random.seed(1)

s2 = pd.Series(np.random.randint(6, size=100))
print(s2.head(10))

s2.value_counts()

# DataFrame
df[0].value_counts()

0    5
1    3
2    4
3    0
4    1
5    3
6    5
7    0
8    0
9    1
dtype: int32


24.0    1
9.0     1
4.0     1
6.0     1
5.0     1
Name: 0, dtype: int64

In [311]:
### 정렬: sort_index(), sort_value()
# 결측치는 정렬의 대상이 되지 않는다.

s2.value_counts().sort_index()
s.sort_values() # 결측치는 제외되고 정렬
s.sort_values(ascending=False)

# Dataframe에서의 정렬

#print(df)
df.sort_values(by=2) # 2번 컬럼을 기준으로 정렬
df.sort_values(by=[1,2])

print("\n--------\n")

personDf = pd.DataFrame({"seq":[1, 3, 2], "name":["park", "lee", "choi"],
                        "age":[30, 20, 40]})
print(personDf)

# seq 기준으로 정렬

personDf.sort_values(by="seq", axis=0, ascending=False) #기본값 axis=0

# index로 정렬
personDf.sort_index()
print(personDf.sort_index(axis=1))
personDf.sort_index(axis=1, ascending=False)

#inplace
pesrsonDf = personDf.sort_index(axis=1)
personDf

# 또는

personDf.sort_values(by=["seq", "name"], axis=0, ascending=False, inplace=True)

print("\n========================\n")

# 결측치 위치 선정

personDf = pd.DataFrame({"seq":[1, 3, np.nan], "name":["park", "lee", "choi"],
                        "age":[30, 20, 40]})

print(personDf)

personDf.sort_values(by="seq", na_position="first") # 기본값은 last


--------

   seq  name  age
0    1  park   30
1    3   lee   20
2    2  choi   40
   age  name  seq
0   30  park    1
1   20   lee    3
2   40  choi    2


   seq  name  age
0  1.0  park   30
1  3.0   lee   20
2  NaN  choi   40


Unnamed: 0,seq,name,age
2,,choi,40
0,1.0,park,30
1,3.0,lee,20


In [323]:
### 행, 열의 합계

np.random.seed(1)

df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
print(df)

print("\n========================\n")

df.sum()
df.sum(axis=0)
df.loc["Colsum", :] = df.sum(axis=0) # 열의 합게
df

# 행의 합계
df.loc[:, "Rowsum"] = df.sum(axis=1)
df

   0  1  2  3  4  5  6  7
0  5  8  9  5  0  0  1  7
1  6  9  2  4  5  2  4  2
2  4  7  7  9  1  7  0  6
3  9  9  7  6  9  1  0  1




Unnamed: 0,0,1,2,3,4,5,6,7,Rowsum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
Colsum,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


### apply

행이나 열 단위로 더 복잡한 처리를 하고자 할 때 사용<br>
인수로 행 또는 열을 받는 함수를 apply()의 인수로 넣으면 각 열(도는 행)을 반복하여 그 함수에 적용

In [2]:
df = pd.DataFrame({
    "A":[1, 3, 4, 3, 4],
    "B":[2, 3, 1, 2, 3],
    "C":[1, 5, 2, 4, 4]
})

df

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [7]:
def diff(x):
    return x.max() - x.min()
########################################

print(df.apply(diff, axis=1))
print(df.apply(diff, axis=0))

0    1
1    2
2    3
3    2
4    1
dtype: int64
A    3
B    2
C    4
dtype: int64


In [8]:
# 람다함수이용
df.apply(lambda x: x.max() - x.min(), axis=0)

A    3
B    2
C    4
dtype: int64

In [13]:
# 각 열에 대한 어떤 값이나 얼마나 사용되었는지 알고 싶다. : value_counts()
print(df["A"].value_counts())
print(df["B"].value_counts())
print(df["C"].value_counts())

print("---------------------------")

df.apply(pd.value_counts)
df.apply(pd.value_counts).fillna(0)


4    2
3    2
1    1
Name: A, dtype: int64
3    2
2    2
1    1
Name: B, dtype: int64
4    2
5    1
2    1
1    1
Name: C, dtype: int64
---------------------------


Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


#### 실수값을 카테고리로 변경(양적 데이터 -> 질적 데이터): cut(), qcut()

In [15]:
ages = [0, 2, 10, 21 ,23, 37, 31, 
        61, 20, 41, 32, 100]

cat = pd.cut(x=ages, bins=[1, 15, 25, 35, 60, 99],
            labels = ["미성년자", "청년", "중년", "장년", "노년"])
print(cat)

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '노년', '청년', '장년', '중년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '중년' < '장년' < '노년']


In [17]:
print(type(cat))
print(cat.categories)
print(cat.codes) # -1: 결측치

<class 'pandas.core.arrays.categorical.Categorical'>
Index(['미성년자', '청년', '중년', '장년', '노년'], dtype='object')
[-1  0  0  1  1  3  2  4  1  3  2 -1]


In [20]:
df = pd.DataFrame(ages, columns=["ages"])
df

df["age_cat"] = cat
df

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,중년
7,61,노년
8,20,청년
9,41,장년


In [23]:
# qcut()

data = np.random.randn(1000)
cat = pd.qcut(data, 4, labels=["Q1", "Q2", "Q3", "Q4"])
cat
pd.value_counts(cat)

Q4    250
Q3    250
Q2    250
Q1    250
dtype: int64

---
### 인덱스 조작

#### set_index(), reset_index()

In [32]:
np.random.seed(0)

df1 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=["C1", "C2", "C3", "C4"])

df1

Unnamed: 0,C1,C2,C3,C4
0,A,1.0,1.0,1.0
1,B,1.0,0.0,1.0
2,C,1.0,1.0,1.0
3,D,1.0,1.0,1.0
4,E,0.0,0.0,0.0


In [30]:
np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T

array([['A', '0.0', '0.0', '1.0'],
       ['B', '0.0', '1.0', '0.0'],
       ['C', '1.0', '0.0', '1.0'],
       ['D', '0.0', '1.0', '1.0'],
       ['E', '0.0', '0.0', '1.0']], dtype='<U32')

In [33]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,C4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1.0,1.0,1.0
B,1.0,0.0,1.0
C,1.0,1.0,1.0
D,1.0,1.0,1.0
E,0.0,0.0,0.0


In [34]:
df2.set_index("C2") #기존에 지정했던 인덱스는 삭제됨

Unnamed: 0_level_0,C3,C4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,1.0,1.0
1.0,0.0,1.0
1.0,1.0,1.0
1.0,1.0,1.0
0.0,0.0,0.0


In [37]:
#df2.reset_index()
df2.reset_index(drop = True) # drop = T : 현재 index는 삭제됨

Unnamed: 0,C2,C3,C4
0,1.0,1.0,1.0
1,1.0,0.0,1.0
2,1.0,1.0,1.0
3,1.0,1.0,1.0
4,0.0,0.0,0.0


### 다중 인덱스 조작

In [46]:
df3 = pd.DataFrame(np.vstack([list("ABCDE"), np.round(np.random.rand(3, 5))]).T,
                  columns=[["A", "A", "B", "B"],["C1", "C2", "C1", "C2"]])
df3

df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,A,1.0,1.0,0.0
1,B,0.0,0.0,1.0
2,C,0.0,1.0,0.0
3,D,0.0,0.0,0.0
4,E,0.0,0.0,0.0


In [57]:
# 인덱싱

df3[("A","C1")] # 여러 개의 인덱스를 가지고 있을 때: tuple로 묶음.
df3[("B", "C1")][0]
print(df3[("B", "C1")][0:]) # 행전체

print("\n-------------\n")

# 인덱서를 이용한방법

df3.loc[0, ("B", "C1")]
df3.loc[0:, ("B", "C1")]

print("\n-------------\n")

print(df3.iloc[0:, 2])

0    1.0
1    0.0
2    1.0
3    0.0
4    0.0
Name: (B, C1), dtype: object

-------------


-------------

0    1.0
1    0.0
2    1.0
3    0.0
4    0.0
Name: (B, C1), dtype: object


In [60]:
df4 = pd.DataFrame(np.round(np.random.rand(6, 4), 2),
                   columns = [["A", "A", "B", "B"], ["C", "D", "C", "D"]],
                  index=[["M", "M", "M", "F", "F", "F"], 
                         ["id_" +str(i+1) for i in range(3)] * 2])

df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.22,0.95,0.45,0.85
M,id_2,0.7,0.3,0.81,0.4
M,id_3,0.88,0.58,0.88,0.69
F,id_1,0.73,0.5,0.96,0.64
F,id_2,0.42,0.61,0.02,0.3
F,id_3,0.66,0.29,0.62,0.43


In [64]:
# 행 인덱스와 열 인덱스를 교환: stack() -> 열을 행으로, unstack() -> 행을 열로
# 이름이 없을 시 숫자로 접근 가능(0, 1, 2)
df4.stack("Cidx1")

df4.stack(1)
#df4.stack("Cidx2") 

df4.unstack("Ridx2")
df4.unstack(0)

Cidx1,A,A,A,A,B,B,B,B
Cidx2,C,C,D,D,C,C,D,D
Ridx1,F,M,F,M,F,M,F,M
Ridx2,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
id_1,0.73,0.22,0.5,0.95,0.96,0.45,0.64,0.85
id_2,0.42,0.7,0.61,0.3,0.02,0.81,0.3,0.4
id_3,0.66,0.88,0.29,0.58,0.62,0.88,0.43,0.69


In [186]:
# 인덱싱
print(df4)

print("\n-----------------\n")

# 첫번째 행과 첫번째 열에 있는 값 출력

df4.loc[("M", "id_1"), ("A", "C")]

# 첫번째 열에 있는 0.22 ~ 0.42 까지 출력
print(df4.loc[:, ("A", "C")][:5])

print(df4.iloc[:5, 0])

# 첫번째 행의 모든 컬럼값을 출력
df4.loc[("M", "id_1"), :]

# 맨마지막 행에 "ALL" 이란 인덱스를 추가하여 각 열의 합을 출력
#df4.loc[("ALL", "ALL"), :] = df4.sum()

#del df4.iloc[3:]
#df4.drop(df4.loc["ALL"])
#del df4.loc[("ALL","ALL")]

df4

Cidx1            A             B       
Cidx2            C      D      C      D
Ridx1 Ridx2                            
M     id_1    0.22   0.95   0.45   0.85
      id_2    0.70   0.30   0.81   0.40
      id_3    0.88   0.58   0.88   0.69
F     id_1    0.73   0.50   0.96   0.64
      id_2    0.42   0.61   0.02   0.30
      id_3    0.66   0.29   0.62   0.43
ALL   ALL    46.93  41.99  48.62  43.03

-----------------

Ridx1  Ridx2
M      id_1     0.22
       id_2     0.70
       id_3     0.88
F      id_1     0.73
       id_2     0.42
Name: (A, C), dtype: float64
Ridx1  Ridx2
M      id_1     0.22
       id_2     0.70
       id_3     0.88
F      id_1     0.73
       id_2     0.42
Name: (A, C), dtype: float64


Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.22,0.95,0.45,0.85
M,id_2,0.7,0.3,0.81,0.4
M,id_3,0.88,0.58,0.88,0.69
F,id_1,0.73,0.5,0.96,0.64
F,id_2,0.42,0.61,0.02,0.3
F,id_3,0.66,0.29,0.62,0.43
ALL,ALL,46.93,41.99,48.62,43.03


In [137]:
# 순서교환: swaplevel(i, j, axis=0)

df5 = df4.swaplevel("Ridx1", "Ridx2")
print(df5)

df6 = df4.swaplevel("Cidx1", "Cidx2", axis=1)
df6

Cidx1            A             B       
Cidx2            C      D      C      D
Ridx2 Ridx1                            
id_1  M       0.22   0.95   0.45   0.85
id_2  M       0.70   0.30   0.81   0.40
id_3  M       0.88   0.58   0.88   0.69
id_1  F       0.73   0.50   0.96   0.64
id_2  F       0.42   0.61   0.02   0.30
id_3  F       0.66   0.29   0.62   0.43
ALL   ALL    43.32  38.76  44.88  39.72


Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,0.22,0.95,0.45,0.85
M,id_2,0.7,0.3,0.81,0.4
M,id_3,0.88,0.58,0.88,0.69
F,id_1,0.73,0.5,0.96,0.64
F,id_2,0.42,0.61,0.02,0.3
F,id_3,0.66,0.29,0.62,0.43
ALL,ALL,43.32,38.76,44.88,39.72


In [166]:
# 정렬: sort_index(level)
print(df4)

print("\n===============================\n")
print("\n<level=0, axis=0>")
print(df4.sort_index(level = 0, axis=0))
print("\n<level=0, axis=1>")
print(df4.sort_index(level = 0, axis=1))

print("\n===============================\n")

print("\n<level=1 , axis=0>")
print(df4.sort_index(level = 1, axis=0))
print("\n<level=1, axis=1>")
print(df4.sort_index(level = 1, axis=1))

Cidx1            A             B       
Cidx2            C      D      C      D
Ridx1 Ridx2                            
M     id_1    0.22   0.95   0.45   0.85
      id_2    0.70   0.30   0.81   0.40
      id_3    0.88   0.58   0.88   0.69
F     id_1    0.73   0.50   0.96   0.64
      id_2    0.42   0.61   0.02   0.30
      id_3    0.66   0.29   0.62   0.43
ALL   ALL    46.93  41.99  48.62  43.03



<level=0, axis=0>
Cidx1            A             B       
Cidx2            C      D      C      D
Ridx1 Ridx2                            
ALL   ALL    46.93  41.99  48.62  43.03
F     id_1    0.73   0.50   0.96   0.64
      id_2    0.42   0.61   0.02   0.30
      id_3    0.66   0.29   0.62   0.43
M     id_1    0.22   0.95   0.45   0.85
      id_2    0.70   0.30   0.81   0.40
      id_3    0.88   0.58   0.88   0.69

<level=0, axis=1>
Cidx1            A             B       
Cidx2            C      D      C      D
Ridx1 Ridx2                            
M     id_1    0.22   0.95   0.45   0.85


In [245]:
df_score1 = pd.DataFrame({
    "반":["A", "A", "B", "A", "B", "B", "B", "A", "B", "A"],
    "번호" : [1, 2, 1, 3, 2, 3, 4, 4, 5, 5],
    "국어" : [79, 67, 88, 68, 92, 54, 67, 88, 97, 85],
    "영어" : [55, 77, 44, 67, 86, 45, 78, 58, 90, 67],
    "수학" : [57, 45, 76, 68, 89, 67, 99, 78, 89, 90]
})
df_score1

Unnamed: 0,반,번호,국어,영어,수학
0,A,1,79,55,57
1,A,2,67,77,45
2,B,1,88,44,76
3,A,3,68,67,68
4,B,2,92,86,89
5,B,3,54,45,67
6,B,4,67,78,99
7,A,4,88,58,78
8,B,5,97,90,89
9,A,5,85,67,90


In [248]:
# 1. 1차행 인덱스로 "반"을 2차 행 인덱스로 "번호"를 가지는 데이터 프레임을 작성d
#df_score1.set_index(["반","번호"], inplace=True)
df_score1.sort_index(level=0)

# 2. 학생의 평균을 나타내는 행을 오른쪽에 추가

# 3. 행 인덱스로 "번호"를, 1차 열 인덱스로 "국어", "영어", "수학"을 2차 열 인덱스로 "
#    반"을 가지는 데이터 프레임 작성

# 4. 각 반별 각 과목의 평균을 나타내는 행을 아래에 추가


Unnamed: 0_level_0,Unnamed: 1_level_0,국어,영어,수학
반,번호,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,1,79,55,57
A,2,67,77,45
A,3,68,67,68
A,4,88,58,78
A,5,85,67,90
B,1,88,44,76
B,2,92,86,89
B,3,54,45,67
B,4,67,78,99
B,5,97,90,89


---
### 데이터 프레임 합성(병합)

+ merge()<br>
    두 데이터 프레임의 공통 열 또는 인덱스를 기준으로 두 개의 테이블을 합친다.<br>
    이 때 기준이 되는 열, 행의 데이터를 Key라고 한다.
    
+ concat()<br>
    기준열을 사용하지 않고 단순히 데이터를 연결
    

#### merge()

In [175]:
df1 = pd.DataFrame({
    "고객번호":[1001, 1002, 1003, 1004, 1005, 1006, 1007],
    "이름":["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
})
print(df1)

df2 = pd.DataFrame({
    "고객번호":[1001, 1001, 1005, 1006, 1008, 1001],
    "금액":[10000, 20000, 15000, 5000, 100000, 30000]
})
print(df2)

   고객번호   이름
0  1001   둘리
1  1002  도우너
2  1003   또치
3  1004   길동
4  1005   희동
5  1006  마이콜
6  1007   영희
   고객번호      금액
0  1001   10000
1  1001   20000
2  1005   15000
3  1006    5000
4  1008  100000
5  1001   30000


In [179]:
pd.merge(df1, df2) # 공통인 값만 병합(SQL, innerjoin)
pd.merge(df1, df2, how="left") # left outer join
pd.merge(df1, df2, how="right")
pd.merge(df1, df2, how="outer") # full outer join

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [249]:
df1 = pd.DataFrame({
    "고객명":["춘향", "춘향", "몽룡"],
    "날짜":["2019-01-01", "2019-01-02", "2019-01-03"], 
    "데이터":["20000", "30000", "100000"]
})

df2 = pd.DataFrame({
    "고객명":["춘향", "몽룡"],
    "데이터":["여자", "남자"]
})

In [252]:
pd.merge(df1, df2, on="고객명")

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2019-01-01,20000,여자
1,춘향,2019-01-02,30000,여자
2,몽룡,2019-01-03,100000,남자


In [253]:
# 공통된 키가 없는 경우

df1 = pd.DataFrame({
    "이름":["영희", "철수", "철수"],
    "성적":[1, 2, 3]
})

df2 = pd.DataFrame({
    "성명":["영희", "영희", "철수"],
    "점수":[4, 5, 6]
})

In [254]:
pd.merge(df1, df2, left_on="이름", right_on="성명")

Unnamed: 0,이름,성적,성명,점수
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


In [257]:
# 인덱스를 기준열로 사용하는 경우(한쪽은 컬럼, 한쪽은 인덱스)

df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])

df2

   도시    연도       인구
0  서울  2000  9853972
1  서울  2005  9762546
2  서울  2010  9631482
3  부산  2000  3655437
4  부산  2005  3512547
------------------------------


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [258]:
pd.merge(df1, df2, left_on=["도시", "연도"], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [259]:
# 인덱스를 기준열로 사용하는 경우(둘다 인덱스인 경우)
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
print(df1)
print("------------------------------")


df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
print(df2)
print("------------------------------")

    서울   부산
a  1.0  2.0
c  3.0  4.0
e  5.0  6.0
------------------------------
     대구    광주
b   7.0   8.0
c   9.0  10.0
d  11.0  12.0
e  13.0  14.0
------------------------------


In [261]:
pd.merge(df1, df2, left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


In [262]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [264]:
# merge() 대신에 join() 사용가능
df1.join(df2, how="outer")

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


#### concat

In [267]:
s1 = pd.Series([0, 1], index=["A", "B"])
s2 = pd.Series([2, 3, 4], index=["A", "B", "C"])

pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [273]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
print(df1)

df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
print(df2)

pd.concat([df1, df2], axis=0)
pd.concat([df1, df2], axis=1)

   데이터1  데이터2
a     0     1
b     2     3
c     4     5
   데이터3  데이터4
a     0     1
c     2     3


Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


---
### 피봇 테이블과 그룹분석

+ pivot()
    - DataFrame.pivot(index=None, columns=None, values=None)
    
+ groupby()

+ pivot_table()