### 시리즈 생성
- 시리즈 클래스는 넘파이에서 제공하는 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다. 데이터 자체는 값(value)이라고 한다.

In [3]:
import pandas as pd

In [33]:
pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})

272830

In [4]:
s = pd.Series([9904312, 3448738, 2890451, 2466052],
                index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448738
인천    2890451
대구    2466052
dtype: int64

In [5]:
# 인덱스 지정하지 않고 만들면 0부터 시작
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [6]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [7]:
s.values

array([9904312, 3448738, 2890451, 2466052], dtype=int64)

In [11]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

### 시리즈 연산
- 연산은 시리즈의 값에만 적용, 인덱스 값은 변하지 않는다.

In [12]:
s / 1000000

도시
서울    9.904312
부산    3.448738
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

### 시리즈 인덱싱
- 넘파이에서 가능한 인덱스방법, 인덱스 라벨을 이용한 인덱스 방법

In [14]:
s[1], s["부산"]

(3448738, 3448738)

In [15]:
s[3], s["대구"]

(2466052, 2466052)

In [16]:
# 배열 인덱싱으로 부분적인 값을 가지는 시리즈 자료형을 반환
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64

In [23]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448738
Name: 인구, dtype: int64

In [19]:
s[(25e4 < s) & (s < 500e4)] # 인구가250만 초과, 500만 미만

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [20]:
s[1:3] # 두번째(1)부터 세번째(2)까지(네번째(3)미포함) 0 1 2 3 중

도시
부산    3448738
인천    2890451
Name: 인구, dtype: int64

In [21]:
s["부산":"대구"] # 부산에서 대구까지 (대구도 포함)

도시
부산    3448738
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [24]:
# 라벨(index) 값이 영문 문자열인 경우에는 인덱스라벨이 속성인 것처럼 점(.)을 이용하여 접근가능
s0 = pd.Series(range(3), index=["a", "b", "c"])
s0

a    0
b    1
c    2
dtype: int64

In [25]:
s0.a, s0.b, s0.c

(0, 1, 2)

### 시리즈와 딕션너리 자료형
- 시리즈 객체는 라벨 값에 의해 인덱싱이 가능 => 인덱스 라벨을 key로 가지는 딕셔너리 자료형과 같다고 볼 수 있음. 따라서 딕셔너리 자료형에서 제공하는 in 연산, items 메서드를 사용한 for문을 통해 원소의 key와 value에 접근 가능

In [26]:
"서울" in s

True

In [27]:
"대전" in s

False

In [28]:
for k, v in s.items():
    print("%s = %d" % (k, v))

서울 = 9904312
부산 = 3448738
인천 = 2890451
대구 = 2466052


In [29]:
# 딕셔너리 객체 {}에서 시리즈 만들기
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [30]:
# 딕셔너리 원소는 순서를 가지지 않으므로 시리즈의 데이터도 순서가 보장되지 않는다. 인덱스를 리스트로 지정하면 가능
s2 = pd.Series({"서울": 9631482, "부산": 3393191, "인천": 2632035, "대전": 1490158},
                index=["부산","서울","인천","대전"])
s2

부산    3393191
서울    9631482
인천    2632035
대전    1490158
dtype: int64

### 인덱스 기반 연산
- 인덱스가 같은 데이터에 대해서만 차이를 구함

In [37]:
ds = s - s2 # s에는 대전이 없고 s2에는 대구가 없다
ds

대구         NaN
대전         NaN
부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64

In [32]:
s.values - s2.values

array([ 6511121, -6182744,   258416,   975894], dtype=int64)

In [39]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [40]:
ds[ds.notnull()]

부산     55547.0
서울    272830.0
인천    258416.0
dtype: float64

In [41]:
rs = (s - s2) / s2 *100
rs = rs[rs.notnull()]
rs

부산    1.637014
서울    2.832690
인천    9.818107
dtype: float64

### 데이터의 갱신, 추가, 삭제

In [42]:
rs['부산'] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [43]:
rs['대구'] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [48]:
# del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

## 데이터프레임 클래스
- 시리즈가 1차원 벡터 데이터에 행방향 인덱스를 붙인 것이라면 데이터프레임(DataFrame)클래스는 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.

In [6]:
# 2차원 배열 데이터는 모든 원소가 같은 자료형을 가져야 하지만 데이터프레임은 각 열(column)마다
# 자료형이 다를 수 있다. 지역, 인구, 증가율은 각각 문자열, 정수, 부동소수점이다
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권","경상권","수도권","경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역","2015","2010","2005","2000","2010-2015 증가율"]
index = ["서울","부산","인천","대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [7]:
df.values

array([['수도권', 9904312, 9631482, 9762546, 9853972, 0.0283],
       ['경상권', 3448737, 3393191, 3512547, 3655437, 0.0163],
       ['수도권', 2890451, 2632035, 2517680, 2466338, 0.0982],
       ['경상권', 2466052, 2431774, 2456016, 2473990, 0.0141]], dtype=object)

In [8]:
df.columns

Index(['지역', '2015', '2010', '2005', '2000', '2010-2015 증가율'], dtype='object')

In [9]:
df.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [11]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [12]:
df.T

도시,서울,부산,인천,대구
특성,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
지역,수도권,경상권,수도권,경상권
2015,9904312,3448737,2890451,2466052
2010,9631482,3393191,2632035,2431774
2005,9762546,3512547,2517680,2456016
2000,9853972,3655437,2466338,2473990
2010-2015 증가율,0.0283,0.0163,0.0982,0.0141


### 열 데이터의 갱신, 추가, 삭제

In [14]:
# "2010-2015 증가율"이라는 이름의 열 갱신
df["2010-2015 증가율"] = df["2010-2015 증가율"] * 100
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,283.0
부산,경상권,3448737,3393191,3512547,3655437,163.0
인천,수도권,2890451,2632035,2517680,2466338,982.0
대구,경상권,2466052,2431774,2456016,2473990,141.0


In [15]:
# "2005-2010 증가율"이라는 이름의 열 추가
df["2005-2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,283.0,-1.34
부산,경상권,3448737,3393191,3512547,3655437,163.0,-3.4
인천,수도권,2890451,2632035,2517680,2466338,982.0,4.54
대구,경상권,2466052,2431774,2456016,2473990,141.0,-0.99


In [16]:
# "2010-2015 증가율"이라는 이름의 열 삭제
del df["2010-2015 증가율"]
df

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4
인천,수도권,2890451,2632035,2517680,2466338,4.54
대구,경상권,2466052,2431774,2456016,2473990,-0.99


### 열 인덱싱

In [20]:
# 하나의 열만 인덱싱하면 시리즈가 반환된다. (데이터프레임 자료형이 아니다, 표가없다)
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [19]:
# 여러개의 열을 인덱싱하면 부분적인 데이터프레임이 반환된다(표가 존재)
df[["2010","2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [21]:
# 하나의 열만 빼내면서 데이터프레임 자료형을 유지하고 싶다면
# (원소가 하나인 리스트[], 바깥은 배열원소표시[])
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [23]:
# 데이터프레임과 시리즈 비교
type(df[["2010"]]), type(df["지역"])

(pandas.core.frame.DataFrame, pandas.core.series.Series)

In [24]:
# 데이터프레임의 열인덱스가 문자열 라벨을 가지고 있는 경우 정수 인덱스를 사용할 수 없다
df[0]

KeyError: 0

In [2]:
import numpy as np

In [27]:
# 다만 원래부터 문자열이 아닌 정수형 열 인덱스를 가지는 경우에는 가능하다
df2 = pd.DataFrame(np.arange(12).reshape(3,4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [28]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int32

In [29]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## 행 인덱싱

In [30]:
df[:1]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34


In [31]:
df[1:2]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
부산,경상권,3448737,3393191,3512547,3655437,-3.4


In [32]:
df["서울":"부산"]

특성,지역,2015,2010,2005,2000,2005-2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,-1.34
부산,경상권,3448737,3393191,3512547,3655437,-3.4


## 개별 데이터 인덱싱

In [33]:
# 데이터프레임에서 열 라벨로 시리즈를 인덱싱하면 시리즈가 된다. 이 시리즈를 다시
# 행라벨로 인덱싱하면 개별 데이터가 나온다.
df["2015"]["서울"]

9904312

# 4.2 데이터 입출력
- CSV, Excel, HTML, JSON, HDF5, SAS, STATA, SQL을 읽어 데이터프레임을 만들 수 있다

## %%writefile 명령

In [35]:
%%writefile sample1.csv
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three
# 샘플데이터로 사용할 csv파일을 %%writefile 매직 명령으로 만든다

Overwriting sample1.csv


## CSV 파일 입력

In [11]:
pd.read_csv('sample1.csv')

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [33]:
%%writefile sample2.csv 
1, 1.11, one
2, 2.22, two
3, 3.33, three
# 열인덱스 정보가 없는경우(c1,c2,c3)

Writing sample2.csv


In [34]:
pd.read_csv('sample2.csv', names=['c1','c2','c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [25]:
# 테이블 내의 특정한 열을 행 인덱스로 지정하고 싶다면 index_col인수를 사용
pd.read_csv('sample1.csv', index_col='c1')

Unnamed: 0_level_0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.11,one
2,2.22,two
3,3.33,three


In [32]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515
# 확장자가 csv가 아닌 즉, 데이터를 구분하는 구분자가 쉼표(,)가 아니면 sep인수를 써서 구분자를
# 사용자가 지정해준다. 만약 길이가 정해지지 않은 공백이 구분자인 경우에는 \s+ 정규식 문자열을
# 사용한다

Overwriting sample3.txt


In [36]:
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [52]:
%%writefile sample4.txt
파일 제목:sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three

Overwriting sample4.txt


In [59]:
# 샘플데이터로 사용할 csv파일을 %%writefile 매직 명령으로 만든다
pd.read_csv('sample4.txt', skiprows=[0,1])

Unnamed: 0,Unnamed: 1,데이터 포맷의 설명:
c1,c2,c3
1,1.11,one
2,2.22,two
3,3.33,three


In [62]:
%%writefile sample5.csv
c1, c2, c3
1, 1.11, one
2, , two
누락, 3.33, three

Writing sample5.csv


In [63]:
# 특정한 값을 NaN으로 취급하고 싶으면 na_value 인수에 NaN 값으로 취급할 값을 넣는다
df = pd.read_csv('sample5.csv', na_values=['누락'])
df


Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


## CSV 파일 출력

In [64]:
df.to_csv('sample6.csv')

In [65]:
!type sample6.csv       # 리눅스, 맥은 !cat, 윈도우는 !type

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,, 3.33, three


In [66]:
df.to_csv('sample7.txt', sep='|')

In [67]:
!type sample7.txt

|c1| c2| c3
0|1.0| 1.11| one
1|2.0| | two
2|| 3.33| three


In [68]:
df.to_csv('sample8.csv', na_rep='누락') # na_rep인수로 NaN표시값을 누락으로

In [69]:
!type sample8.csv

,c1, c2, c3
0,1.0, 1.11, one
1,2.0, , two
2,누락, 3.33, three


In [71]:
df.index = ["a","b","c"]
df

Unnamed: 0,c1,c2,c3
a,1.0,1.11,one
b,2.0,,two
c,,3.33,three


In [73]:
# index, header 인수를 지정하여 인덱스및헤더 출력 여부 지정
df.to_csv('sample9.csv', index=False, header=False)

In [75]:
!type sample9.csv

1.0, 1.11, one
2.0, , two
, 3.33, three


## 인터넷 상의 CSV 파일 입력
- 웹상에는 다양한 데이터 파일이 CSV 파일 형태로 제공된다. read_csv 명령 사용시 파일 패스 대신 URL을 지정하면 Pandas가 직접 해당 파일을 다운로드하여 읽어들인다.

In [76]:
df = pd.read_csv("https://raw.githubusercontent.com/datascienceschool/docker_rpython/master/data/titanic.csv")

In [77]:
pd.set_option("display.max_rows", 20) # 앞뒤로 모두 20행만 보여준다.
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [79]:
df.head(2) # 앞의 몇개만 보여주는 메서드

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [80]:
df.tail(2) # 뒤의 몇개만 보여주는 메서드

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


# 데이터프레임 고급 인덱싱
- 데이터프레임에서 특정한 데이터만 골라내는 것을 인덱싱이라고 한다. 앞 절에서는 라벨, 라벨 리스트, 인덱스데이터(정수) 슬라이스의 3가지 인뎅싱 값을 사용하여 인덱싱을 하는 방법을 공부하였다. 그런데 Pandas는 numpy행렬과 같이 쉼표를 사용한(행 인덱스, 열 인덱스)형식의 2차원 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성도 제공한다.
   - loc: 라벨값 기반의 2차원 인덱싱
   - iloc: 순서를 나타내는 정수 기반의 2차원 인덱싱

## loc 인덱서
- df.loc[행 인덱싱값]
- df.loc[행 인덱싱값, 열 인덱싱값]

In [83]:
import numpy as np
import pandas as pd

In [88]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                    index=["a","b","c"],
                    columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


## 인덱싱값을 하나만 받는 경우

In [89]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [90]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [91]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [95]:
df.loc[["b","c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [97]:
df.A > 15   # 데이터베이스와 같은 인덱스를 가지는 불리언시리즈도
            # 행을 선택하는 인덱싱값으로 쓸 수 있다

a    False
b    False
c     True
Name: A, dtype: bool

In [98]:
df.loc[df.A > 15] # A의 a,b,c중 15보다 큰 값의 행

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [99]:
# 인덱스 대신 인덱스 값을 반환하는 함수
def select_rows(df):
    return df.A > 15

In [100]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [101]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
# 라벨 인덱싱이나 라벨리스트 인덱싱은 불가능
df.loc["A"]
df.loc[["A","B"]]

In [103]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A","B","C","D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [106]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [107]:
df2[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


## 인덱싱값을 행과 열 모두 받는 경우
- df.loc[행 인덱스, 열 인덱스]

In [108]:
df.loc["a","A"]

10

In [109]:
df.loc["b":, "A"] # b부터끝까지와, A열을 출력

b    14
c    18
Name: A, dtype: int32

In [113]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [114]:
df.loc[["a","b"], ["B","D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [115]:
df.loc[df.A > 10, ["C","D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서
- iloc인덱서는 loc 인덱서와 반대로 라벨이 아니라 순서를 나타내는 정수인덱서만 받는다.

In [117]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                    index=["a","b","c"],
                    columns=["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [118]:
df.iloc[0, 1]

11

In [119]:
df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int32

In [121]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [123]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [124]:
# loc인덱서와 마찬가지로 인덱서가 하나만 들어가면 행을 선택한다.
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [125]:
df.iloc[-1] = df.iloc[-1]*2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


# 데이터프레임의 데이터 조작

In [129]:
import numpy as np
import pandas as pd

## 데이터 갯수 세기
- count 메서드

In [130]:
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [132]:
s.count()           # NaN 값은 세지 않는다

9

In [135]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [136]:
# 데이터프레임에서는 각 열마다 별도로 데이터 갯수를 센다. 3열에 NaN으로 누락
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [137]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [138]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## 카테고리 값 세기
- value_counts()

In [139]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100))
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int32

In [140]:
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [143]:
# 데이터프레임에는 value_counts 메서드가 없어, 각 열마다 별도로 적용해야한다.
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

## 정렬
- sort_index()는 인덱스 값을 기준
- sort_values()는 데이터 값을 기준

In [145]:
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [147]:
# NaN값이 있는 경우 정렬하면 NaN값이 가장 나중에 나온다
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [148]:
# 큰 수에서 작은 수로 반대 방향 정렬 ascending=False
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

In [153]:
# sort_values()는 by 인수로 정렬 기준이 되는 열을 지정
df.sort_values(by=3)

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
3,4.0,3.0,4.0,2.0
2,3.0,2.0,4.0,


In [156]:
# 1열부터 따지고 동일한 값 1열의 0.0, 0.0은 2열에따라 따진다
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


## 행/열 합계

In [157]:
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [158]:
# 행방향 합계를 구할 때는 sum(axis=1)
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [159]:
df2["RowSom"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSom
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [160]:
# 열방향 합계 sum(axis=0), axis인수의 디폴트 값이 0이므로 axis생략가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSom    152
dtype: int64

In [161]:
df2.loc["ColTotal", :] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSom
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0


In [163]:
df2.mean(axis=1)        # mean()은 평균메서드 사용법은 sum()과 동일

0            7.777778
1            7.555556
2            9.111111
3            9.333333
ColTotal    33.777778
dtype: float64

In [164]:
df2.mean(axis=0)

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSom    60.8
dtype: float64

## apply변환
- 행이나 열 단위로 더 복잡한 처리를 하고 싶을 때는 apply메서드를 사용

In [166]:
df3 = pd.DataFrame({
    'A': [1, 3, 4, 3, 4],
    'B': [2, 3, 1, 2, 3],
    'C': [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [169]:
# 각 열의 최댓값과 최솟값의 차이를 구한다
df3.apply(lambda x: x.max() - x.min())

A    3
B    2
C    4
dtype: int64

In [170]:
# 행에 대해 적용
df3.apply(lambda x: x.max() - x.min(), axis=1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

In [180]:
# 각 열에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts함수
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


Unnamed: 0,1,2,3,4,5
0,2.0,1.0,,,
1,,,2.0,,1.0
2,1.0,1.0,,1.0,
3,,1.0,1.0,1.0,
4,,,1.0,2.0,


In [181]:
# apply메서드로 20살을 기준 adult/child 구분하기
titanic["adult/child"] = titanic.apply(lambda r: "adult" if r.age >= 20 else "child", axis=1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


## fillna메서드
- NaN 값은 fillna메서드를 사용하여 원하는 값으로 바꿀 수 있다

In [185]:
df3.apply(pd.value_counts).fillna(0.0) # 콤마가아닌 점이다 0.0

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0
