# Pandas

In [206]:
import pandas as pd

## Series

In [207]:
series = pd.Series(["하나", "둘", "셋", "넷", "다섯",
                    "여섯", "일곱", "여덟", "아홉", "열"],
                   index = [_ for _ in range(1, 11)])
series

1     하나
2      둘
3      셋
4      넷
5     다섯
6     여섯
7     일곱
8     여덟
9     아홉
10     열
dtype: object

In [208]:
s = pd.Series([9_904_312, 3_448_737, 2_890_451, 2_466_052],
              index=["서울", "부산", "인천", "대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [209]:
# index를 지정하지 않은 경우
pd.Series(range(10, 14))

0    10
1    11
2    12
3    13
dtype: int64

In [210]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [211]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [212]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [213]:
# dict를 사용해 만들어보기
d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser

a    1
b    2
c    3
dtype: int64

In [214]:
# dict의 key와 Series 객체의 index를 다르게 설정

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['x', 'y', 'z'])
ser

x   NaN
y   NaN
z   NaN
dtype: float64

In [215]:
# index 지정 없이 dict 객체만 가지고 만들 수 도 있다.

s2 = pd.Series({"서울":9_904_312,
                "부산":3_448_737,
                "인천":2_890_451,
                "대구":2_466_052})
s2

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [216]:
# label 값이 영문 문자열인 경우에는
# index label이 속성인 것처럼 마침표를 활용해 index에 접근 가능

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
ser.a, ser.b, ser.c

(1, 2, 3)

In [217]:
"서울" in s

True

In [218]:
"대전" in s

False

In [219]:
for k, v in s.items():
    print(f"{k}, {v}")

서울, 9904312
부산, 3448737
인천, 2890451
대구, 2466052


In [101]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [102]:
s / 100000

도시
서울    99.04312
부산    34.48737
인천    28.90451
대구    24.66052
Name: 인구, dtype: float64

In [103]:
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [104]:
s[1], s["부산"]

(3448737, 3448737)

In [105]:
s[3], s["대구"]

(2466052, 2466052)

In [106]:
s[[0, 3, 1]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [107]:
s[["서울", "대구", "부산"]]

도시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [108]:
s[1:3]

도시
부산    3448737
인천    2890451
Name: 인구, dtype: int64

In [109]:
# 문자열로 슬라이싱 할경우 : 뒤에 값도 나온다
s["부산":"대구"]

도시
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [110]:
s = pd.Series([9904312, 3448737, 2890451, 2466052],
              index=["서울", "부산", "인천", "대구"])
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [111]:
s2 = pd.Series({"서울":9631482,
                "부산":3393191,
                "인천":2632035,
                "대전":1490158})
s2

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [112]:
ds = s - s2
ds

대구         NaN
대전         NaN
부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [113]:
ds.notnull()

대구    False
대전    False
부산     True
서울     True
인천     True
dtype: bool

In [114]:
# NaN 값 빼고 시리즈 객체 만드는 법
ds[ds.notnull()]

부산     55546.0
서울    272830.0
인천    258416.0
dtype: float64

In [115]:
# 2010년 대비 2015년 인구 증가율
# s # 2015년 도시별 인구
# s2 # 2010년 도시별 인구

rs = (s - s2) / s2 * 100
rs = rs[rs.notnull()]
rs

부산    1.636984
서울    2.832690
인천    9.818107
dtype: float64

In [116]:
# 인덱스를 사용해 데이터를 추가하거나 갱신 가능
rs["부산"] = 1.63
rs

부산    1.630000
서울    2.832690
인천    9.818107
dtype: float64

In [117]:
rs["대구"] = 1.41
rs

부산    1.630000
서울    2.832690
인천    9.818107
대구    1.410000
dtype: float64

In [118]:
del rs["서울"]
rs

부산    1.630000
인천    9.818107
대구    1.410000
dtype: float64

In [119]:
# 연습 문제
fin1 = {"카카오":60010, "삼성전자":61000, "LG전자":90000}
fin2_value = [60200, 61200, 200100]
fin2_index = ["카카오", "삼성전자", "네이버"]

ser_finance1 = pd.Series(fin1)
ser_finance2 = pd.Series(fin2_value, fin2_index)

In [120]:
ser_finance1 - ser_finance2

LG전자      NaN
네이버       NaN
삼성전자   -200.0
카카오    -190.0
dtype: float64

In [121]:
ser_finance1 + ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    122200.0
카카오     120210.0
dtype: float64

In [122]:
ser_finance1 * ser_finance2

LG전자             NaN
네이버              NaN
삼성전자    3.733200e+09
카카오     3.612602e+09
dtype: float64

In [123]:
ser_finance1 / ser_finance2

LG전자         NaN
네이버          NaN
삼성전자    0.996732
카카오     0.996844
dtype: float64

In [124]:
result = ser_finance1 - ser_finance2
result[result.notnull()]

삼성전자   -200.0
카카오    -190.0
dtype: float64

## DataFrame

In [125]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [126]:
data = {
    "2015": [9904312, 3448737, 2890451, 2466052],
    "2010": [9631482, 3393191, 2632035, 2431774],
    "2005": [9762546, 3512547, 2517680, 2456016],
    "2000": [9853972, 3655437, 2466338, 2473990],
    "지역": ["수도권", "경상권", "수도권", "경상권"],
    "2010-2015 증가율": [0.0283, 0.0163, 0.0982, 0.0141]
}
columns = ["지역", "2015", "2010", "2005", "2000", "2010-2015 증가율"]
index = ["서울", "부산", "인천", "대구"]
df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,지역,2015,2010,2005,2000,2010-2015 증가율
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [127]:
df.index.name = "도시"
df.columns.name = "특성"
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283
부산,경상권,3448737,3393191,3512547,3655437,0.0163
인천,수도권,2890451,2632035,2517680,2466338,0.0982
대구,경상권,2466052,2431774,2456016,2473990,0.0141


In [128]:
pl_data = {
    "팀명": ["아스날", "맨체스터 시티", "뉴캐슬 유나이티드", "맨체스터 유나이티드"],
    "경기": [18, 18, 19, 18],
    "승": [15, 12, 10, 12],
    "무": [2, 3, 8, 2],
    "패": [1, 3, 1, 4],
    "승점": [47, 39, 38, 38],
    "경기당 승점": [47/18, 39/18, 38/19, 38/18]
}

pl_columns = ["팀명", "경기", "승", "무", "패", "승점", "경기당 승점"]
pl_index = [_ for _ in range(1, 5)]

pl_df = pd.DataFrame(pl_data, index=pl_index, columns=pl_columns)
pl_df

Unnamed: 0,팀명,경기,승,무,패,승점,경기당 승점
1,아스날,18,15,2,1,47,2.611111
2,맨체스터 시티,18,12,3,3,39,2.166667
3,뉴캐슬 유나이티드,19,10,8,1,38,2.0
4,맨체스터 유나이티드,18,12,2,4,38,2.111111


In [129]:
# "2005~2010 증가율 이라는 이름의 열 추가"
df["2005~2010 증가율"] = ((df["2010"] - df["2005"]) / df["2005"] * 100).round(2)
df

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4
인천,수도권,2890451,2632035,2517680,2466338,0.0982,4.54
대구,경상권,2466052,2431774,2456016,2473990,0.0141,-0.99


In [130]:
# 하나의 column만 인덱싱하면 Series가 반환된다.
df["지역"]

도시
서울    수도권
부산    경상권
인천    수도권
대구    경상권
Name: 지역, dtype: object

In [131]:
# Series 형태로 반환
df["2010"]

도시
서울    9631482
부산    3393191
인천    2632035
대구    2431774
Name: 2010, dtype: int64

In [132]:
# 배열 또는 리스트로 인덱싱하면 DataFrame 타입이 반환
df[["2010", "2015"]]

특성,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1
서울,9631482,9904312
부산,3393191,3448737
인천,2632035,2890451
대구,2431774,2466052


In [133]:
# column을 반환하면서 DataFrame 자료형을 유지
df[["2010"]]

특성,2010
도시,Unnamed: 1_level_1
서울,9631482
부산,3393191
인천,2632035
대구,2431774


In [134]:
import numpy as np

df2 = pd.DataFrame(np.arange(12).reshape(3, 4))
df2

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [135]:
df2[2]

0     2
1     6
2    10
Name: 2, dtype: int64

In [136]:
df2[[1, 2]]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


In [137]:
df[:1] # df[:"서울"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
서울,수도권,9904312,9631482,9762546,9853972,0.0283,-1.34


In [138]:
# row가 부산인 결과만 보고 싶을 경우
df[1:2]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [139]:
df["부산":"부산"]

특성,지역,2015,2010,2005,2000,2010-2015 증가율,2005~2010 증가율
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
부산,경상권,3448737,3393191,3512547,3655437,0.0163,-3.4


In [140]:
df["2015"]

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 2015, dtype: int64

In [141]:
df["2015"]["서울"]

9904312

In [142]:
type(df["2015"]["서울"])

numpy.int64

In [143]:
# 연습문제
data = {
    "국어": [80, 90, 70, 30],
    "영어": [90, 70, 60, 40],
    "수학": [90, 60, 80, 70],
}
columns = ["국어", "영어", "수학"]
index = ["춘향", "몽룡", "향단", "방자"]
df = pd.DataFrame(data, index=index, columns=columns)

# print(df)
# 1 모든 학생의 수학 점수를 Series로 나타낸다.
print(df["수학"])
# 2 모든 학생의 국어와 영어 점수를 데이터 프레임으로 나타낸다.
print(df[["국어", "영어"]])
# 3 모든 학생의 각 과목 평균 점수를 새로운 열로 추가
df["평균 점수"] = ((df["국어"] + df["영어"] + df["수학"]) / 3)
# print(df)
# 4 방자의 영어 점수를 80점으로 수정하고 평균 점수도 다시 계산
df["영어"]["방자"] = 80
df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)
# 5 춘향의 점수를 데이터 프레임으로 나타낸다
print(df["춘향":"춘향"])
# 6 향단의 점수를 Series로 나타낸다.
df.T["향단"]


춘향    90
몽룡    60
향단    80
방자    70
Name: 수학, dtype: int64
    국어  영어
춘향  80  90
몽룡  90  70
향단  70  60
방자  30  40
    국어  영어  수학      평균 점수
춘향  80  90  90  86.666667


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["영어"]["방자"] = 80
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["평균 점수"]["방자"] = ((df["국어"]["방자"] + df["영어"]["방자"] + df["수학"]["방자"]) / 3)


국어       70.0
영어       60.0
수학       80.0
평균 점수    70.0
Name: 향단, dtype: float64

In [144]:
# 연습문제
np.random.seed(0)
index = pd.date_range("20130226",periods=6)
columns = ["A", "B", "C", "D"]
data = np.random.randn(6, 4)

df = pd.DataFrame(data, index=index, columns=columns)
df

Unnamed: 0,A,B,C,D
2013-02-26,1.764052,0.400157,0.978738,2.240893
2013-02-27,1.867558,-0.977278,0.950088,-0.151357
2013-02-28,-0.103219,0.410599,0.144044,1.454274
2013-03-01,0.761038,0.121675,0.443863,0.333674
2013-03-02,1.494079,-0.205158,0.313068,-0.854096
2013-03-03,-2.55299,0.653619,0.864436,-0.742165


# python day 12
## to_csv()
## read_csv()

In [145]:
import pandas as pd
# columns = ["c1", "c2", "c3"]
# index = [0, 1, 2]
data = {
    "c1": [1, 2, "누락"],
    "c2": [1.11, "", 3.33],
    "c3": ["one", "two", "three"]
}
# df = pd.DataFrame(data, index=index, columns=columns)
df_csv = pd.DataFrame(data)
df_csv

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [146]:
df_csv.to_csv("sample1.csv", index=False)

In [147]:
df_read = pd.read_csv("sample1.csv")
df_read

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [148]:
# column 인덱스를 배제하고 저장해보기 header=False 사용
df_csv.to_csv("sample2.csv", index=False, header=False)

In [149]:
# column 인덱스가 없는 데이터를 다시 불러올때, columnn 인덱스 정보를 직접 추가할 수 있다.
pd.read_csv('sample2.csv', names=['c1', 'c2', 'c3'])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,,two
2,누락,3.33,three


In [150]:
%%writefile sample3.txt
c1        c2        c3        c4
0.179181 -1.538472  1.347553  0.43381
1.024209  0.087307 -1.281997  0.49265
0.417899 -2.002308  0.255245 -1.10515

Overwriting sample3.txt


In [151]:
# 읽어오려는 파일의 구분자가 ,가 아닌 경우 구분자를 지정해줘야 한다.
pd.read_table('sample3.txt', sep='\s+')

Unnamed: 0,c1,c2,c3,c4
0,0.179181,-1.538472,1.347553,0.43381
1,1.024209,0.087307,-1.281997,0.49265
2,0.417899,-2.002308,0.255245,-1.10515


In [152]:
%%writefile sample4.txt
파일 제목: sample4.txt
데이터 포맷의 설명:
c1, c2, c3
1, 1.11, one
2, 2.22, two
3, 3.33, three


Overwriting sample4.txt


In [153]:
# 상단에 부가적인 텍스트가 있는 경우
pd.read_csv('sample4.txt', skiprows=[0, 1])

Unnamed: 0,c1,c2,c3
0,1,1.11,one
1,2,2.22,two
2,3,3.33,three


In [154]:
# 불러올 자료 안의 특정한 값을 NaN으로 취급하고 싶으면, na_values를 이용
df_na_val = pd.read_csv("sample1.csv", na_values=['누락'])
df_na_val

Unnamed: 0,c1,c2,c3
0,1.0,1.11,one
1,2.0,,two
2,,3.33,three


In [155]:
# 출력할 때도 sep 인수로 구분자를 바꿀 수 있다.
df_na_val.to_csv('sample5.txt', sep='|')

In [156]:
# 저장할 때도 na_rep을 이용해 NaN 표시값을 바꿀 수 있다.
# NaN 값을 '누락'으로 변경해서 저장
df_na_val.to_csv('sample6.csv', na_rep='누락')

## 온라인의 데이터 불러오기

In [157]:
# titanic 데이터 불러오기
titanic = pd.read_csv("https://storage.googleapis.com/tf-datasets/titanic/train.csv")
titanic

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.2500,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.9250,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1000,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y
...,...,...,...,...,...,...,...,...,...,...
622,0,male,28.0,0,0,10.5000,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.0500,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0000,First,B,Southampton,y
625,0,female,28.0,1,2,23.4500,Third,unknown,Southampton,n


In [158]:
titanic.head()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
0,0,male,22.0,1,0,7.25,Third,unknown,Southampton,n
1,1,female,38.0,1,0,71.2833,First,C,Cherbourg,n
2,1,female,26.0,0,0,7.925,Third,unknown,Southampton,y
3,1,female,35.0,1,0,53.1,First,C,Southampton,n
4,0,male,28.0,0,0,8.4583,Third,unknown,Queenstown,y


In [159]:
titanic.tail()

Unnamed: 0,survived,sex,age,n_siblings_spouses,parch,fare,class,deck,embark_town,alone
622,0,male,28.0,0,0,10.5,Second,unknown,Southampton,y
623,0,male,25.0,0,0,7.05,Third,unknown,Southampton,y
624,1,female,19.0,0,0,30.0,First,B,Southampton,y
625,0,female,28.0,1,2,23.45,Third,unknown,Southampton,n
626,0,male,32.0,0,0,7.75,Third,unknown,Queenstown,y


In [160]:
import numpy as np
data = np.arange(10, 22).reshape(3, 4)
df = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [161]:
# loc 인덱서를 사용하며 콤마 없이 하나만 넣으면 row를 선택, Series로 반환
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [162]:
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [163]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [164]:
# 리스트 형태로 인덱싱도 가능
df.loc[["b", "c"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [165]:
# Boolean 시리즈로 인덱싱도 가능
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [166]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [167]:
# callable한 함수를 만들어서 인덱싱하는데 사용할 수 있다.
def select_rows(df, num):
    return df.A > num
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [168]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [169]:
# row 인덱스 값이 default로 주어진 정수로 생성된 DF의 경우에는
# 슬라이싱 마지막 숫자가 포함된 결과를 가져온다.
# 원래 row 인덱스 값이 정ㅇ수인 경우에는 마지막 값이 포함된다.
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [170]:
# row 인덱스 값이 default로 주어진 정수로 생성된 DF의 경우에는
# 슬라이싱 마지막 숫자가 포함된 결과를 가져온다.
df2.loc[1:3]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [171]:
# iloc은 loc과 다르게 label 인덱스가 아닌 숫자로된 인덱스에 접근하기에 우리가 아는 슬라이싱 방식과 동일하게 포함하지 않음
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [172]:
df.iloc[1:2]

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [173]:
# 인덱싱 값을 row와 column 모두 받으려면 df.loc[row 인덱스, column 인덱스]와 같은 형태로 사용
df.loc["a", "A"]

10

In [174]:
# 콤마로 구분된 인덱싱 값으로 슬라이싱 또는 리스트도 사용 가능
df.loc["b":,"A"]


b    14
c    18
Name: A, dtype: int64

In [175]:
df.loc["a",:]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [176]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [177]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


In [178]:
# iloc은 label이 아니라 정수 인덱스만 받음, 다른건 loc과 같음
df.iloc[0, 1]

11

In [179]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [180]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [181]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [182]:
# loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int64

In [183]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


## Series 데이터 개수 세기

In [184]:
# count() 메소드를 사용하면 NaN값은 세지 않음
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [185]:
s.count()

9

In [186]:
len(s)

10

## DataFrame 데이터 개수 세기

In [187]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [188]:
# dataFrame에서는 각 열마다의 데이터 개수를 센다
# NaN 값을 제외하고 개수를 센다.
df.count()

0    4
1    4
2    4
3    3
dtype: int64

In [189]:
# seaborn 패키지는 여러가지 데이터를 제공하고 있다.
# 위에서 사용한 타이타닉 승객 데이터도 있다.
# DataFrame으로 읽어올 수 있다.
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [190]:
titanic.count()

survived       891
pclass         891
sex            891
age            714
sibsp          891
parch          891
fare           891
embarked       889
class          891
who            891
adult_male     891
deck           203
embark_town    889
alive          891
alone          891
dtype: int64

## Series 카테고리 값 세기

In [191]:
np.random.seed(1)
s2 = pd.Series(np.random.randint(6, size=100)) # 0 ~ 5 사이의 정수를 100회 생성
s2.tail()

95    4
96    5
97    2
98    4
99    3
dtype: int64

In [192]:
s2.value_counts() # series 객체 내에 인덱스별로 나온 횟수를 보여줌

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [193]:
np.random.seed(2)
df = pd.DataFrame(np.random.randint(5, size=(4, 4)), dtype=float)
df.iloc[2, 3] = np.nan
df

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [194]:
df[0].value_counts()

3.0    2
0.0    1
4.0    1
Name: 0, dtype: int64

## Series 정렬

In [195]:
# index 순으로 정렬하려면 sort_index()를, value 기준으로 정렬하려면 sort_values()
s2.value_counts()

1    22
0    18
4    17
5    16
3    14
2    13
dtype: int64

In [196]:
# 위 셀의 반환값에 sort_index를 적용하면 정렬된 결과가 나옴
s2.value_counts().sort_index()

0    18
1    22
2    13
3    14
4    17
5    16
dtype: int64

In [197]:
# value를 기준으로 정렬하면 NaN값이 있을 경우 가장 나중으로 위치함
s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [198]:
s.sort_values()

0    0.0
1    1.0
2    2.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
3    NaN
dtype: float64

In [199]:
# ascending=False을 활용해 내림차순도 가능!
s.sort_values(ascending=False)

9    9.0
8    8.0
7    7.0
6    6.0
5    5.0
4    4.0
2    2.0
1    1.0
0    0.0
3    NaN
dtype: float64

## DataFrame 정렬

In [200]:
# df에서 sort_values를 사용하려면 by 키워드 인수를 사용해야 한다.
# 정렬 기준이 되는 column을 지정해줘야한다.
df.sort_values(by=1)

Unnamed: 0,0,1,2,3
0,0.0,0.0,3.0,2.0
1,3.0,0.0,2.0,1.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [201]:
# 리스트 자료형의 형태로 지정하면 요소의 순서대로 정렬 기준의 우선순위가 된다.
# 첫번째 열을 기준으로 정렬한 후, 동일한 순서 값이 나오면 그 다음 기준으로 순서를 결정
df.sort_values(by=[1, 2])

Unnamed: 0,0,1,2,3
1,3.0,0.0,2.0,1.0
0,0.0,0.0,3.0,2.0
2,3.0,2.0,4.0,
3,4.0,3.0,4.0,2.0


In [202]:
print(titanic.value_counts('sex').sort_values(ascending=False))
print(titanic.value_counts('age').sort_values(ascending=False))
print(titanic.value_counts('class').sort_values(ascending=False))
print(titanic.value_counts('alive').sort_values(ascending=False))

sex
male      577
female    314
dtype: int64
age
24.00    30
22.00    27
18.00    26
30.00    25
28.00    25
         ..
0.42      1
66.00     1
70.50     1
74.00     1
80.00     1
Length: 88, dtype: int64
class
Third     491
First     216
Second    184
dtype: int64
alive
no     549
yes    342
dtype: int64


In [86]:
# 원래는 이렇게 pandas 1.1 이전 버전에서
titanic['sex'].value_counts().sort_values(ascending=False)

male      577
female    314
Name: sex, dtype: int64

In [203]:
pd.__version__

'1.4.4'

In [204]:
titanic.value_counts(["sex", "age", "class", "alive"])

sex     age   class   alive
male    22.0  Third   no       13
        21.0  Third   no       12
        19.0  Third   no       11
        28.0  Third   no       10
        20.0  Third   no       10
                               ..
female  32.0  Second  yes       1
              First   yes       1
male    27.0  First   no        1
female  31.0  Second  yes       1
male    80.0  First   yes       1
Length: 339, dtype: int64

In [205]:
titanic.value_counts(["sex"])

sex   
male      577
female    314
dtype: int64

## DataFrame 행/열 합계

In [220]:
# row와 column의 합계를 구할 때는 sum(axis)를 사용
# axis는 없어지는 방향축을 지정
# row의 집계를 구할 때는 sum(axis=1) 사용
np.random.seed(1)
df2 = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df2

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [221]:
df2.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [222]:
df2["RowSum"] = df2.sum(axis=1)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


In [223]:
# column의 합계를 구할 때는 sum(axis=0) 사용, axis의 디폴트 값이 0이므로 axis 인수 생략가능
df2.sum()

0          24
1          33
2          25
3          24
4          15
5          10
6           5
7          16
RowSum    152
dtype: int64

In [224]:
df2.loc["ColTotal2"] = df2.sum()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
ColTotal2,24,33,25,24,15,10,5,16,152


In [225]:
# mean() 메서드는 평균을 구하며 앞서 설명한 sum() 메서드와 사용법이 같다. sum처럼 axis 지정
df2.mean()

0          9.6
1         13.2
2         10.0
3          9.6
4          6.0
5          4.0
6          2.0
7          6.4
RowSum    60.8
dtype: float64

In [226]:
df2.loc["ColTotal", :] = df.mean()
df2

Unnamed: 0,0,1,2,3,4,5,6,7,RowSum
0,5.0,8.0,9.0,5.0,0.0,0.0,1.0,7.0,35.0
1,6.0,9.0,2.0,4.0,5.0,2.0,4.0,2.0,34.0
2,4.0,7.0,7.0,9.0,1.0,7.0,0.0,6.0,41.0
3,9.0,9.0,7.0,6.0,9.0,1.0,0.0,1.0,42.0
ColTotal2,24.0,33.0,25.0,24.0,15.0,10.0,5.0,16.0,152.0
ColTotal,2.5,1.25,3.25,1.666667,,,,,


In [227]:
titanic["age"].mean()

29.69911764705882

In [232]:
titanic[titanic.sex == "female"]["age"].mean()

27.915708812260537

In [237]:
tmp = titanic[titanic.pclass == 1]
tmp[tmp.sex == "female"]["age"].mean()

34.61176470588235

In [239]:
# 타이타닉 승객의 평균 나이
print(titanic["age"].mean())

# 타이타닉호 승객중 여성 승객의 평균 나이
print(titanic[titanic.sex == "female"]["age"].mean())

# 타이타닉호 승객중 1등실 선실의 여성 승객의 평균 나이
tmp = titanic[titanic.pclass == 1]
print(tmp[tmp.sex == "female"]["age"].mean())

29.69911764705882
27.915708812260537
34.61176470588235


In [241]:
titanic[titanic.age == 20]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
12,0,3,male,20.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
91,0,3,male,20.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
113,0,3,female,20.0,1,0,9.825,S,Third,woman,False,,Southampton,no,False
131,0,3,male,20.0,0,0,7.05,S,Third,man,True,,Southampton,no,True
378,0,3,male,20.0,0,0,4.0125,C,Third,man,True,,Cherbourg,no,True
404,0,3,female,20.0,0,0,8.6625,S,Third,woman,False,,Southampton,no,True
441,0,3,male,20.0,0,0,9.5,S,Third,man,True,,Southampton,no,True
622,1,3,male,20.0,1,1,15.7417,C,Third,man,True,,Cherbourg,yes,False
640,0,3,male,20.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
664,1,3,male,20.0,1,0,7.925,S,Third,man,True,,Southampton,yes,False


In [242]:
[titanic.age == 20]

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: age, Length: 891, dtype: bool