## 5. 판다스 시작하기

In [2]:
import numpy as np
import pandas as pd

In [3]:
from pandas import Series, DataFrame

5.1 판다스 자료구조 

In [None]:
# series : 객체를 담을 수 있는 1차원 배열 같은 자료 구조
obj = pd.Series([4, 7, -5, 3])
# 왼쪽은 index, 오른쪽은 value
print(obj)
# index 속성으로 범위 확인
# 인덱스는 객체(Index object)로 반환됨
print(obj.index)

In [None]:
# index를 직접 지정하여 시리즈 생성
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
print(obj2)
print(obj2.index)

In [None]:
# 인덱스로 값 꺼내기
print(obj2["a"])

# 인덱스 배열로 여러개 꺼내기
print(obj2[["c", "a", "d"]])

# 값 수정하기
obj2["d"] = 6
print(obj2)

In [None]:
# 조건식을 적용하거나 산술연산을 해도 index-value 연결은 계속 유지됨

# 양수만 찾기
print(obj2[obj2 > 0])

# 모든 값에 2 곱하기
print(obj2 * 2)

# 모든값에 1 더하기
print(obj2.add(1))

In [None]:
# 시리즈에 특정 인덱스가 포함되어 있는지 확인
print("b" in obj2)
print("e" in obj2)

In [None]:
# 파이썬 딕셔너리 -> 시리즈로 생성
# 도시-인구수(만명)
city_data = {"서울": 940, "부산": 330, "인천": 290}
obj3 = pd.Series(city_data)
obj3

In [None]:
# 다시 시리즈 -> 딕셔너리로 변환 가능
obj3.to_dict()

In [None]:
# 원하는 인덱스 순서로 지정
# 존재하지 않는 인덱스는 NaN으로 표시됨
city = ["인천","서울", "부산","대구"]
obj4 = pd.Series(city_data, index=city)
obj4

In [None]:
# 누락된 데이터 확인하기
# isna : isnull
print(pd.isna(obj4))
# notna : notnull
print(pd.notna(obj4))

In [None]:
# 더하기 후에도 인덱스-값 연결이 유지됨
# 합치고 난 후에는 인덱스가 가나다 순으로 정렬됨
obj3
obj4
obj3 + obj4

In [None]:
# 시리즈에 이름 붙이기
obj4.name = "population"
# 시리즈의 인덱스에 이름 붙이기
obj4.index.name = "city"
obj4

In [None]:
# 대입으로 인덱스 변경하기
print(obj) # 변경 전
obj.index = ["a", "b", "c", "d"]
print(obj) # 변경 후

In [None]:
# dataframe : 표 같은 스프레드시트 형식의 자료구조
# 서울과 인천의 인구 변화를 담은 데이터 생성
# 도시,연도,인구(단위:만명)
data = {"city": ["서울", "서울", "서울", "인천", "인천", "인천"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [990, 980, 970, 240, 250, 260]}
frame = pd.DataFrame(data)

In [None]:
# 첫번째 행: key
# 그 아래: data
frame

In [None]:
# head : 위에서부터 5개 행만 출력
frame.head()

In [None]:
# tail : 마지막 5개의 행만 출력
frame.tail()

In [None]:
# 데이터프레임의 컬럼들
frame.columns

In [None]:
# 컬럼 순서를 변경
pd.DataFrame(data, columns=["year", "city", "pop"])

In [None]:
# 특정 컬럼만 조회
# 대괄호[]
print(frame["city"])
# .점
print(frame.year)

In [None]:
# 라벨이 1번인 행 반환
print(frame.loc[1])
# 위치가 2번인 행 반환
print(frame.iloc[2])

In [None]:
# 행 인덱스를 year로 변경
frame2 = frame.set_index("year")
frame2

In [None]:
# loc : 행 라벨로 검색
print(frame2.loc[2001])
# iloc : 행 위치로 검색
print(frame2.iloc[2])

In [None]:
# 새로운 열 추가
frame["출생률"] = 9.8
frame

In [None]:
# 하나씩 값 넣기
# loc[행번호, "컬럼명"] = 값
frame.loc[0,"출생률"] = 9.8
frame.loc[1,"출생률"] = 9.7
frame.loc[2,"출생률"] = 9.6
frame.loc[3,"출생률"] = 10.1
frame.loc[4,"출생률"] = 10.3
frame.loc[5,"출생률"] = 10.2
frame

In [None]:
# 새롭게 만들열 삭제
del frame["출생률"]
frame.columns

In [None]:
# dataframe -> numpy 배열로 변환
frame.to_numpy()

5.1.3 색인 객체

In [60]:
# 값은 "0 1 2" 이고, 인덱스는 "a b c"인 시리즈 생성
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
display(obj)

# 인덱스 객체 확인
index = obj.index
print(index)

# 인덱스에서 2번째요소부터 끝까지 가져오기
index[1:]

a    0
b    1
c    2
dtype: int64

In [63]:
# 0,1,2로 이루어진 인덱스 객체 생성
labels = pd.Index(np.arange(3))
print(labels)

# 위에서 만든 인덱스 객체를 시리즈에 사용
# 값 : 1.5 2.5 0
# 인덱스 : 0 1 2
obj2 = pd.Series([1.5, 2.5, 0], index=labels)
display(obj2)

# obj2의 인덱스와 labels가 동일한 객체인지 확인
obj2.index is labels

Index([0, 1, 2], dtype='int64')


0    1.5
1    2.5
2    0.0
dtype: float64

True

In [None]:
# 데이터프레임 확인
print(frame)

# 모든 컬럼(열)이름 출력
print(frame.columns)

# 컬럼(열) 중에 "city"가 존재하는지
print("city" in frame.columns)

# 인덱스(행) 중에 "10"가 존재하는지
print(10 in frame.index)

In [None]:
# 판다스의 인덱스는 중복을 허용함
pd.Index(["foo", "foo", "bar", "bar"])

5.2 핵심 기능

5.2.1 재색인

In [None]:
# 시리즈에 인덱스 지정
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

In [None]:
# 새로운 인덱스에 맞게 시리즈를 재배열
# 인덱스에 연결되는 값이 없으면 NaN(빈값)으로 처리됨
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

In [None]:
# 새로운 시리즈 생성
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
print(obj3) # 인덱스가 연속적이지 않음
# 인덱스를 0~5로 확장하고, 
# ffill 방식으로 빈값 채우기 (앞의 값 넣기)
obj3.reindex(np.arange(6), method="ffill")

In [None]:
# 0~9까지 숫자들을 만들고, 3행 3열 크기의 배열 생성
# 배열을 데이터프레임으로 생성
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["서울", "인천", "부산"])
# 데이터 : 3x3 배열
# 인덱스(행) : a c d
# 컬럼(열) : 서울 인천 부산
print(frame)

# 행 인덱스 재설정
# 기존에 없던 b행은 NaN으로 채워짐
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

In [None]:
# 열 인덱스 재설정하기
# 열 목록과 순서 재배치
# 대전은 원래 없으므로 NaN으로 채워짐
city = ["서울","대전","부산"]
frame.reindex(columns=city)

In [None]:
# loc : 행열의 라벨로 요소를 찾는 함수
# 행은 "a d c" 순서로 선택 -> 열은 "서울 부산"만 선택
frame.loc[["a", "d", "c"], ["서울", "부산"]]

5.2.2 하나의 행이나 열 삭제하기

In [None]:
# 값은 0~4이고, 인덱스는 a~e인 시리즈 생성
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
print(obj)

# drop : 선택한 값을 삭제하는 함수
# c행 삭제하기
new_obj = obj.drop("c")
print(new_obj)

# a와 b행을 한번에 삭제
# 삭제해도 원본 배열에는 영향 없음
new_obj2 = obj.drop(["a", "b"])
new_obj2

In [64]:
# 0부터 15까지 숫자를 준비하고, 4행 4열의 배열로 만들기
# 그배열로 데이터프레임 생성
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["서울", "인천", "부산", "제주도"],
                    columns=["one", "two", "three", "four"])
data

Unnamed: 0,one,two,three,four
서울,0,1,2,3
인천,4,5,6,7
부산,8,9,10,11
제주도,12,13,14,15


In [None]:
# 행 삭제
data.drop(index=["인천", "서울"])

In [None]:
# 열(컬럼) 삭제
data.drop(columns=["two"])

5.2.3 색인하기, 선택하기, 거르기

In [None]:
# 값은 0.0~3.0이고 인덱스는 a~d인 시리즈 생성
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
print(obj)

# 시리즈에서 인덱스로 값 꺼내기

# 인덱스 라벨이 b인 요소
# print(obj["b"]) 
# 위치가 1번인 요소 (위에서 0부터 시작)
# print(obj[1]) # 경고 => 라벨이 아닌 위치로 해석했지만 이렇게 쓰지 말라는 것. 위치는 iloc로 쓸 것
# loc와 iloc는 라벨/위치를 명확히 구분하는데 반해
# [] 방식은 라벨 기반이나 상황에 따라 위치로 해석할때가 있음
# 위치가 2번부터 3번까지 (끝은 포함 안됨)
print(obj[2:4]) # 슬라이스는 위치로 해석됨
# 여러 라벨을 한번에 선택
# print(obj[["b", "a", "d"]])
# 여러 위치를 한번에 선택
# print(obj[[1, 3]])
# 조건에 만족하는 요소만
# print(obj[obj < 2])

In [None]:
# loc : 라벨로 값을 찾는 함수
# obj[["b", "a", "d"]]와 같음
obj.loc[["b", "a", "d"]]

In [None]:
# 숫자 인덱스를 가진 시리즈 생성
obj1 = pd.Series([1, 2, 3], index=[2, 0, 1])
# print(obj1)
# 문자 인덱스를 가진 시리즈 생성
obj2 = pd.Series([1, 2, 3], index=["a", "b", "c"])
# print(obj2)

# 인덱스를 [] 방식으로 값 꺼내기

# 첫번째 시리즈는 숫자 인덱스를 가지고 있음
# []는 라벨 리스트를 해석하여 요소를 찾음
# print(obj1[[0, 1, 2]]) # 라벨로 검색

# 두번째 시리즈는 문자 인덱스를 가지고 있음
print(obj2[[0, 1, 2]] ) # 에러남

In [None]:
# iloc : 위치로 값을 찾는 함수
# 위치로 검색할 때는 [] 대신 iloc함수 사용하기
print(obj1.iloc[[0, 1, 2]]) # 위치로 검색
print(obj2.iloc[[0, 1, 2]]) # 위치로 검색

In [None]:
# 인덱스 라벨 "b"부터 "c"까지 조회
# 라벨 슬라이싱은 끝 값 "c"도 포함됨
print(obj2.loc["b":"c"])

In [None]:
# 라벨 "b"부터 "c"까지 범위의 값을 모두 5로 변경
obj2.loc["b":"c"] = 5
print(obj2)

In [None]:
# 0~15 숫자를 만들고 4행 4열 크기의 배열로 변환
# 그 배열로 데이터프레임 생성
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["서울", "인천", "부산", "제주도"],
                    columns=["one", "two", "three", "four"])
print(data)

# 프레임에서 인덱스로 검색
# 컬럼(열)로 검색
print(data["two"])

# 여러 컬럼을 한번에 검색
print(data[["three", "one"]])

In [None]:
# 데이터프레임에서 []방식에 슬라이스(:)를 쓰면 '행'기준으로 조회됨
print(data[:2])

# 조건문으로 검색
# 1.먼저 "three" 컬럼을 찾고 
# 2.three컬럼의 값이 5보다 큰 행만 필터링
data[data["three"] > 5]

In [None]:
# 조건문으로 각 요소가 5보다 작은지 확인
# -> 불리언 배열 반환
data < 5

In [None]:
# 조건문을 이용해서 값 변경하기
# 조건을 만족하는 요소는 0으로 변경
data[data < 5] = 0
data

loc와 iloc로 선택하기

In [None]:
# 원본 데이터 확인
print(data) 
# loc함수를 이용해 인덱스 라벨로 검색하기
data.loc["인천"]

In [None]:
# 행 여러개 한번에 선택하기
data.loc[["인천", "제주도"]]

In [None]:
# loc[행라벨, 열라벨]
# '인천' 행을 선택하고
# 그 중에서 two, three 열만 출력
data.loc["인천", ["two", "three"]]

In [None]:
# iloc 함수를 이용해 위치 기반으로 검색하기

# 2번 행 선택
print(data.iloc[2])
# 2번과 1번행 한번에 선택
print(data.iloc[[2, 1]])
# iloc[행위치, 열위치]
# 2번행에서 3,0,1열 순서로 선택
print(data.iloc[2, [3, 0, 1]])
# 먼저 1,2번 행을 선택하고
# 그 중에서 0,2번 열만 출력
print(data.iloc[[1, 2], [0, 2]])

In [None]:
# 슬라이스도 가능
# 행라벨에서 처음부터 "부산"까지 선택하고 (라벨 슬라이싱은 끝 포함!)
# 그 중에서 "two"컬럼만 출력
data.loc[:"부산", "two"]

# 행은 전체를 선택하고
# 열 위치는 처음부터 2번까지 출력 
data.iloc[:, :3]

In [None]:
# loc 함수에 조건식 쓰기
display(data)

# three컬럼 값이 2보다 큰 행만 출력
data.loc[data.three >= 2]

# iloc 함수에는 조건식 못씀

연쇄 색인의 함정

In [None]:
# 원본 데이터 확인
display(data)

# 전체 행 선택 -> one 컬럼만 선택 -> 해당 컬럼 전체를 1로 수정
# data.loc[:, "one"] = 1
# display(data)

# 2번행 전체를 5로 수정
# data.iloc[2] = 5
# display(data)

# 조건식으로 행 선택하기
# 1.four 컬럼의 값이 5보다 큰지 확인
# 2.조건을 만족하는 행만 선택 -> 그 행 전체를 3으로 수정
# data["four"] > 5 # 조건을 만족하는 행 확인
data.loc[data["four"] > 5] = 3
data

In [None]:
# 조건에 맞는 행과 열 선택하기
# loc[행라벨, 열라벨]
# "three" 컬럼이 5인 행 찾기
# 그 행의 three컬럼 값을 6으로 변경
print(data.three == 5) # 조건을 만족하는 행 확인
data.loc[data.three == 5, "three"] = 6
data

5.2.4 산술연산과 데이터 정렬

In [None]:
# 인덱스가 서로 다른 2개의 시리즈 생성

# 첫 번째 시리즈 (인덱스: a,c,d,e)
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])

# 두 번째 시리즈 (인덱스: a,c,e,f,g)
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=["a", "c", "e", "f", "g"])

print(s1)
s2

In [None]:
# 두 시리즈 더하기
# 서로 겹치는 인덱스가 없으면 NaN(잘못된값)이 나옴
s1 + s2

In [None]:
# 0부터 8까지 숫자를 만들고 3행 3열 배열로 변환
# 그 배열로 데이터프레임 생성
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list("bcd"),
                   index=["서울", "인천", "부산"])

# 행과 열이 서로 다른 두개의 데이터프레임 생성
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list("bde"),
                   index=["서울", "인천", "대전", "제주도"])
display(df1)
df2

In [None]:
# 두 데이터프레임 더하기
# 공통된 행과 열은 값이 더해지고
# 나머지는 NaN(잘못된값)이 나옴
df1 + df2

In [None]:
# dict 넣어서 데이터 프레임 생성
# dict의 key -> 컬럼
# dict의 value -> 데이터
df1 = pd.DataFrame({"A": [1, 2]})

# 다른 데이터 프레임 생성
df2 = pd.DataFrame({"B": [3, 4]})

display(df1)
df2

In [None]:
# 공통된 행과 열이 없으면 전부 NaN이 나옴
df1 + df2

산술 연산 메소드에 채워 넣을 값 지정하기

In [None]:
# 0.0부터 11.0까지 숫자를 만들고 3행 4열 배열로 변환
# 그 배열로 데이터프레임 생성
# 컬럼은 abcd
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))

# 0.0부터 19.0까지 숫자를 만들고 4행 5열 배열로 변환
# 그 배열로 데이터프레임 생성
# 컬럼은 abcde
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
display(df1)
display(df2)

# "1"행을 찾고 "b"열을 찾고 -> 값을 NaN으로 변경
df2.loc[1, "b"] = np.nan
display(df2)

In [None]:
# 두 데이터프레임 더하기
# 행과 열이 겹치지 않는 요소는 NaN이 나옴
df1 + df2

In [None]:
# + 대신 add 함수로 두 데이터프레임 더하기
# fill_value=0 → 공통되지 않는 값은 NaN 대신 0으로 대체
df1.add(df2, fill_value=0)

In [None]:
# 첫번째 데이터프레임의 열을 두번째 데이터프레임의 열로 재정렬
# df1에는 "e" 열이 없으므로 0으로 채우기
df1.reindex(columns=df2.columns, fill_value=0)

DataFrame과 Series 간의 연산

In [None]:
# 0.0부터 11.0까지 숫자를 만들고 3행 4열 배열로 변환
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
# 0번째 행만 조회
arr[0]

# 원본 배열에서 0번째 행 빼기
# 원본 배열은 2차원, 0번째 행은 1차원
# 넘파이가 자동으로 모양을 맞춰서
# 각 행에서 첫번째 행을 뺌
arr - arr[0]

In [None]:
# 데이터프레임 생성
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["서울", "인천", "부산", "제주도"])
display(frame)

# 데이터프레임에서 첫번째 행만 추출 -> 시리즈
series = frame.iloc[0]
series

In [None]:
# 데이터프레임에서 시리즈를 빼면
# 판다스가 모양을 확장해서 각 행에서 시리즈의 값을 뺌
frame - series

In [None]:
# 새로운 시리즈 생성
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
display(series2)

# 더하기를 위해서 인덱스를 재정렬하고
# 행열이 일치하지 않는 값은 NaN이 나옴
frame + series2

In [None]:
display(frame)

# 데이터프레임에서 d컬럼만 추출
series3 = frame["d"]
display(series3)

# - 대신 sub함수를 이용해 데이터프레임에서 시리즈 빼기
# 행기준으로 빼기
frame.sub(series3, axis="index")

5.2.5 함수 적용과 매핑

In [16]:
# 4행 3열의 난수를 담은 데이터 프레임 생성
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["서울", "인천", "부산", "제주도"])
frame
# 절대값으로 계산
# 데이터프레임에 유니버설 함수를 쓰면 데이터프레임 전체에 적용됨
np.abs(frame)

Unnamed: 0,b,d,e
서울,0.87492,0.281839,0.226851
인천,0.211358,0.618466,1.142609
부산,1.240379,0.164511,1.485588
제주도,0.29151,1.090469,0.868752


In [17]:
# 함수 정의: 최대값 - 최소값 계산
def f1(x):
    return x.max() - x.min()

# 각 열에 함수 적용
frame.apply(f1)

b    2.115299
d    1.708935
e    1.258737
dtype: float64

In [18]:
# 각 행에 대해 함수 적용
frame.apply(f1, axis="columns")

서울     1.156759
인천     1.761075
부산     1.321077
제주도    0.798959
dtype: float64

In [19]:
# 소수점 둘째 자리까지 출력
n=1.2345
f"{n:.2f}"

# 함수 정의: 소수점 둘째 자리까지 문자열로 변환
def my_format(x):
    return f"{x:.2f}"

# e 열의 각 값에 함수 적용 → 문자열 포맷 변환
frame["e"].map(my_format)

서울     -0.23
인천     -1.14
부산     -1.49
제주도    -0.87
Name: e, dtype: object

5.2.6 정렬과 순위

In [4]:
# 0~3 숫자를 만들고 시리즈 생성
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj
# sort_index : 인덱스를 정렬하는 함수
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [7]:
# 0~7 숫자를 만들고 2행 4열 배열로 변환
# 그 배열로 데이터프레임 생성
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
frame

# 행(인덱스) 기준으로 정렬
frame.sort_index()

# 열(컬럼) 기준으로 정렬
frame.sort_index(axis="columns")

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [8]:
# ascending=False => 내림차순
# 열을 기준으로 내림차순 정렬
frame.sort_index(axis="columns", ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [9]:
# sort_values : 인덱스나 컬럼이 아닌 데이터를 기준으로 정렬
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [10]:
# 정렬할때 nan은 마지막에 배치됨
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [11]:
# na_position="first" 옵션 -> 정렬시 nan를 앞에 배치
obj.sort_values(na_position="first")

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64

In [13]:
# dict으로 데이터프레임 생성
# b열 a열
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
display(frame)

# b열만 정렬
frame.sort_values("b")

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [14]:
# 여러 개의 열을 한번에 정렬
frame.sort_values(["a", "b"])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [17]:
# 시리즈 생성
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
display(obj)
# 값으로 순위 매기기
# 같은 값은 평균 순위로 책정
obj.rank()

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [18]:
# method="first" 옵션 -> 같은 값이면 위에 있는 값에 더 높은 순위를 줌
obj.rank(method="first")

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [19]:
# 내림차순으로 순위 매기기
obj.rank(ascending=False)

0    1.5
1    7.0
2    1.5
3    3.5
4    5.0
5    6.0
6    3.5
dtype: float64

In [22]:
# b,a,c열을 가진 데이터프레임 생성
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
display(frame)

# 열 단위로 각 행의 값을 비교하여 순위 매기기
frame.rank(axis="columns")

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


5.2.7 중복색인

In [30]:
# 시리즈는 인덱스 값이 중복될 수 있음
obj = pd.Series(np.arange(5), index=["a", "a", "b", "b", "c"])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [24]:
# 인덱스가 유일한지 확인
obj.index.is_unique

False

In [31]:
# 인덱스가 여러개면 시리즈 객체를 반환
obj["a"]

# 인덱스가 하나만 있으면 값 하나를 반환
obj["c"]

np.int64(4)

In [34]:
# 표준정규분포에서 난수를 만들고 5행 3열 크기의 배열을 생성
# 그 배열로 데이터프레임 생성
df = pd.DataFrame(np.random.standard_normal((5, 3)),
                  index=["a", "a", "b", "b", "c"])
display(df)

# b행 출력
# b 인덱스는 여러개이므로 데이터프레임이 반환됨
display(df.loc["b"])

# c행 출력
# c 인덱스는 하나만 있으므로 시리즈가 반환됨
df.loc["c"]

Unnamed: 0,0,1,2
a,1.492143,0.179607,2.343526
a,1.274775,-0.70231,-1.075512
b,1.422297,0.683284,-0.505391
b,-0.138595,0.619992,-0.355464
c,1.77553,-1.418529,0.554763


Unnamed: 0,0,1,2
b,1.422297,0.683284,-0.505391
b,-0.138595,0.619992,-0.355464


0    1.775530
1   -1.418529
2    0.554763
Name: c, dtype: float64

5.3 기술 통계 계산과 요약

In [35]:
# 데이터프레임 생성
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [36]:
# 데이터프레임의 sum함수로 합계 구하기
# 각 열의 합을 담은 시리즈가 반환됩
df.sum()

one    9.25
two   -5.80
dtype: float64

In [39]:
# 열방향으로 합계를 구함 
# 가로로 계산 -> 각행의 합계
display(df.sum(axis="columns"))

# 행방향으로 합계를 구함 
# 세로로 계산 -> 각열의 합계
# display(df.sum(axis="index"))

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [40]:
# 열방향으로 평균을 구함
# 가로로 계산 -> 각 행마다 평균값 구함
df.mean(axis="columns")

# 값이 없으면 0개로 취급
# a행 : 1.4/1
# b행 : (7.1+-4.5)/2

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

In [41]:
# describe : 한번에 여러개의 요약 통계를 만드는 함수
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [43]:
# 시리즈로 요약 통계 보기
obj = pd.Series(["a", "a", "b", "c"])
obj.describe()

count     4
unique    3
top       a
freq      2
dtype: object

5.3.2 유일값, 값 세기, 멤버십 

In [48]:
# 시리즈 생성
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [45]:
# 중복 제거
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [46]:
# 데이터 개수 세기
obj.value_counts()

c    3
a    3
b    2
d    1
Name: count, dtype: int64

In [51]:
print(obj)

# isin : 값을 확인하는 메소드 -> 블리언 시리즈 반환
# 값이 b나 c가 맞으면 -> true
mask = obj.isin(["b", "c"])
print(mask)

# b나 c만 골라내기
obj[mask]

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object
0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool


0    c
5    b
6    b
7    c
8    c
dtype: object

In [52]:
# Qu1, Qu2, Qu3 열을 가지는 데이터프레임 생성
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [55]:
# value_counts : 각 값이 몇개 나오는지 세기 (빈도수 집계)
# Qu1열에서 빈도수 확인
# 3 -> 2번 등장
# 4 -> 2번 등장
# 1 -> 1번 등장
data["Qu1"].value_counts()

# 빈도수 정렬
data["Qu1"].value_counts().sort_index()

Qu1
1    1
3    2
4    2
Name: count, dtype: int64

In [58]:
# apply : 빈도수 집계
# pd.value_counts 전달 -> 모든 컬럼에 적용
data.apply(pd.value_counts)

# nan은 0으로 채우기
result = data.apply(pd.value_counts).fillna(0)
result

  data.apply(pd.value_counts)
  result = data.apply(pd.value_counts).fillna(0)


Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


In [59]:
data = pd.DataFrame({"a": [1, 1, 1, 2, 2], "b": [0, 0, 1, 0, 0]})
data
data.value_counts()

a  b
1  0    2
2  0    2
1  1    1
Name: count, dtype: int64