## 5. 판다스 시작하기

In [None]:
import numpy as np
import pandas as pd

In [None]:
from pandas import Series, DataFrame

5.1 판다스 자료구조 

In [None]:
# series : 객체를 담을 수 있는 1차원 배열 같은 자료 구조
obj = pd.Series([4, 7, -5, 3])
# 왼쪽은 index, 오른쪽은 value
print(obj)
# index 속성으로 범위 확인
# 인덱스는 객체(Index object)로 반환됨
print(obj.index)

In [None]:
# index를 직접 지정하여 시리즈 생성
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
print(obj2)
print(obj2.index)

In [None]:
# 인덱스로 값 꺼내기
print(obj2["a"])

# 인덱스 배열로 여러개 꺼내기
print(obj2[["c", "a", "d"]])

# 값 수정하기
obj2["d"] = 6
print(obj2)

In [None]:
# 조건식을 적용하거나 산술연산을 해도 index-value 연결은 계속 유지됨

# 양수만 찾기
print(obj2[obj2 > 0])

# 모든 값에 2 곱하기
print(obj2 * 2)

# 모든값에 1 더하기
print(obj2.add(1))

In [None]:
# 시리즈에 특정 인덱스가 포함되어 있는지 확인
print("b" in obj2)
print("e" in obj2)

In [None]:
# 파이썬 딕셔너리 -> 시리즈로 생성
# 도시-인구수(만명)
city_data = {"서울": 940, "부산": 330, "인천": 290}
obj3 = pd.Series(city_data)
obj3

In [None]:
# 다시 시리즈 -> 딕셔너리로 변환 가능
obj3.to_dict()

In [None]:
# 원하는 인덱스 순서로 지정
# 존재하지 않는 인덱스는 NaN으로 표시됨
city = ["인천","서울", "부산","대구"]
obj4 = pd.Series(city_data, index=city)
obj4

In [None]:
# 누락된 데이터 확인하기
# isna : isnull
print(pd.isna(obj4))
# notna : notnull
print(pd.notna(obj4))

In [None]:
# 더하기 후에도 인덱스-값 연결이 유지됨
# 합치고 난 후에는 인덱스가 가나다 순으로 정렬됨
obj3
obj4
obj3 + obj4

In [None]:
# 시리즈에 이름 붙이기
obj4.name = "population"
# 시리즈의 인덱스에 이름 붙이기
obj4.index.name = "city"
obj4

In [None]:
# 대입으로 인덱스 변경하기
print(obj) # 변경 전
obj.index = ["a", "b", "c", "d"]
print(obj) # 변경 후

In [None]:
# dataframe : 표 같은 스프레드시트 형식의 자료구조
# 서울과 인천의 인구 변화를 담은 데이터 생성
# 도시,연도,인구(단위:만명)
data = {"city": ["서울", "서울", "서울", "인천", "인천", "인천"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [990, 980, 970, 240, 250, 260]}
frame = pd.DataFrame(data)

In [None]:
# 첫번째 행: key
# 그 아래: data
frame

In [None]:
# head : 위에서부터 5개 행만 출력
frame.head()

In [None]:
# tail : 마지막 5개의 행만 출력
frame.tail()

In [None]:
# 데이터프레임의 컬럼들
frame.columns

In [None]:
# 컬럼 순서를 변경
pd.DataFrame(data, columns=["year", "city", "pop"])

In [None]:
# 특정 컬럼만 조회
# 대괄호[]
print(frame["city"])
# .점
print(frame.year)

In [None]:
# 라벨이 1번인 행 반환
print(frame.loc[1])
# 위치가 2번인 행 반환
print(frame.iloc[2])

In [None]:
# 행 인덱스를 year로 변경
frame2 = frame.set_index("year")
frame2

In [None]:
# loc : 행 라벨로 검색
print(frame2.loc[2001])
# iloc : 행 위치로 검색
print(frame2.iloc[2])

In [None]:
# 새로운 열 추가
frame["출생률"] = 9.8
frame

In [None]:
# 하나씩 값 넣기
# loc[행번호, "컬럼명"] = 값
frame.loc[0,"출생률"] = 9.8
frame.loc[1,"출생률"] = 9.7
frame.loc[2,"출생률"] = 9.6
frame.loc[3,"출생률"] = 10.1
frame.loc[4,"출생률"] = 10.3
frame.loc[5,"출생률"] = 10.2
frame

In [None]:
# 새롭게 만들열 삭제
del frame["출생률"]
frame.columns

In [None]:
# dataframe -> numpy 배열로 변환
frame.to_numpy()

5.1.3 색인 객체

In [None]:
# 값은 "0 1 2" 이고, 인덱스는 "a b c"인 시리즈 생성
obj = pd.Series(np.arange(3), index=["a", "b", "c"])
print(obj)

# 인덱스 객체 확인
index = obj.index
print(index)

# 인덱스에서 2번째요소부터 끝까지 가져오기
index[1:]

In [None]:
# 0,1,2로 이루어진 인덱스 객체 생성
labels = pd.Index(np.arange(3))
print(labels)

# 위에서 만든 인덱스 객체를 시리즈에 사용
# 값 : 1.5 2.5 0
# 인덱스 : 0 1 2
obj2 = pd.Series([1.5, 2.5, 0], index=labels)
print(obj2)

# obj2의 인덱스와 labels가 동일한 객체인지 확인
obj2.index is labels

In [None]:
# 데이터프레임 확인
print(frame)

# 모든 컬럼(열)이름 출력
print(frame.columns)

# 컬럼(열) 중에 "city"가 존재하는지
print("city" in frame.columns)

# 인덱스(행) 중에 "10"가 존재하는지
print(10 in frame.index)

In [None]:
# 판다스의 인덱스는 중복을 허용함
pd.Index(["foo", "foo", "bar", "bar"])