In [None]:
#Pandas 소개
# - 시계열 데이터나 표 형태의 테이터를 다루기 위한 패키지
# - 시계열 데이터란 시간의 흐름에 따라 변하는 데이터
# - pd라는 별칭으로 임포트하는 것이 관례
import pandas as pd

In [None]:
# 시리즈 클래스
# - 넘파이에서 제공하는 1차원 배열과 비슷
# - 데이터의 의미를 표시하는 인덱스를 붙일 수 있음

In [None]:
# 데이터프레임 클래스
# - 2차원 행렬 데이터에 인덱스를 붙인 것
# - 엑셀에서 다루는 표 형태의 데이터
# - 행 인덱스와 열 인덱스 지정 가능

In [None]:
# 시리즈 생성
# - 인덱스와 값은 index, values 속성으로 접근 가능
# - name 속성을 이용하면 데이터에 이름을 붙일 수 있음
# - index.name 속성을 이용하면 시리즈의 인덱스에도 이름을 붙일 수 있음
# - 리스트 배열 형식으로 데이터를 삽입하여 시리즈 객체를 만들수 있음
# - 인덱스의 길이는 데이터의 길이와 같아야 함
# - 인덱스는 라벨이라고도 부르며, 문자열, 날짜, 시간, 정수 등이 가능
s = pd.Series([9904312,3448737,2890451,2466052],
              index=["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [None]:
pd.Series(range(10,14))       #인덱스 미지정 시 0부터 자동 지정

0    10
1    11
2    12
3    13
dtype: int64

In [None]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [None]:
s.values

array([9904312, 3448737, 2890451, 2466052])

In [None]:
s.name = "인구"
s.index.name = "도시"
s

도시
서울    9904312
부산    3448737
인천    2890451
대구    2466052
Name: 인구, dtype: int64

In [None]:
# 시리즈 연산
# - 시리즈도 넘파이 배열과 같이 벡터화 연산이 가능
# - 시리즈의 값에만 적용되며, 인덱스에는 적용되지 않음
s / 1000000

도시
서울    9.904312
부산    3.448737
인천    2.890451
대구    2.466052
Name: 인구, dtype: float64

In [None]:
# pandas 불러오기
import pandas as pd

In [None]:
# k : v 구조를 갖는 딕셔너리를 만들고, 변수 dict_data에 저장
dict_data = {'a':1,'b':2,'c':3}

# 판다스 Series() 함수로 딕셔너리(dict_data)를 시리즈로 변환.
# 변수 sr에 저장
sr = pd.Series(dict_data)

# 변수 sr의 자료형 출력
print(type(sr))

# 변수 sr에 저장되어 있는 시리즈 객체를 출력
print(sr)

<class 'pandas.core.series.Series'>
a    1
b    2
c    3
dtype: int64


In [None]:
# 리스트를 시리즈로 변환하여 변수 sr에 저장
list_data = ['2019-01-02',3.14,'ABC',100,True]
sr = pd.Series(list_data)
sr

0    2019-01-02
1          3.14
2           ABC
3           100
4          True
dtype: object

In [None]:
# 인덱스 배열은 변수 idx에 저장. 데이터 값 배열은 변수 val에 저장
idx = sr.index
val = sr.values
print(idx)
print('\n')
print(val)

RangeIndex(start=0, stop=5, step=1)


['2019-01-02' 3.14 'ABC' 100 True]


In [None]:
# 시리즈의 index 속성과 values속성을 이용하면 인덱스 배열과 데이터 값의
#배열을 불러올 수 있다.

# 실행 결과에서 인덱스는 0~4범위의 정수를 갖는 RangeIndex객체로 표시

# 데이터 값 배열은 원래 데이터인 list_data의 리스트 원소 배열의 순서를 
#유지한 상태로 입력된다.

In [None]:
# 투플을 시리즈로 변환(index 옵션에 인덱스 이름을 지정)
import pandas as pd

tup_data = ('영인','2010-05-01','여',True)
sr = pd.Series(tup_data, index=['이름',"생년월일",'성별','학생여부'])
sr

이름              영인
생년월일    2010-05-01
성별               여
학생여부          True
dtype: object

In [None]:
# 원소를 1개 선택
print(sr[0])        # sr의 1번째 원소를 선택(정수형 위치 인덱스를 활용)
print(sr['이름'])   # '이름' 라벨을 가진 원소를 선택(인덱스 이름을 활용)

영인
영인


In [None]:
# 여러 개의 원소를 선택 (인덱스 리스트 활용)
print(sr[[1,2]])
print('\n')
print(sr[['생년월일','성별']])

생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
dtype: object


In [None]:
print(sr[1:3])
print('\n')
print(sr['생년월일':'학생여부'])

생년월일    2010-05-01
성별               여
dtype: object


생년월일    2010-05-01
성별               여
학생여부          True
dtype: object


In [None]:
s = pd.Series([9904312,3448737,2890451,2466052],
              index=["서울","부산","인천","대구"])
s

서울    9904312
부산    3448737
인천    2890451
대구    2466052
dtype: int64

In [None]:
print(s[1])
print(s["부산"])

3448737
3448737


In [None]:
print(s[[0,3,1]])
print(s[["서울","대구","부산"]])

서울    9904312
대구    2466052
부산    3448737
dtype: int64
서울    9904312
대구    2466052
부산    3448737
dtype: int64


In [None]:
# 숫자 인덱싱은 마지막 값을 포함하지 않지만, 문자열 인뎃싱은 마지막 값을 포함
print(s[1:3])
print('\n')
print(s["부산":"대구"])
print('\n')
print(s[(250e4 < s) & (s < 500e4)])

부산    3448737
인천    2890451
dtype: int64


부산    3448737
인천    2890451
대구    2466052
dtype: int64


부산    3448737
인천    2890451
dtype: int64


In [None]:
# 라벨이 영문 문자열일 경우 속성처럼 접근 가능
s0 = pd.Series(range(3), index=["a","b","c"])
s0

a    0
b    1
c    2
dtype: int64

In [None]:
s0.b

1