# 판다스
- 데이터 분석을 위한 효율적인 데이터 구조를 제공하는 라이브러리
- 서로 다른 여러가지 유형의 데이터를 공통의 포맷으로 정리할 수 있다.

## 판다스의 특징
- 데이터를 읽어들이거나 그래프화 등 데이터 분석에 관한 작업이 가능하다.
- 1차원 배열형태의 데이터구조 : Series
- 2차원 배열형태의 데이터구조 : DataFrame

In [57]:
# 판다스 임포트 하는 방법
import pandas as pd # pd로 줄여서 사용하는 경우가 많다

# Series(시리즈)
- 1차원 배열의 각 값들에 대응하는 인덱스를 부여할 수 있는 구조
- 행의 이름(index), 열의 이름(name)이 있다.
- 별도 입력이 없으면 행의 이름은 0부터 시작하는 정수값을 갖고, 열의 이름은 None을 갖는다.
- 딕셔너리와 구조가 유사하며, 정수형 위치 인덱스와 인덱스 라벨을 사용한다.

In [58]:
# 시리즈의 기본 구조
# sr = pd.Series(데이터값, index = 인덱스명, name = 열이름)으로 시리즈를 만들 수 있다.
# 시리즈는 모든 데이터유형을 담을 수 있다.

## 딕셔너리 -> 시리즈

In [59]:
import pandas as pd

score = {'학생명' : ['이순신', '홍길동', '신사임당', '세종대왕'], '점수' : [100, 80, 90, 95]}
print(score, type(score)) # 딕셔너리

sr = pd.Series(score, name = '수학점수') # score를 시리즈로 변환, 열이름은 '수학점수'
print(sr, type(sr)) # <class 'pandas.core.series.Series'> 

scr = {'math' : 100, 'eng' : 80, 'kor' : 70, 'his' : 95}
print(scr, type(scr)) # 딕셔너리

sr = pd.Series(scr) # scr를 시리즈로 변환
print(sr, type(sr)) # 시리즈

# 인덱스와 값 출력
print(sr.index, type(sr.index)) # 인덱스값 추출
print(sr.values, type(sr.values)) # 값 출력 / 넘파이 배열로 출력된다.
print(sr.dtype) # 정수형값들이 들어있다.

{'학생명': ['이순신', '홍길동', '신사임당', '세종대왕'], '점수': [100, 80, 90, 95]} <class 'dict'>
학생명    [이순신, 홍길동, 신사임당, 세종대왕]
점수          [100, 80, 90, 95]
Name: 수학점수, dtype: object <class 'pandas.core.series.Series'>
{'math': 100, 'eng': 80, 'kor': 70, 'his': 95} <class 'dict'>
math    100
eng      80
kor      70
his      95
dtype: int64 <class 'pandas.core.series.Series'>
Index(['math', 'eng', 'kor', 'his'], dtype='object') <class 'pandas.core.indexes.base.Index'>
[100  80  70  95] <class 'numpy.ndarray'>
int64


## 리스트, 튜플 -> 시리즈

In [60]:
# 리스트 -> 시리즈
li = [1, 2, 3, '4', 5]
sr = pd.Series(li, index = ['일', '이', '삼', '사', '오']) # 인덱스의 개수와 value의 개수가 일치해야한다.
print(sr)

print(sr.values) # 넘파이 배열은 한 가지 자료형만 포함할 수 있지만 시리즈의 value값을 추출할 때는 여러 자료형을 포함한다.

일    1
이    2
삼    3
사    4
오    5
dtype: object
[1 2 3 '4' 5]


In [61]:
# 튜플 -> 시리즈
tu = 'math', 'his', 'eng'
print(tu, type(tu)) # 튜플

sr = pd.Series(tu) # 튜플을 시리즈로 변환
print(sr, type(sr))

('math', 'his', 'eng') <class 'tuple'>
0    math
1     his
2     eng
dtype: object <class 'pandas.core.series.Series'>


## 시리즈의 값 추출

In [62]:
# 시리즈의 인덱싱

tu = 1, 2, 3, 4, 5
print(tu, type(tu))

sr = pd.Series(tu, index = ['일', '이', '삼', '사', '오'])
print(sr)

# 1.정수형 위치 인덱스를 사용 -> 리스트와 동일
print(sr[0])
print(sr[1])

# 2. 인덱스 라벨을 사용 -> 딕셔너리와 동일
print(sr['일'])
print(sr['이'])

(1, 2, 3, 4, 5) <class 'tuple'>
일    1
이    2
삼    3
사    4
오    5
dtype: int64
1
2
1
2


In [63]:
# 시리즈의 여러 값 추출

# 1. 슬라이싱 이용(대괄호 한번 사용)
print(sr[0:2])

# 2. 넘파이의 인덱싱을 이용
print(sr[[0,1]])

# 3. 인덱스 라벨 이용
print(sr[['일', '이']])

일    1
이    2
dtype: int64
일    1
이    2
dtype: int64
일    1
이    2
dtype: int64


## 시리즈 -> 딕셔너리, 리스트

In [64]:
# 시리즈 생성
tu = 1, 2, 3, 4, 5
print(tu, type(tu))

sr = pd.Series(tu, index = ['일', '이', '삼', '사', '오'])
print(sr)

# 1. 형변환 함수 사용
di = dict(sr)
print(di, type(di))

li = list(sr)
print(li, type(li)) # value값만 추출된다.

# 2. 판다스 메소드 사용
di1 = sr.to_dict()
print(di1, type(di1))

li1 = sr.to_list()
print(li1, type(li1))

(1, 2, 3, 4, 5) <class 'tuple'>
일    1
이    2
삼    3
사    4
오    5
dtype: int64
{'일': 1, '이': 2, '삼': 3, '사': 4, '오': 5} <class 'dict'>
[1, 2, 3, 4, 5] <class 'list'>
{'일': 1, '이': 2, '삼': 3, '사': 4, '오': 5} <class 'dict'>
[1, 2, 3, 4, 5] <class 'list'>


## 시리즈 값 수정, 추가, 삭제

In [65]:
# 시리즈 생성
tu = 1, 2, 3, 4, 5
print(tu, type(tu))

sr = pd.Series(tu, index = ['일', '이', '삼', '사', '오'])
print(sr)

(1, 2, 3, 4, 5) <class 'tuple'>
일    1
이    2
삼    3
사    4
오    5
dtype: int64


In [66]:
# 시리즈 이름 부여
sr.name = '숫자'
print(sr) # Name: 숫자, dtype: int64

일    1
이    2
삼    3
사    4
오    5
Name: 숫자, dtype: int64


In [67]:
# 인덱스 수정
# 시리즈명.rename({수정전값 : 수정후값})

sr.rename({'일' : 'one'}, inplace = True)
# inplace = True : 원본에 바로 적용해준다.
# 기본값은 False로 원본에 바로 적용되지 않는다.

print(sr) # one    1

one    1
이      2
삼      3
사      4
오      5
Name: 숫자, dtype: int64


In [68]:
# 값 수정
print(sr)

# 1. 정수형 위치 인덱스를 이용해 값 수정
sr[0] = 6
print(sr)

# 2.인덱스라벨을 이용해 값 수정
sr['이'] = 20
print(sr)

one    1
이      2
삼      3
사      4
오      5
Name: 숫자, dtype: int64
one    6
이      2
삼      3
사      4
오      5
Name: 숫자, dtype: int64
one     6
이      20
삼       3
사       4
오       5
Name: 숫자, dtype: int64


In [69]:
# 값 추가
# 값 추가는 인덱스라벨을 통해서만 가능하다.

sr['육'] = 6
print(sr)

one     6
이      20
삼       3
사       4
오       5
육       6
Name: 숫자, dtype: int64


In [70]:
# 값 삭제
print(sr)

# 1. .시리즈객체.pop(인덱스라벨) -> 원본에서 삭제된다.
sr.pop('one') # 두 번 실행하면 없는 값을 삭제하게 되므로 오류가 발생한다.
print(sr)

# del 시리즈객체[인덱스라벨]
del sr['이'] # 두 번 실행하면 없는 값을 삭제하게 되므로 오류가 발생한다.
print(sr)

# 시리즈객체.drop(인덱스라벨) => inplace = True를 사용하지 않으면 원본에서 삭제되지 않는다.
print(sr.drop('삼'))
print(sr)

print(sr.drop('삼', inplace = True))

one     6
이      20
삼       3
사       4
오       5
육       6
Name: 숫자, dtype: int64
이    20
삼     3
사     4
오     5
육     6
Name: 숫자, dtype: int64
삼    3
사    4
오    5
육    6
Name: 숫자, dtype: int64
사    4
오    5
육    6
Name: 숫자, dtype: int64
삼    3
사    4
오    5
육    6
Name: 숫자, dtype: int64
None
