# 판다스
## 판다스란?
- 표 형식의 데이터나 다양한 형태의 데이터를 다룰 수 있게 함
  - 시리즈, 데이터 프레임 객체
- 빠르고 효과적인 데이터 분석 도구를 제공
  - 넘파이 배열 기반의 연산 및 함수
- 넘파이, 사이파이, statsmodels, 사이킷런, 맷플로립과 함께 사용하는 경우 많음
- 주로 pd로 호출

## 시리즈? 데이터프레임?
- 시리즈(Series)
  - 데이터프레임 중 하나의 열에 해당하는 데이터의 모음 객체
- 데이터프레임(DataFrame)
  - 데이터테입르 전체를 포함하는 객체

- 데이터 테이블
  - 데이터 분석시 다룰 정형화된 데이터의 모습
  - 각 데이터 샘플은 인덱스를 갖고 있으며, 데이터 샘플(인스턴스)마다 다양한 피쳐를 갖고 있음.

In [1]:
import numpy as np
import pandas as pd

In [2]:
from pandas import Series, DataFrame

## 판다스 자료구조 (Series)
### Series
- 일련의 객체를 담을 수 있는 1차원 배열, 한 개의 feature
  - 어떤 넘파이 자료형도 담을 수 있음
- 일련의 객체로 이루어진 색인(index)를 가짐 (Dictionary와 유사한 구조)
  - pd.Series([1,2,3], index=['a','b','c'])
  - index와 data수는 같아야 함
- array, index, dtype 속성을 통해 각각 데이터, 색인, 데이터 타입 확인 가능
  - S.array, S.index, S.dtype

In [3]:
# Series 생성
obj = Series([4, 7, -5, 3])
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [4]:
obj2 = Series([4, 7, -5, 3], index = ['d', 'b', 'a', 'c'])
obj2

Unnamed: 0,0
d,4
b,7
a,-5
c,3


In [5]:
obj.array, "색인:", obj.index, "색인2:", obj2.index

(<NumpyExtensionArray>
 [4, 7, -5, 3]
 Length: 4, dtype: int64,
 '색인:',
 RangeIndex(start=0, stop=4, step=1),
 '색인2:',
 Index(['d', 'b', 'a', 'c'], dtype='object'))

## 판다스 자료구조 소개 (Series)
### Series 호출
- 단일 색인의 경우 딕셔너리와 동일
  ex. A['a']
- 다수 색인의 경우, 색인의 배열을 적용.
  ex. A[['a', 'b', 'c']] 리스트도 가능

### 산술 연산, 함수 적용, 불리언 색인
- 넘파이 배열처럼 연산이나 필터를 적용하더라도 색인과 값의 연결은 유지

In [6]:
# 호출
obj2["d"]

4

In [7]:
obj2["d"] = 6
obj2

Unnamed: 0,0
d,6
b,7
a,-5
c,3


In [8]:
obj2[np.array(["c", "a", "d"])]
obj2 # 원본 배열은 유지

Unnamed: 0,0
d,6
b,7
a,-5
c,3


In [9]:
# Series 연산
obj2

Unnamed: 0,0
d,6
b,7
a,-5
c,3


In [10]:
obj2[obj2 > 0]

Unnamed: 0,0
d,6
b,7
c,3


In [11]:
obj2 * 2

Unnamed: 0,0
d,12
b,14
a,-10
c,6


In [12]:
np.exp(obj2)

Unnamed: 0,0
d,403.428793
b,1096.633158
a,0.006738
c,20.085537


In [13]:
np.isin(obj2, [6,7]) # 6 또는 7이 obj2 배열에 있는지 없는지 불리언 값으로 반환. np.isin(arr values) 형태

array([ True,  True, False, False])

In [14]:
"b" in obj2

True

In [15]:
"e" in obj2

False

### Series <-> Dictionary
- dictionary로부터 Series 생성 가능
- Series를 dictionary로 변환 가능
  - S = Series(D)
  - S.to_dict()

- 원하는 색인만 그 순서대로 지정 가능
  - index_slice = {'a', 'b', 'c'}
  - S = Series(D, index=index_slice)

In [16]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
sdata

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [17]:
obj3 = Series(sdata) # 딕셔너리로부터 판다스 시리즈 생성
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [18]:
obj3.to_dict() # 시리즈를 딕셔너리로

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [19]:
states = ["California", "Ohio", "Oregon", "Texas"]
states

['California', 'Ohio', 'Oregon', 'Texas']

In [20]:
obj4 = Series(sdata, index=states) # 결측치는 NaN로 처리...
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


### 결측치 확인
- pd.isna (notna)
- pd.isnull (notnull)
- np.isnan
- np.isinf
- 넘파이처럼 인스턴스 메서드로도 활용 가능 (S.isna())
- 결측치 처리에 대한 더 자세한 방법은 데이터 정제 및 준비에서...

### 산술 연산 시 색인과 레이블 자동 연결
- 같은 색인에 대해 산술 연산 진행
- 데이터가 누락된 경우 NaN 처리
- 색인 자동 정렬

In [21]:
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [22]:
pd.isna(obj4) # pandas는 isna(), numpy는 isnan()
# np.isnan(obj4)

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [23]:
pd.isnull(obj4)

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [24]:
np.isinf(obj4) # 배열의 각 요소가 무한대 값인지 판별

Unnamed: 0,0
California,False
Ohio,False
Oregon,False
Texas,False


In [25]:
pd.notna(obj4)

Unnamed: 0,0
California,False
Ohio,True
Oregon,True
Texas,True


In [26]:
obj4.isna()

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [27]:
obj4.isnull()

Unnamed: 0,0
California,True
Ohio,False
Oregon,False
Texas,False


In [28]:
# 산술 연산 시 색인과 레이블 자동 정렬
obj3

Unnamed: 0,0
Ohio,35000
Texas,71000
Oregon,16000
Utah,5000


In [29]:
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [30]:
obj3 + obj4

Unnamed: 0,0
California,
Ohio,70000.0
Oregon,32000.0
Texas,142000.0
Utah,


### name 속성
  - Series 객체와 그 인덱스는 name 속성을 가짐
### 색인 교체, 데이터 추가
  - dictionary와 비슷하게 교체, 추가, 삭제 가능


In [31]:
obj4

Unnamed: 0,0
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [32]:
obj4.name = "population"
obj4.index.name = "state"
obj4

Unnamed: 0_level_0,population
state,Unnamed: 1_level_1
California,
Ohio,35000.0
Oregon,16000.0
Texas,71000.0


In [33]:
obj4.index

Index(['California', 'Ohio', 'Oregon', 'Texas'], dtype='object', name='state')

In [34]:
obj

Unnamed: 0,0
0,4
1,7
2,-5
3,3


In [35]:
obj.index = ["Bob", "Steve", "Jeff", "Alana"]
obj

Unnamed: 0,0
Bob,4
Steve,7
Jeff,-5
Alana,3


In [36]:
obj["Stella"] = 10
obj

Unnamed: 0,0
Bob,4
Steve,7
Jeff,-5
Alana,3
Stella,10


In [37]:
obj.pop("Steve")

7

In [38]:
obj

Unnamed: 0,0
Bob,4
Jeff,-5
Alana,3
Stella,10


In [39]:
personal_info = Series(['쥬야', 'F', 100], index=['name', 'gender', 'age'])
personal_info

Unnamed: 0,0
name,쥬야
gender,F
age,100


In [40]:
personal_info['age'] += 10
personal_info

Unnamed: 0,0
name,쥬야
gender,F
age,110


In [41]:
personal_info["name"], personal_info["gender"]

('쥬야', 'F')

In [42]:
personal_info.to_dict()

{'name': '쥬야', 'gender': 'F', 'age': 110}

In [43]:
p_info = Series(personal_info.to_dict(), index=['name', 'gender', 'height'])
p_info

Unnamed: 0,0
name,쥬야
gender,F
height,


In [44]:
personal_info

Unnamed: 0,0
name,쥬야
gender,F
age,110


In [45]:
del personal_info['name']
personal_info['id'] = 83
personal_info

Unnamed: 0,0
gender,F
age,110
id,83


In [46]:
personal_info.index = ['g', 'a', 's']
personal_info

Unnamed: 0,0
g,F
a,110
s,83
