# Pandas

- 데이터 자체를 분석, 파악하는 용도로 많이 쓰임
- 표, 테이블, 데이터프레임 형태
- 데이터를 다루는 것에 초점
- 정렬, 필터링, 그룹화, 집계 등

- 데이터 로딩 및 저장
- 데이터 인덱싱, 슬라이싱
- 결측치 처리
- 데이터 변환
- 데이터 집계 및 그룹화
---
- 시계열 데이터 처리
- 데이터 시각화 (기존의 데이터 자체가 어떤 형태를 가졌는지 확인)

## 1. Series (시리즈)

- 인덱스를 지정할 수 있음

[ 시리즈를 만들 때 사용할 수 있는 방법 ]
1. 리스트
2. 딕셔너리
3. 스칼라

In [1]:
import pandas as pd

### 리스트로 시리즈 만들기
* 인덱스명을 지정하지 않으면 자동으로 생성됨

In [3]:
s = pd.Series([1, 2, 3, 4])
print(s)
# 시리즈를 만들면 첫 열은 자동으로 index가 생성됨

0    1
1    2
2    3
3    4
dtype: int64


### 딕셔너리로 시리즈 만들기
* index명을 지정할 수 있음

In [5]:
s2 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})  # index명은 알파벳도 가능
print(s2)

a    1
b    2
c    3
d    4
dtype: int64


### 스칼라값으로 시리즈 만들기
* 5라는 스칼라값 하나로 index지정해서 시리즈 만들기

In [9]:
s3 = pd.Series(5, index = [0, 1, 2, 3, 4])
print(s3)

0    5
1    5
2    5
3    5
4    5
dtype: int64


### 변수로 시리즈 만들기

* 데이터를 변수에 넣어서 시리즈를 만들 수 있음
```
pd.Series(변수, index=변수)
```
  --> 유지보수가 쉽고 한 눈에 보기 편함


In [10]:
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
series = pd.Series(data, index=index)
print(series)

a    1
b    2
c    3
d    4
e    5
dtype: int64


* 인덱스를 지정하지 않아도 자동 생성

In [11]:
s = pd.Series(data)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


## 인덱싱, 슬라이싱

In [13]:
data = [1, 2, 3, 4, 5]
series = pd.Series(data)
print(series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [14]:
series[0]

1

In [17]:
series[0:4]

0    1
1    2
2    3
3    4
dtype: int64

In [20]:
series[::-1]

4    5
3    4
2    3
1    2
0    1
dtype: int64

* 슬라이싱을 아무리해도 원본은 바뀌지 않음

In [21]:
print(series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


## Boolean Indexing

In [22]:
print(series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


* print문에서 시리즈에 조건을 추가했을 때

In [23]:
print(series > 2)

0    False
1    False
2     True
3     True
4     True
dtype: bool


* 위처럼 True or False가 아니라 시리즈로 조건에 맞는 값을 받고 싶을 때


```
시리즈명[시리즈명 조건]
```



In [26]:
print(series[series > 2])  # a[a조건]

2    3
3    4
4    5
dtype: int64


In [27]:
# 5보다 작은 시리즈 만들기
print(series[series < 5])

0    1
1    2
2    3
3    4
dtype: int64


## Series 산술연산

In [28]:
data = [1, 2, 3, 4, 5]
series = pd.Series(data)

In [40]:
print('더하기 결과')
print(series + 100)

print('------------------------')
print('빼기 결과')
print(series - 100)

print('------------------------')
print('곱하기 결과')
print(series * 100)

print('------------------------')
print('제곱 결과')
print(series ** 100)

print('------------------------')
print('나누기 결과')
print(series / 100)

print('------------------------')
print('나머지 결과')
print(series % 100)

print('------------------------')
print('몫 결과')
print(series // 100)

더하기 결과
0    101
1    102
2    103
3    104
4    105
dtype: int64
------------------------
빼기 결과
0   -99
1   -98
2   -97
3   -96
4   -95
dtype: int64
------------------------
곱하기 결과
0    100
1    200
2    300
3    400
4    500
dtype: int64
------------------------
제곱 결과
0                      1
1                      0
2   -2984622845537545263
3                      0
4   -3842938066129721103
dtype: int64
------------------------
나누기 결과
0    0.01
1    0.02
2    0.03
3    0.04
4    0.05
dtype: float64
------------------------
나머지 결과
0    1
1    2
2    3
3    4
4    5
dtype: int64
------------------------
몫 결과
0    0
1    0
2    0
3    0
4    0
dtype: int64


## Series 객체에 접근
- keys도 가능 / index도 가능
- keys() / index
- keys가 index를 가리키기 때문에 둘 다 가능한 것
- values

In [43]:
print(series.keys)

<bound method Series.keys of 0    1
1    2
2    3
3    4
4    5
dtype: int64>


In [44]:
print(series.values)

[1 2 3 4 5]


* values는 잘 나오는데 keys는 왜 저렇게 나오는걸까?

In [46]:
s2 = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})
print(s2.keys)

<bound method Series.keys of a    1
b    2
c    3
d    4
dtype: int64>


* 시리즈에서는 keys 대신 index를 사용해야함

In [50]:
print(series.keys())
print(series.index)

RangeIndex(start=0, stop=5, step=1)
RangeIndex(start=0, stop=5, step=1)


In [49]:
print(s2.keys())
print(s2.index)

Index(['a', 'b', 'c', 'd'], dtype='object')
Index(['a', 'b', 'c', 'd'], dtype='object')


### items

In [51]:
# items

print(s2.items()) # zip -> 순회가 가능, 쌍으로 이루어졌다는 뜻

<zip object at 0x7f3ff79b9240>


In [52]:
for index, value in s2.items() :
  print(f'인덱스 : {index}, 데이터: {value}')

인덱스 : a, 데이터: 1
인덱스 : b, 데이터: 2
인덱스 : c, 데이터: 3
인덱스 : d, 데이터: 4


---

### loc - 행에 접근
* loc은 숫자가 들어갈 수 없고 label만 들어갈 수 있음
* 만약 index가 숫자로 되어있으면 숫자로 쓰면 됨

In [53]:
s = pd.Series([10, 20, 30, 40], index = ['a', 'b', 'c', 'd'])
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [55]:
print(s.loc['b'])

20


* 숫자가 아닌 인덱스명으로 슬라이싱을 할 때는 종료 인덱스를 포함하여 출력함

In [56]:
print(s.loc['b':'d'])

b    20
c    30
d    40
dtype: int64


### iloc - 열에 접근
* **행에 기반한** 열에 접근

In [57]:
# 1 -> 두번째 행의 열 값에 접근
print(s.iloc[1])

20


In [58]:
print(s.iloc[1:3])

b    20
c    30
dtype: int64


In [59]:
print(s.iloc[-1])

40


### at
* 특정 인덱스를 지정하여 값을 가져올 때
* loc이랑 비슷하지만 하나의 값만 가져올 때 사용

In [60]:
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [61]:
print(s.at['a'])

10


### iat
* iloc처럼 행에 기반하여 열에 접근

In [62]:
print(s.iat[0])

10


### get
* 없는 값에 대한 처리 방법

In [None]:
# loc에서 없는 값을 부를 때
print(s.loc['e'])
# 에러 발생

In [None]:
# at에서 없는 값을 부를 때
print(s.at['e'])
# 에러 발생

In [64]:
# get에서 없는 값을 부를 때
print(s.get('e'))
# 에러 없이 None 출력

None


In [67]:
# default값을 지정해주면 값이 없어도 에러가 나지 않고 대체값을 출력해줌
print(s.get('e', default=1))

1


## 결측값 (NaN, None)
- NaN (Not a Number) : 데이터 타입이 float
- None : 데이터 타입이 None

[ 확인하는 법 ]
- isna()
- isnull()

In [68]:
import numpy as np

* 파이썬에서의 None이 Numpy와 Pandas에서 각각 어떻게 적용될까?

In [70]:
# 파이썬에서 None값을 가진 리스트를 생성
data = [1, 2, 3, None]

[1 2 3 None]


In [72]:
# Numpy에서는 그대로 None으로 반환
print(np.array(data))

[1 2 3 None]


In [71]:
# Pandas는 NaN(float)으로 변형하여 출력
print(pd.Series(data))

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64


In [73]:
s = pd.Series(data)

* isna() 와 isnull() 사용해서 확인해보기
* nan, null값일 때 -> True

In [78]:
print(s.isna())
print(s.isnull())

0    False
1    False
2    False
3     True
dtype: bool
0    False
1    False
2    False
3     True
dtype: bool


In [80]:
# null값 갯수 세기
print(s.isna().sum())
print(s.isnull().sum())

1
1


In [81]:
print(s.notnull())

0     True
1     True
2     True
3    False
dtype: bool


## 결측치 제거

* 결측치 제거

In [82]:
s.dropna()

0    1.0
1    2.0
2    3.0
dtype: float64

* 결측치 치환

In [83]:
s

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

In [86]:
s.fillna(0)
# 숫자, 문자열 다 가능

0    1.0
1    2.0
2    3.0
3    0.0
dtype: float64

## Series 함수

In [87]:
s = pd.Series([1, 3, 5, 7, 9])

In [89]:
s.count()  # 카운트함수

5

In [90]:
s.min()  # 최솟값

1

In [91]:
s.max()  # 최댓값

9

In [97]:
print(s.mean())  # 평균
print(s.median())  # 중앙값
print(s.std())  # 표준편차
print(s.var())  # 분산

5.0
5.0
3.1622776601683795
10.0


In [98]:
# describe : 기초 통계 내용
s.describe()

count    5.000000
mean     5.000000
std      3.162278
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64