# Pandas

- 데이터 자체를 분석, 파악한다.
- 표
- 데이터를 다루는 데 초점
- 정렬, 필터링, 그룹화, 집계 등의 작업에 활용된다.

--- 
---
 **< 판다스로 할 수 있는 것 >**
- 데이터 로딩 및 저장
- 데이터 인덱싱 및 슬라이싱
- 결측치 처리
- 데이터 변환
- 데이터 집계 및 그룹화
---
- 시계열 데이터 처리
- 데이터 시각화

## 판다스가 가지고 있는 자료구조

1. Series(시리즈)
2. DataFrame(데이터프레임)

## 1. Series(시리즈)
- 인덱스를 지정할 수 있음

In [1]:
import pandas as pd

In [2]:
s = pd.Series([1, 2, 3, 4]) # 리스트
print(s)

0    1
1    2
2    3
3    4
dtype: int64


In [3]:
s2 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4}) # 딕셔너리
print(s2)

a    1
b    2
c    3
d    4
dtype: int64


In [4]:
s3 = pd.Series(5, index=[0, 1, 2]) #스칼라
print(s3)

0    5
1    5
2    5
dtype: int64


In [6]:
data = [1, 2, 3, 4, 5]
index = ['a', 'b', 'c', 'd', 'e']
series = pd.Series(data, index=index) # 활용
print(series)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [7]:
s = pd.Series(data)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


시리즈에는 리스트, 딕셔너리, 스칼라가 들어갈 수 있다.

### 슬라이싱

In [10]:
data = [1, 2, 3, 4, 5]
# index = ['a', 'b', 'c', 'd', 'e']
series = pd.Series(data)

In [11]:
print(series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [12]:
series[0]

1

In [14]:
series[:4]

0    1
1    2
2    3
3    4
dtype: int64

In [16]:
series[:-1]

0    1
1    2
2    3
3    4
dtype: int64

In [17]:
series[::-1]

4    5
3    4
2    3
1    2
0    1
dtype: int64

### Boolean indexing

In [18]:
print(series)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [19]:
print(series > 2)

0    False
1    False
2     True
3     True
4     True
dtype: bool


In [22]:
print(series[series > 2]) # a[a 조건]

2    3
3    4
4    5
dtype: int64


In [23]:
# 5보다 작은 시리즈 만들기

print(series[series < 5])

0    1
1    2
2    3
3    4
dtype: int64


### Series 산술연산

In [24]:
series + 100

0    101
1    102
2    103
3    104
4    105
dtype: int64

In [25]:
series - 100

0   -99
1   -98
2   -97
3   -96
4   -95
dtype: int64

In [28]:
print(series + 100)
print(series - 100)
print(series * 100)  # 곱하기: *
print(series ** 100) # 제곱: **
print(series / 100)  # 나누기: /    (float형)
print(series % 100)  # 나머지: %
print(series // 100) # 나누기: //    (int형)

0    101
1    102
2    103
3    104
4    105
dtype: int64
0   -99
1   -98
2   -97
3   -96
4   -95
dtype: int64
0    100
1    200
2    300
3    400
4    500
dtype: int64
0                      1
1                      0
2   -2984622845537545263
3                      0
4   -3842938066129721103
dtype: int64
0    0.01
1    0.02
2    0.03
3    0.04
4    0.05
dtype: float64
0    1
1    2
2    3
3    4
4    5
dtype: int64
0    0
1    0
2    0
3    0
4    0
dtype: int64


## Series 객체에 접근
- keys -> index
- values

In [30]:
print(series.keys)
'''
<bound method Series.keys of 0    1
1    2
2    3
3    4
4    5
dtype: int64>
\n<bound method series.key of\n
'''

<bound method Series.keys of 0    1
1    2
2    3
3    4
4    5
dtype: int64>


'\n<bound method series.key of\n'

In [39]:
print(series.keys())
print(series.index)
print(series.values)

RangeIndex(start=0, stop=5, step=1)
RangeIndex(start=0, stop=5, step=1)
[1 2 3 4 5]


In [33]:
s2 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4}) # 딕셔너리
print(s2.keys)

<bound method Series.keys of a    1
b    2
c    3
d    4
dtype: int64>


In [36]:
s2 = pd.Series({'a':1, 'b':2, 'c':3, 'd':4}) # 딕셔너리
print(s2.keys()) # 메서드를 실행한다

Index(['a', 'b', 'c', 'd'], dtype='object')


In [38]:
s2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [40]:
# items

print(s2.items()) # zip -> 순회가 가능하고, 쌍 

<zip object at 0x7f781f0f2280>


In [42]:
for index, value in s2.items():
    print(f'인덱스: {index}, 데이터: {value}')

인덱스: a, 데이터: 1
인덱스: b, 데이터: 2
인덱스: c, 데이터: 3
인덱스: d, 데이터: 4


In [43]:
s = pd.Series([10, 20, 30, 40], index = ['a', 'b', 'c', 'd'])

In [44]:
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [47]:
print(s.loc['b']) # loc : 행에 접근
print(s.loc['b':'d'])

20
b    20
c    30
d    40
dtype: int64


In [48]:
print(s.iloc[1]) # iloc : (행에 기반한) 열에 접근

20


In [49]:
print(s.iloc[1:3])

b    20
c    30
dtype: int64


In [50]:
print(s.iloc[-1])

40


In [51]:
print(s)

a    10
b    20
c    30
d    40
dtype: int64


In [52]:
print(s.at['a']) # at은 loc이랑 비슷하나, 하나의 값만 가져올 때 사용

10


In [54]:
print(s.iat[0]) # at에 기반

10


In [56]:
print(s.get('e')) # 없는 값에 대한 처리 방법이 다르다

None


In [57]:
print(s.get('e', default=-1)) # 에러가 나지 않고 없다는 걸 알려줌

-1


## 결측값 (NaN, None)

- isna()
- isnull()

NaN(Not a Number) -> (데이터타입:)float

None -> (데이터타입:)none

In [64]:
data = [1, 2, 3, None]

In [65]:
s = pd.Series(data)

print(s.isna())

0    False
1    False
2    False
3     True
dtype: bool


In [66]:
print(s.isnull())

0    False
1    False
2    False
3     True
dtype: bool


In [67]:
print(s.isnull().sum()) # 결측값이 몇 개 있는지 알 수 있다.

1


In [68]:
print(s.notnull())

0     True
1     True
2     True
3    False
dtype: bool


In [69]:
print(s.notnull().sum())

3


### 결측치 제거

In [70]:
s.dropna()

0    1.0
1    2.0
2    3.0
dtype: float64

In [71]:
s

0    1.0
1    2.0
2    3.0
3    NaN
dtype: float64

### 결측치 0으로 대체

In [75]:
s.fillna(0)

0    1.0
1    2.0
2    3.0
3    0.0
dtype: float64

## Series 함수

In [79]:
s = pd.Series([1, 3, 5, 7, 9])

In [80]:
s.count()

5

In [83]:
s.min()

1

In [84]:
s.max()

9

In [81]:
s.mean()

5.0

In [85]:
s.median()

5.0

In [86]:
s.std()

3.1622776601683795

In [87]:
s.var()

10.0

In [89]:
s.describe() # 기초 통계 내용, 처음 데이터를 받게 되면 한번 씩 돌려보는 것이 좋다.
             # 데이터를 얼마나 잘 파악하고 잘 분류,분석 할 수 있는지를 도와준다.

count    5.000000
mean     5.000000
std      3.162278
min      1.000000
25%      3.000000
50%      5.000000
75%      7.000000
max      9.000000
dtype: float64