# 판다스 설
- series, DataFrame 등의 자료구조를 활용한 데이터분석 기능을 제공해주는 라이브러리
- 라이브러리 구성
  - 여러종류의 클래스와 다양한 함수로 구성
  - 시리즈와 데이터 프레임의 자료 구조 제공
  - 시리지(1차원 배열) 데이터프레임(2차원 행렬구조)

## 판다스의 목적
- 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것
- 행과 열로 이루어진 2차원 데이터프레임을 처리 할 수 있는 함수 제공 목적
- 실무 사용 형태: 데이터 프레임

## series 

- pandas의 기본 객체 중 하나
- numpy의 ndarray를 기반으로 인덱싱 기능을 추가하여 1차원 배열을 나타냄
- index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based인덱스 생성, 지정할 경우 명시적으로 지정된 index사용
- 같은 타입의 0개 이상의 데이터를 가질 수 있음

1. 자료구조: 시리즈
  - 데이터가 순차적으로 나열된 1차원 배열 형태
  - 인덱스와 데이터 값이 일대일로 대응
  - 딕셔너리와 비슷한 구조
2. 시리즈의 인덱스
  - 데이터 값의 위치를 나타내는 이름표 역할
3. 시리즈 생성: 판다스 내장함수인 Series()이용
  - 리스토로 시리즈 만들기
  - 딕셔러리로 시리즈 만들기
  - 튜플로 시리즈 만들기
  

In [1]:
import pandas as pd
import numpy as np

In [2]:
# pd.Series(집합적 자료형)
# pd.Series(리스트)

s = pd.Series([1,2,3])
s
#위 코드는 시리즈 생성시 인덱스를 명시하지 않았음 0base 인덱스 생성

0    1
1    2
2    3
dtype: int64

In [3]:
#pd.Series(튜플)
s = pd.Series((1.0,2.0,3.0))
s

0    1.0
1    2.0
2    3.0
dtype: float64

In [4]:
s2 = pd.Series(['a','a','c']) #dtype : object
s2

0    a
1    a
2    c
dtype: object

In [5]:
# 리스트내에 서로 다른 type의 data가 있으면 형변환 일어남 - 문자열로 변환됨
s_1 = pd.Series(['a',1,3.0])
s_1

0      a
1      1
2    3.0
dtype: object

In [6]:
s = pd.Series(range(10,14)) # 인덱스 인수는 생략됨
s

0    10
1    11
2    12
3    13
dtype: int64

In [7]:
range(10,14)

range(10, 14)

In [8]:
np.arange(200)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116,
       117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129,
       130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142,
       143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155,
       156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168,
       169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 18

In [9]:
s3 = pd.Series(np.arange(200))
s3

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int64

In [10]:
# NaN은 np.nan 속성을 이용해서 생성
s=pd.Series([1,2,3,np.nan,6,8])
s
# dtype : float
# 판다스가 처리하는 자료구조인 시리즈와 데이터 프레임에서 결측치가 있는 경우 dtype : float

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [11]:
s = pd.Series([10,20,30], index= [1,2,3])
s

1    10
2    20
3    30
dtype: int64

In [12]:
s = pd.Series([95,100,88], index= ['홍길동','이몽룡','성춘향'])
s

홍길동     95
이몽룡    100
성춘향     88
dtype: int64

In [13]:
s0=pd.Series([10,20,30], index=[1,2,3])
s0

1    10
2    20
3    30
dtype: int64

In [14]:
s0.index

Int64Index([1, 2, 3], dtype='int64')

In [15]:
s00 = pd.Series([1,2,3])
s00.index

RangeIndex(start=0, stop=3, step=1)

In [16]:
s = pd.Series([9904312,3448737,289045,2466052], index=['서울','부산','인천','대구'])
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [17]:
# 인덱스 이름 붙히기
s.index.name='광역시' 
s

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64

In [18]:
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object', name='광역시')

In [19]:
s.values

array([9904312, 3448737,  289045, 2466052])

In [20]:
s.name = '인구'
s

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

In [21]:
print(s.index)# 문자열형 인덱스 
s['인천'] # 문자형 인덱스로 접근
s[2] # 위치 인덱스 사용 가능

Index(['서울', '부산', '인천', '대구'], dtype='object', name='광역시')


289045

In [22]:
# 정수형 인덱스인 경우
s03 = pd.Series([1,2,3], index=[1,2,3])
s03
s03[1]# 명시적 인데스 사용
# 정수인덱스인 경우 위치인덱스는 사용 불가

1

In [23]:
# 문자형 인덱스
s['부산']

3448737

In [24]:
#두개 이상의 인덱싱 코드 나열
s[3], s['대구']

(2466052, 2466052)

In [25]:
s

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

In [26]:
print(s)
s[0],s[3],s[1]

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64


(9904312, 2466052, 3448737)

In [27]:
s[[0,3,1]]

광역시
서울    9904312
대구    2466052
부산    3448737
Name: 인구, dtype: int64

In [28]:
print(s)
s[[1,2]]
s[['부산','인천']]
s[1:3]

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64


광역시
부산    3448737
인천     289045
Name: 인구, dtype: int64

In [29]:
# 문자인덱스를 이용한 슬라이싱 가능
# 표시된 문자인덱스 범위 모두 추출
s['부산':'대구']

광역시
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

In [30]:
# 정수형 인덱스를 명시 했을 경우
s_01 = pd.Series([100,200,300,400], index=[1,2,3,4])
print(s_01)
s_01[[2,3,4]]
s_01[2:4]
# 시리즈 인덱스는 문자열이 좋다

1    100
2    200
3    300
4    400
dtype: int64


3    300
4    400
dtype: int64

In [31]:
# 인덱스를 문자값으로 지정한 시리즈 
s0=pd.Series(range(3), index=('a','b','c'))
s0

a    0
b    1
c    2
dtype: int64

In [32]:
s0['a']
s0.a

0

In [33]:
print(s)# 한글문자 인덱스
s['서울']
s.서울

광역시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64


9904312

In [34]:
#인덱스 통한 데이터 업데이트
s['서울'] = 10000000
s['서울']

10000000

In [35]:
s

광역시
서울    10000000
부산     3448737
인천      289045
대구     2466052
Name: 인구, dtype: int64

In [36]:
#인덱스 재사용하기
print(s.index)
s1 = pd.Series(np.arange(4),s.index)
s1

Index(['서울', '부산', '인천', '대구'], dtype='object', name='광역시')


광역시
서울    0
부산    1
인천    2
대구    3
dtype: int64

In [37]:
# 시리즈 원소로 백터화 연산
pd.Series([1,2,3])+4

0    5
1    6
2    7
dtype: int64

In [38]:
print(s)
s/1000000

광역시
서울    10000000
부산     3448737
인천      289045
대구     2466052
Name: 인구, dtype: int64


광역시
서울    10.000000
부산     3.448737
인천     0.289045
대구     2.466052
Name: 인구, dtype: float64

In [39]:
s

광역시
서울    10000000
부산     3448737
인천      289045
대구     2466052
Name: 인구, dtype: int64

In [40]:
# 백터화 인덱싱도 가능
# 시리즈[조건]
# s시리즈 값 중 250000보다 크로 500000보다 작은 원소를 추출
s[(s>250e4)&(s<500e4)]
# s 시리즈 각 원소값 각각에 대해서 조건식을 확인해서 결과가 True인 원소를 반환

광역시
부산    3448737
Name: 인구, dtype: int64

### Boolean selection
- boolean Series가 []와 함꼐 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함된
- 다중조건의 경우 & | 를 사용하여 연결 가능

In [41]:
s0 = pd.Series(np.arange(10), np.arange(10)+1)
s0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [42]:
s0>5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [43]:
s0[s0>5]

7     6
8     7
9     8
10    9
dtype: int64

In [44]:
# 짝수값 추출
s0[s0%2==0]

1    0
3    2
5    4
7    6
9    8
dtype: int64

In [45]:
s0

1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int64

In [46]:
# 인덱스에도 관계연산이 가능
s0.index>5

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [47]:
s0[s0.index>5]

6     5
7     6
8     7
9     8
10    9
dtype: int64

In [48]:
s0[(s0>5)&(s0<8)]

7    6
8    7
dtype: int64

In [49]:
(s0>=7).sum() #true 개수의 합

3

In [50]:
(s0[s0>7]).sum() #조건의 결과가 True인 원소들의 합

17

In [51]:
# 두 시리즈간 연산
num_s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s1

a    1
b    2
c    3
d    4
dtype: int64

In [52]:
num_s2 = pd.Series([5,6,7,8],index=['b','c','d','a'])
num_s2

b    5
c    6
d    7
a    8
dtype: int64

In [53]:
num_s1 + num_s2 # 시리즈간 연산은 같은 인덱스를 찾아서 진행

a     9
b     7
c     9
d    11
dtype: int64

In [54]:
num_s3 = pd.Series([5,6,7,8],index=['e','b','f','g'])
num_s4 = pd.Series([1,2,3,4],index=['a','b','c','d'])


In [55]:
# 동일한 인덱스는 연산을 진행하고 나머지 인덱스는 연산처리가 불가능 해서 Nan 처리
num_s3-num_s4

a    NaN
b    4.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

In [56]:
num_s3.values-num_s4.values
#values 속성을 사용해 값만을 추출해 연산을 진행하게 되면 시리즈의 형태가 사라지므로
# 동일 위치 원소들끼리 연산을 진행
# 시리즈, values 는 array형태 반환

array([4, 4, 4, 4])

### 딕셔너리 와 시리즈의 관계
- 시리즈 객체는 라벨(문자)에 의해 인덱싱이 가능
- 실질적으로는 라벨을 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
   - in 연산자 : T/F
   - for 루프를 통해 각 원소의 key와 value에 접근 할수 있다.
- in 연산자/ for 반복문 사용

In [57]:
s

광역시
서울    10000000
부산     3448737
인천      289045
대구     2466052
Name: 인구, dtype: int64

In [58]:
# 인덱스가 서울인 원소가 시리즈에 있는지 확인
'서울' in s

True

In [59]:
'대전' in s

False

In [60]:
'대전' not in s # 없는지 확인

True

In [61]:
# 딕셔러니의 items() 함수 시리즈에 사용 가능
s.items() # zip 객체

<zip at 0x7f9449a98c00>

In [62]:
list(s.items())

[('서울', 10000000), ('부산', 3448737), ('인천', 289045), ('대구', 2466052)]

In [63]:
# 시리즈 각 원소 출력
for k,v in s.items():
    print('%s=%d' % (k,v))

서울=10000000
부산=3448737
인천=289045
대구=2466052


### 딕셔너리로 시리즈 만들기
- Series({key:value,key1:value1....})
- 인덱스 -> key
- 값 -> value

In [64]:
scores = {'홍길동':96, '이몽룡': 100, '성춘향':88}
s=pd.Series(scores)
s

홍길동     96
이몽룡    100
성춘향     88
dtype: int64

In [65]:
city={'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s=pd.Series(city)
s

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

- 딕셔너리의 원소는 순서를 갖지 않는다.
  - 딕셔너리로 생성된 시리즈의 원소도 순서가 보장되지 않는다.
  - 만약 순서를 보장하고 싶으면 인덱스를 리스트로 지정해야 한다.

In [66]:
city={'서울':9631482,'부산':3393191,'인천':2632035,'대전':1490158}
s=pd.Series(city, index = city.keys())
s

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

In [67]:
s=pd.Series(city, index = ['부산','인천','서울','대전'])
s


부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

### 시리즈 데이터의 갱신,추가, 삭제
- 인덱싱을 이용하면 딕셔너리 처럼 갱신, 추가 가능

In [68]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [69]:
#s 시리즈의 부산의 인구 값을 1630000으로 변경
s['부산']=1630000
s

부산    1630000
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [70]:
# 원소 삭제 del
del s['서울']
s

부산    1630000
인천    2632035
대전    1490158
dtype: int64

In [71]:
# 시리즈에 새로운 원소 추가
s['대구']=1875000
s

부산    1630000
인천    2632035
대전    1490158
대구    1875000
dtype: int64

#### Series 함수
- Series size, shape, unique, count, value_counts 함수
- size(속성) : 개수 반환
- shape(속성) : 튜플형태로 shape반환
- unique: 유일한 값만 ndarray로 반환
- count : NaN을 제외한 개수를 반환
- mean: NaN을 제외한 평균
- value_counts: NaN을 제외하고 각 값들의 빈도를 반환

In [72]:
s1 = pd.Series([1,1,2,1,2,2,2,1,1,3,3,4,5,5,7,np.NaN])
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [73]:
len(s1)

16

In [74]:
s1.size

16

In [75]:
s1.shape # 차원으로 표현

(16,)

In [76]:
s1.unique() #nan도 하나의 값으로 봄

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [77]:
s1.count() # nan을 제외한 원소의 갯

15

In [78]:
a=np.array([2,2,2,2,np.NaN]) # array 타입
print(a.mean()) # array에 nan mean 적용 nan 반환

b=pd.Series(a) # 배열을 시리즈로변결
print(b)
b.mean() # nan 빼고 계산

nan
0    2.0
1    2.0
2    2.0
3    2.0
4    NaN
dtype: float64


2.0

In [79]:
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [80]:
s1.mean()

2.6666666666666665

In [81]:
s1.value_counts()
#각 원소들에 대해 동읽밧의 원소끼리 그룹핑하여 개수를 세서 반환하는 함수

1.0    5
2.0    4
3.0    2
5.0    2
4.0    1
7.0    1
dtype: int64

날짜 자동 생성 : date_range

In [82]:
#날짜 인덱스를 이용하여 시리즈 만들기
# 날짜 표새 : '년-월-일' 형태로 문자열로 표시
index_date = ['2018-10-07','2018-10-08','2018-10-09','2018-10-10']
s4 = pd.Series([200,195,np.NaN,205],index=index_date)
s4

2018-10-07    200.0
2018-10-08    195.0
2018-10-09      NaN
2018-10-10    205.0
dtype: float64

In [83]:
type(s4.index[0]) 

str

- 판다스 패키지의 date_range 함수 (날짜생성)
  - pd.date_range(start=None, end=None, periods=None, freq='D')
  - start : 시작날짜/ end= 끝날짜 / periods = 날짜 생성기간/ fref = 날짜 생성 주기
  - start는 필수 옵션/end나 periods는 둘 중 하나가 있어야 함/ freq는 기본 Day로 설정

In [84]:
pd.date_range(start='2018-10-01', end ='2018-10-20')
# DatetimeIndex 반환
#dtype='datetime64[ns]'

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-06', '2018-10-07', '2018-10-08',
               '2018-10-09', '2018-10-10', '2018-10-11', '2018-10-12',
               '2018-10-13', '2018-10-14', '2018-10-15', '2018-10-16',
               '2018-10-17', '2018-10-18', '2018-10-19', '2018-10-20'],
              dtype='datetime64[ns]', freq='D')

In [85]:
pd.date_range(start='2018-10-01', end ='2018-10-20',freq='d')


DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-06', '2018-10-07', '2018-10-08',
               '2018-10-09', '2018-10-10', '2018-10-11', '2018-10-12',
               '2018-10-13', '2018-10-14', '2018-10-15', '2018-10-16',
               '2018-10-17', '2018-10-18', '2018-10-19', '2018-10-20'],
              dtype='datetime64[ns]', freq='D')

In [86]:
pd.date_range(start='2018-10-01', end ='2018-10-20',freq='3d')#3일씩 증가
 

DatetimeIndex(['2018-10-01', '2018-10-04', '2018-10-07', '2018-10-10',
               '2018-10-13', '2018-10-16', '2018-10-19'],
              dtype='datetime64[ns]', freq='3D')

In [87]:
pd.date_range(start='2018-10-01', end ='2018-10-20',freq='w')
# 1주일씩 날짜 증가
# 1주 시작일 일요일을 표시


DatetimeIndex(['2018-10-07', '2018-10-14'], dtype='datetime64[ns]', freq='W-SUN')

In [88]:
# 2018-10-01이후 일요일 4개 
pd.date_range(start='2018-10-01', periods=4 ,freq='w')


DatetimeIndex(['2018-10-07', '2018-10-14', '2018-10-21', '2018-10-28'], dtype='datetime64[ns]', freq='W-SUN')

In [89]:
# 2018-10-01이후 월의 마지막 날짜 4개 
pd.date_range(start='2018-10-01', periods=4 ,freq='m')


DatetimeIndex(['2018-10-31', '2018-11-30', '2018-12-31', '2019-01-31'], dtype='datetime64[ns]', freq='M')

In [90]:
pd.date_range(start='2018-10-01', periods=4 ,freq='M')


DatetimeIndex(['2018-10-31', '2018-11-30', '2018-12-31', '2019-01-31'], dtype='datetime64[ns]', freq='M')

In [91]:
pd.date_range(start='2018-10-01', periods=4 ,freq='MS')


DatetimeIndex(['2018-10-01', '2018-11-01', '2018-12-01', '2019-01-01'], dtype='datetime64[ns]', freq='MS')

In [92]:
pd.date_range(start='2018-10-01', periods=12 ,freq='2BM')
# '2BM' 업무일 기준 2개월 간격 월말 주기


DatetimeIndex(['2018-10-31', '2018-12-31', '2019-02-28', '2019-04-30',
               '2019-06-28', '2019-08-30', '2019-10-31', '2019-12-31',
               '2020-02-28', '2020-04-30', '2020-06-30', '2020-08-31'],
              dtype='datetime64[ns]', freq='2BM')

In [93]:
pd.date_range(start='2018-10-01', periods=4 ,freq='AS')
# 연도 시작일 4개 생성

DatetimeIndex(['2019-01-01', '2020-01-01', '2021-01-01', '2022-01-01'], dtype='datetime64[ns]', freq='AS-JAN')

- 판다스 패키지의 date_range 함수 (시간생성)

In [94]:
pd.date_range(start='2018-1-20 08:00', periods=10 ,freq='H')


DatetimeIndex(['2018-01-20 08:00:00', '2018-01-20 09:00:00',
               '2018-01-20 10:00:00', '2018-01-20 11:00:00',
               '2018-01-20 12:00:00', '2018-01-20 13:00:00',
               '2018-01-20 14:00:00', '2018-01-20 15:00:00',
               '2018-01-20 16:00:00', '2018-01-20 17:00:00'],
              dtype='datetime64[ns]', freq='H')

In [95]:
pd.date_range(start='2018-1-20 08:00', periods=10 ,freq='BH')
#업무 시간 기준 9 to 5


DatetimeIndex(['2018-01-22 09:00:00', '2018-01-22 10:00:00',
               '2018-01-22 11:00:00', '2018-01-22 12:00:00',
               '2018-01-22 13:00:00', '2018-01-22 14:00:00',
               '2018-01-22 15:00:00', '2018-01-22 16:00:00',
               '2018-01-23 09:00:00', '2018-01-23 10:00:00'],
              dtype='datetime64[ns]', freq='BH')

In [96]:
pd.date_range(start='2018-1-20 08:00', periods=10 ,freq='30min')


DatetimeIndex(['2018-01-20 08:00:00', '2018-01-20 08:30:00',
               '2018-01-20 09:00:00', '2018-01-20 09:30:00',
               '2018-01-20 10:00:00', '2018-01-20 10:30:00',
               '2018-01-20 11:00:00', '2018-01-20 11:30:00',
               '2018-01-20 12:00:00', '2018-01-20 12:30:00'],
              dtype='datetime64[ns]', freq='30T')

In [97]:
pd.date_range(start='2018-1-20 08:00', periods=10 ,freq='10S')


DatetimeIndex(['2018-01-20 08:00:00', '2018-01-20 08:00:10',
               '2018-01-20 08:00:20', '2018-01-20 08:00:30',
               '2018-01-20 08:00:40', '2018-01-20 08:00:50',
               '2018-01-20 08:01:00', '2018-01-20 08:01:10',
               '2018-01-20 08:01:20', '2018-01-20 08:01:30'],
              dtype='datetime64[ns]', freq='10S')