## Pandas 

- series, DataFrame등의 자료구조를 활용한 데이터분석 기능을 제공해주는 라이브러리
- 라이브러리 구성
    - 여러종류의 클래스와 다양한 함수로 구성
    - 시리즈와 데이터 프레임의 자료 구조 제공
    - 시리즈(1차원 배열) 데이터 프레임(2차원 배열)

## Pandas 목적
- 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것 (클래스 형태로 구성되어 있음)
- 행과 열로 이루어진 2차원 데이터프레임을 처리 할 수 있는 함수제공 목적
- 실무 사용 형태 : 데이터 프레임 (2차원의 행렬로 구성되어 있음) 


## 구조적 데이터 생성 종류
- Series : 1차원 배열
- DataFrame : 2차원 배열

## Series
  - pandas에서 제공하는 자료구조
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성 (0,1,2,3,...)
  - 지정할 경우 명시적으로 지정된 index를 사용
  - 동일한 data type만 가질 수 있음 
      - ex) 문자열이 섞여 있으면 모두 문자열 처리 / int와 float 섞여 있으면 float 처리


1. 자료구조: 시리즈
    - 데이터가 순차적으로 나열된 1차원 배열 형태
    - 인덱스(index)와 데이터 값(value)이 일대일로 대응
    - 딕셔너리와 비슷한 구조 : {key(index):value}
    
    
2. 시리즈의 인덱스
    - 데이터 값의 위치를 나타내는 이름표 역할
    
    
3. 시리즈 생성 : 판다스 내장함수인 Series()이용
    - 리스트로 시리즈 만들기
    - 딕셔너리로 시리즈 만들기
    - 튜플로 시리즈 만들기


In [10]:
#pandas 사용하기 위해서는 모듈을 import 해야함

import pandas as pd#대부분의 코드에서 pandas pd 라는 별칭으로 사용
import numpy as np # numpy 패키지 import 판다를 같이 많이 사용함

In [85]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## Series 생성
- index는 명시하지 않으면 0 부터 자동 생성
- 2개 이상의 값 입력시 리스트/튜플/딕셔너리 형태로 입력

In [3]:
#문법 : 변수 = pd.Series
blank_s = pd.Series() # 사용할 값을 입력해야 함
blank_s #dtype(data) : float64 시리즈님 모든 것을 다포함할 수 있는형태로 데이터 타입 선언

  blank_s = pd.Series() # 사용할 값을 입력해야 함


Series([], dtype: float64)

In [5]:
s0 = pd.Series(1) #인덱스 명시하지 않고, 데이터 1개로 생성 -인덱스 0부터 시작하는 0-based 인덱스 생성
s0 # 0:인덱스 1:입력값

0    1
dtype: int64

In [6]:
s0[0] # 0번 인덱스 원소값

1

In [8]:
# 2개 이상의 원소값을 갖는 시리즈 생성 시 - 리스트, 튜플, 딕셔너리 등을 활용해야 함
s1 = pd.Series([1,2,3]) # 주는 값을 그냥 주면 안됨
s1

0    1
1    2
2    3
dtype: int64

In [9]:
#서로 데이터 탑입의 원소를 갖는 리스트 이용 - 시리즈
s1_1 = pd.Series([1,2.0,3.5])
s1_1

0    1.0
1    2.0
2    3.5
dtype: float64

In [10]:
s1_2 = pd.Series(['a',1,5.0]) # dtype: object : 숫자와 문자가 혼용되면 문자형태 원소로 시리즈를 만듬
s1_2

0      a
1      1
2    5.0
dtype: object

In [11]:
# 튜플로 시리즈 만들기
s1_3 = pd.Series((1,2,3))
s1_3

0    1
1    2
2    3
dtype: int64

## range로 시리즈의 value  생성 
- range() / np.arange()

In [13]:
s = pd.Series(range(10, 14))
s

0    10
1    11
2    12
3    13
dtype: int64

In [14]:
s = pd.Series(np.arange(200)) ## 너무 많이 출력될 경우 중간값은 생략
s

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

## 결측값
- 값이 정해지지 않은 상태 NULL 의미
- 결측값을 포함해서 시리즈를 생성
    - 결측값은 NaN : numpy라는 모듈의 nan 속성을 통해서 생성 가능 -> na.nan

In [24]:
s = pd.Series([1,2,3, np.nan,6,8]) #결측치 NaN은 float로 처리가 됨
s

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

## 시리즈에 인덱스 명시
- 숫자 인덱스 지정.문자 인덱스 지정
- 변수 = pd.Series([값1, 값2, ....], index = [인덱스1, 인덱스2, ...])

In [15]:
# 인덱스 명시해서 시리즈 생성 (수치 인덱스)
s = pd.Series([10, 20, 30], index=[1,2,3])
s

1    10
2    20
3    30
dtype: int64

In [16]:
s.index #인덱스 확인 해보기

Int64Index([1, 2, 3], dtype='int64')

In [17]:
# 인덱스 명시해서 시리즈 생성 (문자 인덱스)
s = pd.Series([10, 20, 30], index=['다영', '다혜', '다희'])
s

다영    10
다혜    20
다희    30
dtype: int64

## 인덱스 활용
- 시리즈의 index는 index 속성으로 접근

In [18]:
# 시리즈명.index
s.index

Index(['다영', '다혜', '다희'], dtype='object')

## 시리즈.index.name 속성
- 시리즈의 인덱세이 이름을 불일 수 있음

In [19]:
s = pd.Series([10, 20, 30], index=['다영', '다혜', '다희'])
s

다영    10
다혜    20
다희    30
dtype: int64

In [20]:
s.index.name = '이름' #인덱스 가독성을 높이게 위해서 사용
s

이름
다영    10
다혜    20
다희    30
dtype: int64

예제 df 생성

In [28]:
s= pd.Series([9904312,3448737,289045,2466052],
            index=["서울","부산","인천","대구"]) #dtype='object' datatype = '문자열객체'
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [27]:
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

 ## 시리즈의 실제 값 추출 => 시리즈.values 속성 사용

In [26]:
s.values #array 구조로 반환

array([9904312, 3448737,  289045, 2466052], dtype=int64)

## 시리즈.name 속성
- 시리즈 데이터 (valueds)에 이름을 붙일 수 있음
- name 속성은 값의 의미 전달에 사용

In [29]:
s #시리즈 name 추가 전

서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64

In [25]:
s.name = '인구'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

## 딕셔너리로 시리즈 만들기
- Series({key:value,key1:value1....})
- 인덱스 -> key
- 값 -> value
- key가 인덱스로 처리 되므로 명시적으로 인덱스를 설정하게 됨

In [30]:
scores = {'홍길동':96, '이몽룡':100, '성춘향':88}
s=pd.Series(scores)
s

홍길동     96
이몽룡    100
성춘향     88
dtype: int64

In [11]:
city = {'서울':9631482, '부산':3393191, '인천':2632035, '대전':1490158}
s=pd.Series(city)
s

서울    9631482
부산    3393191
인천    2632035
대전    1490158
dtype: int64

## index로 딕셔너리 순서 기입
- 딕셔너리의 원소는 순서를 갖지 않음
- 딕셔너리로 생성된 시리즈의 원소도 순서가 보장되지 않음
- 만약 순서를 보장하고 싶으면 인덱스를 리스트로 지정


In [12]:
s=pd.Series(city, index=['부산', '인천', '서울', '대전'])
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

## 인데싱 
- 데이터에서 특정한 데이터를 추출하는 것

## 시리즈의 인덱싱 종류
- 정수형 위치 인덱스(integer position)
- 인덱스 이름(index name) 또는  인덱스 라벨(index label)

    - 인덱스 별도 지정하지 않으면 0부터 시작하는 정수형 인덱스가 지정됨

## 원소 접근
    - 정수형 인덱스 : 숫자 s[0]
    - 문자형 인덱스 : 문자 s['인천']


In [13]:
print(s.index)
s

Index(['부산', '인천', '서울', '대전'], dtype='object')


부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [15]:
# 위치 인덱스
s[0] # 부산의 값

3393191

In [14]:
#라벨 인덱스
s['부산']

3393191

In [16]:
###확인_예제
s_1 = pd.Series([1,2,3], index = [1,2,3])
s_1

1    1
2    2
3    3
dtype: int64

In [36]:
s_1[0] #인덱스를 정수로 입력시 위치를 나타내는 인덱스 사용 불가능

KeyError: 0

In [17]:
s_1[1]

1

In [18]:
s_1.index
#s_1[0] 인덱스 타입이 정수면 위치 인덱스 사용 불가능

Int64Index([1, 2, 3], dtype='int64')

In [19]:
# 한줄에 위치 인덱스, 문자인덱스를 동시에 접근
print(s) #마지막에 값만 출력되서 중간 print(s) 사용
s[3], s['대전'] #튜플 생성

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64


(1490158, 1490158)

## 리스트 이용 인덱싱
    - 자료의 순서를 바꿔 반환하거나, 특정 자료 여려개를 선택할 때 사용
    - 시르즈명[[인덱스1, 인덱스2......]]

In [20]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [22]:
s[[0,3,2,1]] #위치 인덱스를 사용

부산    3393191
대전    1490158
서울    9631482
인천    2632035
dtype: int64

In [25]:
s[['서울', '인천']]

서울    9631482
인천    2632035
dtype: int64

## 시리즈 슬라이싱을 이용한 인덱싱
- 정수형 위치 인덱스를 사용한 슬라이싱
    - 시리즈[start:stop+1]
- 문자(라벨)인덱스 이용 슬라이싱
    - 시리즈['시작라벨':'끝라벨']  : 표시된 라벨 범위 모두 추출


In [24]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [26]:
#위치 인덱스 슬라이싱
s[1:3] # 1~2까지 

인천    2632035
서울    9631482
dtype: int64

In [28]:
s['부산' : '서울']

부산    3393191
인천    2632035
서울    9631482
dtype: int64

In [29]:
s['인천':'대전']

인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [30]:
#슬라이싱 예제 - 명시적으로 설정한 정수 인덱스를 슬라이싱하면 위치 슬라이싱 적용 - 주의!!!

s_test = pd.Series([1,2,3,4], index = [1,3,5,7])
s_test

1    1
3    2
5    3
7    4
dtype: int64

In [31]:
s_test[1:5] ## 위치 슬라이싱이 적용 1 2 3 4까지 출력 (4 즉 5번째 위치 값이 없어서 출력 x) 

3    2
5    3
7    4
dtype: int64

In [32]:
s_test[1:7] # 위 결과와 동일한 것을 확인 가능

3    2
5    3
7    4
dtype: int64

In [33]:
### 문자 인덱스인 경우에는 .  (dot)를 이용해서 접근 할 수 있음

s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [34]:
s.서울

9631482

In [35]:
s.인천 ### pandas 버전이 높아지면서 한글도 지원

2632035

In [36]:
s_test

1    1
3    2
5    3
7    4
dtype: int64

In [37]:
#문자만 dot 연상 가능

s.1 # dot 연산은 문자로 적용 되어 있어야 함
# s_test.1 연산자 이용한 원소 접근은 문자 인덱스만 가능

SyntaxError: invalid syntax (<ipython-input-37-923f3f6ef443>, line 1)

In [38]:
s

부산    3393191
인천    2632035
서울    9631482
대전    1490158
dtype: int64

In [39]:
s['서울'] = 10000000 # 서울이라는 곳에 값 새로 입력

In [40]:
s

부산     3393191
인천     2632035
서울    10000000
대전     1490158
dtype: int64

## 인덱스 재사용 가능

In [42]:
s.index
s1 = pd.Series(np.arange(4), s.index)
s1

부산    0
인천    1
서울    2
대전    3
dtype: int32

## 시리즈 연산

In [43]:
#예제 시리즈
s

# 부산     3393191
# 인천     2632035
# 서울    10000000
# 대전     1490158
# dtype: int64


부산     3393191
인천     2632035
서울    10000000
대전     1490158
dtype: int64

## 벡터화 연산
- numpy 배열처럼 pandas의 시리즈도 벡터화 연산 가능 
- 벡터화 연산이란 집합적 자료형의 원소 각각을 독립적으로 계산을 진행하는 방법
    - 단, 연산은 시리즈의 값에만 적용되며 인덱스 값은 변경 불가


In [44]:
pd.Series([1,2,3]) + 4

0    5
1    6
2    7
dtype: int64

In [45]:
s/1000000

부산     3.393191
인천     2.632035
서울    10.000000
대전     1.490158
dtype: float64

In [46]:
# 벡터화 인덱싱 - 인덱싱에 조건시을 활용할수 있음
# 시리즈 S의 원소 값중 2500000 보다 크고 5000000 보다 작은 원소 추출
# 시르즈명 [조건식] - 각 원소의 값 모두를 각각 조건식으로 확인해서 결과가 true인 원소만 추출

#s>2500000 #250e4로 표기 가능

(s>250e4) & (s<500e4)



부산     True
인천     True
서울    False
대전    False
dtype: bool

In [47]:
s[(s>250e4) & (s<500e4)]  ### 해당 원소만 반환해서 추출 가능

부산    3393191
인천    2632035
dtype: int64

## **Boolean selection**
  - boolean Series가 [ ]와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능


In [50]:
s0 = pd.Series(np.arange(10), np.arange(10)+1) #Series(value, index)
s0


1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [51]:
s0>5

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [52]:
s0[s0>5]

7     6
8     7
9     8
10    9
dtype: int32

In [53]:
## s0 시리즈의  원소값 중  짝수 원소 값을 추출하시오
s0%2 == 0

1      True
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9      True
10    False
dtype: bool

In [54]:
s0[s0%2 == 0]

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [57]:
s

부산     3393191
인천     2632035
서울    10000000
대전     1490158
dtype: int64

In [58]:
s.index

Index(['부산', '인천', '서울', '대전'], dtype='object')

In [55]:
s.index > 5 ## 해당 index는 문자열(위치 인덱스 사용 X)


TypeError: '>' not supported between instances of 'str' and 'int'

In [112]:
s0.index > 5 #s0의 인덱스 값을 추출해서 벡터화 연산 진행

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [59]:
s0[s0.index  > 5]

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [60]:
(s0>=7)

1     False
2     False
3     False
4     False
5     False
6     False
7     False
8      True
9      True
10     True
dtype: bool

In [63]:
(s0>=7).sum() # 각 원소에 대해서 조건식이 결과값이 True 갯수를 카운트

3

In [64]:
s0[s0>=7]

8     7
9     8
10    9
dtype: int32

In [65]:
s0[s0>=7].sum() # 7+8+9 = 24의미   각 원소에 대입한 조건식의 결과 값

24

## 두 시리즈 간의 연산

In [66]:
num_s1 = pd.Series([1,2,3,4], index=['a','b','c','d'])
num_s2 = pd.Series([5,6,7,8], index=['b','c','d','a'])
num_s1

a    1
b    2
c    3
d    4
dtype: int64

In [123]:
num_s2

b    5
c    6
d    7
a    8
dtype: int64

In [67]:
num_s1 + num_s2  ## 동일한 인덱스 끼리 연산  #동일한 인덱스가 없으면 NaN 처리가 됨

a     9
b     7
c     9
d    11
dtype: int64

In [69]:
num_s3 = pd.Series([1,2,3,4], index=['e','f','g','a'])
num_s4 = pd.Series([5,6,7,8], index=['a','f','c','d'])

In [70]:
num_s3 - num_s4

a   -1.0
c    NaN
d    NaN
e    NaN
f   -4.0
g    NaN
dtype: float64

In [71]:
num_s4.values - num_s3.values
#values를 사용하면 시리즈의 형태가 사라지므로 동일한 위치의 원소들끼리 연산을 진행

array([4, 4, 4, 4], dtype=int64)

## 딕셔너리와 시리즈의 관계
- 시리즈 객체는 라벨(문자)에 의해 인덱싱이 가능
- 실질적으로는 라벨을 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 할수 있다.


## in 연산자 / for 반복문 사용

In [72]:
s

부산     3393191
인천     2632035
서울    10000000
대전     1490158
dtype: int64

In [73]:
#인덱스에 서울이라는 원소가 있는지 확인

'서울' in s

True

In [74]:
'대구' not in s

True

In [78]:
## 딕셔너리의 items()함수 시리즈에서도 사용 가능 하지만 zip 형태로 출력
s.items()


<zip at 0x2477e66ad40>

In [79]:
list(s.items()) #리스트로 묶어주면 key value 확인 가능

[('부산', 3393191), ('인천', 2632035), ('서울', 10000000), ('대전', 1490158)]

In [80]:
## 반복문을 활용해서 시리즈 각 원소 출력 코드

for k,v in s.items():
    print('%s = %d' %(k,v))

부산 = 3393191
인천 = 2632035
서울 = 10000000
대전 = 1490158


## 시리즈 데이터의 갱신/추가/삭제

- 인덱싱을 이용하면 딕셔너리 처럼 갱신 추가


In [86]:
s['부산'] =  8630000
s
s['부산']

부산     8630000
인천     2632035
서울    10000000
대전     1490158
dtype: int64

8630000

In [87]:
#새로운 대이터 추가
s['대구'] = 1875000
s

부산     8630000
인천     2632035
서울    10000000
대전     1490158
대구     1875000
dtype: int64

In [88]:
## 시리즈 데이터 삭제
s
del s['대전']
s

부산     8630000
인천     2632035
서울    10000000
대전     1490158
대구     1875000
dtype: int64

부산     8630000
인천     2632035
서울    10000000
대구     1875000
dtype: int64

In [89]:
s['서울'] = 10000000
s['인천'] = 2632035
s['부산'] = 8630000
s['대구'] = 1875000
s

부산     8630000
인천     2632035
서울    10000000
대구     1875000
dtype: int64

## **Series size, shape, unique, count, value_counts 함수**
 - size : 개수 반환
 - shape : 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean: NaN을 제외한 평균 
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환


In [90]:
s1 = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s1


0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [91]:
len(s1) # Nan 포함

16

In [92]:
s1.size #NaN 값 포함

16

In [97]:
# .sahpre 는 해당 값이 어떤 행렬로 구성되어 있는지 알려주는 기능
s1.shape #차원을 표현하기 때문에 튜플형태로 출력

(16,)

In [98]:
s1.unique() # 중복된 값을 제거한 원소값 출력

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [99]:
s1.count() #NaN 값을 제거한 원소의 개수

15

In [100]:
a=np.array([2,2,2,2,2,np.NaN]) #결측치 1개를 포함
b=pd.Series(a)
a.mean() # np의 array를 평균 계산  - nan() 포함되면 계산 불가(nan 반환)
b.mean() # 기본 nan 값을 제외시키고 계산하도록

nan

2.0

In [101]:
s1.mean()

2.6666666666666665

In [102]:
s1

0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [103]:
s1.value_counts() #각원소들을 같은 값끼리 그룹을 만들고 개수를 세서 반환

1.0    5
2.0    4
3.0    2
5.0    2
7.0    1
4.0    1
dtype: int64