# Pandas - 교재 p.237

- series, DataFrame등의 자료구조를 활용한 데이터분석 기능을 제공해주는 라이브러리
    - 라이브러리 구성
        - 여러종류의 클래스와 다양한 함수로 구성
        - 시리즈와 데이터 프레임의 자료 구조 제공
        - 시리즈(1차원 배열) 데이터프레임(2차원 배열)
    - 아나콘다에 기본으로 설치되어있음

#### pandas의 목적
    - 서로 다른 유형의 데이터를 공통된 포맷으로 정리하는 것
    - 행과 열로 이루어진 2차원 데이터프레임을 처리 할 수 있는 함수제공 목적
    - 실무 사용 형태 : 데이터 프레임



## 구조적 데이터 생성하기 -Series/DATA/FRAME

#### Series(교재 pp 237~240)
  - pandas의 기본 객체 중 하나
  - numpy의 ndarray를 기반으로 인덱싱을 기능을 추가하여 1차원 배열을 나타냄
  - index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 생성
  - 지정할 경우 명시적으로 지정된 index를 사용
  - #### '같은' 타입으로만, 0개 이상의 데이터를 가질 수 있음


1. 자료구조: 시리즈
    - 데이터가 순차적으로 나열된 1차원 배열 형태
    - 인덱스(index)와 데이터 값(value)이 일대일로 대을
    - 딕셔너리와 비슷한 구조 : {key:value} <=> {index:value}
2. 시리즈의 인덱스
    - 데이터 값의 위치를 나타내는 이름표 역할
3. 시리즈 생성 : 판다스 내장함수인 Series()이용
    - 리스트로 시리즈 만들기
    - 딕셔너리로 시리즈 만들기
    - 튜플로 시리즈 만들기


In [104]:
# 마지막 하나만 말고 좀 다 보여줄 수 없나요 ?

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all" #기본값은 'last_expr'

In [105]:
#pandas 패키지(모듈) 
import pandas as pd
#numpy 패키지 import
import numpy as np
#warnings에서 경고문구무시
import warnings
warnings.filterwarnings('ignore')


### Series 생성하기

- data로만 생성하기
    - index는 명시하지 않으면 0부터 자동생성

In [106]:
# 문법 : 변수 = pd.Series()
blank_s = pd.Series()
blank_s

Series([], dtype: float64)

In [107]:
s0 = pd.Series(1) #index를 명시하지 않고, 데이터를 1개로 생성 -> 
                  #인덱스는 0부터 시작하는 0-based인덱스 생성
s0

0    1
dtype: int64

In [108]:
#2개 이상의 원소값을 갖는 시리즈 생성시 - 리스트, 튜플, 딕셔너리 등을 활용해야함
s1 = pd.Series([1,2,3])
s1

0    1
1    2
2    3
dtype: int64

In [109]:
#서로 다른 데이터 타입의 원소를 갖는 리스트 이용 - 시리즈
s1_1 = pd.Series([1,2.0,3.5])  #float64형태의 시리즈
s1_1

0    1.0
1    2.0
2    3.5
dtype: float64

In [110]:
s1_2 = pd.Series(['a',1,5.0]) #object: 숫자와 문자가 혼용되면 문자형태원소로 시리즈
s1_2

0      a
1      1
2    5.0
dtype: object

##### - 범위를 시리즈의 value 생성하는데 사용하기 -> range()/np.arange()

In [111]:
s = pd.Series(range(10,14))
s

0    10
1    11
2    12
3    13
dtype: int64

In [112]:
s = pd.Series(np.arange(200))
s

0        0
1        1
2        2
3        3
4        4
      ... 
195    195
196    196
197    197
198    198
199    199
Length: 200, dtype: int32

### - 결측값을 포함해서 시리즈를 만들기
    - 결측값은 NaN: numpy라는 모듈의 nan 속성을 통해서 생성 가능

In [113]:
s = pd.Series([1,2,3, np.nan,6,8]) # np.nan으로 결측값을 만들어보았다
s                                  #결측치가 들어가면 float으로 처리됨

0    1.0
1    2.0
2    3.0
3    NaN
4    6.0
5    8.0
dtype: float64

### - 인덱스 명시해서 시리즈 만들기
    - 숫자 인덱스 지정/ 문자 인덱스 지정
    - 변수 = pd.Series([값1,값2....],index=[인덱스1,인덱스2....])

In [114]:
#인덱스 명시해서 시리즈 생성
s= pd.Series([10,20,30],index=["홍길동","이몽룡","성춘향"])
s

홍길동    10
이몽룡    20
성춘향    30
dtype: int64

- 인덱스 활용:
    - 시리즈의 index는 index 속성으로접근

In [115]:
#시리즈명.index
s.index

Index(['홍길동', '이몽룡', '성춘향'], dtype='object')

### - 시리즈.index.name 속성
    - 시리즈의 인덱스에 이름을 붙일수 있음

In [116]:
s

홍길동    10
이몽룡    20
성춘향    30
dtype: int64

In [117]:
s.index.name = '이름'
s

이름
홍길동    10
이몽룡    20
성춘향    30
dtype: int64

## 예제 df 생성

In [118]:
s= pd.Series([9904312,3448737,289045,2466052],
            index=["서울","부산","인천","대구"]) #dtype='object' datatype = '문자열객체'
s.index

Index(['서울', '부산', '인천', '대구'], dtype='object')

In [119]:
s.index.name = '도시'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
dtype: int64

시리즈의 실제 값 추출 => 시리즈.value 속성 사용

In [120]:
s.values #array 구조로 반환된다

array([9904312, 3448737,  289045, 2466052], dtype=int64)

- 시리즈.name 속성
    - 시리즈 데이터(values)에 이름을 붙일 수 있다
    - name 속성은 값의 의미 전달에 사용

In [121]:
s.name = '인구'
s

도시
서울    9904312
부산    3448737
인천     289045
대구    2466052
Name: 인구, dtype: int64

### 딕셔너리로 시리즈 만들기
- Series({key:value,key1:value1....})
- 인덱스 -> key
- 값 -> value


In [122]:
scores = {'홍길동':96, '이몽룡':100 , '성춘향':88}
s= pd.Series(scores)
s.index.name = '이름'
s.name = '점수'
s

이름
홍길동     96
이몽룡    100
성춘향     88
Name: 점수, dtype: int64

In [123]:
city = {"서울":9904312, "부산":3448737, "인천":2632035,"대전":1490158}
s=pd.Series(city)
s

서울    9904312
부산    3448737
인천    2632035
대전    1490158
dtype: int64

- 딕셔너리의 원소는 __순서를 갖지 않는다.__
    - 딕셔너리로 생성된 시리즈의 원소도 순서가 보장되지 않는다.
    - 만약 순서를 보장하고 싶으면 인덱스를 리스트로 지정해야 한다.


In [124]:
s2 = pd.Series(city, index=['부산','인천','서울','대전'])
s2.index.name = '[도시]'
s2.name = '인구'
s2

[도시]
부산    3448737
인천    2632035
서울    9904312
대전    1490158
Name: 인구, dtype: int64

#### 시리즈의 인덱싱 종류
1. 정수형 위치 인덱스(integer position)
2. 인덱스 이름(index name) 또는  인덱스 라벨(index label)

    - 인덱스 별도 지정하지 않으면 0부터 시작하는 정수형 인덱스가 지정됨
    

##### 원소 접근
   - 정수형 인덱스 : 숫자 s[0]
   - 문자형 인덱스 : 문자 s['인천']
    

In [125]:
#문자,위치 인덱스
print(s['서울'])
print(s[0])
#print() 없이해도 출력됨

9904312
9904312


In [126]:
### 확인 예제
s_1 = pd.Series([1,2,3],index=[1,2,3])
s_1

1    1
2    2
3    3
dtype: int64

In [127]:
s_1.index  #s_1[0] => 이런거 안됨, 인덱스 타입이 정수면 위치 인덱스 xxx

Int64Index([1, 2, 3], dtype='int64')

In [128]:
#한줄에 위치 인덱스, 문자인덱스를 동시에 접근
s
s[3] , s['대전']

서울    9904312
부산    3448737
인천    2632035
대전    1490158
dtype: int64

(1490158, 1490158)

#### 리스트 이용 인덱싱
    - 자료의 순서를 바꿔 반환하거나, 특정 자료 여러개를 선택할때 사용
    - 시리즈명[[인덱스1,인덱스2...]]

In [129]:
s
s[[0,3,2,1]]

서울    9904312
부산    3448737
인천    2632035
대전    1490158
dtype: int64

서울    9904312
대전    1490158
인천    2632035
부산    3448737
dtype: int64

In [130]:
s[['서울','인천']]

서울    9904312
인천    2632035
dtype: int64

##### 시리즈 슬라이싱을 이용한 인덱싱
- 정수형 위치 인덱스를 사용한 슬라이싱
    - 시리즈[start:stop+1]
- 문자(라벨)인덱스 이용 슬라이싱
    - 시리즈['시작라벨':'끝라벨']  : 표시된 라벨 범위 모두 추출


In [131]:
#위치 인덱스 슬라이싱
s[1:3]  #[1~2]의 의미

부산    3448737
인천    2632035
dtype: int64

In [133]:
#문자 인덱스를이용한 슬라이싱
s['부산':'대전'] #표시된 인덱스의 모든 범위

부산    3448737
인천    2632035
대전    1490158
dtype: int64

In [136]:
###슬라이싱 예제 -> 명시적으로 설정한 정수 인덱스를 슬라이싱하면 위치 슬라이싱 적용됨
s_test = pd.Series([1,2,3,4],index=[1,3,5,7])
s_test

1    1
3    2
5    3
7    4
dtype: int64

In [139]:
s_test[1:5]

3    2
5    3
7    4
dtype: int64

In [144]:
s.인천
s.서울

2632035

9904312

In [145]:
s_test

1    1
3    2
5    3
7    4
dtype: int64

In [146]:
#s_test.1(안됨) #연산자를 이용한 원소 접근은 문자 인덱스만 가능

### 인덱싱을 통한 데이터 업데이트
    - 시리즈명[인덱스] = 데이터값

In [150]:
s

서울    1000000
부산    3448737
인천    2632035
대전    1490158
dtype: int64

In [147]:
s['서울'] = 1000000
s

서울    1000000
부산    3448737
인천    2632035
대전    1490158
dtype: int64

### 인덱스 재사용 가능

In [149]:
s.index
s1 = pd.Series(np.arange(4), s.index)
s1

Index(['서울', '부산', '인천', '대전'], dtype='object')

서울    0
부산    1
인천    2
대전    3
dtype: int32

### 시리즈 연산

In [151]:
#예제 시리즈
s

#서울    1000000
#부산    3448737
#인천    2632035
#대전    1490158
#dtype: int64

서울    1000000
부산    3448737
인천    2632035
대전    1490158
dtype: int64

##### 벡터화 연산
- numpy 배열처럼 pandas의 시리즈도 벡터화 연산 가능 
- 벡터화 연산이란 집합적 자료형의 원소 각각을 독립적으로 계산을 진행하는 방법
    - 단, 연산은 시리즈의 값에만 적용되며 인덱스 값은 변경 불가


In [154]:
pd.Series([1,2,3])
pd.Series([1,2,3]) +4

#0    1
#1    2
#2    3
#dtype: int64
#0    5
#1    6
#2    7
#dtype: int64

0    1
1    2
2    3
dtype: int64

0    5
1    6
2    7
dtype: int64

In [155]:
#s 시리즈의 값은 1/1000000 변환
s/1000000

#서울    1.000000
#부산    3.448737
#인천    2.632035
#대전    1.490158
#dtype: float64

서울    1.000000
부산    3.448737
인천    2.632035
대전    1.490158
dtype: float64

In [158]:
#벡터화 인덱싱 = 인덱싱에 조건식을 활용할 수 있다
#시리즈 s의 원소 값 중 2500000(250e4)보다 크고, 5000000(500e4)보다 작은 원소를 추출
#시리즈명[조건식] - 각 원소의 값 모두를 각각 조건식으로 확인해서 결과가 ture인 원소만 추출
(s>250e4) & (s<500e4)
s[(s>250e4) & (s<500e4)]


# 서울    False
# 부산     True
# 인천     True
# 대전    False
# dtype: bool
# 부산    3448737
# 인천    2632035
# dtype: int64

서울    False
부산     True
인천     True
대전    False
dtype: bool

부산    3448737
인천    2632035
dtype: int64

#### **Boolean selection**
  - boolean Series가 []와 함께 사용되면 True 값에 해당하는 값만 새로 반환되는 Series객체에 포함됨
  - 다중조건의 경우, &(and), |(or)를 사용하여 연결 가능

In [167]:
s0 = pd.Series(np.arange(10), np.arange(10)+1)
s0


1     0
2     1
3     2
4     3
5     4
6     5
7     6
8     7
9     8
10    9
dtype: int32

In [168]:
s0>5

# 1     False
# 2     False
# 3     False
# 4     False
# 5     False
# 6     False
# 7      True
# 8      True
# 9      True
# 10     True
# dtype: bool

1     False
2     False
3     False
4     False
5     False
6     False
7      True
8      True
9      True
10     True
dtype: bool

In [169]:
s0[s0>5]

# 7     6
# 8     7
# 9     8
# 10    9
# dtype: int32

7     6
8     7
9     8
10    9
dtype: int32

In [172]:
s0 % 2 == 0
s0[s0 % 2==0]

# 1      True
# 2     False
# 3      True
# 4     False
# 5      True
# 6     False
# 7      True
# 8     False
# 9      True
# 10    False
# dtype: bool
# 1    0
# 3    2
# 5    4
# 7    6
# 9    8
# dtype: int32

1      True
2     False
3      True
4     False
5      True
6     False
7      True
8     False
9      True
10    False
dtype: bool

1    0
3    2
5    4
7    6
9    8
dtype: int32

In [173]:
s0.index >5 #s0의 인덱스 값을 추출해서 벡터화 연산

array([False, False, False, False, False,  True,  True,  True,  True,
        True])

In [175]:
s0[s0.index>5]  #s0 인덱스 값이 5를 초과하는 원소 출력

6     5
7     6
8     7
9     8
10    9
dtype: int32

In [181]:
(s0>=7).sum()  #각 원소에 대하여, 조건식의 결과값이 True인 원소의 개수
s0[s0>=7].sum() #각 원소에 대입한 조건식의 결과값이 True인 원소들의 값을 합함.

3

24

- 두 시리즈 간의 연산

In [184]:
num_s1 = pd.Series([1,2,3,4],index=['a','b','c','d'])
num_s2 = pd.Series([5,6,7,8],index=['a','b','c','d'])
num_s1
num_s2

a    1
b    2
c    3
d    4
dtype: int64

a    5
b    6
c    7
d    8
dtype: int64

In [185]:
num_s1+num_s2 #시리즈 간의 연산은 같은 인덱스를 찾아 진행함

a     6
b     8
c    10
d    12
dtype: int64

In [189]:
num_s3 = pd.Series([1,2,3,4],index=['e','b','f','g'])
num_s4 = pd.Series([5,6,7,8],index=['b','c','d','a'])
num_s3 + num_s4 
#두 시리즈의 인덱스가 다르면, 동일한 인덱스끼리는 연산 진행
# 나머지 인덱스는 연산처리가 불가능해서 NaN값으로 처리

a    NaN
b    7.0
c    NaN
d    NaN
e    NaN
f    NaN
g    NaN
dtype: float64

In [190]:
num_s4.values - num_s3.values
#values 속성을 사용하면 시리즈의 형태가 사라져
#동일한 위치의 원소들끼리 연산하게 된다.
#array([4, 4, 4, 4], dtype=int64)

array([4, 4, 4, 4], dtype=int64)

##### 딕셔너리 와 시리즈의 관계
- 시리즈 객체는 라벨(문자)에 의해 인덱싱이 가능
- 실질적으로는 라벨을 key로 가지는 딕셔너리 형과 같다고 볼 수 있음
- 딕셔너리에서 제공하는 대부분의 연산자 사용 가능
    - in 연산자 : T/F
    - for 루프를 통해 각 원소의 key와 value에 접근 할수 있다.


- in 연산자/ for 반복문 사용

In [191]:
#인덱스가 서울인 원소가 시리즈에 있는지 확인
'서울' in s #True

True

In [192]:
'대구' not in s

True

In [194]:
#딕셔너리의 items()함수는 시리즈에서도 사용할 수 있다.
s.items()
list(s.items())

<zip at 0x24d4d956f40>

[('서울', 1000000), ('부산', 3448737), ('인천', 2632035), ('대전', 1490158)]

In [195]:
for k,v in s.items():
    print("%s=%d"%(k,v))

서울=1000000
부산=3448737
인천=2632035
대전=1490158


In [197]:
#시리즈의 값을 갱신
s['부산'] = 8630000
s

서울    1000000
부산    8630000
인천    2632035
대전    1490158
dtype: int64

In [201]:
#시리즈에 새로운 데이터 추가
s['대구'] = 18750000
s

서울     1000000
부산     8630000
인천     2632035
대전     1490158
대구    18750000
dtype: int64

In [203]:
#시리즈의 데이터 삭제: del명령사용
del s['대전']
s

서울     1000000
부산     8630000
인천     2632035
대구    18750000
dtype: int64

#### **Series size, shape, unique, count, value_counts 함수**
 - size 속성 : 개수 반환
 - shape 속성: 튜플형태로 shape반환
 - unique: 유일한 값만 ndarray로 반환
 - count : NaN을 제외한 개수를 반환
 - mean: NaN을 제외한 평균 
 - value_counts: NaN을 제외하고 각 값들의 빈도를 반환


In [204]:
s1 = pd.Series([1, 1, 2, 1, 2, 2, 2, 1, 1, 3, 3, 4, 5, 5, 7, np.NaN])
s1


0     1.0
1     1.0
2     2.0
3     1.0
4     2.0
5     2.0
6     2.0
7     1.0
8     1.0
9     3.0
10    3.0
11    4.0
12    5.0
13    5.0
14    7.0
15    NaN
dtype: float64

In [209]:
len(s1) 
s1.size
#모두 NaN값을 포함한 값을 반환

16

16

In [212]:
s1.shape #차원을 표현하기 때문에 튜플 형태로 출력
#(16,) 으로 출력됨
#이유 -> 16행 1열

(16,)

In [214]:
s1.unique() #중복값을 제거한 원소값출력

array([ 1.,  2.,  3.,  4.,  5.,  7., nan])

In [216]:
s1.count() #NaN값을 제거한 원소의 개수 반환

15

In [219]:
a= np.array([2,2,2,2,2,np.NaN]) #결측치 포함
b= pd.Series(a)
a.mean() #np의 array를 평균계산 - NaN이 포함되면 계산 불가(nan반환)
b.mean() # 기본 NaN값을 제외시키고 계산하도록 설정되어있음

nan

2.0

In [221]:
s1.value_counts() # 각 원소들은 같은 값끼리 그룹을 만들고 개수를 세서 반환

1.0    5
2.0    4
3.0    2
5.0    2
7.0    1
4.0    1
dtype: int64