## Pandas 개요
- 데이터 분석과 관련된 다양한 기능을 제공하는 파이썬 패키지
    - 데이터 셋을 이용한 다양한 통계 처리 기능을 제공한다.
    - 표 형태의 데이터를 다루는데 특화된 파이썬 모듈.(시각화도 지원)
        - 엑셀의 기능을 제공하는 파이썬 모듈이라고 생각하면 이해가 쉽다.
    - 표 형태의 데이터를 다루기 위한 **시리즈(Series)**와 **데이터프레임(DataFrame)** 클래스 제공
        - Series : 1차원 자료구조를 표현
        - DataFrame : 행렬의 표를 표현, 데이터를 넣어놓는 곳(sql에서 표, 테이블로 생각, 넘파이로 보면 2차원 배열)
- 설치
    - `pip install pandas`
    - `conda instll pandas`
    - 아나콘다에는 미리 install 되어 제공된다.
- https://pandas.pydata.org/
- https://pandas.pydata.org/docs/
- 파이썬용 r, 머신러닝기능은 없음.

## Series 개요
- 1차원 자료구조
- DataFrame(표)의 한 행이나 한 열을 표현한다.
- 각 원소는 index로 접근할 수 있다.
    - index는 순번(만들면 자동으로 부여되는 값)과 지정한 이름(딕셔너리처럼) 두가지로 구성된다.
        - index명을 명시적으로 지정하지 않으면 순번이 index명이 된다.
    - 순번은 0부터 1씩 증가하는 정수. 
    - 보통 인덱스하면 인덱스명을 얘기하긴 함.
- 벡터화 연산을 지원(문법은 똑같)
    - Series 객체에 연산을 하면 각각의 Series 원소들에 연산이 된다.
- Series를 구성하는 원소들을 다루는 다양한 메소드 제공
- 시리즈 -> 데이터베이스 : 판다스
  1차배열 -> 2차원배열 : 넘파이
  컬럼(row) ->표       : sql
- 데이터프레임이 시리즈로 구성되어 있어서, 시리즈단위로 일처리를 많이함.

## Series생성 : 객체를 만드는 것
- 구문
    - `Series(배열형태 자료구조)`
> #### 배열형태 자료구조    
> - 리스트
> - 튜플
> - 넘파이 배열(ndarray)
- 시리즈를 조회하는건 많지만 시리즈자체를 많드는 경우는 거의 없다

- Series.shape :시리즈의 형태
- Series.ndim : 차원(1)
- Series.dtype: 데이터 타입
- Series.size : 원소총갯수

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as pit

nums = [10,20,30,40,50,60]
s1 = pd.Series(nums)
s1

0    10
1    20
2    30
3    40
4    50
5    60
dtype: int64

In [3]:
n = np.random.normal(10,5,10)
s2 = pd.Series(n)
s2

0    13.106912
1     1.866259
2    18.418901
3    13.056205
4     9.511716
5     4.007124
6     9.687282
7    10.630834
8    15.224992
9     9.169527
dtype: float64

In [4]:
s2.ndim, s2.size, s2.dtype, s2.shape

(1, 10, dtype('float64'), (10,))

## Series안의 원소(element) 접근
### Indexing
- **index 순번으로 조회**
    - Series[순번]
    - Series.iloc[순번] : ㅠ아이록인덱서
- **index 이름으로 조회**
    - Series[index명]
    - Series.loc[index명] : 록인덱서
    - Series.index명
        - index명이 문자열일 경우 `. 표기법` 사용가능
    - index명이 문자열이면 문자열(" ") 로, 정수이면 정수로 호출
        - s['name'], s[2], s.loc['name'], s.loc[2]

- **팬시(fancy) 인덱싱** : 여러개 조회시 사용
    - Series[index리스트] 
    - 여러 원소 조회 시 조회할 index를 list/
        - `s[[1,2,3]]`

In [5]:
s3 = pd.Series([70,100,90,80], index =['국어','영어','수학','과학'])
s3

국어     70
영어    100
수학     90
과학     80
dtype: int64

In [6]:
s3['국어'],s3[0],s3.iloc[-4]

(70, 70, 70)

In [7]:
s3['영어'], s3.영어

(100, 100)

In [10]:
s5 = pd.Series([10,20,30], index=['국어 점수','영어#점수', '2영어 점수'])

In [11]:
s5.국어 점수

SyntaxError: invalid syntax (<ipython-input-11-0a8f6419cafd>, line 1)

In [12]:
s5['국어 점수']

10

In [None]:
#인덱스명 정수로 준경우, 조회할때도 정수로 조회해야. 자동 변환일어나지 않음/

In [13]:
s3[[1,2,3]]

영어    100
수학     90
과학     80
dtype: int64

In [14]:
s3[[2,3]]

수학    90
과학    80
dtype: int64

In [16]:
s3[['영어','수학']]

영어    100
수학     90
dtype: int64

In [18]:
s7 = pd.Series(np.arange(10), index = list('DBCAEFGHIJ'))
s7

D    0
B    1
C    2
A    3
E    4
F    5
G    6
H    7
I    8
J    9
dtype: int32

In [19]:
s7[1:8]

B    1
C    2
A    3
E    4
F    5
G    6
H    7
dtype: int32

In [21]:
s7[8:2:-1]

I    8
H    7
G    6
F    5
E    4
A    3
dtype: int32

In [23]:
s7['A':'G']

A    3
E    4
F    5
G    6
dtype: int32

In [24]:
#시리즈(데이터프레임)의 인덱스명은 중복될 수 있다
s8 = pd.Series(np.arange(5), index=list('abcdd'))
s8

a    0
b    1
c    2
d    3
d    4
dtype: int32

In [25]:
s8['d']

d    3
d    4
dtype: int32

In [27]:
s9 = pd.Series(np.arange(5), index = ['k','r','d','s','d'])
s9['d']

d    2
d    4
dtype: int32

In [28]:
s9['r':'d']

KeyError: "Cannot get right slice bound for non-unique label: 'd'"

In [30]:
s10 = pd.Series(np.arange(10), index = list('ABCDEFGHIJ'))
s10

A    0
B    1
C    2
D    3
E    4
F    5
G    6
H    7
I    8
J    9
dtype: int32

In [31]:
s10[1]=1000
s10

A       0
B    1000
C       2
D       3
E       4
F       5
G       6
H       7
I       8
J       9
dtype: int32

In [32]:
s10['c'] = 2000

In [33]:
s10

A       0
B    1000
C       2
D       3
E       4
F       5
G       6
H       7
I       8
J       9
c    2000
dtype: int64

### Indexing, Slicing을 이용한 값 변경

>  ## shallow copy와 deep copy
> - ### deep copy(깊은 복사)
    - 원본의 카피본을 반환하여 값 변경시 원본이 변경되지 않는다.
    - 파이썬 리스트는 slicing시 deep copy
    - indexing은 deep copy
> - ### shallow copy(얕은 복사)
    - 원본을 반환하여 값 변경시 원본에 영향을 준다.
    - Series, DataFrame, 넘파이 배열(ndarray)은 slicing 조회시 shallow copy
> - ### copy() 메소드
    - Series, DataFrame, ndarray를 복사하여 반환한다.

In [36]:
s11 = s10[1:6]

In [37]:
s11

B    1000
C       2
D       3
E       4
F       5
dtype: int64

In [38]:
s11['E'] = 1000

In [40]:
s11

B    1000
C       2
D       3
E    1000
F       5
dtype: int64

In [41]:
s10

A       0
B    1000
C       2
D       3
E    1000
F       5
G       6
H       7
I       8
J       9
c    2000
dtype: int64

In [42]:
s12= s10[1:6].copy()

In [43]:
s12['D'] = 1000

In [45]:
s12

B    1000
C       2
D    1000
E    1000
F       5
dtype: int64

In [46]:
s10

A       0
B    1000
C       2
D       3
E    1000
F       5
G       6
H       7
I       8
J       9
c    2000
dtype: int64

## Boolean 인덱싱
- Series 의 indexing 연산자에 boolean 리스트를 넣으면 True인 index의 값들만 조회한다. 
    - Boolean 연산자들을 이용해 원하는 조건의 값들을 조회할 수 있다
    - 다중 조건인 경우 반드시 ( )로 조건을 묶어야 한다.
    ![image.png](attachment:image.png) 
    
    - 파이썬과는 다르게 `and`, `or` 예약어는 사용할 수 없다.`m

In [47]:
s13 =pd.Series([1,2,3,4])
s13[[False,True,False,True]]

1    2
3    4
dtype: int64

In [48]:
s10>=1000

A    False
B     True
C    False
D    False
E     True
F    False
G    False
H    False
I    False
J    False
c     True
dtype: bool

In [49]:
s10[s10>=1000]

B    1000
E    1000
c    2000
dtype: int64

In [50]:
np.where(~(s10>=1000))

(array([0, 2, 3, 5, 6, 7, 8, 9], dtype=int64),)

In [54]:
r = np.where(s10>=1000,'1000이상','1000미만')
r

array(['1000미만', '1000이상', '1000미만', '1000미만', '1000이상', '1000미만',
       '1000미만', '1000미만', '1000미만', '1000미만', '1000이상'], dtype='<U6')

In [55]:
pd.Series(r)

0     1000미만
1     1000이상
2     1000미만
3     1000미만
4     1000이상
5     1000미만
6     1000미만
7     1000미만
8     1000미만
9     1000미만
10    1000이상
dtype: object