# Pandas
- 파이썬 패키지
- 데이터 분석과 관련된 다양한 기능 제공
  - 통계 처리
  - 표 형태의 데이터 사용에 특화됨
    - Series와 DataFrame class를 사용

- 호출
  - import pandas as pd
    - pd는 관례적인 별칭이다.

    
## 1. Series
- 1차원 자료구조를 말한다.
  - 한 행(row)이나 한 열(column)
- 각 원소는 index와 index name을 가진다.

### Series 생성하기
- 구문
  - Series(1차원 배열형태 자료구조)
    - 리스트, 튜플, 넘파이 배열

**이후로 편의를 위해 Series를 S라 칭함**

In [1]:
# 리스트에 값을 입력해 S s1을 만들어보자
import pandas as pd
s1 = pd.Series([1,2,3,4,5,6]) 
print(s1)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64


**s1 값에 대한 설명**

```
index name    값
     0        1
     1        2
     2        3
     3        4
     4        5
     5        6
     
dtype: int64 => 값들의 Type
```

- S는 동일한 type의 값을 갖는다.
- index name은 dict의 key값 같은 것이다.

**s1 속성 조회**

In [4]:
# .dtype : 데이터 타입을 알려줌
print('데이터 type:',s1.dtype)

# .size : 전체 원소의 개수를 알려줌
print(s1.size)

# .shape : 차원별 개수를 알려줌
print(s1.shape)


데이터 type: int64
6
(6,)


**추가**
1. S로 만들 리스트의 원소 중 1개 이상 실수가 있다면 dtype은 float이고 리스트의 모든 원소를 실수로 바꿔 S를 만든다.

2. s1은 1차원 데이터라 index의 개수만 알려준다.

### S안의 원소에 접근하는 법.

S의 원소는 두 종류의 index를 가진다.
1. index(순번)
2. index name

**Indexing**
- 한개의 원소를 식별할 때 사용

- index 순번으로 조회
  - S[순번]
  - S.iloc[순번] 
------------------------------  
- index name으로 조회
  - S[index name]
  - S.loc[index name]
  - S.inde name 
    - 점(.)표기법
-------------------------------
- indexer으로 조회
- S[index]를 하면 기본적으로 index명으로 조회한다.
-------------------------------    
- 팬시(fancy) indexing으로 조회
  : 한번에 여러개의 원소를 조회할 때 사용
  - S[index리스트]

In [5]:
s2 = pd.Series([100, 80, 90, 60], index=['Python', 'Java', 'C', 'JS'])
s2

Python    100
Java       80
C          90
JS         60
dtype: int64

In [6]:
# s2의 순번조회 , 이름조회
s2[0], s2[-4], s2['Python'] 


(100, 100, 100)

**순번 조회에는 iloc => iloc indexer**

**이름 조회에는 loc => loc indexer**
- iloc,loc 사용시 맞는 값을 입력해줘야 한다.

In [7]:
s2.iloc[0], s2.iloc[-4], s2.loc['Python'] 

(100, 100, 100)

In [8]:
# 한번에 여러개 원소 조회
print(s1[0], s1[1], s1[3]) # list/tuple 방식
print()
print(s1[[0,1,3]]) # 조회결과를 Series로 묶어서 반환

1 2 4

0    1
1    2
3    4
dtype: int64


#### S의 원소 변경하기

In [9]:
# Series는 리스트같이 원소를 변경할 수 있다.
# 100 -> 50으로 값 변경
s2[0] = 50
s2

Python    50
Java      80
C         90
JS        60
dtype: int64

In [10]:
s2['Java'] = 100
s2

Python     50
Java      100
C          90
JS         60
dtype: int64

**Slicing**
- 범위로 원소들을 조회할 때 사용한다.
- 자료구조의 슬라이싱과 유사함
  - index name으로 슬라이싱을 하면 stop index를 포함
  - index 순번으로 슬라이싱하면 stop index 전까지

- 슬라이싱의 결과는 원본 값에 영향을 준다.
  - 원본에 영향을 주지 않으려면 slicing결과.copy()를 해준다.
  

In [11]:
s3 = pd.Series(range(100)) # 0~99를 원소로 가지는 시리즈
print(s3.dtype, s3.shape)
s3

int64 (100,)


0      0
1      1
2      2
3      3
4      4
      ..
95    95
96    96
97    97
98    98
99    99
Length: 100, dtype: int64

In [12]:
# index로 slicing. stop이 포함안됨
s3[10:20:5] 

10    10
15    15
dtype: int64

In [13]:
 # index name으로 slicing. stop index도 포함
s3.loc[10:20:5]

10    10
15    15
20    20
dtype: int64

In [14]:
s4 = pd.Series(range(10), index=list("abcdefghij"))
s4

a    0
b    1
c    2
d    3
e    4
f    5
g    6
h    7
i    8
j    9
dtype: int64

In [15]:
# slicing한 결과의 원소를 변경
result = s4.iloc[2:6] # iloc index -> 순번으로 조회
result[0] = 100
s4

a      0
b      1
c    100
d      3
e      4
f      5
g      6
h      7
i      8
j      9
dtype: int64

1. s4의 원소를 슬라이싱 (2-5,c-f) result라는 변수에 담고
2. result[0] = c의 값을 100으로 바꿔준다.
3. 원본은 s6을 출력해보면 원본의 값도 변경됨을 알 수 있다.

In [81]:
result2 = s4.iloc[2:6].copy()
result2[0] = 2
print(result2)
print(s4)



c    2
d    3
e    4
f    5
dtype: int64
a      0
b      1
c    100
d      3
e      4
f      5
g      6
h      7
i      8
j      9
dtype: int64


1. 슬라이싱 후.copy를 하여 result2에 넣음
2. result2[0] = c의 값을 2로 바꿈
3. 원본에는 변함이 없고 resutl2라는 새로운 객체를 만들어냄.

## 백터화 (연산)

- S와 DataFrame은 연산을 하면 원소 단위로 연산을 한다.
- S끼리 또는 DataFrame끼리 연산을 하면 같은 위치의 원소끼리 연산을한다.
  - Index name이 같은 원소끼라 연산

In [17]:
s5 = pd.Series([10,-10,5,2])
print(s5 + 5) # s5 각 원소에 5를 더함
print(s5 * 2) # 각 원소에 2를 곱함
print(s5 > 0) # 각 원소가 조건에 따라 boolean값 호출

0    15
1    -5
2    10
3     7
dtype: int64
0    20
1   -20
2    10
3     4
dtype: int64
0     True
1    False
2     True
3     True
dtype: bool


In [18]:
s6 = pd.Series([-10,2,3,7])
s7 = s5 + s6  # 같은 index이름끼리 계산을 한다.
s7

0    0
1   -8
2    8
3    9
dtype: int64

In [19]:
grade1 = pd.Series([100,90,70,80])
# grade2,3은 index name을 부여함
grade2 = pd.Series([80,100,90,100], index=['영어','수학','국어','과학'])
grade3 = pd.Series([70,80,100,100], index=['영어','수학','국어','과학'])


In [20]:
# index name이 다르면 계산이 안된다.
grade1 + grade2

0    NaN
1    NaN
2    NaN
3    NaN
과학   NaN
국어   NaN
수학   NaN
영어   NaN
dtype: float64

In [21]:
# 계산은 index name이 같은 것끼리만!!
grade2 + grade3

영어    150
수학    180
국어    190
과학    200
dtype: int64

## Boolean 인덱싱

- S의 indexing 연산자에 boolean 리스트를 넣으면 True인 index의 값들만 조회함.

- 파이썬과는 다르게 and, or, not은 사용못함
  - &, |, ~를 쓴다.

In [22]:
# s7의 원소중 True인 값만 조회된다.
s7[[True, False, True, False]]

0    0
2    8
dtype: int64

In [23]:
import numpy as np

# 0~100 사이의 숫자를 random하게 50개 생성
s8 =pd.Series(np.random.randint(0,100,50))
s8

0     79
1     60
2     90
3     84
4     56
5     76
6     91
7     74
8     95
9     79
10    52
11    92
12    96
13    72
14    96
15    82
16    83
17    38
18    76
19    20
20    55
21    36
22    19
23    97
24    30
25    26
26    11
27    81
28    53
29    27
30    37
31    97
32    10
33    31
34    66
35    83
36    49
37    78
38    61
39    98
40    22
41    72
42    79
43    21
44    49
45    68
46    55
47    47
48    43
49    53
dtype: int32

In [24]:
# s8의 원소들 중에 60보다 큰 값을 조회
s8[s8 >= 60]

0     79
1     60
2     90
3     84
5     76
6     91
7     74
8     95
9     79
11    92
12    96
13    72
14    96
15    82
16    83
18    76
23    97
27    81
31    97
34    66
35    83
37    78
38    61
39    98
41    72
42    79
45    68
dtype: int32

In [25]:
# s8의 원소들 중에 60~70 사이의 값들을 조회
# &를 쓸 때는 피연산자들을 ()로 묶어줘야한다.
s8[(s8 >= 60) & (s8 <= 70)]

# 간편하게 between을 사용
s8[s8.between(60,70)]

1     60
34    66
38    61
45    68
dtype: int32

In [26]:
# np.where(bool연산)
# True인 값들의 index를 조회해줌
np.where(s8.between(60,70))


(array([ 1, 34, 38, 45], dtype=int64),)

In [27]:
# np.where(bool연산, True변환값, Fales변환값)
# index를 조회 - 조건이 True인 값과 False인 값의 명칭을 지정해줌 
np.where(s8 > 50,'크다','작다')

array(['크다', '크다', '크다', '크다', '크다', '크다', '크다', '크다', '크다', '크다', '크다',
       '크다', '크다', '크다', '크다', '크다', '크다', '작다', '크다', '작다', '크다', '작다',
       '작다', '크다', '작다', '작다', '작다', '크다', '크다', '작다', '작다', '크다', '작다',
       '작다', '크다', '크다', '작다', '크다', '크다', '크다', '작다', '크다', '크다', '작다',
       '작다', '크다', '크다', '작다', '작다', '크다'], dtype='<U2')


value_counts() : 범주값들의 각각의 개수를 호출.
법주값 : 특정 개수의 값으로만 구성된 자료구조

In [28]:
# 범위의 값들 랜덤하게 99개 출력.
s9 = pd.Series(np.random.choice(['Python','Java','C','Go','Rust'], 100))

print(s9)

# s9을 구성하는 범주값들의 각각의 개수
# 랜덤한 값이기에 호출할 때마다 값이 달라지는걸 확인할 수 있다.
s9.value_counts()

0          C
1       Rust
2       Java
3         Go
4       Rust
       ...  
95    Python
96      Rust
97        Go
98      Java
99      Java
Length: 100, dtype: object


Go        24
C         21
Java      21
Python    18
Rust      16
dtype: int64

#### 정렬

- sort_values()
  - 값으로 정렬
- sort_index()
  - index명으로 정렬
  
- 공통 매개변수
  - ascending= True(오름차순(default)) / Fales(내림차순)
  - inplace= True(원본을 바꾼다) / False(새로운 Series로 반환(default)
  

In [29]:
s10 = pd.Series([10,-10,20,-20,30], index=['a','z','b','y','c'])

# 원본
s10

a    10
z   -10
b    20
y   -20
c    30
dtype: int64

In [30]:
# 값을 오름차순으로 정렬(ascending=True는 기본값)
s10.sort_values()

y   -20
z   -10
a    10
b    20
c    30
dtype: int64

In [31]:
# 값을 내림차순으로 정렬(ascending을 해줘야한다.)
s10.sort_values(ascending=False)

c    30
b    20
a    10
z   -10
y   -20
dtype: int64

In [32]:
# index name을 기준으로 오름차순 정렬
s10.sort_index()

a    10
b    20
c    30
y   -20
z   -10
dtype: int64

In [33]:
# index name을 기준으로 내림차순으로 정렬
s10.sort_index(ascending=False)

z   -10
y   -20
c    30
b    20
a    10
dtype: int64

## 기술 통계량

In [34]:
s11 = s10.sort_values()
s11

y   -20
z   -10
a    10
b    20
c    30
dtype: int64

In [35]:
 # 최대, 최소
print(s11.max(), s11.min())

# 최대, 최소 값의 index 이름.
print(s11.idxmax(), s11.idxmin())

# 합계, 평균, 중앙값
print(s11.sum(), s11.mean(), s11.median()) 

30 -20
c y
30 6.0 10.0


**표준편차**
- 자료가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 수치
- 표준편차가 0에 가까우면 자료 값들이 평균 근처에 집중되어 있음을 의미한다. 표준편차가 클수록 자료 값들이 널리 퍼져 있음을 의미

**분산**
- 어떤 대상(평균)으로부터 흩어진 정도

**최빈값**
- 가장 개수가 많은 값 (S로 묶어서 반환.)

**분위수**
- 데이터의 크기 순서에 따른 위치값
  - 데이터셋을 크기순으로 정렬한뒤 N등분했을 때 특정 위치에서의 값(단면)
- 데이터의 분포를 파악하기 위해 사용
  - N등분한 특정위치의 값들 통해 전체 데이터셋의 분포를 파악한다.
- 대표적인 분위수 : 4분위. 10분위, 100분위

In [36]:
# 표준편차, 분산
print(s11.std(), s11.var())

20.73644135332772 430.0


In [39]:
# 최빈값
# 최빈값이 같으면 1개 이상 출력된다.
print(s9.mode())
# s9에는 Go의 개수가 제일 많은 것을 알 수 있다.
print(s9.value_counts())

0    Go
dtype: object
Go        24
C         21
Java      21
Python    18
Rust      16
dtype: int64


In [47]:
# 랜덤한 수 호출
s12 = pd.Series(np.random.randint(100,1000,100))
s12



0     701
1     851
2     415
3     826
4     559
     ... 
95    238
96    275
97    308
98    219
99    971
Length: 100, dtype: int32

In [51]:
# 기본 형태
print('중위수:', s12.median())

# 중위수 전체에서 0.5 자리에 있는 값
print(s12.quantile(q=[0.5]))

# 4분위 : 4등분 
print(s12.quantile(q=[.25,.5,.75]))

중위수: 534.5
0.5    534.5
dtype: float64
0.25    331.00
0.50    534.50
0.75    768.25
dtype: float64


In [52]:
# count() : 결측치 아닌 원소의 개수
s12.count()

100

In [53]:
# 자주 사용하는 값 한번에 보기
s12.describe()

count    100.000000
mean     536.760000
std      254.799986
min      109.000000
25%      331.000000
50%      534.500000
75%      768.250000
max      994.000000
dtype: float64

In [55]:
# 원소들이 문자열 타입일때.
print(s9)

print(s9.describe())



0          C
1       Rust
2       Java
3         Go
4       Rust
       ...  
95    Python
96      Rust
97        Go
98      Java
99      Java
Length: 100, dtype: object
count     100
unique      5
top        Go
freq       24
dtype: object


```
count     100 -> 결축치가 아닌 원소들의 개수
unique      5 -> 고유값(범주값)의 개수
top        Go -> 최빈값
freq       24 -> 최빈값의 빈도수(개수)
dtype: object
```

## 결측치

- 결측치 : 모르는 값, 수집이 안된 값, 현재 가지고 있지 않은 값.
- 판다스에서 결측치
  - None, numpy.nan, numpy.NAN
  - 결측치는 float 타입으로 처리된다.
  
### 결측치 확인하기

- 각 함수/메소드는 각 원소별로 결측치인지 확인해서 결과를 반환한다.
- Numpy
  - np.isnan(배열)
    - import numpy as np
    - a = np.array([1,np.nan])
    - np.isnan(a)

- Series/DataFrame
  - Series/DataFrame객체.isnull(), 또는 isna()
  - Series/DataFrame객체.notnull(), 또는 notna()
  
### 결측치 처리하기

- 제거
  - dropna()
- 다른값으로 대체
  - fillna()
    - 주로 평균, 중위값, 최빈값으로 대체함.

In [86]:
import pandas as pd
import numpy as np

# index 5,7을 결측치로 줌
s13 = pd.Series([10, 2, 40, 7, 20, np.nan, 50, np.nan, 10])
s13

0    10.0
1     2.0
2    40.0
3     7.0
4    20.0
5     NaN
6    50.0
7     NaN
8    10.0
dtype: float64

In [87]:
# 결측치 확인

# 원소별로 결측이 인지(True) 아닌지(False) 체크
# index 5,7은 결측치라 True 출력
# isnull()말고 isna()도 있다.
result = s13.isnull() # isna()
result

0    False
1    False
2    False
3    False
4    False
5     True
6    False
7     True
8    False
dtype: bool

In [88]:
# 반대로 확인하고 싶으면 notnull() 이나 notna()를 쓴다.
# 결측치가 아닌것은 True
result2 = s13.notnull()
result2

0     True
1     True
2     True
3     True
4     True
5    False
6     True
7    False
8     True
dtype: bool

In [89]:
# 결측치 제거

# 결측치를 제거한 결과를 새 S에 담아서 반환.
print(s13.dropna())
# 원본은 그대로인걸 알 수 있다.
print(s13)

0    10.0
1     2.0
2    40.0
3     7.0
4    20.0
6    50.0
8    10.0
dtype: float64
0    10.0
1     2.0
2    40.0
3     7.0
4    20.0
5     NaN
6    50.0
7     NaN
8    10.0
dtype: float64


In [90]:
# 다른 값으로 대체
s13.fillna(100)

0     10.0
1      2.0
2     40.0
3      7.0
4     20.0
5    100.0
6     50.0
7    100.0
8     10.0
dtype: float64

In [97]:
# 결측치를 s13의 중위값의 소수점 2번째 자리까지 반올림한 값을로 대체
s13.fillna(round(s13.median(),2))

0    10.0
1     2.0
2    40.0
3     7.0
4    20.0
5    10.0
6    50.0
7    10.0
8    10.0
dtype: float64

In [93]:
# 계산시 결측치 포함 여부

# 결측치를 빼고 평균을 구한 결과
print(s13.mean())

# 결측치를 포함하고 평균을 구한 결과
# 결측치가 하나라도 계산에 포함되어 있으면 계산 결과는 결측치이다.
print(s13.mean(skipna=False))

19.857142857142858
nan
