# 판다스 (Pandas)

판다스는 표형태의 데이터를 다루는데 특화된 파이썬 모듈.<br>
처음 사용한다면, `pip install pandas` ~

> 그렇다면, 여기서 문제!<br>
>
> 판다스가 다룰 수 있는 2가지의 표 형태가 있는데 그 각각의 이름은 무엇일까요?

정답: 

![seriesvsdataframe.png](seriesvsdataframe.png)

# Series

-   **1차원** 자료구조
-   DataFrame(표)의 **한 행(row)** 이나 **한 열(column)** 을 표현한다.
-   각 원소는 **index**와 **index 이름**을 가지며 그것들을 이용해 사용할 수 있다.
-   벡터화 연산(element-wise 연산)을 지원
    -   Series 객체에 연산을 하면 각각의 Series 원소들에 연산이 된다.
-   Series를 구성하는 원소들을 다루는 다양한 메소드 제공

In [1]:
import pandas as pd
data = [0, 10, 20, 30, 40, 50, 60]
# series 생성코드
s1 = pd.Series(data)
s1

0     0
1    10
2    20
3    30
4    40
5    50
6    60
dtype: int64

In [2]:
# 그럼 이번엔 index 이름름을 지정해서 series를 생성하고 싶을땐 어떻게 해야할까?
# 힌트: pd.Series([값], index=[index이름])
# 값: 70, 100, 80, 95, 75 / index이름: '국어', '국어', '수학', '과학', '국사' 
#여기를 채워보자.
s2 = pd.Series([70, 100, 80, 95, 75,], index=['국어', '국어', '수학', '과학', '국사'])
s2

국어     70
국어    100
수학     80
과학     95
국사     75
dtype: int64

### Series 객체의 속성

In [6]:
# 차원(축-axis)별 원소 개수
print(s1.shape)
#데이터 타입
print(s1.dtype)
# 총 원소 개수
print(s1.size)
# index 이름 조회
print(s1.index)

(7,)
int64
7
RangeIndex(start=0, stop=7, step=1)


## index 변경

In [9]:
# 한번에 변경 
# s1.index[3] = '가' # 이 방식으로는 개별 index name 변경 안됨.
# 힌트: 리스트 함수 써서 index를 각각 ABCDEFG로로 변경해보기
s1.index = list("ABCDEFG")
s1

A     0
B    10
C    20
D    30
E    40
F    50
G    60
dtype: int64

In [12]:
# 개별 index name 변경  - rename
# 그냥 rename을 할 겨우에는 원데이터는 바뀌지 않는다. 
# 힌트: {원래이름: 바꿀이름}, inplace=True : 원데이터를 바꿀거야
s1.rename({"A" : "기역"}, inplace=True)
s1

기역     0
B     10
C     20
D     30
E     40
F     50
G     60
dtype: int64

## Series안의 원소 접근 : Indexing & Slicing

일단 index의 종류부터 알아보자!

-   Index는 Series에 저장된 각 원소를 구분하는 식별자로 각 원소를 사용할때 사용한다. <br> Series의 원소들은 두 종류의 index를 가진다.<br>

    1. 내부적으로 관리되는 **index(순번)** (양 또는 음수) ; 우리가 원래 알고 있는 것
        - 자동으로 배정되는 순번.
        - **리스트나 튜플의 index**와 동일하다.
        - 0 부터 1씩 증가하는 양수 index와 -1 부터 1씩 감소하는 음수 index 두가지가 붙는다. 양수 index는 앞에서 부터, 음수 index는 뒤에서 부터 붙는다.
    2. **index name(index 이름)**
        - 명시적으로 각 원소에 지정하는 이름
        - **딕셔너리의 key**의 역할을 한다.
            - Series의 index name은 중복될 수 있다.
        - 생략하면 양수 index가 index name이 된다.
    -   Index와 index name 두가지의 식별자가 붙는 것은 Series, DataFrame 동일하다.
    -   Series나 DataFrame을 출력하면 나오는 index는 index name이다. 자동으로 붙는 index는 판다스 내부에서 관리된다.


### Indexing

-   한개의 원소를 조회하거나 변경할 때 사용.
-   **index (순번) 으로 조회**
    -   `Series.iloc[순번]`
-   **index 이름으로 조회**
    -   `Series[index 이름]`
    -   `Series.loc[index 이름]`
    -   index 이름의 타입에 맞춰 조회한다.
        -   `s['name'], s[2], s.loc['name'], s.loc[2]`
    -   Series.index이름
        -   index의 이름이 **파이썬 식별자 규칙에 맞을** 경우 `. 표기법` 사용 할 수 있다..
-   **팬시(fancy) 인덱싱** -`Series[index리스트]`
    -   한번에 여러개의 원소를 조회할 경우 조회할 index들을 list로 묶어서 전달한다.
        -   `series[["A", "B", "C"]]`


In [13]:
s3 = pd.Series(range(20))
s3

0      0
1      1
2      2
3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
11    11
12    12
13    13
14    14
15    15
16    16
17    17
18    18
19    19
dtype: int64

In [14]:
# index 이름으로 조회, '3'을 조회
# 힌트: Series[index 이름], Series.loc[index 이름]
s3[3], s3.loc[3]

(np.int64(3), np.int64(3))

In [15]:
# 양수 index 순번으로 조회, 순번3을 조회
# 힌트: Series.iloc[순번]
s3.iloc[3]

np.int64(3)

In [16]:
# 음수 index 순번으로 조회, 순번3을 조회
# 힌트: Series.iloc[순번]
s3.iloc[-3]

np.int64(17)

In [19]:
# 한번에 여러개 조회 (이름으로 조회)
# 힌트: series[["A", "B", "C"]]
s3.loc[[3,4,5]]

3    3
4    4
5    5
dtype: int64

In [20]:
# 한번에 여러개 조회 (순번으로 조회)
# 힌트: series.iloc[[양수, 음수 다 쓸 수 있음!]]
s3.iloc[[1,5,3,-1]]

1      1
5      5
3      3
19    19
dtype: int64

In [26]:
# 이번엔 s2를 조회
# . 표기법으로 조회
s2.수학

# 이름으로 조회
s2["국어"]

# 순번으로 조회
s2[[1,2]]


  s2[[1,2]]


국어    100
수학     80
dtype: int64

In [23]:
s2

국어     70
국어    100
수학     80
과학     95
국사     75
dtype: int64

### Slicing

-   범위로 원소들을 조회할 때 사용한다.
-   **Series[start index : stop index : step]**
    -   start index 생략 : 0번 부터
    -   stop index
        -   **index 순번일 경우는 포함 하지 않는다.**
        -   **index 명의 경우는 포함한다.**
    -   stop index 생략 : 마지막 index까지
    -   step 생략 : 1씩 증가
    -   start index > stop index 이고 step이 음수 이면 역순으로 조회한다.
-   **Slicing의 결과는 원본의 참조(View)를 반환**
    -   Slicing한 결과는 새로운 Sesries에 넣어 주는 것이 아니라 대상 Series에서 조회한 결과를 참조하게 한다.
    -   Slicing한 결과의 원소를 변경하면 slicing 했던 대상(원본)도 같이 바뀐다.
    -   원본은 변경되지 않게 하려면 `slicing결과.copy()` 를 이용해 결과 Series를 복사 해 새로 만든 뒤 그것을 변경해야 한다.


In [29]:
#  index 이름으로 slicing시 stop 포함  
# 3부터 10까지 조회해줘
# s3.loc[]
s3.loc[3:10]

3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
dtype: int64

In [None]:
#  index(순번) 으로 slicing시 stop 포함 안됨.
# 3부터 10까지 조회해줘
# s3.iloc[]
s3.iloc[3:11]


3      3
4      4
5      5
6      6
7      7
8      8
9      9
10    10
dtype: int64

In [31]:
# 예시 하나 더!
s2.loc['수학':'국사']

수학    80
과학    95
국사    75
dtype: int64

In [None]:
# slicing한 결과의 값을 변경
# result 안에 넣어줘야 함!
result = s2["수학":"국사"]
result["국사"] = 20 # 75 -> 20으로 변경
result["국사"]

np.int64(20)

In [None]:
# 원본은 변경되지 않게 하기: Series/DataFrame을 복사해서 새로운 객체를 생성.
# 힌트: copy()를 사용
result2= s2["국어":"수학"].copy()
result2["수학"] = 95 # 값 변경
result2

국어     70
국어    100
수학     95
dtype: int64

## 원소 단위 연산(Element-wise)

-   Pandas의 Series나 DataFrame은 연산을 하면 원소 단위로 연산을 한다.
    -   **벡터화(vectorization)** 이라고도 한다.
-   Series/DataFrame과 값(scalar값)을 연산하면 각 원소들과 값을 연산한다.
-   Series끼리 또는 DataFrame끼리 연산을 하면 같은 위치의 원소끼리 연산을 한다.
    -   **Index 이름**이 (index가 아닌) 같은 원소끼리 연산한다.


In [38]:
index_name = ['국어', '영어', '수학', '과학']
s1 = pd.Series([80, 90, 100, 50], index=index_name)
s2 = pd.Series([100, 50, 80, 100], index=index_name)
s3 = pd.Series([1, 2, 3, 4])

In [40]:
# Series 와 상수값 계산 또는 Series와 Series 계산
s1, s1 ** 2

(국어     80
 영어     90
 수학    100
 과학     50
 dtype: int64,
 국어     6400
 영어     8100
 수학    10000
 과학     2500
 dtype: int64)

In [41]:
s1 > 70

국어     True
영어     True
수학     True
과학    False
dtype: bool

In [42]:
(s1 >= 50) & (s1 <= 80)    #and (x)

국어     True
영어    False
수학    False
과학     True
dtype: bool

In [43]:
s1 - s2  # 같은 index name끼리 연산

국어   -20
영어    40
수학    20
과학   -50
dtype: int64

## Boolean 인덱싱

-   Series의 indexing 연산자에 boolean 리스트를 넣으면 True인 index의 값들만 조회한다. - **원하는 조건의 값들을 조회**할 때 사용한다.
    |논리연산자|설명|
    |:-:|-|
    |&|and연산|
    |\||or연산|
    |~|not 연산| - 논리연산자의 피연산자들은 반드시 ( )로 묶어준다. - 파이썬과는 다르게 `and`, `or`, `not`은 예약어는 사용할 수 없다.


In [46]:
# s1이 90점 이상인 과목들을 보고 싶을 때
# 힌트: s1[]
s1
s1[s1 > 90]

수학    100
dtype: int64

In [51]:
# s1이 80점 이상이면서 90점 이하인 과목들을 보고 싶을때
s1[(s1 >= 80) & (s1 <= 90)]

국어    80
영어    90
dtype: int64

In [52]:
# s1이 80점 이상이면서 90점 이하가 아닌 과목을 보고 싶을 때
s1[~((s1 >= 80) & (s1 <= 90))]

수학    100
과학     50
dtype: int64

## 주요 메소드, 속성

In [54]:
s = pd.Series(range(100))   #series에 넣으면 데이터 타입을 통일시킨다. (bool<int<float<str)
print("데이터 타입:", s.dtype)
# 앞에 n개 조회
s.head()

# 뒤에 N개 조회
s.tail()

데이터 타입: int64


95    95
96    96
97    97
98    98
99    99
dtype: int64

In [60]:
### dtype을 변환
# 힌트: astype
# 타입 + 비트수, int8, 16, 32, 64  메모리를 줄이기 위해 좋지만, 무조건 다 줄일 수는 없다
s.dtype
s2 = s.astype("int8")
s.dtype, s2.dtype

(dtype('int64'), dtype('int8'))

In [62]:
# Datatype 을 크기가 작은 타입으로 변경할 때 원본의 원소들을 다 표현할 수있는 타입으로 바꿔야 한다.

s4 = pd.Series([1_000_000, 50_000_000])
s5 = s4.astype("int8")
s4.dtype, s4, s5

(dtype('int64'),
 0     1000000
 1    50000000
 dtype: int64,
 0     64
 1   -128
 dtype: int8)

In [64]:
# 각종 연산 함수 (원소별로 비교한다.)
# s 안에 0,1,2이라는 값이 있는지? 원소별로 있으면 True or 없으면 False로 표현현
# 힌트: isin
s.isin([0,1,2])

0      True
1      True
2      True
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Length: 100, dtype: bool

In [66]:
s2 = pd.Series(["python", "c++", "python", "java", "java", "python"])

# Unique 값별로 몇개씩 원소가 있는지 count   #이거 많이 씀!  
# 힌트: value의 값을 세면?
s2.value_counts()

python    3
java      2
c++       1
Name: count, dtype: int64

In [67]:
#  전체 대비 비율로 반환.(normalize=True)
s2.value_counts(normalize=True)

python    0.500000
java      0.333333
c++       0.166667
Name: proportion, dtype: float64

In [70]:
# 고유값의 개수 조회 
# 힌트: nunique
s2.nunique()

3

### 정렬

-   **sort_index()**   :원본 자체를 바꾸지 않음
    -   index명으로 정렬
-   **sort_values()** :원본 자체를 바꾸지 않음
    -   값으로 정렬
-   공통 매개변수
    -   ascending=False (내림차순, 기본-True:오름차순)
    -   inplace=True
        -   원본 자체를 정렬
        -   False(기본값): 정렬결과를 새로운 Series로 반환.
    -   결측치(NaN)는 정렬 방식과 상관없이 마지막에 나온다.


In [71]:
s1 = pd.Series([80, 90, 100, 50], index=['국어', '영어', '수학', '과학'])
s2 = pd.Series(["python", "c++", "python", "java", "java", "python"])

In [72]:
# index 이름으로 정렬 (오름차순: 기본)    
# #원본 데이터를 바꾸지 않고, 새로운 값으로 줌
s1.sort_index()

과학     50
국어     80
수학    100
영어     90
dtype: int64

In [73]:
# 내림차순
s1.sort_index(ascending=False)

영어     90
수학    100
국어     80
과학     50
dtype: int64

In [75]:
# value_counts() 결과 정렬
v = s2.value_counts()
v.sort_index()

c++       1
java      2
python    3
Name: count, dtype: int64

In [76]:
### 값을 기준으로 조회(방식: default-오름차순)
# 값은 value 잖아!
s2.value_counts().sort_values()

c++       1
java      2
python    3
Name: count, dtype: int64

In [77]:
# 정렬방식 - 내림차순
s2.value_counts().sort_values(ascending=False)

python    3
java      2
c++       1
Name: count, dtype: int64

## 통계에서 변수(집합적 의미)의 타입

-   **범주형(Categorical) 변수**
    -   범주를 구분하는 이름을 가지는 변수.
        -   **범주(範疇)** 의미: 동일한 성질을 가진 부류나 범위
        -   각 값 사이에 값이 없는 이산적 특징을 가진다.
        -   값이 될 수있는 값들이 정해져 있다.
    -   **명목(Norminal) 변수/비서열(Unordered) 변수**
        -   범주에 속한 값간에 서열(순위)가 없는 변수
        -   성별, 혈액형, 지역
    -   **순위(Ordinal) 변수/서열(Ordered) 변수**
        -   범주에 속한 값 간에 서열(순위)가 있는 변수
        -   성적, 직급, 만족도
-   **수치형(Numeric) 변수**
    -   수량을 표현하는 값들을 가지는 변수.
    -   **이산형(Discrete) 변수**
        -   수치를 표현하지만 소수점의 형태로 표현되지 못하는 데이터. 정수형 값들을 가진다.
        -   예) 하루 방문 고객수, 가격(원화), 물건의 개수
    -   **연속형(Continuous) 변수**
        -   수치를 표현하며 소수점으로 표현가능한 데이터. 실수형 값들을 가진다.
        -   예) 키, 몸무게, 시간


## 기술통계량

평균: 
중앙값:
표준편차:
분산:
최빈값(mode):
분위수(Quantile):

In [82]:
import numpy as np
#seed(random값): int 난수가 나오는 순서를 똑같이 하겠다, 즉 같은 난수값을 사용해서 하고 싶을때 seed를 사용한다.
np.random.seed(100)
tmp = np.random.randint(10, 100, size=100)  # 10 ~100(불포함) 사이 임의 정수 100개
s10 = pd.Series(tmp, dtype="float32")
s10.head()

0    18.0
1    34.0
2    77.0
3    97.0
4    89.0
dtype: float32

In [84]:
# 결측치 지정
s11 = s10.copy() # s10을 복사
s11[[0, 1, 2, 3, 4]] = [np.nan, np.nan, np.nan, np.nan, np.nan]  # 0 ~ 4 index 값을 결측치 변경.
#11.head(10) # 앞에 10만 보여주기
s11.head(10)

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
5    58.0
6    20.0
7    62.0
8    63.0
9    76.0
dtype: float32

### 기술통계량을 구하는 메소드들 (여긴 코드 있는거 실행해보자!)

In [85]:
### 기술통계량 구하는 메소드들   #s10: 결측치 없음. s11: 결측치 있음
print(s10.count(), s11.count())  # 결측치를 제외한 값의 개수   #값이 총 몇개인지를 알려줌 (결측치를 제외하고)
print(s10.size, s11.size)  # 원소개수(결측치도 원소이기 때문에 개수에 포함됨.)    #결측치를 포함함.

100 95
100 100


In [86]:
print("최대값:", s10.max())    #최댓값을 프린트 해줘
print("최소값:", s10.min())    # 최솟값을 프린트 해줘
print("최대값의 index:", s10.idxmax())   # 최댓값의 index 이름을 알려줌
print("최소값의 index:", s10.idxmin())    # 최솟값의 index 이름을 알려줌
s10[11], s10[53]

최대값: 97.0
최소값: 10.0
최대값의 index: 3
최소값의 index: 67


(np.float32(44.0), np.float32(44.0))

In [87]:
print("평균:", s10.mean())
print("표준편차:", s10.std())
print("분산:", s10.var())

평균: 53.25
표준편차: 26.353224
분산: 694.49243


In [None]:
# 평균은 극단적으로 크거나 작은 값들(Outlier:이상치)에 영향을 많이 받는다.
s12 = s10.copy()
s12[[0, 1]] = 10000     # 이상치를 넣음.
s12.mean()              # 평균이 엄청 올라감.

np.float32(252.73)

In [98]:
s10


0     18.0
1     34.0
2     77.0
3     97.0
4     89.0
      ... 
95    10.0
96    65.0
97    29.0
98    63.0
99    78.0
Length: 100, dtype: float32

In [94]:
# 중앙값, 중위수 (median): 1. 오름차순 정렬, 2. 중간에 위치한 값. (이상치에 영향을 받지 않는다.)
print("s10 중위수:", s10.median(), s10.mean())     # 평균과 중앙값의 차이가 크지 않음
print("s12 중위수:", s12.median(), s12.mean())     #평균과 중앙값의 차이가 큼 = 이상치가 있을 확률이 높음

s10 중위수: 58.0 53.25
s12 중위수: 58.5 252.73


In [99]:
# 결측치를 가지는 Series의 집계 - default: 결측치를 빼고 계산.    # 반면, SQL에서는 결측치와 1을 더한다고 하면, 그 더한 값은 결측치야. 
s11.sum() 
s11.mean() # 다 더한 다음에, 100이 아니라 결측치 빼고 95로 계산산

np.float32(52.736843)

In [100]:
# 결측치가 있는 경우 빼지 말고 계산 => 결측치가 있으면 결과는 결측치
s11.sum(skipna=False)    # skipna(not available)=True가 default인데, 그니까 skip을 하지 말고 포함해줘를 의미.
s11.mean(skipna=False)
s11.max(skipna=False)
s11.min(skipna=False)

np.float32(nan)

In [101]:
# 최빈값 - 빈도수가 가장 높은 값.
s2.mode()    # 반환값이 series다. 왜냐하면, 최빈값이 여러개일 수 있기 때문에, 그걸 표현해주기 위해서 series 형태롤 보여준다.

0    python
dtype: object

In [102]:
### 분위수 (오름차순 정렬후 등분했을때 나누는 위치의 값) => 4분위, 10분위, 100분위
#### 위치는 전체를 0 ~ 1 기준으로 지정한다.
# 중위수 -> 이분위수
s10.quantile(q=0.5), s10.median()   # 반띵 # 중앙값

(np.float64(58.0), np.float32(58.0))

In [103]:
s10.quantile(q=[0.25, 0.5, 0.75])    

0.25    27.75
0.50    58.00
0.75    74.25
dtype: float64

In [104]:
np.arange(0.1, 1.0, 0.1)

array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

In [105]:
s10.quantile(q=[0.1, 0.2, 0.3, 0.4])
s10.quantile(q=np.arange(0.1, 1.0, 0.1))    #range 랑 똑같음. 0.1부터 1.0전인 0.9까지인데 0.1만큼 늘어남

0.1    14.9
0.2    24.0
0.3    34.0
0.4    47.2
0.5    58.0
0.6    63.0
0.7    69.3
0.8    78.0
0.9    89.0
dtype: float64

In [None]:
# describe() : 여러 통계량을 묶어서 조회   # 이걸 조회해서 뭔가 이상치가 있지는 않은지 확인해볼 수 있다.
s11.describe()     #이것도 float형태로 다 바꿔버림.
#숫자형일 때 출력

count    95.000000
mean     52.736843
std      25.962416
min      10.000000
25%      27.500000
50%      58.000000
75%      72.000000
max      97.000000
dtype: float64

In [None]:
s2.describe()
# unique: 고유값 개수
# top: 최빈값
# freq: 최빈값의 빈도수(출연수)
# 범주형일 때 출력

count          6
unique         3
top       python
freq           3
dtype: object

## 결측치 (Missing Value, Not Available)

-   결측치
    -   모르는 값, 수집이 안된값, 현재 가지고 있지 않은 값.
-   판다스에서 결측치
    -   None, numpy.nan, numpy.NAN
        - >numpy.nan, numpy.NAN은 Numpy library의 값. Pandas에서 사용할 수 있다.   
    -   **결측치는 float 타입으로 처리된다.**

### 결측치 확인

-   Series/DataFrame의 원소별로 결측치인지 여부를 확인해서 bool 값으로 반환한다.

-   Series/DataFrame
    -   Series/DataFrame객체.isnull() 또는 isna()
    -   Series/DataFrame객체.notnull() 또는 notna()


In [None]:
a = pd.Series([1, 2, 3, np.nan])  
a.dtype
# a

In [None]:
# 원소별로 결측치인지 여부 확인?
a.isna() 
# a.isnull()

In [None]:
a.notna()    #결측치가 아닌게 True
# a.notnull()

In [None]:
### 결측치 개수
# bool 타입은 산술 연산시 정수로 자동 변환된다.  (True: 1, False: 0 )
a.isnull().sum()   

In [None]:
a.isna().sum()

In [None]:
s11.isna().mean()     #결측치의 비율 
#bool을 가진 Series.sum() : True 개수
#bool을 가진 Series.mean(): True 비율

### 결측치 처리

-   제거
    -   dropna()
-   다른값으로 대체
    -   fillna()
    -   가장 가능성이 높은 값으로 변경한다.
        -   평균, 중앙값, 최빈값을 주로 사용
        -   결측치가 어떤 의미(ex: 없다)로 사용된 경우 그 값으로 변경한다.


In [None]:
 #결측치 없애버리기

In [None]:
# 다른 값으로 대체


In [None]:
a.fillna(200, inplace=True)      #원본을 아예 바꿈
# 대상을 변경하지 않는 메소드는 모두 inplace=False 파라미터를 가진다. 
#       True로 지정하면 대상 Series 자체를 변경한다.
# 판다스 Series나 DataFrame의 메소드중 원소의 상태를 변경하는 메소드들은 모두 대상을 바꾸지 않고 변경된 새로운 Series/DataFrame을 반환한다.
#       이 메소드들은 모두 inplace=False 파라미터를 가진다.
a

In [None]:
#s11의 결측치를 다른 값으로 대체 => 대표값으로 대체 (수치형: 평균, 중앙값, 범주형: 최빈값)
result = ?  #결측치 값을 평균값으로 대체할거야.
result.head(10)