<a href="https://colab.research.google.com/github/hyunicecream/Inflearn/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

- 데이터를 분석할 때 가장 많이 쓰이는 라이브러리다
- 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구이다.
    
    ※ 각 열은 단일 데이터 형식만 저장
    
- numpy보다 유연하게 수치 연산 가능하다.

## Series

- index와 values로 이루어진 1차원 배열이다.
- 모든 유형의 데이터를 보유할 수 있다.
- 인덱스를 지정해 줄 수 있다.
- 인덱스 길이는 데이터의 길이와 같아야 한다.
- 명시적 인덱스와 암묵적 인덱스를 가진다.
    - loc : 인덱스값을 기반으로 행 데이터를 읽는다.
    - iloc : 정수 인덱스을 기반으로 행 데이터를 읽는다.

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = np.arange(0, 50, 10)
data

array([ 0, 10, 20, 30, 40])

In [None]:
a = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
a

a     0
b    10
c    20
d    30
e    40
dtype: int64

In [None]:
b = pd.Series(data)
b

0     0
1    10
2    20
3    30
4    40
dtype: int64

In [None]:
a['b']

10

In [None]:
a.loc['b']

10

In [None]:
a.iloc[1]

10

## **산술연산**

In [None]:
### 산술연산
a + 10
a - 10
a * 10
a ** 2
a / 5
a // 5
a % 3

a    0
b    1
c    2
d    0
e    1
dtype: int64

In [None]:
a > 15

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [None]:
a[a > 15]

c    20
d    30
e    40
dtype: int64

## **집계함수**

- add : 더하기 함수
- sub : 빼기 함수
- mul : 곱하기 함수
- div : 나누기 함수
- mod : 나머지 구하는 함수
- min : 최소값 구하는 함수
- max  : 최대값 구하는 함수
- mean : 평균 구하는 함수
- median : 중앙값 구하는 함수
- std : 표준편차 구하는 함수
- var : 분산 구하는 함수

In [None]:
## 집계함수 ##
a.add(100)

a    100
b    110
c    120
d    130
e    140
dtype: int64

In [None]:
a.sub(100)

a   -100
b    -90
c    -80
d    -70
e    -60
dtype: int64

In [None]:
a.mul(100)

a       0
b    1000
c    2000
d    3000
e    4000
dtype: int64

In [None]:
a.div(100)

a    0.0
b    0.1
c    0.2
d    0.3
e    0.4
dtype: float64

In [None]:
a.mod(3)

a    0
b    1
c    2
d    0
e    1
dtype: int64

In [None]:
a.min()

0

In [None]:
a.max()

40

In [None]:
a.sum()

100

In [None]:
a.mean()

20.0

In [None]:
a.median()

20.0

In [None]:
a.std()

15.811388300841896

In [None]:
a.var()

250.0

## **DataFrame**

- 2차원 배열에 행과 열에 인덱스를 붙인 것이다.
- 가장 기본적인 데이터 구조이다.

In [None]:
### DataFrame ###
rawData = np.random.randint(50, 100, size=(4, 3))
rawData

array([[89, 67, 51],
       [79, 53, 74],
       [76, 76, 72],
       [61, 50, 63]])

In [None]:
df = pd.DataFrame(rawData
                  ,index= ['1반', '2반', '1반', '2반']
                  ,columns=['국', '영', '수'])
df

Unnamed: 0,국,영,수
1반,89,67,51
2반,79,53,74
1반,76,76,72
2반,61,50,63


In [None]:
df['국']
# df[0] -> Error

1반    85
2반    51
1반    93
2반    75
Name: 국, dtype: int64

In [None]:
df['평균'] = round((df['국'] + df['영'] + df['수'])/3, 2) # 3을 나눈값을 소수점 2번째 자리까지
df

Unnamed: 0,국,영,수,평균
1반,85,62,66,71.0
2반,51,72,98,73.67
1반,93,50,98,80.33
2반,75,91,86,84.0


In [None]:
df['na'] = np.nan
df

Unnamed: 0,국,영,수,평균,na
1반,85,62,66,71.0,
2반,51,72,98,73.67,
1반,93,50,98,80.33,
2반,75,91,86,84.0,


In [None]:
del df['na']
df

Unnamed: 0,국,영,수,평균
1반,85,62,66,71.0
2반,51,72,98,73.67
1반,93,50,98,80.33
2반,75,91,86,84.0


In [None]:
df[df.평균 > 74]

Unnamed: 0,국,영,수,평균
1반,93,50,98,80.33
2반,75,91,86,84.0


In [None]:
df = df.drop(['평균'], axis='columns')
df

Unnamed: 0,국,영,수
1반,85,62,66
2반,51,72,98
1반,93,50,98
2반,75,91,86


## **결측값 처리**

1. NaN
    - 자료형이 Float형이다.
    - 배열에서 연산할 경우 오류가 발생하지 않지만  결과값이 NaN이 된다.
2. None 
    - 자료형이 None이다.
    - 배열 연산을 할 경우 오류가 발생한다.

 3.  처리방법 

- isnull() : 결측값 확인 (결측 이면  True , 결측이 아니면  False )
- notnull() : 결측값 확인 (결측 이면  False , 결측이 아니면  True )
- dropna() : 결측값 삭제
    - inplace = True : drop후 원본에 반영
- fillna(Num) : 결측값을 Num으로 채워 넣는다.

In [None]:
### 결측값 처리 ###
df = df.astype('float64')
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,72.0
2반,61.0,50.0,63.0


In [None]:
df['수'][2] = np.nan
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,
2반,61.0,50.0,63.0


In [None]:
df.dropna(axis=0) # inplace=True
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,
2반,61.0,50.0,63.0


In [None]:
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,
2반,61.0,50.0,63.0


In [None]:
df.fillna('hello')

Unnamed: 0,국,영,수
1반,89.0,67.0,51
2반,79.0,53.0,74
1반,76.0,76.0,hello
2반,61.0,50.0,63


In [None]:
df.fillna(0)

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,0.0
2반,61.0,50.0,63.0


In [None]:
df.fillna(df.mean())

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,62.666667
2반,61.0,50.0,63.0


## **MultiIndex**

- Index를 설정할 때 리스트의 리스트 형태로 넣어주면 다중 인덱스가 설정이 된다.

In [None]:
### MultIndex ###
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,
2반,61.0,50.0,63.0


In [None]:
df.T

Unnamed: 0,1반,2반,1반.1,2반.1
국,89.0,79.0,76.0,61.0
영,67.0,53.0,76.0,50.0
수,51.0,74.0,,63.0


In [None]:
df

Unnamed: 0,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0
1반,76.0,76.0,
2반,61.0,50.0,63.0


In [None]:
df.index = [['1학년', '1학년', '2학년', '2학년'], ['1반', '2반', '1반', '2반']]
df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,89.0,67.0,51.0
1학년,2반,79.0,53.0,74.0
2학년,1반,76.0,76.0,
2학년,2반,61.0,50.0,63.0


In [None]:
df.columns = [['언어', '언어', '수리'], ['국', '영', '수']]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,89.0,67.0,51.0
1학년,2반,79.0,53.0,74.0
2학년,1반,76.0,76.0,
2학년,2반,61.0,50.0,63.0


In [None]:
df['언어']

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,89.0,67.0
1학년,2반,79.0,53.0
2학년,1반,76.0,76.0
2학년,2반,61.0,50.0


In [None]:
df['언어']['국']

1학년  1반    89.0
     2반    79.0
2학년  1반    76.0
     2반    61.0
Name: 국, dtype: float64

In [None]:
df.iloc[0]

언어  국    89.0
    영    67.0
수리  수    51.0
Name: (1학년, 1반), dtype: float64

In [None]:
df.loc['1학년']

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
1반,89.0,67.0,51.0
2반,79.0,53.0,74.0


In [None]:
df.loc['1학년'].loc['1반']

언어  국    89.0
    영    67.0
수리  수    51.0
Name: 1반, dtype: float64

## **데이터 사전 분석**

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

In [None]:
### 데이터 사전 분석 ###
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,89.0,67.0,51.0
1학년,2반,79.0,53.0,74.0
2학년,1반,76.0,76.0,
2학년,2반,61.0,50.0,63.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 4 entries, ('1학년', '1반') to ('2학년', '2반')
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   (언어, 국)  4 non-null      float64
 1   (언어, 영)  4 non-null      float64
 2   (수리, 수)  3 non-null      float64
dtypes: float64(3)
memory usage: 328.0+ bytes


In [None]:
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,89.0,67.0,51.0
1학년,2반,79.0,53.0,74.0
2학년,1반,76.0,76.0,
2학년,2반,61.0,50.0,63.0


In [None]:
df.tail()

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,89.0,67.0,51.0
1학년,2반,79.0,53.0,74.0
2학년,1반,76.0,76.0,
2학년,2반,61.0,50.0,63.0


In [None]:
df.dtypes

언어  국    float64
    영    float64
수리  수    float64
dtype: object

In [None]:
df.describe()

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
count,4.0,4.0,3.0
mean,76.25,61.5,62.666667
std,11.58663,12.179217,11.503623
min,61.0,50.0,51.0
25%,72.25,52.25,57.0
50%,77.5,60.0,63.0
75%,81.5,69.25,68.5
max,89.0,76.0,74.0


In [None]:
df.isnull()

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,False,False,False
1학년,2반,False,False,False
2학년,1반,False,False,True
2학년,2반,False,False,False


In [None]:
df.isnull().sum()

언어  국    0
    영    0
수리  수    1
dtype: int64

## **값의 연결**

- concat : DataFrame끼리 결합
    - axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
- append : 마지막 행에 데이터를 추가

※  concatenate : 배열끼리 결합

In [None]:
### 값의 연결 ###
a = pd.DataFrame(np.arange(1, 10).reshape(3, 3))
a

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
b = pd.Series(np.arange(10, 40, 10))
b

0    10
1    20
2    30
dtype: int64

In [None]:
# 옆으로 붙이기
pd.concat([a, b], axis=1)

Unnamed: 0,0,1,2,0.1
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [None]:
pd.concat([a, b], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [None]:
# 아래로 추가하기
a.append(b, ignore_index=True)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,20,30
