# pandas

### 1. 기본

In [1]:
import pandas as pd
import numpy as np

In [14]:
data = np.arange(0,50,10)
data

array([ 0, 10, 20, 30, 40])

In [15]:
a = pd.Series(data, index=['a', 'b', 'c', 'd', 'e']) # index는 설정 할 수도 있고 안 할 수도 있다.
a
['a, b, c, d, e']

a     0
b    10
c    20
d    30
e    40
dtype: int32

In [16]:
b = pd.Series(data) # index는 설정 할 수도 있고 안 할 수도 있다.
b

0     0
1    10
2    20
3    30
4    40
dtype: int32

In [17]:
a['b'] # b의 값.

10

In [18]:
a.loc['b'] # index b의 값.

10

In [21]:
a.iloc[1] # index의 순서. 1번 째 인덱스 값.

10

### 2. 산술연산

In [23]:
a

a     0
b    10
c    20
d    30
e    40
dtype: int32

In [24]:
a + 10

a    10
b    20
c    30
d    40
e    50
dtype: int32

In [29]:
a -10
a *10
a / 3 # float 형으로 나옴.

a     0.000000
b     3.333333
c     6.666667
d    10.000000
e    13.333333
dtype: float64

In [30]:
a // 3 # // 사용하면 int형으로 나옴. 정수값만 출력.

a     0
b     3
c     6
d    10
e    13
dtype: int32

In [32]:
a % 3 # 나머지

a    0
b    1
c    2
d    0
e    1
dtype: int32

In [34]:
a > 15 # 15보다 큰 값을 True False로 (boolean.)

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [36]:
a[a >15] # boolean indexing. 15보다 큰 '값'을 보고 싶을 때, and/or도 넣을 수 있음. 찾아보길 바람.

c    20
d    30
e    40
dtype: int32

### 집계함수

In [47]:
a.add(100) # a +100 과 같음.

a    100
b    110
c    120
d    130
e    140
dtype: int32

In [48]:
a.sub(100)

a   -100
b    -90
c    -80
d    -70
e    -60
dtype: int32

In [49]:
a.mul(100)

a       0
b    1000
c    2000
d    3000
e    4000
dtype: int32

In [50]:
a.div(100)

a    0.0
b    0.1
c    0.2
d    0.3
e    0.4
dtype: float64

In [52]:
a.mod(3)

a    0
b    1
c    2
d    0
e    1
dtype: int32

In [53]:
a.min()

0

In [55]:
a.max()

40

In [56]:
a.sum() # 전체 합.

100

In [57]:
a.mean()

20.0

In [59]:
a.median()

20.0

In [63]:
a.std()

15.811388300841896

In [65]:
a.var()

250.0

### dataframe

In [67]:
rawData = np.random.randint(50, 100, size=(4,3))
rawData

array([[69, 86, 91],
       [52, 61, 66],
       [87, 74, 95],
       [50, 66, 74]])

In [92]:
df = pd.DataFrame(rawData,
                index=['1반','2반','1반','2반'],
                columns=['국','영','수'])
df

Unnamed: 0,국,영,수
1반,69,86,91
2반,52,61,66
1반,87,74,95
2반,50,66,74


In [70]:
#df[0] -> error
df.국
df['국'] #  == df.국 

1반    69
2반    52
1반    87
2반    50
Name: 국, dtype: int32

In [74]:
df['평균'] = round((df['국'] + df['영'] + df['수'])/3, 2) # column 추가. 
df

Unnamed: 0,국,영,수,평균
1반,69,86,91,82.0
2반,52,61,66,59.67
1반,87,74,95,85.33
2반,50,66,74,63.33


In [75]:
df['na'] = np.nan # column 추가
df

Unnamed: 0,국,영,수,평균,na
1반,69,86,91,82.0,
2반,52,61,66,59.67,
1반,87,74,95,85.33,
2반,50,66,74,63.33,


In [76]:
del df['na'] # column 삭제.
df

Unnamed: 0,국,영,수,평균
1반,69,86,91,82.0
2반,52,61,66,59.67
1반,87,74,95,85.33
2반,50,66,74,63.33


In [83]:
df[df.평균 > 75] # boolean indexing.

Unnamed: 0,국,영,수,평균
1반,69,86,91,82.0
1반,87,74,95,85.33


In [85]:
df = df.drop(['평균'], axis= 1) # axis = 1(=column) / 평균 column 삭제. 
#df = df.drop(['평균'], axis = 'columns') 같은 결과
df

Unnamed: 0,국,영,수
1반,69,86,91
2반,52,61,66
1반,87,74,95
2반,50,66,74


### 결측값 처리

In [93]:
df = df.astype('float64') # float로 형 변환.
df

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,95.0
2반,50.0,66.0,74.0


In [94]:
df['수'][2] = np.nan # 수학과목의 2번 째 값을 결측값으로
df

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,
2반,50.0,66.0,74.0


In [95]:
#원본은 안 건들인다.
#df.dropna(axis=1) # na 값의 col값 전체를 없앰
df.dropna(axis=0) # na 값의 row값 전체를 없앰.

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
2반,50.0,66.0,74.0


In [96]:
#원본 데이터를 바꾼다. =>  inplace = True
#df.dropna(axis=0, inplace = True)
df

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,
2반,50.0,66.0,74.0


In [100]:
#na 값 replace하기.
df.fillna('hello')

Unnamed: 0,국,영,수
1반,69.0,86.0,91
2반,52.0,61.0,66
1반,87.0,74.0,hello
2반,50.0,66.0,74


In [101]:
df.fillna(0)

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,0.0
2반,50.0,66.0,74.0


In [102]:
df.fillna(df.mean())

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,77.0
2반,50.0,66.0,74.0


### multiIndex

In [104]:
#행과 열을 바꾸기.
#Transpose
df.T

Unnamed: 0,1반,2반,1반.1,2반.1
국,69.0,52.0,87.0,50.0
영,86.0,61.0,74.0,66.0
수,91.0,66.0,,74.0


In [105]:
df

Unnamed: 0,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0
1반,87.0,74.0,
2반,50.0,66.0,74.0


In [106]:
# Multi-Index로 변환
df.index = [['1학년','1학년','2학년','2학년'],['1반', '2반', '1반', '2반']]
df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,69.0,86.0,91.0
1학년,2반,52.0,61.0,66.0
2학년,1반,87.0,74.0,
2학년,2반,50.0,66.0,74.0


In [108]:
df.columns = [['언어', '언어', '수리'], ['국', '영', '수']]
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,69.0,86.0,91.0
1학년,2반,52.0,61.0,66.0
2학년,1반,87.0,74.0,
2학년,2반,50.0,66.0,74.0


In [111]:
#호출 방법
df['언어']

Unnamed: 0,Unnamed: 1,국,영
1학년,1반,69.0,86.0
1학년,2반,52.0,61.0
2학년,1반,87.0,74.0
2학년,2반,50.0,66.0


In [113]:
df['언어']['영'] # 언어 중에 영어 점수만.

1학년  1반    86.0
     2반    61.0
2학년  1반    74.0
     2반    66.0
Name: 영, dtype: float64

In [114]:
#row 값 출력
df.iloc[0] # 0번 쨰 row 출력.  / iloc => IndexLocation

언어  국    69.0
    영    86.0
수리  수    91.0
Name: (1학년, 1반), dtype: float64

In [121]:
df.loc['1학년']

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
1반,69.0,86.0,91.0
2반,52.0,61.0,66.0


In [122]:
df.loc['1학년'].loc['1반']

언어  국    69.0
    영    86.0
수리  수    91.0
Name: 1반, dtype: float64

### 데이터 사전 분석

In [123]:
#데이터를 받았을 때 기본적으로 하는 분석.
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,69.0,86.0,91.0
1학년,2반,52.0,61.0,66.0
2학년,1반,87.0,74.0,
2학년,2반,50.0,66.0,74.0


In [124]:
df.info() # memory usage의 용량이 너무 크다면 속도 저하의 원인이 되므로 데이터를 정리하는 작업이 필요할 수도 있다.

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 4 entries, ('1학년', '1반') to ('2학년', '2반')
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   (언어, 국)  4 non-null      float64
 1   (언어, 영)  4 non-null      float64
 2   (수리, 수)  3 non-null      float64
dtypes: float64(3)
memory usage: 248.0+ bytes


In [126]:
df.head() # 맨 처음 데이터 5개.
df.tail()

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,69.0,86.0,91.0
1학년,2반,52.0,61.0,66.0
2학년,1반,87.0,74.0,
2학년,2반,50.0,66.0,74.0


In [128]:
df.dtypes

언어  국    float64
    영    float64
수리  수    float64
dtype: object

In [129]:
df.describe() # 수에서 3이라고 나오는 것은 (2학년 1반 수학 점수에) 결측치 nan 값이 있기 때문.

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
count,4.0,4.0,3.0
mean,64.5,71.75,77.0
std,17.253019,10.904892,12.767145
min,50.0,61.0,66.0
25%,51.5,64.75,70.0
50%,60.5,70.0,74.0
75%,73.5,77.0,82.5
max,87.0,86.0,91.0


In [132]:
#결측치 여부 확인
df.isnull()

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,False,False,False
1학년,2반,False,False,False
2학년,1반,False,False,True
2학년,2반,False,False,False


In [133]:
df.isnull().sum() # 결측치 개수

언어  국    0
    영    0
수리  수    1
dtype: int64

### 값의 연결

In [134]:
a = pd.DataFrame(np.arange(1, 10).reshape(3, 3))
a

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [136]:
b = pd.Series(np.arange(10, 40, 10))
b

0    10
1    20
2    30
dtype: int32

In [137]:
# a와 b를 연결-합치기.
# 밑에 추가 -> append
# 옆으로 추가 -> c

In [140]:
# 옆에 추가 -> concat
pd.concat([a, b], axis=1)

Unnamed: 0,0,1,2,0.1
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [141]:
# 옆에 추가 -> concat
pd.concat([a, b], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [143]:
# 밑으로 추가 ->  append
a.append(b, ignore_index=True)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,20,30
