<p><span style="color:red; font-size:30px; font-weight:bold;">pandas</span></p>

데이터를 분석할 때 가장 많이 쓰이는 라이브러리다.  
• 아나콘다를 설치하면 Pandas가 자동으로 포함되어 설치 한다  
• 행과 열을 쉽게 처리할 수 있는 함수를 제공하는 도구이다.  
※ 각 열은 단일 데이터 형식만 저장  
• Numpy 보다 유연하게 수치 연산 가능하다.  

## Series

- index와 values로 이루어진 1차원 배열이다.
- 모든 유형의 데이터를 보유할 수 있다.
- 인덱스를 지정해 줄 수 있다. (인덱스 길이는 데이터의 길이와 같아야 한다.)
- 명시적 인덱스와 암묵적 인덱스를 가진다.
- loc : (명시적) 인덱스값을 기반으로 행 데이터를 읽는다.
- iloc : (암묵적) 정수 인덱스을 기반으로 행 데이터를 읽는다.

In [1]:
import pandas as pd
import numpy as np

In [2]:
obj=pd.Series([1, 3, 5, 7])
obj

0    1
1    3
2    5
3    7
dtype: int64

In [3]:
obj.values

array([1, 3, 5, 7], dtype=int64)

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
obj2=pd.Series([1,3,-4,0], index=['a','b','c','d'])
obj2

a    1
b    3
c   -4
d    0
dtype: int64

In [6]:
obj2['a']

1

In [7]:
obj2[['a', 'b']]

a    1
b    3
dtype: int64

In [8]:
a=pd.Series(np.arange(0,50,10), index=['a','b','c','d','e'])
a

a     0
b    10
c    20
d    30
e    40
dtype: int32

In [9]:
# 명시적인 index

a.loc['b']

10

In [10]:
# 순차적인 index

a.iloc[1]  

10

In [11]:
a

a     0
b    10
c    20
d    30
e    40
dtype: int32

## 산술 연산

In [12]:
print(a + 10)
print(a - 10)
print(a * 10)
print(a ** 2)
print(a / 5)
print(a // 5)
print(a % 3)

a    10
b    20
c    30
d    40
e    50
dtype: int32
a   -10
b     0
c    10
d    20
e    30
dtype: int32
a      0
b    100
c    200
d    300
e    400
dtype: int32
a       0
b     100
c     400
d     900
e    1600
dtype: int32
a    0.0
b    2.0
c    4.0
d    6.0
e    8.0
dtype: float64
a    0
b    2
c    4
d    6
e    8
dtype: int32
a    0
b    1
c    2
d    0
e    1
dtype: int32


In [13]:
print(a > [50, 30, 10, 40, 20])

a    False
b    False
c     True
d    False
e     True
dtype: bool


In [14]:
a[a > 29]

d    30
e    40
dtype: int32

## 집계함수

- add : 더하기 함수 
- sub : 빼기 함수 
- mul : 곱하기 함수 
- div : 나누기 함수 
- mod : 나머지 구하는 함수 
- min : 최소값 구하는 함수 
- max : 최대값 구하는 함수 
- mean : 평균 구하는 함수 
- median : 중앙값 구하는 함수 
- std : 표준편차 구하는 함수 
- var : 분산 구하는 함수

In [15]:
a.add(10)

a    10
b    20
c    30
d    40
e    50
dtype: int32

In [16]:
a.sub(10)

a   -10
b     0
c    10
d    20
e    30
dtype: int32

In [17]:
a.mul(10)

a      0
b    100
c    200
d    300
e    400
dtype: int32

In [18]:
a.div(10)

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [19]:
a.mod(4)

a    0
b    2
c    0
d    2
e    0
dtype: int32

In [20]:
print(a.min())    # 최소값
print(a.max())    # 최대값
print(a.mean())   # 평균값
print(a.median()) # 중간값
print(a.std())    # 표준편차
print(a.var())    # 분산

0
40
20.0
20.0
15.811388300841896
250.0


## DataFrame

- 가장 기본적인 데이터 구조이다.
- 행과 열로 구성된 2차원 데이터 구조(Data Structure)  
➢ 2차원 배열에 행과 열에 인덱스를 붙인 것이다.
- RDB의 테이블 또는 엑셀(스프레드 시트)와 유사

In [21]:
rawData = np.random.randint(50,100, size=(4,3))
rawData

array([[60, 71, 59],
       [99, 69, 69],
       [59, 50, 86],
       [74, 82, 70]])

In [22]:
df=pd.DataFrame(rawData,index=['1반','2반','1반','2반'], 
                        columns=['국','영','수'])
df

Unnamed: 0,국,영,수
1반,60,71,59
2반,99,69,69
1반,59,50,86
2반,74,82,70


In [23]:
#df[0]   --> error
print(df['국'])
print(df['국']['1반'])

1반    60
2반    99
1반    59
2반    74
Name: 국, dtype: int32
1반    60
1반    59
Name: 국, dtype: int32


In [24]:
df['평균']=round((df['국'] + df['영'] + df['수'])/3,2)
df

Unnamed: 0,국,영,수,평균
1반,60,71,59,63.33
2반,99,69,69,79.0
1반,59,50,86,65.0
2반,74,82,70,75.33


In [25]:
df['na']=np.nan
df

Unnamed: 0,국,영,수,평균,na
1반,60,71,59,63.33,
2반,99,69,69,79.0,
1반,59,50,86,65.0,
2반,74,82,70,75.33,


In [26]:
del df['na']
df

Unnamed: 0,국,영,수,평균
1반,60,71,59,63.33
2반,99,69,69,79.0
1반,59,50,86,65.0
2반,74,82,70,75.33


In [27]:
df[df.평균 > 75]

Unnamed: 0,국,영,수,평균
2반,99,69,69,79.0
2반,74,82,70,75.33


In [28]:
df=df.drop(['평균'], axis='columns')
df

Unnamed: 0,국,영,수
1반,60,71,59
2반,99,69,69
1반,59,50,86
2반,74,82,70


## 결측값 처리

1. NaN
    - 자료형이 Float형이다.
    - 배열에서 연산할 경우 오류가 발생하지 않지만 결과값이 NaN이 된다.
2. None
    - 자료형이 None이다.
    - 배열 연산을 할 경우 오류가 발생한다.
3. 처리방법
    - isnull() : 결측값 확인 ( 결측 이면 True , 결측이 아니면 False )
    - notnull() : 결측값 확인 ( 결측 이면 False , 결측이 아니면 True )
    - dropna() : 결측값 삭제 ( inplace = True : drop후 원본에 반영 )
    - fillna(Num) : 결측값을 Num으로 채워 넣는다.

In [29]:
df=df.astype('float64')
df

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,86.0
2반,74.0,82.0,70.0


In [30]:
df['수'][2]=np.nan
df

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,
2반,74.0,82.0,70.0


In [63]:
print(df.isnull())
print(df.notnull())
print(df.isnull().sum())    # 결측치가 몇개인지 확인

           언어            수리
            국      영      수
1학년 1반  False  False  False
    2반  False  False  False
2학년 1반  False  False   True
    2반  False  False  False
          언어           수리
           국     영      수
1학년 1반  True  True   True
    2반  True  True   True
2학년 1반  True  True  False
    2반  True  True   True
언어  국    0
    영    0
수리  수    1
dtype: int64


In [31]:
df.dropna(axis=0)  #원본을 수정하지 않는다
#df.dropna(axis=0, inplace=True) # inplace는 원본을 수정한다

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
2반,74.0,82.0,70.0


In [32]:
df.fillna('hello')

Unnamed: 0,국,영,수
1반,60.0,71.0,59
2반,99.0,69.0,69
1반,59.0,50.0,hello
2반,74.0,82.0,70


In [33]:
df.fillna(-1)

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,-1.0
2반,74.0,82.0,70.0


In [34]:
df.fillna(0)

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,0.0
2반,74.0,82.0,70.0


In [35]:
df.fillna(df.mean())

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,66.0
2반,74.0,82.0,70.0


## MultiIndex : 다중 인덱싱

- .T : 행과 열을 바꿈
- .index() : 인덱스(행)를 추가
- .columns() : 컬럼(열)를 추가
- [ \] : 컬럼(열)으로 참조
- .loc[ ] 또는 .iloc[ ] : 인덱스(행)로 참조

- 멀티 인덱스, 멀티 칼럼일 경우 : 각각 .loc[ ].loc[ ] or .iloc[ ].iloc[ ] 와 [ ][ ] 으로 참조

In [36]:
df

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,
2반,74.0,82.0,70.0


In [37]:
df.T    # 행과 열을 바꿈

Unnamed: 0,1반,2반,1반.1,2반.1
국,60.0,99.0,59.0,74.0
영,71.0,69.0,50.0,82.0
수,59.0,69.0,,70.0


In [38]:
df

Unnamed: 0,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0
1반,59.0,50.0,
2반,74.0,82.0,70.0


In [39]:
df.index=[['1학년','1학년','2학년','2학년'],
          ['1반','2반','1반','2반']]    # .index() 인덱스(행) 구분을 추가
df

Unnamed: 0,Unnamed: 1,국,영,수
1학년,1반,60.0,71.0,59.0
1학년,2반,99.0,69.0,69.0
2학년,1반,59.0,50.0,
2학년,2반,74.0,82.0,70.0


In [40]:
df.columns=[['언어','언어','수리'],['국','영','수']]    # .columns() 컬럼(열) 구분을 추가
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,60.0,71.0,59.0
1학년,2반,99.0,69.0,69.0
2학년,1반,59.0,50.0,
2학년,2반,74.0,82.0,70.0


In [41]:
df['언어']['국']

1학년  1반    60.0
     2반    99.0
2학년  1반    59.0
     2반    74.0
Name: 국, dtype: float64

In [42]:
df.iloc[0]

언어  국    60.0
    영    71.0
수리  수    59.0
Name: (1학년, 1반), dtype: float64

In [43]:
df.loc['1학년']

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
1반,60.0,71.0,59.0
2반,99.0,69.0,69.0


In [44]:
df.loc['1학년'].loc['1반']

언어  국    60.0
    영    71.0
수리  수    59.0
Name: 1반, dtype: float64

## 데이터 사전 분석

- info() : DataFrame을 구성하는 행과 열에 대한 정보를 나타내 주는 함수
- head(n) : DataFrame의 처음부터 n줄의 행을 출력
- tail(n) : DataFrame의 마지막 n줄의 행을 출력
- describe() : Series, DataFrame의 각 열에 대한 요약 통계
- dtypes : 데이터 자료형 확인

In [45]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,60.0,71.0,59.0
1학년,2반,99.0,69.0,69.0
2학년,1반,59.0,50.0,
2학년,2반,74.0,82.0,70.0


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 4 entries, ('1학년', '1반') to ('2학년', '2반')
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   (언어, 국)  4 non-null      float64
 1   (언어, 영)  4 non-null      float64
 2   (수리, 수)  3 non-null      float64
dtypes: float64(3)
memory usage: 248.0+ bytes


In [57]:
df.head(2)    # 매개변수 없으면, 전부 출력

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
1학년,1반,60.0,71.0,59.0
1학년,2반,99.0,69.0,69.0


In [60]:
df.tail(2)    # 매개변수 없으면, 전부 출력

Unnamed: 0_level_0,Unnamed: 1_level_0,언어,언어,수리
Unnamed: 0_level_1,Unnamed: 1_level_1,국,영,수
2학년,1반,59.0,50.0,
2학년,2반,74.0,82.0,70.0


In [61]:
df.describe()

Unnamed: 0_level_0,언어,언어,수리
Unnamed: 0_level_1,국,영,수
count,4.0,4.0,3.0
mean,73.0,68.0,66.0
std,18.636881,13.291601,6.082763
min,59.0,50.0,59.0
25%,59.75,64.25,64.0
50%,67.0,70.0,69.0
75%,80.25,73.75,69.5
max,99.0,82.0,70.0


In [62]:
df.dtypes

언어  국    float64
    영    float64
수리  수    float64
dtype: object

## 값의 연결

- concat : DataFrame끼리 결합
- axis=0 or 1 : 아래로 데이터 연결 / 옆으로 데이터 연결
- append : 마지막 행에 데이터를 추가 
    - ※ concatenate : 배열끼리 결합

In [64]:
a=pd.DataFrame(np.arange(1,10).reshape(3,3))
a

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [65]:
b=pd.Series(np.arange(10,40,10))
b

0    10
1    20
2    30
dtype: int32

In [66]:
pd.concat([a,b], axis=1)   # 0:행, 1: 열

Unnamed: 0,0,1,2,0.1
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [67]:
pd.concat([a,b], axis=1,ignore_index=True)  # False는 열 이름 그대로 둔다(0), True는 3으로 변경한다

Unnamed: 0,0,1,2,3
0,1,2,3,10
1,4,5,6,20
2,7,8,9,30


In [68]:
a.append(b, ignore_index=True)

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9
3,10,20,30


## 엑셀파일과 연동

- ExeclFile(파일명) : 엑셀파일을 불러오기 
- to_excel() : 엑셀파일로 내보내기

In [73]:

import pandas as pd

file='test.xls'
xl=pd.ExcelFile(file)    # 불러오기
df=xl.parse('Sheet1')

df

Unnamed: 0,name,kor,eng,mat
0,A,80,80,80
1,B,100,80,80
2,C,80,100,55
3,D,80,80,80
4,E,80,55,55
5,F,55,80,80
6,G,80,80,80
7,H,55,80,100
8,I,80,80,80
9,J,80,80,100


In [74]:
print(df.shape)
print(df.columns)

(15, 4)
Index(['name', 'kor', 'eng', 'mat'], dtype='object')


In [80]:
name=[]
kor=[]
eng=[]
mat=[]
tot=[]
avg=[]
for i, col in df.iterrows():
    name.append(col[0])
    kor.append(col[1])
    eng.append(col[2])
    mat.append(col[3])
    tot.append(sum(col[1:]))
    avg.append(sum(col[1:]) / 3)
    

print(name)
print(kor)
print(eng)
print(mat)
print(tot)
print(avg)

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O']
[80, 100, 80, 80, 80, 55, 80, 55, 80, 80, 80, 47, 80, 100, 80]
[80, 80, 100, 80, 55, 80, 80, 80, 80, 80, 80, 80, 80, 80, 65]
[80, 80, 55, 80, 55, 80, 80, 100, 80, 100, 80, 80, 80, 55, 100]
[240, 260, 235, 240, 190, 215, 240, 235, 240, 260, 240, 207, 240, 235, 245]
[80.0, 86.66666666666667, 78.33333333333333, 80.0, 63.333333333333336, 71.66666666666667, 80.0, 78.33333333333333, 80.0, 86.66666666666667, 80.0, 69.0, 80.0, 78.33333333333333, 81.66666666666667]


In [82]:
from pandas import DataFrame

raw_data={
    '이름':name,
    '국어':kor,
    '영어':eng,
    '수학':mat,
    '총점':tot,
    '평균':avg
}

data=DataFrame(raw_data)
data.to_excel("test2.xls",sheet_name='Sheet2.xls', encoding='utf-8')    # 내보내기
data

Unnamed: 0,이름,국어,영어,수학,총점,평균
0,A,80,80,80,240,80.0
1,B,100,80,80,260,86.666667
2,C,80,100,55,235,78.333333
3,D,80,80,80,240,80.0
4,E,80,55,55,190,63.333333
5,F,55,80,80,215,71.666667
6,G,80,80,80,240,80.0
7,H,55,80,100,235,78.333333
8,I,80,80,80,240,80.0
9,J,80,80,100,260,86.666667
