### Pandas
- 대표적인 파이썬 데이터 분석 라이브러리
- pandas 안에 numpy 사용
- 데이터프레임(DataFrame)이라는 2차원의 표 형식
- 데이터프레임은 2차원 배열(행,열)
- 행 : 로우, 인덱스, 레코드
- 열 : 컬럼, 필드, 속성, 피쳐(특징, Feature), 변수

#### numpy array, data frame 차이점
- numpy array는 숫자 인덱스만 가능
- data frame은 문자 인덱스도 가능, 열 단위로 동일한 자료형

In [2]:
import pandas as pd

In [5]:
plist = [
    ['홍길동', 1, 2],
    ['김길동', 3, 4],
    ['최길동', 5, 6]
]
df = pd.DataFrame(plist)
print(df)
df

     0  1  2
0  홍길동  1  2
1  김길동  3  4
2  최길동  5  6


Unnamed: 0,0,1,2
0,홍길동,1,2
1,김길동,3,4
2,최길동,5,6


In [9]:
# 열 이름 지정해서 데이터프레임 생성하기
pd.DataFrame(plist, columns=['name', 'age', 'class'])

Unnamed: 0,name,age,class
0,홍길동,1,2
1,김길동,3,4
2,최길동,5,6


In [10]:
# 행 이름 지정해서 데이터프레임 생성하기
pd.DataFrame(plist, index=['hong', 'kim', 'choi'])

Unnamed: 0,0,1,2
hong,홍길동,1,2
kim,김길동,3,4
choi,최길동,5,6


In [17]:
# csv 읽어들이기 
df = pd.read_csv('iphone.csv', index_col=0)    
# index_col : 특정 컬럼을 인덱스로 지정할때 사용
# header : 가 없는 경우에 사용 (ex : header=None)
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [19]:
'''
DataFrame 인덱싱, 슬라이싱
iloc -> 인덱스로 위치 지정
loc -> 레이블로 위치 지정
loc[행, 열]
'''
df.loc['iPhone 8', '메모리']

'2GB'

In [20]:
df.iloc[2,2]

'2GB'

In [22]:
# 전체 데이터의 메모리
df.loc[:,'메모리'] # 데이터 타입 Series : 데이터가 한 열(컬럼)상태로 있는 자료형을 뜻함

iPhone 7         2GB
iPhone 7 Plus    3GB
iPhone 8         2GB
iPhone 8 Plus    3GB
iPhone X         3GB
iPhone XS        4GB
iPhone XS Max    4GB
Name: 메모리, dtype: object

In [26]:
type(df.loc[:, '메모리']), type(df)

(pandas.core.series.Series, pandas.core.frame.DataFrame)

In [27]:
df.iloc[:,2]

iPhone 7         2GB
iPhone 7 Plus    3GB
iPhone 8         2GB
iPhone 8 Plus    3GB
iPhone X         3GB
iPhone XS        4GB
iPhone XS Max    4GB
Name: 메모리, dtype: object

In [32]:
# iPhone 8 ~ iPhone X의 디스플레이~출시 버전
df.iloc[2:5, 1:4]

Unnamed: 0,디스플레이,메모리,출시 버전
iPhone 8,4.7,2GB,iOS 11.0
iPhone 8 Plus,5.5,3GB,iOS 11.0
iPhone X,5.8,3GB,iOS 11.1


In [33]:
df.loc['iPhone 8':'iPhone X', '디스플레이':'출시 버전']    # loc는 슬라이싱시 지정한 컬럼까지 포함됨 (iloc는 그 전까지.)

Unnamed: 0,디스플레이,메모리,출시 버전
iPhone 8,4.7,2GB,iOS 11.0
iPhone 8 Plus,5.5,3GB,iOS 11.0
iPhone X,5.8,3GB,iOS 11.1


In [35]:
# iPhone 8, iPhone X의 디스플레이, 출시 버전 출력
df.loc[['iPhone 8', 'iPhone X'], ['디스플레이', '출시 버전']]

Unnamed: 0,디스플레이,출시 버전
iPhone 8,4.7,iOS 11.0
iPhone X,5.8,iOS 11.1


In [37]:
df.loc[['iPhone 8', 'iPhone X']].loc[:,['디스플레이', '출시 버전']]

Unnamed: 0,디스플레이,출시 버전
iPhone 8,4.7,iOS 11.0
iPhone X,5.8,iOS 11.1


In [39]:
# bool 연산
# 디스플레이가 5인치 이상
df['디스플레이'] >= 5

iPhone 7         False
iPhone 7 Plus     True
iPhone 8         False
iPhone 8 Plus     True
iPhone X          True
iPhone XS         True
iPhone XS Max     True
Name: 디스플레이, dtype: bool

In [44]:
df.loc[df['디스플레이'] >= 5]    # 해당 조건값이 True인 것만 가져옴

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [45]:
# 디스플레이가 5인치 이상이고, 메모리가 4GB
# and 연산 : &
# or 연산 : |
df.loc[(df['디스플레이'] >= 5) & (df['메모리'] == '4GB')]

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [46]:
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 11.1,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [47]:
# 값 변경
# iPhone X의 출시 버전을 iOS 12.0 으로 변경
df.loc['iPhone X', '출시 버전'] = 'iOS 12.0'
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 10.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 10.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 11.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 11.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [49]:
# 전체 데이터의 출시 버전으로 iOS 12.0으로 변경
df.loc[:, '출시 버전'] = 'iOS 12.0'
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,4.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,5.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,4.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,5.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,5.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,5.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,6.5,4GB,iOS 12.0,Yes


In [50]:
# 전체 데이터의 디스플레이를 1인치 증가
df.loc[:, '디스플레이'] = df.loc[:, '디스플레이'] + 1
# df.loc[:, '디스플레이'] += 1
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes


In [51]:
df2 = df    # 얕은 복사(주소값만 대입)
df2

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes


In [52]:
df3 = df.copy() # 깊은 복사(새로운 주소)
df3

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes


In [56]:
df3.loc['iPhone 7', '출시 버전'] = 'iOS 13.0'
df3

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 13.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes


In [57]:
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes


In [65]:
# DataFrame에 데이터 추가
# 존재하지 않는 행(로우) 인덱스로 대입
df.loc['iPhone 14'] = ['2022-10-01', 8, '16GB', 'iOS 14.0', 'Yes']
df

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID,제조사
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No,Apple
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No,Apple
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No,Apple
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No,Apple
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes,Apple
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes,Apple
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes,Apple
iPhone 14,2022-10-01,8.0,16GB,iOS 14.0,Yes,Apple


In [60]:
# DataFrame에 열 추가
df['제조사'] = 'Apple'
df

In [62]:
# 삭제
# drop()
# axis 기본값이 index
# inplace 기본값이 False -> 삭제한 결과를 리턴 (원데이터 자체가 삭제되는게 아님)
df.drop('iPhone 14')

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID,제조사
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No,Apple
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No,Apple
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No,Apple
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No,Apple
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes,Apple
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes,Apple
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes,Apple


In [63]:
# 원데이터프레임을 삭제
# 방법 1. inplace=True
df.drop('iPhone 14', inplace=True) # 리턴 안함
# 방법 2. 다시 대입
df = df.drop('iPhone 14')    # 인덱스가 존재하지 않을 경우 에러 발생

KeyError: "['iPhone 14'] not found in axis"

In [66]:
# axis = 0 (0: index, 1: columns)
df.drop('제조사', axis='columns')

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID
iPhone 7,2016-09-16,5.7,2GB,iOS 12.0,No
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No
iPhone 8,2017-09-22,5.7,2GB,iOS 12.0,No
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes
iPhone 14,2022-10-01,8.0,16GB,iOS 14.0,Yes


In [68]:
# 디스플레이, 출시 버전 열 삭제
df.drop(['디스플레이', '출시 버전'], axis=1)

Unnamed: 0,출시일,메모리,Face ID,제조사
iPhone 7,2016-09-16,2GB,No,Apple
iPhone 7 Plus,2016-09-16,3GB,No,Apple
iPhone 8,2017-09-22,2GB,No,Apple
iPhone 8 Plus,2017-09-22,3GB,No,Apple
iPhone X,2017-11-03,3GB,Yes,Apple
iPhone XS,2018-09-21,4GB,Yes,Apple
iPhone XS Max,2018-09-21,4GB,Yes,Apple
iPhone 14,2022-10-01,16GB,Yes,Apple


In [81]:
# 순번으로 삭제
df.drop(df.index[[0,2]])

Unnamed: 0,출시일,디스플레이,메모리,출시 버전,Face ID,제조사
iPhone 7 Plus,2016-09-16,6.5,3GB,iOS 12.0,No,Apple
iPhone 8 Plus,2017-09-22,6.5,3GB,iOS 12.0,No,Apple
iPhone X,2017-11-03,6.8,3GB,iOS 12.0,Yes,Apple
iPhone XS,2018-09-21,6.8,4GB,iOS 12.0,Yes,Apple
iPhone XS Max,2018-09-21,7.5,4GB,iOS 12.0,Yes,Apple
iPhone 14,2022-10-01,8.0,16GB,iOS 14.0,Yes,Apple


In [70]:
df.index

Index(['iPhone 7', 'iPhone 7 Plus', 'iPhone 8', 'iPhone 8 Plus', 'iPhone X',
       'iPhone XS', 'iPhone XS Max', 'iPhone 14'],
      dtype='object')

In [73]:
df.index[[0,2]]

Index(['iPhone 7', 'iPhone 8'], dtype='object')

In [82]:
# 전체 컬럼
df.columns

Index(['출시일', '디스플레이', '메모리', '출시 버전', 'Face ID', '제조사'], dtype='object')

In [83]:
df.columns[[0,2]]

Index(['출시일', '메모리'], dtype='object')

In [84]:
df.drop(df.columns[[0,2]], axis=1)

Unnamed: 0,디스플레이,출시 버전,Face ID,제조사
iPhone 7,5.7,iOS 12.0,No,Apple
iPhone 7 Plus,6.5,iOS 12.0,No,Apple
iPhone 8,5.7,iOS 12.0,No,Apple
iPhone 8 Plus,6.5,iOS 12.0,No,Apple
iPhone X,6.8,iOS 12.0,Yes,Apple
iPhone XS,6.8,iOS 12.0,Yes,Apple
iPhone XS Max,7.5,iOS 12.0,Yes,Apple
iPhone 14,8.0,iOS 14.0,Yes,Apple
