# 1. Pandas
- 데이터 셀렉션 & 필터링

In [1]:
import pandas as pd

## 1) Series
- 1개의 컬럼 값으로 구성된 1차원 데이터 셋(가장 기본적인 형태)

In [2]:
data = ["A", "B", "C", "D"] 
se =pd.Series(data) # 인덱싱이 생기고 데이터 나열됨
se 

0    A
1    B
2    C
3    D
dtype: object

In [3]:
#데이터 개수 파악

se.index #(start = 시작개수, stop = 총개수, step = 증가폭)

RangeIndex(start=0, stop=4, step=1)

In [5]:
#데이터 값들 확인

se.values

array(['A', 'B', 'C', 'D'], dtype=object)

In [7]:
# 인덱싱(인덱스값으로 셀렉션)

print(se[1]) 
print(se[2])

B
C


In [8]:
# 슬라이싱

print(se[:3]) #[시작값 : 끝값]
print(se[:]) # 전체

0    A
1    B
2    C
dtype: object
0    A
1    B
2    C
3    D
dtype: object


In [9]:
#컬럼 이름 변경

se.name = "alphabet"
se

0    A
1    B
2    C
3    D
Name: alphabet, dtype: object

In [10]:
# 인덱스 이름 설정

se.index.name = "No."
se

No.
0    A
1    B
2    C
3    D
Name: alphabet, dtype: object

In [11]:
# Series 생성시, index 저장하기

data = ["A","B","C","D"]
se = pd.Series(data, index=['a','b','c','d'])

print(se)
print(se['a']) #index 값으로 가져오기, 숫자로도 가능 

a    A
b    B
c    C
d    D
dtype: object
A


In [12]:
# Series 생성 이후, index 지정하기

se.index=[1,2,3,4]
print(se.index)

se.index=[1,2,3,5] #덮어쓰기 가능
print(se.index)


Int64Index([1, 2, 3, 4], dtype='int64')
Int64Index([1, 2, 3, 5], dtype='int64')


In [13]:
se = pd.Series(data, index=['a','b','c','d'])
se > '40' #알파벳도 각각의 값을 가지고 있음 

a    True
b    True
c    True
d    True
dtype: bool

## 2) DataFrame
- 시리즈(컬럼)의 모임
- 데이터의 정제 및 분석 기본 틀

In [15]:
import numpy as np

In [16]:
data = np.array([[1,2,3], [4,5,6], [7,8,9]]) #리스트의 리스트 -> 2차원
column = ['D', 'E', 'F']

df = pd.DataFrame(data = data, index = ['A','B','C'], columns = column)
df

Unnamed: 0,D,E,F
A,1,2,3
B,4,5,6
C,7,8,9


- DataFrame 생성

In [28]:
## 시리즈(kor~, 1~, A~  )와 컬럼의 만남(country, rank, grade)
## 딕셔너리 형태로 키(cuntry, rank, grade) : 값(kor, usa ~~~)

data = {
    'country' : ['kor','usa','china', 'japan'],
    'rank' : [1,2,3,4],
    'grade' : ['A','B','C','D']
    }
df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


- DataFrame 생성시 인덱스 지정 방법

In [19]:
# (1) 

df = pd.DataFrame(data, index=["A","B","C","D"])
df

Unnamed: 0,country,rank,grade
A,kor,1,A
B,usa,2,B
C,china,3,C
D,japan,4,D


In [23]:
# (2) 

df.index = ["A","B","C","D"]
df

Unnamed: 0,country,rank
A,kor,1
B,usa,2
C,china,3
D,japan,4


In [29]:
#(3) 

#df = df.set_index('grade') # 이미 있었던 컬럼 중, grade로 인덱스 지정
df = df.set_index(['grade','rank']) # 이미 있었던 컬럼 중, grade, rank 로 인덱스 지정
df

Unnamed: 0_level_0,Unnamed: 1_level_0,country
grade,rank,Unnamed: 2_level_1
A,1,kor
B,2,usa
C,3,china
D,4,japan


In [8]:
#DataFrame 생성
data = np.array([[1,2,3], [4,5,6], [7,8,9]])
column = ['D', 'E', 'F']
df = pd.DataFrame(data = data, index = ['A','B','C'], columns = column)
df

Unnamed: 0,D,E,F
A,1,2,3
B,4,5,6
C,7,8,9


### 3) 데이터 셀렉션(중요)
DataFrame에서 값을 불러오는 방법
1. df.컬럼 , df.[컬럼], df[1:3] 
2.loc[인덱스명, 컬럼명] :  명칭(label) 기반 인덱싱 
    - label 이나 boolean array로 인덱싱하는 방법
    - 사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법 
3.iloc[인덱스, 컬럼인덱스] : 숫자위치(position)기반 인덱싱

In [31]:
data = {
    'country' : ['kor','usa','china', 'japan'],
    'rank' : [1,2,3,4],
    'grade' : ['A','B','C','D']
    }
df = pd.DataFrame(data)
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


(1) 하나의 컬럼 조회 : df.컬럼, df['컬럼'] 

In [32]:
df.country

0      kor
1      usa
2    china
3    japan
Name: country, dtype: object

In [33]:
df['country'] #위와 같이 많이 사용 

0      kor
1      usa
2    china
3    japan
Name: country, dtype: object

(2) 둘 이상의 컬럼 조회

In [19]:
df[['country' , 'grade']] # 대괄호 2번 감싸야 DF 형식이 됨, 리스트 !

  country grade
A     kor     A
B     usa     B
C   china     C
D   japan     D


(3) loc[인덱스값 or  컬럼명]  , [행 , 열]
- 범위 : 리스트 사용 !
- 여러개 : 인덱싱 사용 !
- loc 중심으로 익히자!

- df['country'] : country 열값
- df['country'] == 'kor' 인 값 찾아서 true/ false 값
- df[['country' == 'kor']] : 데이터 프레임에 담으면, 해당 값이 표시됨 

In [34]:
# 인덱스값이 0 인 행 조회

df.loc[0]

country    kor
rank         1
grade        A
Name: 0, dtype: object

In [35]:
# 2개 이상의 행 조회

df.loc[0:2]

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C


In [48]:
#예시)
b = 'python'
print(b[0:2])

df.loc[0:2, ['grade', 'rank']] # [0:2} = [0,1,2]

py


Unnamed: 0,grade,rank
0,A,1
1,B,2
2,C,3


In [36]:
# 특정행, 인덱스 지정해서 조회

df.loc[[0,2]]

Unnamed: 0,country,rank,grade
0,kor,1,A
2,china,3,C


In [18]:
# loc[행,열]

df.loc[[0], ['grade']]
df.loc[0,'grade']

Unnamed: 0,grade
0,A


In [37]:
df.loc[0:2,['country','grade']]

Unnamed: 0,country,grade
0,kor,A
1,usa,B
2,china,C


In [50]:
# 차이점 확인

df.loc[[0],['grade']]

df.loc[0,'grade']

  grade
0     A
A


In [43]:
# 차이점 확인

df['grade'] == 'A'

df[df['grade'] == 'A']

0     True
1    False
2    False
3    False
Name: grade, dtype: bool


Unnamed: 0,country,rank,grade
0,kor,1,A


In [38]:
# 조건이 있는 조회

df.loc[(df['grade'] == 'A') | (df['rank']>2)] ## grade 가 A 또는 rank 가 2이상

Unnamed: 0,country,rank,grade
0,kor,1,A
2,china,3,C
3,japan,4,D


In [32]:
## country 가 usa or kor 인 항목 선택

df[(df['country'] == "usa") | (df['country'] == "kor")]

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B


In [33]:
df[df['rank']>2]

Unnamed: 0,country,rank,grade
2,china,3,C
3,japan,4,D


(4) iloc[인덱스, 컬럼인덱스] - 위치(location) 기반
- iloc 는 무조건 정수기반

df2 = pd.DataFrame(data, index = ["A", "B", "C", "D"])
df2.loc[0]
df.loc[0] # 전체 데이터 프레임에서 인덱스 이름이 0인 1행 데이터

In [24]:
df.iloc[2] #3 행의 데이터, 전체 데이터 프레임에서 2번째 행에 있는 값
            #iloc 는 행의 범위

In [51]:
#두 개의 차이 !!

df.loc[0:2] # 행의 값/ index 값 = df.loc[[0,1,2]]

df.iloc[0:2] # 행의 범위 [행,열] = df.loc[0,1]

  country  rank grade
0     kor     1     A
1     usa     2     B
2   china     3     C
  country  rank grade
0     kor     1     A
1     usa     2     B


In [34]:
df.iloc[0:3] # 2행까지 조회 (= df.loc[0:2]) 

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C


In [64]:
df

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


In [76]:
# quiz :  한국, 일본 & rank, grade 만 갖고오기

df.iloc[[0,3] , [1,2]] # 숫자로 가져오기/ [행,열]
df.loc [[0,3], ['rank', 'grade']] # 범위로 가져오기

   rank grade
0     1     A
3     4     D


Unnamed: 0,rank,grade
0,1,A
3,4,D


(5) Boolean 인덱싱

In [37]:
df['rank'] < 3

0     True
1     True
2    False
3    False
Name: rank, dtype: bool

In [77]:
df[df['rank'] < 3]

df.loc[df['rank'] < 3] 

  country  rank grade
0     kor     1     A
1     usa     2     B


Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B


In [40]:
df.loc[df['rank'] < 3, ['rank']]

Unnamed: 0,rank
0,1
1,2


In [41]:
df.loc[df['rank'] < 3, ['grade', 'rank']] 

Unnamed: 0,grade,rank
0,A,1
1,B,2


## 4) filter()를 이용한 검색

df.filter? # ? : GUIDE LINE 소환 !!!

In [49]:
df.filter(items=['country','rank','item1','item2' ]) # 컬럼명으로 불러오기

Unnamed: 0,country,rank
0,kor,1
1,usa,2
2,china,3
3,japan,4


In [51]:
df.filter(like='c', axis=1) # 컬럼명에 c가 포함된 출력 / axis=0으로 바꾸면 인덱스에서 검색

Unnamed: 0,country
0,kor
1,usa
2,china
3,japan


In [83]:
df.filter(like='c', axis=0) #인덱스에 c가 들어가는 값 검색, axis =0 (인덱스 검색)

Unnamed: 0,country,rank,grade


In [84]:
df.filter(like='r', axis=1)  # 컬럼명에 r가 포함된 출력, axis =1 (컬럼명 검색)

Unnamed: 0,country,rank,grade
0,kor,1,A
1,usa,2,B
2,china,3,C
3,japan,4,D


# 2.데이터 추가 및 삭제
## DataFrame 추가

### (1) Series를 이용하여 열 데이터 추가 
1) 시리즈 생성 

2) 인덱스 값 동일하게 설정

3) 데이터 프레임에 추가

In [85]:
president = pd.Series(['yoon','biden','kishida','jinping'], index=[0,1,2,3]) # 1) 시리즈 생성 with 2) 인덱스 값 설정
df['president'] = president # 3) 데이터 프레임에 president 추가 & 담고 싶은 데이터 추가
df

GDP = pd.Series(['1000', '2000' , '3000','4000', '5000'])
df['GDP'] = GDP
df

Unnamed: 0,country,rank,grade,president,GDP
0,kor,1,A,yoon,1000
1,usa,2,B,biden,2000
2,china,3,C,kishida,3000
3,japan,4,D,jinping,4000


### (2) Numpy를 이용하여 열 데이터 추가

In [86]:
import numpy as np

In [87]:
add = np.zeros(4).astype(int) # 4개의 열 데이터 추가
df['etc'] = add # 데이터프레임에 etc 추가 및 담고 싶은 데이터 추가
df

## etc = pd.Series([0, 0, 0, 0], index=[0,1,2,3]) 와 같음

Unnamed: 0,country,rank,grade,president,GDP,etc
0,kor,1,A,yoon,1000,0
1,usa,2,B,biden,2000,0
2,china,3,C,kishida,3000,0
3,japan,4,D,jinping,4000,0


### (3) 연산을 이용하여 행 데이터 추가

In [88]:
df['rank'] <3
df['new_grade'] = df['rank'] < 3
df

Unnamed: 0,country,rank,grade,president,GDP,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,kishida,3000,0,False
3,japan,4,D,jinping,4000,0,False


### (4) loc() 를 이용하여 행 데이터 추가
- 기존 데이터에 추가

In [91]:
df

Unnamed: 0,country,rank,grade,president,GDP,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,kishida,3000,0,False
3,japan,4,D,jinping,4000,0,False


In [95]:
df.loc[7] = ['singapole' , 4 ,'D', 'jao', '5000', 0, False] # 인덱스 값 7번에 해당 행 추가 !
df.loc[4] = ['singapole' , 4 ,'D', 'jao', '5000', 0, False] # 인덱스 값 4번에 해당 행 추가 !
df

Unnamed: 0,country,rank,grade,president,GDP,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,kishida,3000,0,False
3,japan,4,D,jinping,4000,0,False
7,singapole,4,D,jao,5000,0,False
4,singapole,4,D,jao,5000,0,False


In [99]:
# 인덱스 재정렬(기본 :오름차순)
## 만약, 기존 데이터에도 적용을 하고 싶다면, inplace = Ture 
## 기본값은 inplace = false (바로 반영 x)(생략가능)

df.reset_index()

Unnamed: 0,index,country,rank,grade,president,GDP,etc,new_grade
0,0,kor,1,A,yoon,1000,0,True
1,1,usa,2,B,biden,2000,0,True
2,2,china,3,C,kishida,3000,0,False
3,3,japan,4,D,jinping,4000,0,False
4,7,singapole,4,D,jao,5000,0,False
5,4,singapole,4,D,jao,5000,0,False


# 3. DataFrame 데이터 삭제


(1) drop : 행 삭제 with inplace = True or False

In [100]:
df = df.drop(index = 7) # 실제로 삭제가 되지 않음
df # 기존 데이터프레임은 그대로 있음 !

Unnamed: 0,country,rank,grade,president,GDP,etc,new_grade
0,kor,1,A,yoon,1000,0,True
1,usa,2,B,biden,2000,0,True
2,china,3,C,kishida,3000,0,False
3,japan,4,D,jinping,4000,0,False
4,singapole,4,D,jao,5000,0,False


In [None]:
df.drop(index=7, inplace=True)

## 실제로 삭제하기 위해서 inplace 옵션 필요, 복원 불가, 복원하려면 처음으로 다시 돌아가야함

(2) 열 삭제(컬럼명 사용)

In [101]:
df.drop('new_grade', axis=1, inplace=True)  # axis=0 이면 index명,  axis = 1 이면 column명
df

Unnamed: 0,country,rank,grade,president,GDP,etc
0,kor,1,A,yoon,1000,0
1,usa,2,B,biden,2000,0
2,china,3,C,kishida,3000,0
3,japan,4,D,jinping,4000,0
4,singapole,4,D,jao,5000,0


(3) del (열 삭제)

In [102]:
del df['GDP'] # 바로 삭제됨.
df

Unnamed: 0,country,rank,grade,president,etc
0,kor,1,A,yoon,0
1,usa,2,B,biden,0
2,china,3,C,kishida,0
3,japan,4,D,jinping,0
4,singapole,4,D,jao,0


### Pandas 퀴즈

In [104]:
date = {
    '영화' : ['명량','극한직업','신과함꼐-죄와벌','국제시장','괴물', '도둑들','7번방의 선물', '암살'],
    '개봉 연도' : [2014, 2019 , 2017, 2014, 2006, 2012, 2013, 2015],
    '관객 수' : [1761, 1626, 1441, 1426, 1301, 1298, 1281, 1270],
    '평점' : [8.88, 9.20, 8.73, 9.16, 8.62, 7.64, 8.83, 9.10]
                 
}

df = pd.DataFrame(date)
df

# 중괄호 -> 딕셔너리 형태 
# 데이터 여러개 -> 키값이 리스트 형태 
# 영화, 개봉연도, 관객 수, 평점 -> 컬럼명
# 명량 ~, 2014~, 1761~, 8.88 -> 시리즈(열) 데이터

Unnamed: 0,영화,개봉 연도,관객 수,평점
0,명량,2014,1761,8.88
1,극한직업,2019,1626,9.2
2,신과함꼐-죄와벌,2017,1441,8.73
3,국제시장,2014,1426,9.16
4,괴물,2006,1301,8.62
5,도둑들,2012,1298,7.64
6,7번방의 선물,2013,1281,8.83
7,암살,2015,1270,9.1


In [105]:
# 1) 전체 데이터 중에서 '영화'정보만 출력하시오.

df['영화'] # df[컬럼명]
df.loc[0:7, '영화'] #df.loc[인덱스, 행]

0          명량
1        극한직업
2    신과함꼐-죄와벌
3        국제시장
4          괴물
5         도둑들
6     7번방의 선물
7          암살
Name: 영화, dtype: object

In [106]:
# 2) 전체 데이터 중에서 '영화','평점' 정보를 출력하시오.

df[['영화','평점']] # = df.loc[[0:7], ['영화','평점']]

## df[ 컬럼명 1, 컬럼명 2 -------]
## 여러개는 '리스트'!!

Unnamed: 0,영화,평점
0,명량,8.88
1,극한직업,9.2
2,신과함꼐-죄와벌,8.73
3,국제시장,9.16
4,괴물,8.62
5,도둑들,7.64
6,7번방의 선물,8.83
7,암살,9.1


In [123]:
# 3) 2015년 이후에 개봉한 영호 데이터 중에서 '영화', '개봉연도' 정보를 출력하시오.

##1)  2015년 이후 데이터 가져오기
a = df['개봉 연도'] > 2015 

## 2) 원하는 컬럼 가져오기 

df.loc[a, ['영화','평점']]  
df[df['개봉 연도'] > 2015][['영화' , '개봉 연도']] #  df[[행 : 리스트]][[컬럼명 : 리스트]]


# df[df['rank'] < 3]

Unnamed: 0,영화,개봉 연도
1,극한직업,2019
2,신과함꼐-죄와벌,2017


In [124]:
# 4) 주어진 계산식을 참고하여 '추천 점수' Column을 추가하시오


recommendation = (df['관객 수'] * df['평점']) // 100 # 추천 점수 = (관객수*평점)/100
df['추천 점수'] = recommendation #시리즈 * 시리즈 = 시리즈
df

Unnamed: 0,영화,개봉 연도,관객 수,평점,추천 점수
0,명량,2014,1761,8.88,156.0
1,극한직업,2019,1626,9.2,149.0
2,신과함꼐-죄와벌,2017,1441,8.73,125.0
3,국제시장,2014,1426,9.16,130.0
4,괴물,2006,1301,8.62,112.0
5,도둑들,2012,1298,7.64,99.0
6,7번방의 선물,2013,1281,8.83,113.0
7,암살,2015,1270,9.1,115.0


In [125]:
# 5) 전체데이터를 개봉데이터 기준으로 내림차순으로 출력

df.sort_values(by= '개봉 연도', ascending= [False])

Unnamed: 0,영화,개봉 연도,관객 수,평점,추천 점수
1,극한직업,2019,1626,9.2,149.0
2,신과함꼐-죄와벌,2017,1441,8.73,125.0
7,암살,2015,1270,9.1,115.0
0,명량,2014,1761,8.88,156.0
3,국제시장,2014,1426,9.16,130.0
6,7번방의 선물,2013,1281,8.83,113.0
5,도둑들,2012,1298,7.64,99.0
4,괴물,2006,1301,8.62,112.0
