# DataFrame(데이터프레임)

## DataFrame 개요
- 표(테이블-행렬)를 다루는 Pandas 클래스
    - 데이터베이스의 Table이나 R의 data.frame이나 Excel의 표와 동일한 역할
- 분석할 데이터를 가지는 판다스의 가장 핵심적인 클래스
- 행이름: index 열이름: column
    - 행이름과 열이름은 명시적으로 지정할 수 있다.
    - 명시적으로 지정하지 않으면 순번 (0부터 1씩 증가) 이 index, column 명으로 사용된다.
    - 하나의 행과 하나의 열은 Series로 구성된다.
- 직접 데이터를 넣어 생성하거나 데이터 셋을 파일(csv, 엑셀, DB 등)로 부터 읽어와 생성한다.

## DataFrame 생성
###  직접 생성
- `pd.DataFrame(data [, index=None, columns=None])`
- data 
    - DataFrame을 구성할 값을 설정
        - Series, List, ndarray를 담은 2차원 배열
        - 열이름을 key로 컬럼의 값 value로 하는 딕션어리(사전)
    - index
        - index명으로 사용할 값 배열로 설정
    - columns
        - 컬럼명으로 사용할 값 배열로 설정

In [1]:
import pandas as pd

In [2]:
# dictionary 를 이용해 DataFrame 생성
# 컬럼명:[컬럼값들, ...]  (원소들의 개수는 같아야한다.)
d = {
    'id':['id-1', 'id-2', 'id-3', 'id-4', 'id-5'],
    'korean':[100, 50, 70, 90, 85],
    'math':[80, 50, 90, 100, 100]
}
grade = pd.DataFrame(d)
grade

Unnamed: 0,id,korean,math
0,id-1,100,80
1,id-2,50,50
2,id-3,70,90
3,id-4,90,100
4,id-5,85,100


In [3]:
# 2차원 형태의 리스트(배열)을 이용해 생성
lst = [
    ['my-1', 20, 50],
    ['my-2', 70, 20],
    ['my-3', 100, 90],
    ['my-4', 70, 100],
    ['my-5', 60, 80],
    ['my-6', 100, 100]
]
grade2 = pd.DataFrame(lst, columns=['ID', '국어', '수학'])
grade2

Unnamed: 0,ID,국어,수학
0,my-1,20,50
1,my-2,70,20
2,my-3,100,90
3,my-4,70,100
4,my-5,60,80
5,my-6,100,100


### DataFrame 파일로 저장

- ### DataFrame객체.to_파일타입()
- DataFrame객체.to_csv(파일경로,sep=',', index=True, header=True, encoding)
    - 텍스트 파일로 저장
    - 파일경로: 저장할 파일경로(경로/파일명)
    - sep : 데이터 구분자
    - index, header: 인덱스/헤더 저장 여부
    - encoding
        - 파일인코딩
        - <del>생략시 운영체제 기본 encoding 방식</del>
        - 생략시 UTF-8 로 저장
    
- DataFrame객체.to_excel(파일경로, index=True, header=True)
    - 엑셀파일로 저장

##### 파일 경로 및 파일 생성

In [4]:
import os

In [7]:
# csv 파일로 저장
import os
save_dir = 'save_data1'  # DataFrame의 데이터를 저장할 디렉토리 생성
if not os.path.isdir(save_dir):  #디렉토리가 없으면
    os.mkdir(save_dir) # save_data라는 디렉토리를 생성.

In [8]:
save_file_path = os.path.join(save_dir, 'grade1.csv')
save_file_path

'save_data1\\grade1.csv'

##### Grade파일을 다른 이름의 파일로 저장

In [9]:
#index명은 저장하지 않겠다. (1씩 증가하는 정수를 index명으로 사용한 경우 저장하지 않는다.)
grade.to_csv(save_file_path,index=False)

In [10]:
# 컬럼명을 저장하지 않겠다.
save_file_path2 = os.path.join(save_dir, 'grade2.csv')
grade.to_csv(save_file_path2, index=False, header=False)

In [20]:
# 열(값) 구분자를 설정 (default: `,` => 탭)
save_file_path3 = os.path.join(save_dir, 'grade3.csv')
grade.to_csv(save_file_path3, index=False,sep='|') 

##### excel 형식으로 저장

In [13]:
save_file_path4 = os.path.join(save_dir, 'grade.xls')
grade.to_excel(save_file_path4, index=False)

  grade.to_excel(save_file_path4, index=False)


##### pickle 형식으로 저장

In [14]:
save_file_path5 = os.path.join(save_dir, 'grade.pkl')
grade.to_pickle(save_file_path5)

#### html 형식으로 저장

In [15]:
save_file_path6 = os.path.join(save_dir, 'grade.html')
grade.to_html(save_file_path6)

### 파일로 부터 데이터셋을 읽어와 생성하기
### csv 파일 등 텍스트 파일로 부터 읽어와 생성
- `pd.read_csv(파일경로, sep=',', header, index_col, na_values, encoding)`
    - 파일경로 : 읽어올 파일의 경로
    - sep
        - 데이터 구분자. 
        - 기본값: 쉼표
    - header=정수
        - 열이름(컬럼이름)으로 사용할 행 지정
        - 기본값: 첫번째 행
        - None 설정: 첫번째 행부터 데이터로 사용하고 header(컬럼명)는 0부터 자동증가하는 값을 붙인다.
    - index_col=정수,컬럼명
        - index 명으로 사용할 열이름(문자열)이나 열의 순번(정수)을 지정.
        - 생략시 0부터 자동증가하는 값을 붙인다.
    - na_values
        - 읽어올 데이터셋의 값 중 결측치로 처리할 문자열 지정. 
    - encoding
        - 파일 인코딩
        - 생략시 운영체제 기본 encoding 방식

In [16]:
grade_df1 = pd.read_csv(save_file_path)
grade_df1

Unnamed: 0,id,korean,math
0,id-1,100,80
1,id-2,50,50
2,id-3,70,90
3,id-4,90,100
4,id-5,85,100


##### header 설정 x
- header설정을 하지 않으면 첫번째 행을 컬럼명으로 읽는다.

In [17]:
grade_df2 = pd.read_csv(save_file_path2, 
                        header=None,   # header 행이 없다 설정
                        names=['ID', 'Korean', 'Math']) # header=None 으로 하면 순번(0,1,2,..)이 컬럼명이 된다. names=[컬럼명]
grade_df2

Unnamed: 0,ID,Korean,Math
0,id-1,100,80
1,id-2,50,50
2,id-3,70,90
3,id-4,90,100
4,id-5,85,100


##### na_values

In [25]:
grade_df5 = pd.read_csv(save_file_path2, header=None,
                       na_values=['결측치'])
# 문자열 "결측치" 는 값이 아니라 NA로 읽어들여라.
grade_df5

Unnamed: 0,0,1,2
0,id-1,100.0,80
1,id-2,50.0,50
2,id-3,,90
3,id-4,90.0,100
4,id-5,85.0,100


##### 엑셀파일 읽기

In [None]:
!pip install xlrd
# 엑셀 읽기 위해 install

In [27]:
grade_df6 = pd.read_excel('save_data1/grade.xls')
grade_df6

Unnamed: 0,id,korean,math
0,id-1,100,80
1,id-2,50,50
2,id-3,70,90
3,id-4,90,100
4,id-5,85,100


## 주요 메소드, 속성 

In [31]:
movie_df = pd.read_csv('data/movie.csv')
movie_df.shape

(4916, 28)

In [29]:
grade = pd.read_csv('save_data1/grade1.csv')
grade

Unnamed: 0,id,korean,math
0,id-1,100,80
1,id-2,50,50
2,id-3,70,90
3,id-4,90,100
4,id-5,85,100


#### T
- 행 / 열을 바꾼다

In [30]:
grade.T

Unnamed: 0,0,1,2,3,4
id,id-1,id-2,id-3,id-4,id-5
korean,100,50,70,90,85
math,80,50,90,100,100


#### head( ),tail( )
- 데이터 정수 행만큼 조회, 기본값: 5

In [32]:
movie_df.head(7)

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
5,Color,Andrew Stanton,462.0,132.0,475.0,530.0,Samantha Morton,640.0,73058679.0,Action|Adventure|Sci-Fi,...,738.0,English,USA,PG-13,263700000.0,2012.0,632.0,6.6,2.35,24000
6,Color,Sam Raimi,392.0,156.0,0.0,4000.0,James Franco,24000.0,336530303.0,Action|Adventure|Romance,...,1902.0,English,USA,PG-13,258000000.0,2007.0,11000.0,6.2,2.35,0


In [33]:
movie_df.tail()

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.0,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660
4915,Color,Jon Gunn,43.0,90.0,16.0,16.0,Brian Herzlinger,86.0,85222.0,Documentary,...,84.0,English,USA,PG,1100.0,2004.0,23.0,6.6,1.85,456


#### shape
- axis별 데이터수(행,열)

In [34]:
movie_df.shape 

(4916, 28)

#### size
- 원소의 총 개수

In [35]:
movie_df.size

137648

#### info
- DataFrame의 (행,열)정보

In [36]:
grade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      5 non-null      object
 1   korean  5 non-null      int64 
 2   math    5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


#### describe( )
- 수치형(int,float) 타입 컬럼의 요약통계량으로 반환 - 기본값
- include=[]: 컬럼의 타입을 지정하면 그 타입의 컬럼에 대한 요약 통계량을 반환
- exclude=[]: 지정한 타입의 컬럼을 제외하고 요약 통계량을 반환

In [37]:
grade.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      5 non-null      object
 1   korean  5 non-null      int64 
 2   math    5 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [38]:
 grade.describe(include=['object'])

Unnamed: 0,id
count,5
unique,5
top,id-1
freq,1


In [39]:
grade.describe(exclude=['float64', 'int64'])

Unnamed: 0,id
count,5
unique,5
top,id-1
freq,1


#### insul( ).sum( )
- 컬럼별 null체크 (sum() 한번더 하면 총 개수)

In [41]:
df = pd.read_csv('data/movie.csv')
df.isnull().sum()  # bool -> sum(): True-1, False-0

color                         19
director_name                102
num_critic_for_reviews        49
duration                      15
director_facebook_likes      102
actor_3_facebook_likes        23
actor_2_name                  13
actor_1_facebook_likes         7
gross                        862
genres                         0
actor_1_name                   7
movie_title                    0
num_voted_users                0
cast_total_facebook_likes      0
actor_3_name                  23
facenumber_in_poster          13
plot_keywords                152
movie_imdb_link                0
num_user_for_reviews          21
language                      12
country                        5
content_rating               300
budget                       484
title_year                   106
actor_2_facebook_likes        13
imdb_score                     0
aspect_ratio                 326
movie_facebook_likes           0
dtype: int64

#### copy( )

In [43]:
df2 = df.copy() 
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4916 entries, 0 to 4915
Data columns (total 28 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   color                      4897 non-null   object 
 1   director_name              4814 non-null   object 
 2   num_critic_for_reviews     4867 non-null   float64
 3   duration                   4901 non-null   float64
 4   director_facebook_likes    4814 non-null   float64
 5   actor_3_facebook_likes     4893 non-null   float64
 6   actor_2_name               4903 non-null   object 
 7   actor_1_facebook_likes     4909 non-null   float64
 8   gross                      4054 non-null   float64
 9   genres                     4916 non-null   object 
 10  actor_1_name               4909 non-null   object 
 11  movie_title                4916 non-null   object 
 12  num_voted_users            4916 non-null   int64  
 13  cast_total_facebook_likes  4916 non-null   int64

#### astype( )

In [44]:
df2['movie_facebook_likes'] = df2['movie_facebook_likes'].astype('int32')

## 컬럼이름/행이름 조회 및 변경
### 컬럼이름/행이름 조회
- DataFrame객체.columns
    - 컬럼명 조회
    - 컬럼명은 차후 조회를 위해 따로 변수에 저장하는 것이 좋다.
- DataFrame객체.index
    - 행명 조회

#### 컬럼명 조회

In [45]:
columns = df.columns
columns

Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')

#### index명(행) 조회
- index명을 설정한 경우: 리스트(Index)
- Index명을 설정하지 않은 경우(순번을 index로 사용한 경우): RangeIndex

In [46]:
df.index  

RangeIndex(start=0, stop=4916, step=1)

### 컬럼이름/행이름 변경
- 컬럼과 인덱스는 불변의 성격을 가짐
- columns와 index 속성으로는 통째로 바꾸는 것은 가능하나 index로 하나씩 바꾸는 것은 안된다.
    - `df.columns = ['새이름','새이름', ... , '새이름']
    - `df.columns[1] = '새이름' # 이건 안된다. `

### 컬럼이름/행이름 변경 관련 메소드    
- `DataFrame객체.rename(index=행이름변경설정, columns=열이름변경설정, inplace=False)`
    - 개별 컬럼이름/행이름 변경 하는 메소드
    - 변경한 DataFrame을 반환
    - 변경설정: 딕셔너리 사용
        - {'기존이름':'새이름', ..}
        - inplace: 원본을 변경할지 여부(boolean)
- `DataFrame객체.set_index(컬럼이름, inplace=False)`
    - 특정 컬럼을 행의 index 명으로 사용
    - 열이 index명이 되면서 그 컬럼은 Data Set 에서 제거된다.
- `DataFrame객체.reset_index(inplace=False)`
    - index를 첫번째 컬럼으로 복원

#### 컬럼명 변경 - 전체변경

In [48]:
grade.columns = ['ID', 'Korean', 'Math']

#### 특정 컬럼의 이름을 변경 

In [49]:
grade.rename(columns={
    'Korean':'국어', 
    'Math':'수학'
}, inplace=True) #대상(원본)을 직접 변경.

#### 특정 컬럼을 index명으로 사용

In [50]:
grade.set_index('ID', inplace=True)
grade

Unnamed: 0_level_0,국어,수학
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,80
id-2,50,50
id-3,70,90
id-4,90,100
id-5,85,100


#### drop=True
- index명을 제거하고 순번으로 변경

In [51]:
grade.reset_index(drop=True) 

Unnamed: 0,국어,수학
0,100,80
1,50,50
2,70,90
3,90,100
4,85,100


In [53]:
pd.read_csv('save_data1/grade2.csv', header=None,
           names=['id', 'korean', 'math'],  # column명 지정
           index_col=0) # 특정 컬럼을 index로 사용.

Unnamed: 0_level_0,korean,math
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,80
id-2,50,50
id-3,결측치,90
id-4,90,100
id-5,85,100


## 행 / 열 삭제
- DataFrame객체.drop(columns, index, inplace=False)
    - columns : 삭제할 열이름 또는 열이름 리스트
    - index : 삭제할 index명 또는 index 리스트
    - inplace: 원본을 변경할지 여부(boolean)

#### grade.drop(columns=[])

In [54]:
grade.drop(columns=['국어', '수학'])

id-1
id-2
id-3
id-4
id-5


In [55]:
grade.drop(index=['id-1', 'id-2', 'id-5'])

Unnamed: 0_level_0,국어,수학
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
id-3,70,90
id-4,90,100


#### drop(labels=['행/컬럼명', ..], axis='행/열번호')
- 행/열번호: 0-행, 1-열

In [56]:
grade.drop(labels=['국어'], axis=1)#열(컬럼)-column명

Unnamed: 0_level_0,수학
ID,Unnamed: 1_level_1
id-1,80
id-2,50
id-3,90
id-4,100
id-5,100


In [57]:
grade.drop(labels=['id-1', 'id-3'], axis=0)  #행-index명

Unnamed: 0_level_0,국어,수학
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
id-2,50,50
id-4,90,100
id-5,85,100


## 열 추가
- 새로운 열을 지정 후 값을 대입하면 새로운 열을 추가할 수 있다.
    - 보통 파생변수를 만들 때 사용한다.
- df['새열명'] = 값
    - 마지막 열로 추가된다.
    - 하나의 값을 대입하면 모든 행에 그 값이 대입된다.
    - 다른 값을 주려면 배열에 담아서 대입한다.
- 기존 열들의 값을 이용한(계산/처리) 새로운 열 생성 => 파생변수
    - 벡터 연산을 이용하여 값 대입
    - df[‘새열이름‘] = 기존 열들을 이용한 연산

In [13]:
import pandas as pd
grade = pd.read_csv('save_data1/grade1.csv')
grade.set_index('id',inplace=True)
grade.rename(columns={'korean':'국어','math':'수학'},inplace=True)

#### 추가/변경

In [14]:
# 추가/변경
# 없는 컬럼명: 추가, 있는 컬럼명: 값을 변경
grade['영어'] = 50  #모든행에 동일한 값을 대입
grade['과학'] = [80,90,100,70,56]  #각행마다 다른 값을 대입. 행 개수만큼의 value를 리스트로 전달
grade

Unnamed: 0_level_0,국어,수학,영어,과학
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
id-1,100,80,50,80
id-2,50,50,50,90
id-3,70,90,50,100
id-4,90,100,50,70
id-5,85,100,50,56


In [15]:
# DF[컬럼명] => 특정 컬럼 값들을 조회 => Series로 반환(한개컬럼조회시) - series의 index명 으로 DF의 index명 온다.
grade['합계'] = grade['국어'] + grade['수학'] + grade['영어'] + grade['과학']
grade

Unnamed: 0_level_0,국어,수학,영어,과학,합계
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
id-1,100,80,50,80,310
id-2,50,50,50,90,240
id-3,70,90,50,100,310
id-4,90,100,50,70,310
id-5,85,100,50,56,291


In [16]:
grade['평균'] = grade['합계']/4
grade

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
id-1,100,80,50,80,310,77.5
id-2,50,50,50,90,240,60.0
id-3,70,90,50,100,310,77.5
id-4,90,100,50,70,310,77.5
id-5,85,100,50,56,291,72.75


# 행별, 열별 값 조회
## 열(컬럼) 조회
- **df['컬럼명']**
- **df.컬럼명**
- **팬시 indexing**
    - 여러개의 컬럼을 조회할 경우 컬럼명들을 담은 리스트/튜플로 조회
- 주의
    - df[컬럼index] 는 안된다.
    - df[0:3] 슬라이싱은 **행** 조회다.
    - **만약 indexing이나 slicing을 이용해 컬럼값 조회하려면 columns 속성을 이용한다.**
        - `df[df.columns[:3]]`

#### slicing

In [19]:
# 한번에 여러 컬럼의 값을 조회할 경우 => Fancy indexing: 조회할 컬럼들을 리스트로 묶어서 전달
#   => DataFrame으로 반환
cols = ['국어', '수학']
grade[cols]

Unnamed: 0_level_0,국어,수학
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,80
id-2,50,50
id-3,70,90
id-4,90,100
id-5,85,100


In [21]:
grade[['합계', '평균', 'pass']]

Unnamed: 0_level_0,합계,평균,pass
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
id-1,310,77.5,True
id-2,240,60.0,False
id-3,310,77.5,True
id-4,310,77.5,True
id-5,291,72.75,False


### 다양한 열선택 기능을 제공하는 메소드들
- `select_dtypes(include=[데이터타입,..], exclude=[데이터타입,..])`
    - 전달한 데이터 타입의 열들을 조회. 
    - include : 조회할 열 데이터 타입
    - exclude : 제외하고 조회할 열 데이터 타입
- `filter (items=[], like='', regex='')`
   - 매개변수에 전달하는 열의 이름에 따라 조회
    - 각 매개변수중 하나만 사용할 수 있다.
    - items = [ ] 
        - 리스트와 일치하는 열들 조회
        - 이름이 일치 하지 않아도 Error 발생안함.
    - like = “ “ 
        - 전달한 문자열이 들어간 열들 조회
        - 부분일치 개념
    - regex = “ ”
        - 정규 표현식을 이용해 열명의 패턴으로 조회

#### select_dtypes

In [22]:
grade.select_dtypes(include=['float64','int64']) # float64, int64 타입의 컬럼만 조회

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
id-1,100,80,50,80,310,77.5
id-2,50,50,50,90,240,60.0
id-3,70,90,50,100,310,77.5
id-4,90,100,50,70,310,77.5
id-5,85,100,50,56,291,72.75


In [23]:
grade.select_dtypes(exclude=['float64','int64']) # float64, int64 타입의 컬럼을 제외 조회

Unnamed: 0_level_0,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,True,합격
id-2,False,불합격
id-3,True,합격
id-4,True,합격
id-5,False,불합격


#### filter(items=[ ])

In [25]:
grade.filter(items=['국어', '지리', '평균'])  #없는 컬럼은 제외하고 조회 (exception 발생시키지 않는다.)

Unnamed: 0_level_0,국어,평균
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,77.5
id-2,50,60.0
id-3,70,77.5
id-4,90,77.5
id-5,85,72.75


#### filter(like=' ')

In [24]:
grade.filter(like='국어') # 컬럼명에 '국어'가 들어가는 컬럼들을 모두 조회

Unnamed: 0_level_0,국어
id,Unnamed: 1_level_1
id-1,100
id-2,50
id-3,70
id-4,90
id-5,85


#### filter(regex=' ')

In [26]:
grade.filter(regex=r"\w+II$")   #II로 끝나는 컬럼을 조회

id-1
id-2
id-3
id-4
id-5


## 행 조회

- **loc** :  index 이름으로 조회
- **iloc** : 행 순번으로 조회
### loc : 행 이름으로 조회
- `DF.loc[ index이름 ]`
    - 한 행 조회.
    - 조회할 행 index 이름(레이블) 전달
    - 이름이 문자열이면 " " 문자열표기법으로 전달. 정수이며 정수표기법으로 전달한다.
- `DF.loc[ index이름 리스트 ]`
    - 여러 행 조회. 
    - 팬시 인덱스
    - 조회할 행 index 이름(레이블) 리스트 전달
- `DF.loc[start index이름 : end index이름: step]`
    - 슬라이싱 지원
    - end index 이름의 행까지 포함한다.
- `DF.loc[index이름 , 컬럼이름]`
    - 행과 열 조회
    - 둘다 이름으로 지정해야 함.

#### loc

In [27]:
# id-3 행을 조회 - 한행조회 - Series로 반환 (index명: 컬럼명)
grade.loc['id-3']

국어         70
수학         90
영어         50
과학        100
합계        310
평균       77.5
pass     True
pass2      합격
Name: id-3, dtype: object

In [28]:
# id-3, id-5 - 여러행 조회 - DataFrame으로 반환
result = grade.loc[['id-3', 'id-5']]
result

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-3,70,90,50,100,310,77.5,True,합격
id-5,85,100,50,56,291,72.75,False,불합격


In [29]:
# slicing : loc indexer 는 end index가 포함
grade.loc['id-2':'id-4']

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-2,50,50,50,90,240,60.0,False,불합격
id-3,70,90,50,100,310,77.5,True,합격
id-4,90,100,50,70,310,77.5,True,합격


#### df.loc[ 행  ,  열 ]

In [31]:
grade.loc['id-4', ['수학', '과학']]

수학    100
과학     70
Name: id-4, dtype: object

In [32]:
grade.loc['id-2', '국어':'과학'] # 행, 열을 loc으로 같이 조회할 경우 열에 slicing을 할 수있다.

국어    50
수학    50
영어    50
과학    90
Name: id-2, dtype: object

### iloc : 행 순번으로 조회
- `DF.iloc[행번호]`
    - 한 행 조회.
    - 조회할 행 번호 전달
- `DF.iloc[ 행번호 리스트 ]`
    - 여러 행 조회.
    - 조회할 행 번호 리스트 전달
- `DF.iloc[start 행번호: stop 행번호: step]`
    - 슬라이싱 지원
    - stop 행번호 포함 안함.
- `DF.loc[행번호 , 열번호]`  
    - 행과 열 조회
    - 행열 모두 순번으로 지정

#### iloc

In [33]:
# 0번 행을 조회
grade.iloc[0]

국어        100
수학         80
영어         50
과학         80
합계        310
평균       77.5
pass     True
pass2      합격
Name: id-1, dtype: object

In [34]:
# slicing - iloc indexer의 경우 end index는 포함하지 않는다.
grade.iloc[1:4]

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-2,50,50,50,90,240,60.0,False,불합격
id-3,70,90,50,100,310,77.5,True,합격
id-4,90,100,50,70,310,77.5,True,합격


In [35]:
# 행, 열 지정해서 조회
# 행, 열 모두 순번으로 지정(이름을 주면 안된다.)
# id-2 의 과학점수?
grade.iloc[1, 3] # 1번행의 3번컬럼

90

## Boolean indexing을 이용한 조회
- 행, 열에 조건식을 이용해 원하는 조건의 행이나 열을 조회
- 다중 조건의 경우 ( )로 묶는다.
- 논리연산자
    - &, |, ~

- DataFrame객체[조건], DataFrame객체.loc[조건]
    - 조건이 True인 행만 조회
    - 열까지 선택시
        - DataFrame객체[조건][열]
        - DataFrame객체.loc[조건, 열]
- **iloc[]**은 boolean indexing을 **지원하지 않는다.**

In [36]:
# 국어점수가 70점 이상인 행
grade[grade['국어'] >= 70]   # True 인 행을 조회

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-1,100,80,50,80,310,77.5,True,합격
id-3,70,90,50,100,310,77.5,True,합격
id-4,90,100,50,70,310,77.5,True,합격
id-5,85,100,50,56,291,72.75,False,불합격


In [37]:
# 국어점수가 70점 이상인 행의 '국어', '평균'
grade[grade['국어'] >= 70][['국어', '평균']]

Unnamed: 0_level_0,국어,평균
id,Unnamed: 1_level_1,Unnamed: 2_level_1
id-1,100,77.5
id-3,70,77.5
id-4,90,77.5
id-5,85,72.75


#### & (AND)

In [38]:
# 수학 100점이고 과학은 60점 이상 (둘다 True 행을 조회 => and)
grade[(grade['수학'] == 100) & (grade['과학'] >= 60)]

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-4,90,100,50,70,310,77.5,True,합격


#### | (OR)

In [39]:
# 수학이 100점 또는 pass2 불합격(pass=False) (둘중에 하나이상이 True) 
grade.loc[(grade['수학'] == 100)  | (grade['pass2'] == '불합격')]

Unnamed: 0_level_0,국어,수학,영어,과학,합계,평균,pass,pass2
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
id-2,50,50,50,90,240,60.0,False,불합격
id-4,90,100,50,70,310,77.5,True,합격
id-5,85,100,50,56,291,72.75,False,불합격


#### ~ (not)

In [40]:
# 수학이 100점이 아닌 행
grade.loc[~(grade['수학'] == 100), '수학']

id
id-1    80
id-2    50
id-3    90
Name: 수학, dtype: int64

## query() 를 이용한 boolean indexing
- query(조회조건)
    - sql의 where 절의 조건 처럼 문자열의 query statement를 이용해 조건으로 조회
    - boolean index에 비해 
        - 장점: 편의성(문자열로 query statement를 만들므로 동적 구문 생성등 다양한 처리가 가능)과 가독성이 좋다.
        - 단점: 속도가 느리다.
- 조회조건 구문
    - `"컬럼명 연산자 비교값"`
- 외부변수를 이용해 query문의 비교값을 지정할 수 있다.
    - query 문자열 안에서 @변수명 사용
    - f string이나 format() 함수를 이용해 query를 만든다.

### 연산자 
- **비교 연산자**
    - ==, \>, \>=, \<, \<=, !=
- **결측치 비교**
    - 컬럼.isna(), isnull()
    - 컬럼.notna(), notnull()       
- **논리 연산자**
    - and(&), or(|), not(~)
- **in 연산자**
    - in, ==
    - not in, !=
    - 비교 대상값은 리스트에 넣는다.
- **Index name으로 검색**
    - 행 이름으로 검색
- **문자열 부분검색(sql의 like)**
    - 컬럼명.str.contains(문자열): 문자열을 포함하고 있는 
    - 컬럼명.str.startswith(문자열): 문자열로 시작하는
    - 컬럼명.str.endswith(문자열): 문자열로 끝나는
    - **문자열 부분검색을 할 컬럼에 결측치(NaN)이 있으면 안된다.**


In [41]:
data_dict={
    'name':['김영수','박영희','홍길동','김영수','이순신','박영희','강감찬'],
    'age': [23,17,31,28,40,35,27],
    'tall':[182.3,178.2,162.3,None,201.2,171.2,169.3]
}
df = pd.DataFrame(data_dict)
df

Unnamed: 0,name,age,tall
0,김영수,23,182.3
1,박영희,17,178.2
2,홍길동,31,162.3
3,김영수,28,
4,이순신,40,201.2
5,박영희,35,171.2
6,강감찬,27,169.3


#### 비교연산

In [42]:
df.query('age==31')

Unnamed: 0,name,age,tall
2,홍길동,31,162.3


In [43]:
# 결측치 조회 - Series의 메소드 사용
df.query('tall.isnull()')

Unnamed: 0,name,age,tall
3,김영수,28,


#### 논리연산

In [44]:
df.query('age > 20 and tall > 180')

Unnamed: 0,name,age,tall
0,김영수,23,182.3
4,이순신,40,201.2


In [45]:
df.query('~(tall < 190)')

Unnamed: 0,name,age,tall
3,김영수,28,
4,이순신,40,201.2


In [46]:
# 문자열 부분일치
# 특정 문자열로 시작
df.query("name.str.startswith('김')")

Unnamed: 0,name,age,tall
0,김영수,23,182.3
3,김영수,28,


#### in

In [47]:
df.query("name in ['홍길동','이순신','강감찬']")

Unnamed: 0,name,age,tall
2,홍길동,31,162.3
4,이순신,40,201.2
6,강감찬,27,169.3


#### index명으로 조회
- 컬럼명 대신에 index 키워드

In [48]:
df.query("index > 3")  # 크기 비교시 정렬후에 처리

Unnamed: 0,name,age,tall
4,이순신,40,201.2
5,박영희,35,171.2
6,강감찬,27,169.3
