# DataFrame 확인하기
## #01. 준비과정
### [1] 패키지 참조

In [3]:
from pandas import read_excel

### [2] 데이터 준비

In [4]:
df = read_excel("https://data.hossam.kr/pydata/grade.xlsx", index_col = "이름")
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


## #02. 데이터 구조 확인
### [1] 데이터의 차원 확인

In [5]:
df.ndim

2

### [2] 데이터의 행, 열 확인

In [6]:
df.shape

(9, 6)

### [3] 각 변수의 데이터 타입 확인

In [7]:
df.dtypes

학년     int64
성별    object
국어     int64
영어     int64
수학     int64
과학     int64
dtype: object

### [4] 상세 정보 확인

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 철수 to 석영
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   학년      9 non-null      int64 
 1   성별      9 non-null      object
 2   국어      9 non-null      int64 
 3   영어      9 non-null      int64 
 4   수학      9 non-null      int64 
 5   과학      9 non-null      int64 
dtypes: int64(5), object(1)
memory usage: 504.0+ bytes


## #03. 데이터 내용 확인

### [1] 열조회

#### (1) 특정 열의 데이터 확인

In [9]:
df['국어']

이름
철수    98
영희    88
민철    92
수현    63
호영    75
영호    80
용식    82
나영    90
석영    91
Name: 국어, dtype: int64

#### (1) 특정 열에 대한 데이터 타입 확인

In [10]:
type(df['국어'])

pandas.core.series.Series

### [2] 행 조회

- 'loc'     : location(이름기반 접근)
- 'iloc'    : index-location (인덱스 번호 기반)

#### (1) 이름을 기반으로 특정 행에 대한 데이터 확인

#### 특정 행에 대한 데이터 확인

In [11]:
df.loc['철수']

학년     1
성별    남자
국어    98
영어    77
수학    88
과학    64
Name: 철수, dtype: object

#### 특정 행에 대한 데이터 타입 확인

In [12]:
type(df.loc['철수'])

pandas.core.series.Series

#### (2) 인덱스를 기반으로 특정 행에 접근

##### 인덱싱

0번째 행만 가져오기

In [13]:
df.iloc[0]

학년     1
성별    남자
국어    98
영어    77
수학    88
과학    64
Name: 철수, dtype: object

##### 슬라이싱

`1~4`번째 전까지 행만 가져오기

In [21]:
df.iloc[1:4]

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71


### [3] 단일 값 확인하기
#### (1) 열 -> 행 순서

In [14]:
df['국어']['철수']

98

#### (2) 행 -> 열 순서

##### 인덱스 이름 기반 접근

In [15]:
df.loc['철수','국어']
# 대신, 조금 특이한 형태로... 조회

98

##### 인덱스 번호 기반 접근

1번째 행의 2번째 열 데이터

In [22]:
# 1번째 행의 2번째 열 데이터
df.iloc[1, 2]

88

In [23]:
# 모든 행에서 3번째 열만 가져옴
df.iloc[:,3]

이름
철수     77
영희    120
민철     70
수현     60
호영     50
영호     88
용식     88
나영     92
석영     90
Name: 영어, dtype: int64

### [4] 값의 변경

행 -> 열 순으로 접근하는 경우만 가능함

In [16]:
df.loc['철수', '국어']= 100
df

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,100,77,88,64
영희,2,여자,88,120,62,72
민철,1,남자,92,70,83,79
수현,3,여자,63,60,31,71
호영,4,남자,75,50,90,88
영호,4,남자,80,88,91,72
용식,2,남자,82,88,79,90
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


### [5] 데이터 일부만 확인

실제로 다루게 되는 데이터 프레임은 수십만개의 행을 갖고 있을 수 있다.

이 경우, 한번에 출력할 수 없기 때문에 데이터의 일부만 출력하여 데이터의 형태를 가늠해야 한다.

#### (1) 상위 n건 확인

파라미터가 없을 경우 5개가 기본값

In [17]:
df.head(2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,100,77,88,64
영희,2,여자,88,120,62,72


#### (2) 하위 n건 확인

파라미터가 없을 경우 5개가 기본 값

In [18]:
df.tail(2)

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
나영,1,여자,90,92,81,95
석영,1,남자,91,90,89,80


### [5] 데이터 빈도수 확인

#### (1) 데이터프레임 전체에 대한 빈도수

In [19]:
df.value_counts()

학년  성별  국어   영어   수학  과학
1   남자  91   90   89  80    1
        92   70   83  79    1
        100  77   88  64    1
    여자  90   92   81  95    1
2   남자  82   88   79  90    1
    여자  88   120  62  72    1
3   여자  63   60   31  71    1
4   남자  75   50   90  88    1
        80   88   91  72    1
Name: count, dtype: int64

#### (2) 특정 열에 대한 빈도수

In [20]:
df['성별'].value_counts()

성별
남자    6
여자    3
Name: count, dtype: int64