# 데이터 미리보기

## 가장 앞의 n행 보기
* 데이터프레임.head(n)
* 시리즈.head(n)
* n을 생략하면 5개의 행을 출력한다

In [6]:
import pandas as pd

df = pd.read_csv('../data/scores.csv')

df.index = range(10, 310, 10)
df.index = 'index' + df.index.astype('str')

df.head(3)

Unnamed: 0,name,kor,eng,math
index10,Aiden,100.0,90.0,95.0
index20,Charles,90.0,80.0,75.0
index30,Danial,95.0,100.0,100.0


## 가장 뒤의 n행 보기
* 데이터프레임.tail(n)
* n을 생략하면 5개의 행을 출력한다

In [4]:
df.tail(2)

Unnamed: 0,name,kor,eng,math
28,Winnie,70.0,100.0,70.0
29,Zuly,80.0,90.0,95.0


## 랜덤 보기

### 랜덤 n개 데이터 보기
* 데이터프레임.sample(n)
* n을 생략하면 1개의 샘플을 출력한다.

In [5]:
df.sample(2)

Unnamed: 0,name,kor,eng,math
18,Jennifer,80.0,55.0,80.0
17,Emma,70.0,65.0,70.0


### 랜덤 샘플 비율로 보기
* 데이터프레임.sample(frac=0.2)
* 지정한 비율의 샘플을 출력한다

In [6]:
# frac 을 사용 하면 전체 row 데이터에서 몇 % 의 데이터를 샘플로 출력할건지 정해준다.
df.sample(frac = 0.3)

Unnamed: 0,name,kor,eng,math
16,Ellen,,60.0,
27,Vikkie,,50.0,100.0
28,Winnie,70.0,100.0,70.0
11,Oliver,70.0,75.0,65.0
18,Jennifer,80.0,55.0,80.0
19,Kate,50.0,,50.0
10,Leo,90.0,95.0,70.0
15,Danna,100.0,100.0,100.0
21,Olivia,90.0,70.0,90.0


## 높은 순/낮은순 보기

### 높은순 보기
* 데이터프레임.nlargest(갯수,컬럼명)
* 컬럼의 데이터가 숫자형일 때 사용할 수 있다.

In [10]:
# eng 높은 순으로 5개 보기
# 갯수와 컬럼명은 필수 Argument 이다
df.nlargest(5, 'kor')

Unnamed: 0,name,kor,eng,math
0,Aiden,100.0,90.0,95.0
3,Evan,100.0,100.0,100.0
9,Kevin,100.0,100.0,90.0
12,Peter,100.0,95.0,100.0
15,Danna,100.0,100.0,100.0


### 낮은순 보기
* 데이터프레임.nsmallest(갯수,컬럼명)
* 컬럼의 데이터가 숫자형일 때 사용할 수 있다.

In [11]:
# eng 낮은 순으로 5개 보기
df.nsmallest(8, 'math')

Unnamed: 0,name,kor,eng,math
19,Kate,50.0,,50.0
7,Julian,80.0,90.0,55.0
4,Henry,,35.0,60.0
6,James,70.0,75.0,65.0
11,Oliver,70.0,75.0,65.0
10,Leo,90.0,95.0,70.0
17,Emma,70.0,65.0,70.0
22,Rose,70.0,65.0,70.0


# 데이터 요약 보기

## (행,열)의 크기 보기
* 데이터프레임.shape

In [12]:
# (row, column) 순서
df.shape

(30, 4)

## 데이터의 갯수 보기
* len(데이터프레임)

In [13]:
len(df)

30

## 컬럼명 보기
* 데이터프레임.columns
* 데이터프레임의 열 이름을 확인한다.

In [14]:
df.columns

Index(['name', 'kor', 'eng', 'math'], dtype='object')

## 인덱스 보기
* 데이터프레임.index
* 데이터프레임의 인덱스를 확인한다.

In [15]:
df.index

RangeIndex(start=0, stop=30, step=1)

## 데이터의 자료형 보기
* 데이터프레임.dtypes
* 데이터프레임을 구성하는 값의 자료형을 확인한다.
* 판다스에서는 문자열의 데이터타입이 object이다.

In [16]:
df.dtypes

name     object
kor     float64
eng     float64
math    float64
dtype: object

## 데이터프레임 정보 보기
* 데이터프레임.info()
* 데이터프레임의 총 샘플 갯수, 컬럼 수, 컬럼 별 정보 등을 확인한다.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    30 non-null     object 
 1   kor     27 non-null     float64
 2   eng     28 non-null     float64
 3   math    29 non-null     float64
dtypes: float64(3), object(1)
memory usage: 1.1+ KB


## 컬럼의 유니크한 데이터 뽑기
* 컬럼.unique()

## 컬럼의 유니크한 값의 갯수 보기
* 컬럼.**value_counts()**

## 요약통계 보기

In [None]:
df['kor'].mean()