# 데이터를 파악할 때 사용하는 명령어

데이터를 파악할 때는 기본적으로 다음과 여섯 가지 명령어를 사용한다.

|함수|기능|
|-------|------|
|head()|앞부분 출력|
|tail()|뒷부분 출력|
|shape|행, 열 개수 출력|
|info()|변수 속성 출력|
describe()|요약 통계량 출력|

In [2]:
import pandas as pd
exam = pd.read_csv('csv_exam.csv')

In [3]:
exam.head()

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


head() - 데이터 앞부분 확인하기

In [4]:
exam.head(10) #앞에서부터 10행까지 출력

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


tail() - 데이터 뒷부분 확인하기

In [5]:
exam.tail() #뒤에서부터 5행까지 출력

Unnamed: 0,id,class,math,english,science
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [6]:
exam.tail(10) # 뒤에서부터 10행까지 출력

Unnamed: 0,id,class,math,english,science
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


shape - 데이터가 몇 행, 몇 열로 구성되었는지 알아보기

In [7]:
exam.shape

(20, 5)

shape는 함수가 아니라 데이터 프레임이 가지고 있는 속성인 어트리뷰트이다. 어트리뷰트를 출력할 때는 명령어 뒤에 괄호를 입력하지 않으니 주의해야 한다.

info() - 변수 속성 파악하기

In [8]:
exam.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   class    20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes


describe() - 요약 통계량 구하기

In [9]:
exam.describe()

Unnamed: 0,id,class,math,english,science
count,20.0,20.0,20.0,20.0,20.0
mean,10.5,3.0,57.45,84.9,59.45
std,5.91608,1.450953,20.299015,12.875517,25.292968
min,1.0,1.0,20.0,56.0,12.0
25%,5.75,2.0,45.75,78.0,45.0
50%,10.5,3.0,54.0,86.5,62.5
75%,15.25,4.0,75.75,98.0,78.0
max,20.0,5.0,90.0,98.0,98.0


|출력값|통계량|설명|
|-----|-----|------|
|count|빈도|값의 개수|
|mean|평균|모든 값을 더해 값의 개수로 나눈 값|
|std|표준편차|변수의 값들이 평균에서 떨어진 정도를 나타낸 값|
|min|최소값|가장 작은 값|
|25%|1사분위수|하위 25% 지점에 위치한 값|
|50%|중앙값|하위 50% 지점에 위치한 값|
|75%|3사분위수|하위 75% 지점에 위치한 값|
|max|최대값|가장 큰 값|

In [11]:
# mpg 데이터 불러오기
mpg = pd.read_csv('mpg.csv')

In [12]:
mpg.head() # mpg 앞부분 확인

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
0,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
3,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
4,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact


In [13]:
mpg.tail() # mpg 뒷부분 확인

Unnamed: 0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,category
229,volkswagen,passat,2.0,2008,4,auto(s6),f,19,28,p,midsize
230,volkswagen,passat,2.0,2008,4,manual(m6),f,21,29,p,midsize
231,volkswagen,passat,2.8,1999,6,auto(l5),f,16,26,p,midsize
232,volkswagen,passat,2.8,1999,6,manual(m5),f,18,26,p,midsize
233,volkswagen,passat,3.6,2008,6,auto(s6),f,17,26,p,midsize


In [15]:
mpg.shape # 행, 열 출력

(234, 11)

In [16]:
mpg.info() # 데이터 속성 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB


In [17]:
mpg.describe() # 요약 통계량 출력

Unnamed: 0,displ,year,cyl,cty,hwy
count,234.0,234.0,234.0,234.0,234.0
mean,3.471795,2003.5,5.888889,16.858974,23.440171
std,1.291959,4.509646,1.611534,4.255946,5.954643
min,1.6,1999.0,4.0,9.0,12.0
25%,2.4,1999.0,4.0,14.0,18.0
50%,3.3,2003.5,6.0,17.0,24.0
75%,4.6,2008.0,8.0,19.0,27.0
max,7.0,2008.0,8.0,35.0,44.0


# 1. 내장 함수
내장 함수는 가장 기본적인 함수 형태로, 함수 이름과 괄호를 입력하여 사용한다. 파이썬에 내장되어 있으므로 별도로 패키지를 설치하거나 불러오지 않고 사용한다.

sum(var)
max(var)

# 2. 패키지 함수
패키지 함수는 패키지 이름을 먼저 입력한 다음 점을 찍고 함수 이름과 괄홀르 입력하여 사용한다. 패키지 함수는 패키지를 로드해야 사용할 수 있다.

In [20]:
import pandas as pd
pd.read_csv('csv_exam.csv')
pd.DataFrame({'x' : [1, 2, 3]})

Unnamed: 0,x
0,1
1,2
2,3


# 3. 메서드
메서드는 '변수가 지니고 있는 함수'이다. 메서드는 변수명을 입력한 다음 점을 찍고 메서드 이름과 괄호를 입력하여 사용한다.

In [21]:
df.head()
df.info()

NameError: name 'df' is not defined

In [22]:
df = pd.read_csv('csv_exam.csv')
df.head()

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [23]:
var = [1,2,3]
var.head()

AttributeError: 'list' object has no attribute 'head'

In [24]:
type(df)

pandas.core.frame.DataFrame

In [25]:
type(var)

list

어트리뷰트는 '변수가 지니고 있는 값'이다. 어트리뷰트를 출력하려면 변수명 뒤에 점을 찍고 어트리뷰트 이름을 입력하면 된다. 어트리뷰트는 메서드와 마찬가지로 변수가 지니고 있으므로 변수명 뒤에 점을 찍고 입력한다. 반면, 메서드와는 달리 괄호는 입력하지 않는다. 괄호가 있으면 메서드, 없으면 어트리뷰트라고 생각하면 된다.

In [26]:
df.head() #메서드

Unnamed: 0,id,class,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


In [27]:
df.shape #어트리뷰트

(20, 5)

변수의 자료 구조에 따라 지니고 있는 어트리뷰트가 다르다. 예를 들어 shape는 자료 구조가 데이터 프레임의 변수가 지니고 있는 어트리뷰트이다. 따라서 다음 코드의 출력 결과를 보면 자료 구조가 데이터 프레임인 df에는 사용할 수 있지만 리스트인 var에는 사용할 수가 없다.

In [28]:
var.shape

AttributeError: 'list' object has no attribute 'shape'