# 데이터 내용 파악

- head()
    - 데이터 프레임의 앞부분 일부 내용 출력
    - 데이터셋의 내용과 구조를 계략적으로 살펴볼 수 있기 때문에 분석 방향을 정하는데 필요한 정보를 얻을 수 있음
    - 데이터프레임이 너무 커서 한 화면에 출력하기 어려울 때 사용하기도 함
    - 인자로 정수 n을 전달하면 처음 n개 행을 출력
        - 기본값 : 5
        
- tall()
    - 데이터프레임의 마지막 부분 일부 출력

In [1]:
import pandas as pd

In [4]:
df = pd.read_csv("./data/gapminder.tsv", sep = "\t")

In [5]:
# 처음 5개 행 확인
df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106


In [6]:
# 처음 2개 행 확인
df.head(2)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303


In [7]:
# 마지막 5개 행
df.tail()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [9]:
# 마지막 10개 행 확인
df.tail(10)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1694,Zimbabwe,Africa,1962,52.358,4277736,527.272182
1695,Zimbabwe,Africa,1967,53.995,4995432,569.795071
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [10]:
df.tail(50)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1654,Vietnam,Asia,2002,73.017,80908147,1764.456677
1655,Vietnam,Asia,2007,74.249,85262356,2441.576404
1656,West Bank and Gaza,Asia,1952,43.16,1030585,1515.592329
1657,West Bank and Gaza,Asia,1957,45.671,1070439,1827.067742
1658,West Bank and Gaza,Asia,1962,48.127,1133134,2198.956312
1659,West Bank and Gaza,Asia,1967,51.631,1142636,2649.715007
1660,West Bank and Gaza,Asia,1972,56.532,1089572,3133.409277
1661,West Bank and Gaza,Asia,1977,60.765,1261091,3682.831494
1662,West Bank and Gaza,Asia,1982,64.406,1425876,4336.032082
1663,West Bank and Gaza,Asia,1987,67.046,1691210,5107.197384


# 데이터 요약 정보 확인

## 데이터프레임의 크기 (행, 열)

- shape 속성
    - 행과 열의 개수를 튜플 형태로 반환

In [11]:
# df의 모양과 크기 확인
# (god, duf)
df.shape

(1704, 6)

## 데이터프레임의 기본 정보

- info()
    - 데이터프레임의 기본 정보를 출력
        - 클래스 유형
        - 행 인덱스의 구성
        - 열 이름의 종류와 개수
        - 각 열의 자료형과 개수
        - 메모리 할당량

In [12]:
# df의 기본 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


In [13]:
# df의 자료형 확인
df.dtypes

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

In [15]:
# 특정 시리즈의 자료형 확인
df["pop"].dtypes

dtype('int64')

## 데이터프레임의 기술 통계 정보 요약

- describe()
    - 수치형 데이터를 갖는 열에 대한 주요 기술 통계 정보를 요약하여 출력
        - 평균
        - 표준편차
        - 최댓값
        - 최소값
        - 중앙값
        
    - 수치형 데이터가 아닌 열에 대한 정보를 포함하고 싶으면 include = "all" 옵션을 추가
    

In [16]:
# df의 기술통계 정보 확인
df.describe()

Unnamed: 0,year,lifeExp,pop,gdpPercap
count,1704.0,1704.0,1704.0,1704.0
mean,1979.5,59.474439,29601210.0,7215.327081
std,17.26533,12.917107,106157900.0,9857.454543
min,1952.0,23.599,60011.0,241.165876
25%,1965.75,48.198,2793664.0,1202.060309
50%,1979.5,60.7125,7023596.0,3531.846988
75%,1993.25,70.8455,19585220.0,9325.462346
max,2007.0,82.603,1318683000.0,113523.1329


In [17]:
df.describe(include = "all")

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
count,1704,1704,1704.0,1704.0,1704.0,1704.0
unique,142,5,,,,
top,Afghanistan,Africa,,,,
freq,12,624,,,,
mean,,,1979.5,59.474439,29601210.0,7215.327081
std,,,17.26533,12.917107,106157900.0,9857.454543
min,,,1952.0,23.599,60011.0,241.165876
25%,,,1965.75,48.198,2793664.0,1202.060309
50%,,,1979.5,60.7125,7023596.0,3531.846988
75%,,,1993.25,70.8455,19585220.0,9325.462346


## 데이터 개수 확인

### 각 열의 데이터 개수

- info() 메서드는 각 열의 데이터 개수 정보를 출력하지만 반환값이 없어 재사용이 어려움

- count()
    - 데이터프레임의 각 열이 가지고 있는 데이터 개수를 시리즈 객체로 반환
    - 유효한 값의 개수만을 계산
    

In [18]:
# df 각 열이 가지고 있는 원소 개수 확인
df.count()

country      1704
continent    1704
year         1704
lifeExp      1704
pop          1704
gdpPercap    1704
dtype: int64

In [19]:
# df.count()가 반환하는 객체 타입 출력
type(df.count())

pandas.core.series.Series

### 각 열의 고유값 개수

- value_counts()
    - 시리즈 객체의 고유값의 종류와 개수를 확인
    - 고유값이 행 인덱스, 고유값의 개수가 데이터 값이 되는 시리즈 객체
    
    - dropna = True 옵션
        - 데이터 값 중에서 NaN을 제외하고 개수를 계산
        - 기본값
        
    - dropna = False 옵션
        - NaN이 포함

In [21]:
# 데이터프레임 df의 특정 열이 가지고 있는 고유값 확인
unique_values = df["country"].value_counts()

In [22]:
unique_values

country
Afghanistan          12
Pakistan             12
New Zealand          12
Nicaragua            12
Niger                12
                     ..
Eritrea              12
Equatorial Guinea    12
El Salvador          12
Egypt                12
Zimbabwe             12
Name: count, Length: 142, dtype: int64

In [23]:
# value_counts 메서드가 반환하는 객체 타입 출력
type(unique_values)

pandas.core.series.Series