In [1]:
import warnings
warnings.filterwarnings('ignore')
import numpy as np
import pandas as pd

데이터 분석을 위해 데이터를 불러온다. => 불러온 데이터를 데이터 집합(set)이라고 한다.

In [2]:
# read_csv() 함수로 데이터 집합을 불러와서 데이터프레임으로 리턴한다.
# read_csv() 함수는 ','로 구분된 데이터를 불러오기 때문에 탭으로 구분된 갭마인더 데이터는 sep='\t' 옵션을 사용해서 불러온다.
gapminder_df = pd.read_csv('./data/gapminder.tsv', sep='\t')
print(type(gapminder_df)) # <class 'pandas.core.frame.DataFrame'>
print(gapminder_df)

<class 'pandas.core.frame.DataFrame'>
          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


In [3]:
# head() 함수는 데이터 프레임 앞쪽 데이터를 지정한 인수 개만큼 출력한다. 기본값은 5
gapminder_df.head(12)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
5,Afghanistan,Asia,1977,38.438,14880372,786.11336
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351


In [4]:
# tail() 함수는 데이터 프레임 뒤쪽 데이터를 지정한 인수 개만큼 출력한다. 기본값은 5
gapminder_df.tail(12)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1692,Zimbabwe,Africa,1952,48.451,3080907,406.884115
1693,Zimbabwe,Africa,1957,50.469,3646340,518.764268
1694,Zimbabwe,Africa,1962,52.358,4277736,527.272182
1695,Zimbabwe,Africa,1967,53.995,4995432,569.795071
1696,Zimbabwe,Africa,1972,55.635,5861135,799.362176
1697,Zimbabwe,Africa,1977,57.674,6642107,685.587682
1698,Zimbabwe,Africa,1982,60.363,7636524,788.855041
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996


In [5]:
# shape 속성은 데이터 프레임에 저장된 데이터의 행과 열의 크기 정보를 저장하고 있다.
print(gapminder_df.shape)
print(gapminder_df.shape[0]) # 데이터 프래임의 행(세로)의 개수
print(gapminder_df.shape[1]) # 데이터 프래임의 열(가로)의 개수

# columns 속성은 데이터 프레임의 열 이름을 저장하고 있다.
print(gapminder_df.columns)
# country: 국가, continent: 대륙, year: 년도, lifeExp: 평균수명, pop: 인구수, gdpPercap: gdp

(1704, 6)
1704
6
Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')


In [6]:
# dtypes 속성은 데이터 프레임을 구성하고 있는 데이터의 자료형을 확인할 수 있다. object=> 문자열
print(gapminder_df.dtypes)

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object


In [7]:
# info() 함수를 사용하면 dtypes를 사용한 것 보다 좀 더 자세한 내용을 확인할 수 있다.
print(gapminder_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None


열 단위 데이터 추출하기

In [8]:
# 데이터 프레임에서 추출하려면 대괄호와 열 이름을 사용하며 추출한 열은 변수에 저장해서 사용한다.
# 1개의 열만 추출하면 시리즈를 얻을 수 있다.
country_df = gapminder_df['country'] # 데이터 프레임에서 1개의 열만 얻어오려면 열 이름만 사용하면 된다.
print(type(country_df)) # <class 'pandas.core.series.Series'>

# get() 메소드의 인수로 열 이름을 지정하면 1개의 열을 얻어올 수 있다.
lifeExp_df = gapminder_df.get('lifeExp')
print(type(lifeExp_df)) # <class 'pandas.core.series.Series'>
print(lifeExp_df.min())

country_df = gapminder_df.country # 1개의 열만 얻어올 경우 데이터프레임 이름 뒤에 '.'을 찍고 열 이름만 적어주면 된다.
print(type(country_df))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
23.599
<class 'pandas.core.series.Series'>


In [9]:
# 2개 이상의 열을 추출하면 데이터 프레임을 얻을 수 있다.
# 데이터프레임에서 1개의 열만 얻어오려면 []안에 열 이름만 적어주면 되지만,
#    2개 이상의 열을 얻어오려면 []안에 반드시 리스트 형태로 열 이름을 적어줘야 한다.
subset_df = gapminder_df[['country', 'continent']]
print(type(subset_df)) # <class 'pandas.core.frame.DataFrame'>

subset_df = gapminder_df.get(['country', 'continent'])
print(type(subset_df)) # <class 'pandas.core.frame.DataFrame'>

# subset_df = gapminder_df.['country', 'continent'] # 에러, 1개의 열만 얻어올 때 사용해야 한다.
subset_df

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,country,continent
0,Afghanistan,Asia
1,Afghanistan,Asia
2,Afghanistan,Asia
3,Afghanistan,Asia
4,Afghanistan,Asia
...,...,...
1699,Zimbabwe,Africa
1700,Zimbabwe,Africa
1701,Zimbabwe,Africa
1702,Zimbabwe,Africa
