In [15]:
# data > gapminder.tsv 파일로부터 데이터를 불러와서 EDA 방식으로 데이터 살펴보기

# Pandas 불러오기
import pandas as pd

# gapminder.tsv 불러오기
df = pd.read_csv("./data/gapminder.tsv", sep="\t") # 탭 구분자로 데이터 불러오기
df

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.853030
2,Afghanistan,Asia,1962,31.997,10267083,853.100710
3,Afghanistan,Asia,1967,34.020,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.449960
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623


In [16]:
# 앞쪽 데이터 생김새 확인
# df.head() # 기본적으로 5개 데이터를 출력
# df.head(10) # 지정된 갯수만큼 출력할때 
df.head(n=10)

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
0,Afghanistan,Asia,1952,28.801,8425333,779.445314
1,Afghanistan,Asia,1957,30.332,9240934,820.85303
2,Afghanistan,Asia,1962,31.997,10267083,853.10071
3,Afghanistan,Asia,1967,34.02,11537966,836.197138
4,Afghanistan,Asia,1972,36.088,13079460,739.981106
5,Afghanistan,Asia,1977,38.438,14880372,786.11336
6,Afghanistan,Asia,1982,39.854,12881816,978.011439
7,Afghanistan,Asia,1987,40.822,13867957,852.395945
8,Afghanistan,Asia,1992,41.674,16317921,649.341395
9,Afghanistan,Asia,1997,41.763,22227415,635.341351


In [17]:
# 뒤쪽 데이터 생김새 확인
df.tail()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap
1699,Zimbabwe,Africa,1987,62.351,9216418,706.157306
1700,Zimbabwe,Africa,1992,60.377,10704340,693.420786
1701,Zimbabwe,Africa,1997,46.809,11404948,792.44996
1702,Zimbabwe,Africa,2002,39.989,11926563,672.038623
1703,Zimbabwe,Africa,2007,43.487,12311143,469.709298


In [18]:
# 데이터 타입 확인
print(type(df))
# DataFrame -> pandas의 기본 데이터 타입

<class 'pandas.core.frame.DataFrame'>


In [19]:
# 데이터프레임의 형태(크기)
df.shape  # (행크기, 열크기)
print(f"{df.shape[0]}행 x {df.shape[1]}열")

1704행 x 6열


In [20]:
# 데이터프레임에 포함된 컬럼 정보
df.columns

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')

In [21]:
# 각 컬럼의 자료형
df.dtypes


country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

In [22]:
# 데이터프레임의 전반적 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB


In [23]:
# 단일 컬럼 정보를 얻어오기
countries = df['country']
print("type:", type(countries)) # Series 
print("dtype:", countries.dtype)
countries.head()

type: <class 'pandas.core.series.Series'>
dtype: object


0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object

In [24]:
# 여러 개의 컬럼 정보를 얻어오기
subset = df[["country", "continent", "year"]]
print("type:", type(subset))
subset.head()

type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,country,continent,year
0,Afghanistan,Asia,1952
1,Afghanistan,Asia,1957
2,Afghanistan,Asia,1962
3,Afghanistan,Asia,1967
4,Afghanistan,Asia,1972


In [25]:
# 특정 행 정보(관측치) 추출
# loc -> 인덱스 정보를 바탕으로 레코드 추출
# iloc -> 행 정보를 바탕으로 레코드 추출
# 임의로 인덱스를 지정하지 않으면 판다스가 임의로 0부터 차례로 인덱스 부여
print(df.loc[3]) # 인덱스가 3인 관측치 추출
print(df.iloc[3]) # 행정보가 3인 관측치 추출

country      Afghanistan
continent           Asia
year                1967
lifeExp            34.02
pop             11537966
gdpPercap     836.197138
Name: 3, dtype: object
country      Afghanistan
continent           Asia
year                1967
lifeExp            34.02
pop             11537966
gdpPercap     836.197138
Name: 3, dtype: object


In [26]:
# 슬라이싱을 이용한 데이터 추출
subset2 = df.loc[:, ['year', 'pop']] # 전체 행, year, pop 컬럼 선택
subset2.head()

Unnamed: 0,year,pop
0,1952,8425333
1,1957,9240934
2,1962,10267083
3,1967,11537966
4,1972,13079460


In [27]:
# 범위 객체를 이용한 데이터 추출
# range([start,] end [,step])
# 짝수번째 컬럼 데이터만 추출
# range(0, df.shape[1], 2)
subset4 = df.iloc[:, range(0, df.shape[1], 2)]
subset4.head()

Unnamed: 0,country,year,pop
0,Afghanistan,1952,8425333
1,Afghanistan,1957,9240934
2,Afghanistan,1962,10267083
3,Afghanistan,1967,11537966
4,Afghanistan,1972,13079460


In [28]:
# df을 year로 그룹화
grouped_year_df = df.groupby("year") # year 컬럼을 기준으로 그룹핑
print(type(grouped_year_df)) # DataFrameGroupBy
grouped_year_df

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188E0FD9390>

In [None]:
# year로 그룹핑된 데이터프레임의 기대수명의 평균