In [2]:
import pandas as pd

# 데이터 집합 불러오기 

In [3]:
# read_csv는 default로 쉼표로 열이 구분되어 있는 데이터를 불러오는데 gapminder는 열이 탭으로 구분되어 있어 sep='\t'를 추가해야한다.
df = pd.read_csv('../data/gapminder.tsv', sep='\t')  

## 불러온 데이터 집합 살펴보기

In [4]:
print(df.head())  # 데이터프레임에서 가장 앞에 있는 5개의 행을 출력한다.

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106


In [5]:
print(type(df))  # df의 자료형을 출력한다.(데이터프레임 자료형)

<class 'pandas.core.frame.DataFrame'>


In [6]:
print(df.shape)  # 갭마인더의 행과 열의 크기를 출력한다. 1번째 값은 행의 크기이고, 2번째 값은 열의 크기이다.

(1704, 6)


In [7]:
print(df.columns)  #  데이터프레임의 열 이름을 확인할 수 있다.

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')


In [8]:
print(df.dtypes)  # 데이터프레임을 구성하는 값의 자료형을 출력한다.

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object


In [9]:
print(df.info())  # 데이터프레임을 구성하는 값의 자료형을 포함한 정보를 출력한다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None


### 판다스와 파이썬 자료형 비교

|판다스 자료형|파이썬 자료형|설명|
|:------:|:------:|:------:|
|object|string|문자열|
|int64|int|정수|
|float64|float|소수점을 가진 숫자|
|datetime64|datetime|파이썬 표준 라이브러리인 datetime이 반환하는 자료형|

# 데이터 추출하기

In [10]:
country_df = df['country']
print(type(country_df))
print("------------------------------------")
print(country_df.head())
print("------------------------------------")
print(country_df.tail())

<class 'pandas.core.series.Series'>
------------------------------------
0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object
------------------------------------
1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object


In [11]:
subset = df[['country', 'continent', 'year']]
print(type(subset))
print("------------------------------------")
print(subset.head())
print("------------------------------------")
print(subset.tail())

<class 'pandas.core.frame.DataFrame'>
------------------------------------
       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972
------------------------------------
       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007


### 행 단위 데이터 추철할 때의 속성

|속성|설명|
|:------:|:------:|
|loc|인덱스를 기준으로 행 데이터 추출|
|iloc|행 번호를 기준으로 행 데이터 추출|

## loc 속성으로 행 데이터 추출하기

In [12]:
print(df.loc[0])  # 인덱스가 0인 행 데이터 추출

country      Afghanistan
continent           Asia
year                1952
lifeExp        28.801000
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object


In [13]:
print(df.loc[99])  # 인덱스가 99인 행 데이터 추출

country      Bangladesh
continent          Asia
year               1967
lifeExp       43.453000
pop            62821884
gdpPercap    721.186086
Name: 99, dtype: object


In [14]:
print(df.loc[-1])  # 인덱스에 없는 값을 사용하면 오류가 발생한다. ValueError: -1 is not in range

KeyError: -1

In [22]:
number_of_rows = df.shape[0]  # shape[0]에 행 크기(1704)가 저장되어 있다.
last_row_index = number_of_rows - 1  # shape[0]에서 1을 뺀 값(1704-1 = 1703)을 얻는다.
print(df.loc[last_row_index])  # 마지막 행 데이터를 추출한다.  대괄호 1개는 행의 열 데이터를 출력한다. 시리즈로 출력

country        Zimbabwe
continent        Africa
year               2007
lifeExp       43.487000
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object


In [23]:
print(df.tail(n=1))  # n은 끝에서 출력할 데이터의 개수(2면 2개를 출력한다.) 데이터 프레임으로 출력

       country continent  year  lifeExp       pop   gdpPercap
1703  Zimbabwe    Africa  2007   43.487  12311143  469.709298


In [26]:
print(df.loc[[0, 99, 999]])  # 인덱스가 0, 99, 999인 데이터를 한 번에 추출한다. 2중 대괄호는 시리즈 자료형으로 출력

         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130


In [27]:
subset_loc = df.loc[0]
subset_tail = df.tail(n=1)

print(type(subset_loc))  # loc 속성이 반환한 데이터 자료형은 시리즈
print(type(subset_tail))  # tail 메서드가 반환한 데이터 자료형은 데이터 프레임

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


## iloc 속성으로 행 데이터 추출하기

In [28]:
print(df.iloc[1])  # iloc는 행 번호를 사용하여 데이터 출력
print("------------------------------------")
print(df.iloc[99])

country      Afghanistan
continent           Asia
year                1957
lifeExp         30.33200
pop              9240934
gdpPercap      820.85303
Name: 1, dtype: object
------------------------------------
country      Bangladesh
continent          Asia
year               1967
lifeExp       43.453000
pop            62821884
gdpPercap    721.186086
Name: 99, dtype: object


In [29]:
print(df.iloc[-1])  # 마지막 행 데이터를 출력

country        Zimbabwe
continent        Africa
year               2007
lifeExp       43.487000
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object


In [30]:
print(df.iloc[1710])  # 데이터 프레임에 아예 존재하지 않는 행 번호는 오류 발생 IndexError: single positional indexer is out-of-bounds

IndexError: single positional indexer is out-of-bounds

## 슬라이싱 구문으로 데이터 추출하기

In [31]:
subset = df.loc[:, ['year', 'pop']]  # loc 속성의 열 지정값에는 문자열 리스트를 전달해야한다.
print(subset.head())

   year       pop
0  1952   8425333
1  1957   9240934
2  1962  10267083
3  1967  11537966
4  1972  13079460


In [41]:
subset = df.iloc[:, [2, 4, -1]]  # iloc 속성의 열 지정값에는 정수 리스트를 전달해야한다. 여기서 -1은 마지막 열
print(subset.head())

   year       pop   gdpPercap
0  1952   8425333  779.445314
1  1957   9240934  820.853030
2  1962  10267083  853.100710
3  1967  11537966  836.197138
4  1972  13079460  739.981106


## range 메서드로 데이터 추출하기

In [37]:
small_range = list(range(5))  # 0 ~ 4 열 출력
print(small_range)
print(type(small_range))
print()

subset = df.iloc[:, small_range]
print(subset.head())

[0, 1, 2, 3, 4]
<class 'list'>

       country continent  year  lifeExp       pop
0  Afghanistan      Asia  1952   28.801   8425333
1  Afghanistan      Asia  1957   30.332   9240934
2  Afghanistan      Asia  1962   31.997  10267083
3  Afghanistan      Asia  1967   34.020  11537966
4  Afghanistan      Asia  1972   36.088  13079460


In [38]:
small_range = list(range(3, 6))  # 3,4, 5 열 출력
print(small_range)
print()

subset = df.iloc[:, small_range]
print(subset.head())

[3, 4, 5]

   lifeExp       pop   gdpPercap
0   28.801   8425333  779.445314
1   30.332   9240934  820.853030
2   31.997  10267083  853.100710
3   34.020  11537966  836.197138
4   36.088  13079460  739.981106


In [39]:
small_range = list(range(0, 6, 2))  # 0 ~ 5 짝수열 출력
print(small_range)
print()

subset = df.iloc[:, small_range]
print(subset.head())

[0, 2, 4]

       country  year       pop
0  Afghanistan  1952   8425333
1  Afghanistan  1957   9240934
2  Afghanistan  1962  10267083
3  Afghanistan  1967  11537966
4  Afghanistan  1972  13079460


##  슬라이싱 구문과 range 메서드 비교하기

In [42]:
subset = df.iloc[:, :3]  # 0 ~ 2 번 열까지 출력 list(range(3))과 동일하다.
print(subset.head())

       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972


In [45]:
subset = df.iloc[:, 0:6:2]  # list(range(0, 6, 2))와 동일하다.
print(subset.head())

       country  year       pop
0  Afghanistan  1952   8425333
1  Afghanistan  1957   9240934
2  Afghanistan  1962  10267083
3  Afghanistan  1967  11537966
4  Afghanistan  1972  13079460


## loc, iloc 속성 자유자재로 사용하기

In [47]:
print(df.iloc[[0, 99, 999], [0, 3, 5]])  # 0, 99, 999번째 행의 0, 3, 5 번째 열 데이터 추출

         country  lifeExp    gdpPercap
0    Afghanistan   28.801   779.445314
99    Bangladesh   43.453   721.186086
999     Mongolia   51.253  1226.041130


### 코드를 쉽게 파악하기 위해 loc 속성을 이용하여 문자열 열 이름 전달이 더 자주 쓰인다.

In [48]:
print(df.loc[[0, 99, 999], ['country', 'lifeExp', 'gdpPercap']])  # 큰 규모의 데이터 분석 프로젝트에서는 loc 속성이 더 유용하다.

         country  lifeExp    gdpPercap
0    Afghanistan   28.801   779.445314
99    Bangladesh   43.453   721.186086
999     Mongolia   51.253  1226.041130


In [49]:
print(df.loc[10:13, ['country', 'lifeExp', 'gdpPercap']])

        country  lifeExp    gdpPercap
10  Afghanistan   42.129   726.734055
11  Afghanistan   43.828   974.580338
12      Albania   55.230  1601.056136
13      Albania   59.280  1942.284244


# 기초적인 통계 계산하기

## 그룹화한 데이터의 평균 구하기

In [50]:
print(df.groupby('year')['lifeExp'].mean())

year
1952    49.057620
1957    51.507401
1962    53.609249
1967    55.678290
1972    57.647386
1977    59.570157
1982    61.533197
1987    63.212613
1992    64.160338
1997    65.014676
2002    65.694923
2007    67.007423
Name: lifeExp, dtype: float64
