## 데이터셋 불러오기

In [6]:
import pandas as pd

In [8]:
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [9]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


In [10]:
print(type(df))
# 자료형 확인

<class 'pandas.core.frame.DataFrame'>


In [11]:
print(df.shape)
# 행과 열의 개수 확인

(1704, 6)


- shape는 메서드가 아니다.
    shape는 데이터프레임 객체의 함수나 메서드(method)가 아닌 속성(property).
    따라서 이름 뒤에 소괄호가 없다.
    즉, df.shape()가 아니라 df.shape로 써야 한다.

In [12]:
print(df.columns)
# 데이터프레임의 열(index) 이름 확인

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')


In [13]:
print(df.dtypes)
# 데이터셋의 각 열이 어떤 자료형인지 확인

country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object


In [15]:
print(df.info())
# 데이터와 관련된 다양한 정보 함께 확인

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   country    1704 non-null   object 
 1   continent  1704 non-null   object 
 2   year       1704 non-null   int64  
 3   lifeExp    1704 non-null   float64
 4   pop        1704 non-null   int64  
 5   gdpPercap  1704 non-null   float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
None


### pandas와 python의 자료형
- pandas : python
object : string = 문자열, 가장 일반적인 자료형
int64 : int = 정수
float64 : float = 소수점이 있는 숫자
datetime64 : datetime = 표준 라이브러리 datetime에서 제공하는 자료형

## 데이터 추출하기

In [16]:
print(df.head())
# head() 메서드 : 가장 앞 5개 행 확인

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106


In [17]:
country_df = df['country']
# 데이터 프레임 df 에서 country 열 데이터 추출하고, 그 결과를 country_df 변수에 저장

In [18]:
print(country_df.head())

0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object


In [20]:
print(country_df.tail())

1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object


In [21]:
# 리스트로 열 데이터 추출하기
# 열 이름으로 여러 열의 데이터를 추출
subset = df[['country', 'continent', 'year']]

In [22]:
print(subset)

          country continent  year
0     Afghanistan      Asia  1952
1     Afghanistan      Asia  1957
2     Afghanistan      Asia  1962
3     Afghanistan      Asia  1967
4     Afghanistan      Asia  1972
...           ...       ...   ...
1699     Zimbabwe    Africa  1987
1700     Zimbabwe    Africa  1992
1701     Zimbabwe    Africa  1997
1702     Zimbabwe    Africa  2002
1703     Zimbabwe    Africa  2007

[1704 rows x 3 columns]


### 열 데이터를 추출하는 두 가지 방법과 그 차이
1. 열의 이름을 문자열로 지정하는 경우
    - 결과 반환 : 시리즈 객체(Series)
2. dountry_df를 print()로 출력하는 경우
    - 결과 반환 : 아래에 열 이름을 출력, 마지막 줄은 열 이름, 길이, 자료형 정보

In [23]:
# 1
country_df = df['country']
print(type(country_df))

<class 'pandas.core.series.Series'>


In [24]:
# 2
print(country_df)

0       Afghanistan
1       Afghanistan
2       Afghanistan
3       Afghanistan
4       Afghanistan
           ...     
1699       Zimbabwe
1700       Zimbabwe
1701       Zimbabwe
1702       Zimbabwe
1703       Zimbabwe
Name: country, Length: 1704, dtype: object


In [25]:
country_df_list = df[['country']]
print(type(country_df_list))
# country_df_list의 자료형은 country_df와 다르게 데이터프레임 객체

<class 'pandas.core.frame.DataFrame'>


In [26]:
print(country_df_list)
# 위의 country_df와 형식이 다름

          country
0     Afghanistan
1     Afghanistan
2     Afghanistan
3     Afghanistan
4     Afghanistan
...           ...
1699     Zimbabwe
1700     Zimbabwe
1701     Zimbabwe
1702     Zimbabwe
1703     Zimbabwe

[1704 rows x 1 columns]


In [None]:
### 분석 환경이나 필요에 따라 시리즈를 사용할 것인지 데이터프레임을 사용할 것인지 결정 ###

### 점 표기법 / 대괄호 표기법

1. 대괄호 표기법
    print(df['country'])

2. 점 표기법
    print(df.country)
    
    - 점 표기법을 사용하려면, 열 이름이 데이터프레임에서 기본으로 제공하는 속성 이름과 달라야 쓸 수 있다.
    - 특수문자를 포함한다면 대괄호 표기법을 사용해야 한다.

### 행 데이터 추출하기

1. loc
    - 행 이름을 기준으로 행 추출
    - location
2. iloc
    - 행 번호(위치)를 기준으로 행 추출
    - interger location

### 행 이름으로 행 데이터 추출하기

In [27]:
print(df)

          country continent  year  lifeExp       pop   gdpPercap
0     Afghanistan      Asia  1952   28.801   8425333  779.445314
1     Afghanistan      Asia  1957   30.332   9240934  820.853030
2     Afghanistan      Asia  1962   31.997  10267083  853.100710
3     Afghanistan      Asia  1967   34.020  11537966  836.197138
4     Afghanistan      Asia  1972   36.088  13079460  739.981106
...           ...       ...   ...      ...       ...         ...
1699     Zimbabwe    Africa  1987   62.351   9216418  706.157306
1700     Zimbabwe    Africa  1992   60.377  10704340  693.420786
1701     Zimbabwe    Africa  1997   46.809  11404948  792.449960
1702     Zimbabwe    Africa  2002   39.989  11926563  672.038623
1703     Zimbabwe    Africa  2007   43.487  12311143  469.709298

[1704 rows x 6 columns]


In [28]:
print(df.loc[0])

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap     779.445314
Name: 0, dtype: object


In [29]:
print(df.loc[99])

country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap    721.186086
Name: 99, dtype: object


### 팁!
loc 속성은 마지막 행의 데이터를 추출할 때 -1을 사용할 수 없다.
loc 속성은 행 이름을 참조하는 것으로, -1이라는 행 이름은 없기 때문이다.

In [30]:
# loc 속성은 행 데이터 추출 시 -1 사용 불가
print(df.loc[-1])

KeyError: -1

In [32]:
# shaspe 속성을 사용하여 행의 개수 구하기
number_of_rows = df.shape[0]

# 행의 개수에서 1을 뺀 값으로 마지막 행의 인덱스 구하기
last_row_index = number_of_rows - 1

# 마지막 행의 인덱스로 데이터 추출하기
print(df.loc[last_row_index])

country        Zimbabwe
continent        Africa
year               2007
lifeExp          43.487
pop            12311143
gdpPercap    469.709298
Name: 1703, dtype: object


In [33]:
number_of_rows

1704