In [3]:
import pandas as pd

In [4]:
df = pd.read_csv('../data/gapminder.tsv', sep='\t')

In [5]:
# 데이터 프레임에서 가장 앞에 있는 5개의 행
print(df.head())

       country continent  year  lifeExp       pop   gdpPercap
0  Afghanistan      Asia  1952   28.801   8425333  779.445314
1  Afghanistan      Asia  1957   30.332   9240934  820.853030
2  Afghanistan      Asia  1962   31.997  10267083  853.100710
3  Afghanistan      Asia  1967   34.020  11537966  836.197138
4  Afghanistan      Asia  1972   36.088  13079460  739.981106


In [6]:
# 자료형 확인
print(type(df))

<class 'pandas.core.frame.DataFrame'>


In [9]:
# 데이터의 행과 열의 크기에 대한 정보 shape 속성
# 주의) shape() --> X
print(df.shape)

(1704, 6)


In [10]:
# 데이터 프레임의 열 이름을 확인
print(df.columns)

Index(['country', 'continent', 'year', 'lifeExp', 'pop', 'gdpPercap'], dtype='object')


In [18]:
# 데이터프레임을 구성하는 값의 자료형은
# 데이터 프레임의 dtypes, info()로 확인
print(df.dtypes)
print()
print(df.info())

dtypes :: 
 country       object
continent     object
year           int64
lifeExp      float64
pop            int64
gdpPercap    float64
dtype: object

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1704 entries, 0 to 1703
Data columns (total 6 columns):
country      1704 non-null object
continent    1704 non-null object
year         1704 non-null int64
lifeExp      1704 non-null float64
pop          1704 non-null int64
gdpPercap    1704 non-null float64
dtypes: float64(2), int64(2), object(2)
memory usage: 80.0+ KB
info() :: 
 None


| 판다스 자료형 | 파이썬 자료형 | 설명|
|------|------|------|
| object | string | 문자열|
| int64 | int | 정수 |
| float64 | float | 소수점을 가진 숫자 (실수) |
| datetime64 | datetime | 파이썬 표준 라이브러리인 datetime을 반환하는 자료형 |

### 열단위로 데이터 추출하기

In [20]:
country_df = df['country']

print(type(country_df))
print(country_df.head())
print(country_df.tail())

<class 'pandas.core.series.Series'>
0    Afghanistan
1    Afghanistan
2    Afghanistan
3    Afghanistan
4    Afghanistan
Name: country, dtype: object
1699    Zimbabwe
1700    Zimbabwe
1701    Zimbabwe
1702    Zimbabwe
1703    Zimbabwe
Name: country, dtype: object


In [21]:
# 리스트에 열이름을 전달하면여러개의 열을 한번에 추출할 수 있다.
subset = df[['country', 'continent', 'year']]

print(type(subset))
print(subset.head())
print(subset.tail())

<class 'pandas.core.frame.DataFrame'>
       country continent  year
0  Afghanistan      Asia  1952
1  Afghanistan      Asia  1957
2  Afghanistan      Asia  1962
3  Afghanistan      Asia  1967
4  Afghanistan      Asia  1972
       country continent  year
1699  Zimbabwe    Africa  1987
1700  Zimbabwe    Africa  1992
1701  Zimbabwe    Africa  1997
1702  Zimbabwe    Africa  2002
1703  Zimbabwe    Africa  2007


### 행 단위로 데이터 추출

* loc[ ] - 인덱스(숫자 eg. 보통 행번호, 문자)를 기준으로 행 데이터 추출


** 인덱스(문자, 숫자) eg. 숫자는 보통 행번호 **

In [23]:
print(df.loc[0])
print(df.loc[99])
print(df.loc[-1]) # -1 처럼 인덱스에 없는 값을 사용하면 오류 발생

country      Afghanistan
continent           Asia
year                1952
lifeExp           28.801
pop              8425333
gdpPercap        779.445
Name: 0, dtype: object
country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap       721.186
Name: 99, dtype: object


KeyError: 'the label [-1] is not in the [index]'

In [26]:
# 마지막 행 데이터 추출
print(df.loc[df.shape[0]-1])
print(df.tail(n=1))

country      Zimbabwe
continent      Africa
year             2007
lifeExp        43.487
pop          12311143
gdpPercap     469.709
Name: 1703, dtype: object
       country continent  year  lifeExp       pop   gdpPercap
1703  Zimbabwe    Africa  2007   43.487  12311143  469.709298


In [27]:
# 인덱스가 0, 99, 999인 데이터를 한번에 추출
print(df.loc[[0, 99, 999]])

         country continent  year  lifeExp       pop    gdpPercap
0    Afghanistan      Asia  1952   28.801   8425333   779.445314
99    Bangladesh      Asia  1967   43.453  62821884   721.186086
999     Mongolia      Asia  1967   51.253   1149500  1226.041130


In [29]:
# loc 속성이 반환한 자료형은 series
# tail() 메서드가 반환한 자료형은 data frame
print(type( df.loc[0] ))
print(type( df.tail(n=1) ))

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


* iloc[ ] - 행 번호를 기준으로 행 데이터 추출

In [33]:
# 현재는 인덱스와 행번호가 동일하여 동일한 결과값을 출력.
print(df.loc[1])
print(df.iloc[1])
print(df.loc[99])
print(df.iloc[99])

country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap        820.853
Name: 1, dtype: object
country      Afghanistan
continent           Asia
year                1957
lifeExp           30.332
pop              9240934
gdpPercap        820.853
Name: 1, dtype: object
country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap       721.186
Name: 99, dtype: object
country      Bangladesh
continent          Asia
year               1967
lifeExp          43.453
pop            62821884
gdpPercap       721.186
Name: 99, dtype: object


In [34]:
# iloc는 행번호를 사용하기 때문에 -1 가능
# loc는 인덱스를 사용하기 때문에 -1 불가능
print(df.iloc[-1])
print(df.loc[-1])

country      Zimbabwe
continent      Africa
year             2007
lifeExp        43.487
pop          12311143
gdpPercap     469.709
Name: 1703, dtype: object


KeyError: 'the label [-1] is not in the [index]'

* df.loc[[행], [열]]
* df.iloc[[행], [열]]

In [36]:
print(df.loc[:, ['year', 'pop']].head()) # 인덱스로
print(df.iloc[:, [2, 4, -1]].head()) # 행 번호로

   year       pop
0  1952   8425333
1  1957   9240934
2  1962  10267083
3  1967  11537966
4  1972  13079460
   year       pop   gdpPercap
0  1952   8425333  779.445314
1  1957   9240934  820.853030
2  1962  10267083  853.100710
3  1967  11537966  836.197138
4  1972  13079460  739.981106


In [39]:
# range를 활용하기도 하지만, 보통 slice 구문을 활용한다.
print(df.iloc[:, list(range(0, 6, 2))].head())
print(df.iloc[:, 0:6:2].head())

       country  year       pop
0  Afghanistan  1952   8425333
1  Afghanistan  1957   9240934
2  Afghanistan  1962  10267083
3  Afghanistan  1967  11537966
4  Afghanistan  1972  13079460
       country  year       pop
0  Afghanistan  1952   8425333
1  Afghanistan  1957   9240934
2  Afghanistan  1962  10267083
3  Afghanistan  1967  11537966
4  Afghanistan  1972  13079460


In [41]:
print(df.iloc[[0, 9, 99], [0, 3, 5]])
print(df.loc[[0, 9, 99], ['country', 'lifeExp', 'gdpRercap']])

        country  lifeExp   gdpPercap
0   Afghanistan   28.801  779.445314
9   Afghanistan   41.763  635.341351
99   Bangladesh   43.453  721.186086
        country  lifeExp  gdpRercap
0   Afghanistan   28.801        NaN
9   Afghanistan   41.763        NaN
99   Bangladesh   43.453        NaN


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  


In [46]:
# 위에 처럼, loc 나 []를 사용하면 실수가 발생할 수 있다.
# 그래서, .reindex() 사용을 추천한다.
df.reindex(['country', 9, 99], axis='columns').head()

Unnamed: 0,country,9,99
0,Afghanistan,,
1,Afghanistan,,
2,Afghanistan,,
3,Afghanistan,,
4,Afghanistan,,
