---

_You are currently looking at **version 1.0** of this notebook. To download notebooks and datafiles, as well as get help on Jupyter notebooks in the Coursera platform, visit the [Jupyter Notebook FAQ](https://www.coursera.org/learn/python-data-analysis/resources/0dhYG) course resource._

---

# The Series Data Structure

pandas의 Series란 뭘까요? 판다스의 구성요소들이 궁금하다면 '?'를 붙여 설명을 볼 수 있습니다.

In [1]:
import pandas as pd
pd.Series?

Series는 1차원 배열 형식의 자료구조입니다. Series가 가지는 인덱스 라벨 값은 꼭 unique한 값일 필요는 없지만 hashable한 값이어야한다고 하는데요. 찾아보니 hash에 관한 복잡한 내용이 나오는데 골자는 중간에 값이 바뀌지 않아야한다는 것 같습니다.

</br>\
</br>\
</br>

Seires의 값으로는 문자, 숫자, None, 등이 담길 수 있습니다.
인덱스 값을 특별히 지정하지 않을 경우 pandas는 자동으로 인덱스를 생성하여 할당합니다.

In [2]:
animals = ['Tiger', 'Bear', 'Moose']
pd.Series(animals)

0    Tiger
1     Bear
2    Moose
dtype: object

In [3]:
numbers = [1, 2, 3]
pd.Series(numbers)

0    1
1    2
2    3
dtype: int64

In [4]:
animals = ['Tiger', 'Bear', None]
pd.Series(animals)

0    Tiger
1     Bear
2     None
dtype: object

`int`와 `None` 값이 섞여 있을 경우 Series에서 `int` 형식이 자동으로 `float` 형식으로 변환되고 `None` 값은 `NaN`으로 표시됩니다. NaN은 Not A Number의 줄임말 입니다.

In [269]:
numbers = [1, 2, None]
pd.Series(numbers)

0    1.0
1    2.0
2    NaN
dtype: float64

</br>\
`NaN`과 `None`은 다른 값입니다.

In [270]:
import numpy as np
np.nan == None

False

In [271]:
np.nan == np.nan

False

In [272]:
np.isnan(np.nan)

True

</br>\
</br>

이번에는 인덱스가 설정된 시리즈를 만들어보겠습니다.
1. 딕셔너리 자료형을 이용해 만드는 방법.

In [273]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

In [274]:
s.index

Index(['Archery', 'Golf', 'Sumo', 'Taekwondo'], dtype='object')

</br>\
</br>


2. 리스트 자료형을 이용하여 만드는 방법.

In [275]:
s = pd.Series(['Tiger', 'Bear', 'Moose'], index=['India', 'America', 'Canada'])
s

India      Tiger
America     Bear
Canada     Moose
dtype: object

딕셔너리 자료를 가져와서 인덱스를 다시 설정해주면,

마지막에 설정한 index key(['Golf', 'Sumo', 'Hockey']) 값을 딕셔너리에서 찾아 value 값에 해당하는 값을 가져오고,

딕셔너리에 없는 key를 인덱스로 설정할 경우 기본값인 None이 value로 할당되어 NaN 값으로 Series에 표현됩니다.

In [276]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports, index=['Golf', 'Sumo', 'Hockey'])
s

Golf      Scotland
Sumo         Japan
Hockey         NaN
dtype: object

<br>\
<br>\
<br>

# Querying a Series

Series에서 값을 불러오는 방법을 알아봅시다.

In [277]:
sports = {'Archery': 'Bhutan',
          'Golf': 'Scotland',
          'Sumo': 'Japan',
          'Taekwondo': 'South Korea'}
s = pd.Series(sports)
s

Archery           Bhutan
Golf            Scotland
Sumo               Japan
Taekwondo    South Korea
dtype: object

`iloc` 속성과 `loc` 속성을 이용하면 각각의 행에 접근할 수 있습니다.

index position로 위치를 검색하기 위해서는 `iloc` 속성으로 접근해야 하며, index label로 위치를 검색하기 위해서는 `loc` 속성으로 접근해야 합니다.

`iloc`과 `loc`은 함수가 아니라 속성이므로 ()가 아니라 []로 참조합니다. column을 참조하는 형식과 같습니다.

In [278]:
s.iloc[3]

'South Korea'

In [279]:
s.loc['Golf']

'Scotland'

pandas는 똑똑하므로 `iloc`과 `loc`을 명시적으로 설정하지 않아도 `Series` 뒤에 []가 있으면 알아서 `iloc`또는 `loc`으로 우리가 보고 싶은 값을 찾아다주지만, 우리는 더 똑똑하니까 굳이 헷갈리지 않도록 명시적으로 사용해주는 것이 좋겠습니다. 

In [280]:
s[3]

'South Korea'

In [281]:
s['Golf']

'Scotland'

<br>

왜 생략하면 안되는지 알아보죠.

Pandas가 위의 경우처럼 똑똑한 건 가끔 운이 좋을 때 뿐이라는 걸 알게되실겁니다.

In [282]:
sports = {1: 'Bhutan',
          100: 'Scotland',
          101: 'Japan',
          102: 'South Korea'}
s = pd.Series(sports)

In [283]:
#이건 작동하지 않습니다. s.iloc[0]을 기대하셨겠지만, 기대와는 다르게 에러를 뿜습니다.
s[0] 

KeyError: 0

<br>

이게 무슨일인지 아시겠나요? `loc`, 또는 `iloc`을 생략하면 우리의 뜻대로 값을 가져오지 못할 수 도 있다는 소리랍니다.

In [None]:
s[1]

In [None]:
s.loc[1]

In [None]:
s.iloc[0]

`iloc`은 `list`의 인덱스 값을 받아오는 것처럼 생각하시면 좋을 것 같습니다. `loc`은 딕셔너리의 `key`를 받아오는 걸로 생각하면 편하겠네요.

그래서 <결론>은 어지간하면 `iloc`은 쓸일 없다 치고 `loc`으로 index 값을 찾아본다고 생각하면 몸과 마음이 편할 듯 합니다.


<br>\
<br>\
<br>\
<br>

이제 Series의 특징들을 알아봅시다.

In [None]:
s = pd.Series([100.00, 120.00, 101.00, 3.00])
s

Series 속의 값들을 모두 더하고 싶다면 `for`문으로 모든 값을 하나씩 가져와 값을 더해도 됩니다.

In [None]:
total = 0
for item in s:
    total+=item
print(total)

하지만 numpy의 `sum()` 함수를 사용하면 좀 더 빠르게 연산을 할 수 있습니다.

In [None]:
import numpy as np

total = np.sum(s)
print(total)

In [None]:
#this creates a big series of random numbers
s = pd.Series(np.random.randint(0,1000,10000))
s.head()

In [None]:
len(s)

`%%timeit`라는 기능을 사용하면 평균적인 실행 시간을 알 수 있습니다.

In [None]:
%%timeit -n 100
summary = 0
for item in s:
    summary+=item

In [None]:
%%timeit -n 100
summary = np.sum(s)

<br>

또 다른 예시입니다. 모든 값에 +2를 하고 싶다면 다음과 같이 할 수 있습니다. broadcasting이라고 하는 방법이래요.

In [None]:
s+=2 #adds two to each item in s using broadcasting
s.head()

`for`문으로도 물론 할 수 있죠.

In [None]:
for label, value in s.iteritems():
    s.set_value(label, value+2)
s.head()

In [None]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,100,1000))
for label, value in s.iteritems():
    s.loc[label]= value+2

In [None]:
%%timeit -n 10
s = pd.Series(np.random.randint(0,100,1000))
s+=2


결론은 pandas의 Series에는 for문으로 처리하는 것보다 나은 방법들이 많이 내장되어있다는 것. `for` 문으로 뭔가 처리해야할 것 같으면 그게 최선인지 한번만 더 생각해보세요. 

정확한 기술적인 내용은 vectorization이란 키워드로 한번 찾아보세요!

<br>\
<br>


`loc`을 사용하여 새로운 index lable과 value를 가진 행을 추가할 수도 있습니다.

In [None]:
s = pd.Series([1, 2, 3])
s.loc['Animal'] = 'Bears'
s

<br>\
<br>

지금까지는 index label이 unique한 경우만 봤습니다. 그렇지 않은 경우도 한번 보죠.

딕셔너리, 리스트를 사용하여 각각 시리즈 두개를 만들겠습니다.

그리고 append를 사용하여 all_countries라는 시리즈로 두 시리즈를 합쳐보겠습니다.

In [None]:
original_sports = pd.Series({'Archery': 'Bhutan',
                             'Golf': 'Scotland',
                             'Sumo': 'Japan',
                             'Taekwondo': 'South Korea'})
cricket_loving_countries = pd.Series(['Australia',
                                      'Barbados',
                                      'Pakistan',
                                      'England'], 
                                   index=['Cricket',
                                          'Cricket',
                                          'Cricket',
                                          'Cricket'])
all_countries = original_sports.append(cricket_loving_countries)

In [None]:
original_sports

In [None]:
cricket_loving_countries

In [None]:
all_countries

우리는 수많은 Cricket들에게도 한꺼번에 `loc` 속성을 통해 접근할 수 있습니다!
개멋졍!

In [None]:
all_countries.loc['Cricket']

<br>\
<br>\
<br>

# The DataFrame Data Structure

자 이제 DataFrame 을 구경해봅시다.

각각의 개별 값들이 모여 Series라는 형태를 만드는 것 처럼,

이번에는 각각의 Series 들이 모여 DataFrame이라는 형태를 만듭니다.

Series에서는 하나의 인덱스에 한 종류의 값만 존재했으므로 행을 구분하는 `loc`과 `iloc`이라는 속성만 다뤘습니다.

그러나 DataFrame에서는 하나의 인덱스에 여러 종류의 값들이 딸려오기 때문에 그 인덱스가 가진 값들 중에서 어떤 종류의 값을 가져올 것인지 까지 알아야 합니다. 이 값이 어떤 종류의 값인지 표시해주는 속성을 `column`이라고 합니다. 엑셀에서 많이 본 개념이니까 따로 설명하지 않곘습니다.

In [None]:
import pandas as pd
purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])
df.head()

DataFrame에서도 여전히 `loc`은 사용할 수 있습니다. 

In [None]:
df.loc['Store 2']

이제 `loc`을 통해 참조되는 값은 한 종류의 값이 아니라 여러 종류의 값들이 들어있는 Series들 입니다.

In [None]:
type(df.loc['Store 2'])

물론 해당하는 인덱스 값이 여러개 있다면 여러 행의 정보가 함께 참조됩니다.

In [None]:
df.loc['Store 1']

`loc`은 location의 줄임말 입니다. 데이터의 위치를 지정해서 값을 가져올 수 있다는 소리겠죠. DataFrame에서는 `loc`을 사용해서 index 뿐만 아니라 column까지 설정할 수 있습니다. 

In [None]:
df.loc['Store 1', 'Cost']

<br>\
<br>\
<br>

그럼 column은 어떻게 참조할까요. loc을 사용해서 column을 참조하려면 이렇게 할 수 있습니다.

In [None]:
# Transpose index and columns.라고 합니다. index와 column의 위치를 바꿉니다.
df.T 

In [None]:
df.T.loc['Cost']

pandas 개발자들은 바보가 아닙니다. 위와 같은 복잡한 방법말고,

column은 무조건 string 형식으로 되어있는 컬럼 명이 기본이므로 아래와 같이 간단하게 접근하게 만들었습니다.(번호고 뭐고 그냥 일단 이름.)

In [None]:
df['Cost']

우리는 이제 아래처럼 값에 접근할 수 있습니다.

이렇게 생긴 접근법을 chaining operation이라고 합니다. 결과가 나온 값에서 다시 뭔가를 참조하고 싶을 때 괄호를 덧붙여 계속해서 연산을 시켜 결과값을 볼 수 있는 방식이죠.

In [None]:
df.loc['Store 1']['Cost']

`df.loc['Store 1', 'Cost']`의 결과와 결과 자체는 같습니다.
다만 한번에 접근하느냐, 차례로 접근하느냐가 다른 듯 합니다.
- 6 - 2 + 2 = 6
- 6 - 2 = 4, 4 + 2 = 6 ____ # chaining operation

이정도의 차이? 당연히 후자가 더 느리겠죠. 데이터 자체를 copy하거나 select 할때는 별 문제가 없겠습니다만 데이터 값을 연산한다거나 하면 오류의 원인이 될 수 있다고도 합니다.

<br>

`loc` 속성으로 slicing을 할 수도 있습니다.

`loc[첫번째, 두번쨰]`
- 첫번째에는 슬라이스 해오고 싶은 행들의 범위를 가져옵니다.
- 두번째에는 그 행들에서 가져오고 싶은 colum들의 이름을 씁니다. 기본은 모두 다 가져오는 겁니다.

In [None]:
df.loc[:,['Name', 'Cost']]
# [:] 전체 행들을 가져와서 
# ['Name', 'Cost'] 컬럼에 있는 값들을 표시합니다.

In [None]:
df.loc[:'Store 1', ['Name']]
# 'Store 1' 인덱스까지의 행들을 가져와서 
# ['Name'] 컬럼에 있는 값들을 표시합니다.

In [None]:
df.loc[:'Store 2', ['Name']]
# 'Store 2' 인덱스까지의 행들을 가져와서 
# ['Name'] 컬럼에 있는 값들을 표시합니다.

In [None]:
df.iloc[:2, :2]
# iloc을 이용하면 인덱스 값으로 슬라이싱을 할 수도 있습니다.
# colum은 iloc에서는 colum을 참조시킬 때도 숫자로 읽어올 위치를 지정해줄 수 있습니다.
# 위의 예시는 2행, 2열까지의 값을 가져온 예시입니다.

<br>\
<br>\
<br>

열심히 참조해봤으니 이제 없애는 걸 해봅시다.

'Store 1'이 망했다고 합시다. 데이터 관리할 필요가 없어졌습니다.

'Store 1'의 데이터들만 없앤 데이터베이스를 얻고 싶습니다.

In [None]:
df.drop('Store 1')

원본 데이터는 어떨까요?

pandas에서 `drop()`을 하면 기본적으로 원본 데이터를 바꿔주지는 않습니다. drop()하고 싶은 데이터가 사라진 복사본을 우리에게 던져주는 겁니다.


In [None]:
df

명시적으로 보자면 아래의 경우와 똑같은 프로세스라고 생각하면 됩니다.

In [None]:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

물론 pandas 개발자들은 똑똑하니까 우리가 원본 데이터를 변경하고 싶을거라는 것을 알고 있었습니다.

`drop()` 함수의 옵션을 보면 원본데이터를 변형하는 `inplace`라는 옵션이 따로 있습니다. 다만 기본값이 `False`로 되어있으니 기본적으로는 원본을 변경하지 않고 복사본을 변경하여 출력하는 겁니다.

`dopy_df.drop('Store 1', inplace=True)` 이렇게 하면 원본에서 'Store 1'이 `drop()`됩니다.

In [None]:
copy_df.drop?

`drop()`의 옵셥 중 `axis`를 1로 하면 인덱스 값이 아니라 column 값을 drop할 수 있습니다. 마찬가지로 drop()된 사본을 보여줍니다.

<br>

column을 제거하는 방법은 한 가지가 더 있습니다.

`del` 옵션을 사용하면 원본에서 column이 제거되고 결과값은 반환되지 않습니다.

In [None]:
del copy_df['Name']
copy_df

새로운 column을 추가할 때는 아래와 같이 간단하게 추가할 수 있습니다.

In [None]:
df['Location'] = None
df

In [None]:
df['details'] = ['단골', '초등학생', '새박사님']
df

<br>\
<br>\
<br>\
<br>

# Dataframe Indexing and Loading

In [None]:
costs = df['Cost']
costs

데이터 프레임에서 뭔가 연산을 하거나 가공을 할 때에는 이 연산이 원본 데이터를 변경시키는지 아는 것이 굉장히 중요합니다.

Broadcasting이 또 나왔습니다. 

In [None]:
costs+=2
costs

Broadcasting을 하게되면 원본 데이터가 바뀝니다.

내가 쓰는 연산이 원본 데이터에 영향을 미쳤는지는 안 미쳤는지는 알고있어야겠죠?

In [None]:
df

<br>\
<br>\
<br>

csv 파일을 가져와서 DataFrame으로 만드는 방법을 알아봅시다.

olympics.csv 파일은 아래와 같이 생긴 텍스트 파일입니다.

In [None]:
!cat olympics.csv

똑똑한 pandas 개발자들은 엑셀, csv 등등의 파일을 바로 데이터 프레임으로 만들어주는 기능을 넣어두었습니다.

olympics.csv를 가져와서 DataFrame으로 만들어봅시다.

In [None]:
df = pd.read_csv('olympics.csv')
df.head()

근데 뭔가 이상합니다.

우리가 흔히 보는 엑셀 파일들도 까보면 값들만 들어있는 게 아니라 행과 열이 이미 만들어져 있는 경우가 많죠. 때문에 그냥 `read_csv()`를 하게되면 우리가 생각한 대로 안들어갈 경우가 많습니다. 그럴 때는 어떻게 해야할까요?

csv 파일 내에 이미 행과 열이 구분되어있는 경우라면 `read_csv()`에 옵션을 주어 해당 행과 열을 pandas가 알아들을 수 있는 index와 column으로 설정해주는 과정이 필요합니다.

index_col은 인덱스로 삼을 컬럼의 위치를 지정합니다.

skiptows을 이용해서는 불필요한 행들을 날려버리고 column으로 사용할 첫번째 행을 가져올 수 있습니다.

In [None]:
df = pd.read_csv('olympics.csv', index_col = 0, skiprows=1)
df.head()

셋팅된 column들은 columns로 불러와 확인할 수 있습니다.

In [284]:
df.columns

Index(['BIRTHS2010', 'BIRTHS2011', 'BIRTHS2012', 'BIRTHS2013', 'BIRTHS2014',
       'BIRTHS2015', 'POPESTIMATE2010', 'POPESTIMATE2011', 'POPESTIMATE2012',
       'POPESTIMATE2013', 'POPESTIMATE2014', 'POPESTIMATE2015'],
      dtype='object')

column 이름들이 깨졌나보네요. 이상하니까 하나씩 바꿔주겠습니다.

In [285]:
# df의 colum들 리스트에서 column 이름들을 하나씩 뽑아와서 col이라고 하고
for col in df.columns:
    # 그 이름(col)의 앞글자 2개가 01이면
    if col[:2]=='01':
        # 원본 df에 있는 columns 중 그 이름(col)을 : 'Gold' + col의 4번째 글자부터 끝까지 로 바꾼다(inplace = True).
        df.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        df.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        df.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        df.rename(columns={col:'#' + col[1:]}, inplace=True) 

df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,BIRTHS2010,BIRTHS2011,BIRTHS2012,BIRTHS2013,BIRTHS2014,BIRTHS2015,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,POPESTIMATE2014,POPESTIMATE2015
STNAME,CTYNAME,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Alabama,Autauga County,151,636,615,574,623,600,54660,55253,55175,55038,55290,55347
Alabama,Baldwin County,517,2187,2092,2160,2186,2240,183193,186659,190396,195126,199713,203709
Alabama,Barbour County,70,335,300,283,260,269,27341,27226,27159,26973,26815,26489
Alabama,Bibb County,44,266,245,259,247,253,22861,22733,22642,22512,22549,22583
Alabama,Blount County,183,744,710,646,618,603,57373,57711,57776,57734,57658,57673


<br>\
<br>\
<br>


# Querying a DataFrame

DataFrame에서 값들을 가져오는 여러가지 방법에 대해서 알아봅시다.

Boolean making이라고 하는 방법인데요. 원하는 값을 True로 만들 조건식을 넣어서 True 값과 매칭된 행들을 뽑아오는 방법입니다.

예를들어 'Gold'의 값이 0보다 큰 행들만 뽑아오고 싶다고 한다면, 아래와 같은 조건식으로 'Gold'에서 값이 0보다 큰 행들을 True로 만들 수 있겠죠.

아래의 조건식은 하나의 column의 조건만 선언되어있으므로 뽑혀진 결과값은 Series 형태로 반환됩니다.

In [286]:
df['Gold'] > 0

KeyError: 'Gold'

이렇게 True, False로 나온 Series는 필터 같은 역할을 한다고 생각하시면 됩니다.

이렇게 만들어진 필터를 우리가 보고 싶은 원래의 데이터 프레임에 덮어씌우면, 우리는 조건식으로 걸러져 True값이 들어간 행의 값들만 뽑아서 가져올 수 있습니다.

In [None]:
only_gold = df.where(df['Gold'] > 0)
only_gold.head()

<br>


`df['Gold'] > 0` 라는 필터로 한번 걸러진 `only_gold`의 데이터 갯수는 100개 이고, 원본 데이터 셋의 데이터의 갯수는 147개 입니다.

In [None]:
only_gold['Gold'].count()

In [None]:
df['Gold'].count()

<br>\
<br>

컬럼의 중간에 데이터가 없는 행들을 `drop()` 해야하는 경우도 있습니다. 그럴 경우에는 `dropna()`라는 특별한 함수를 사용합니다.

`axis` 옵션을 사용하여 `dropna()` 함수를 행에 적용할지 열에 적용할지 선택할 수 있습니다. 기본값은 0이고 행에 적용됩니다.

In [None]:
only_gold = only_gold.dropna()
only_gold.head()

<br>\
<br>\
<br>

pandas 개발자들은 역시 똑똑하기 때문에 우리가 번거롭게 `where()`을 Boolean masking을 하게 내버려 두지 않습니다.

pandas의 개발자들은 DataFrame의 column을 지정하는 `[]` 안에 column 이름 대신, 조건식을 넣으면 필터링 된 결과값들을 반환할 수 있도록 조치를 해두었습니다.

In [None]:
only_gold = df[df['Gold'] > 0]
only_gold.head()

조건식을 두개 이상 중첩할 수도 있습니다.

조건식 두개 이상을 다시 조건식으로 연결할 경우 재료가 되는 각 조건식에 `()`를 해주지 않으면 에러가 나거나 또는 결과가 달라질 수 있습니다.

In [None]:
len(df[(df['Gold'] > 0) | (df['Gold.1'] > 0)])

In [None]:
df[(df['Gold.1'] > 0) & (df['Gold'] == 0)]

<br>\
<br>\
<br>


# Indexing Dataframes

index가 지정되는 방법.

1. Python list를 Series 또는 DataFrame으로 지정하면 index 값이 0,1,2,3 ... 으로 자동으로 지정된다.
2. Python dictionary를 Series 또는 DataFrame으로 지정하면 index 값은 dictionary의 key 값이 들어간다.
3. CSV 파일 등을 불러올 때는 몇번째 열을 인덱스로 지정할 것인지 옵션으로 지정해 줄 수 있다.
4. `set_index()` 함수를 이용하여 특정 열을 임의로 인덱스를 지정할 수도 있다.


In [None]:
df.head()

<br>

`set_index()`는 파괴적인 연산자 입니다.
`set_index()`를 실행하면 기존에 있던 index의 값은 날라가 버리므로 만약 기존의 인덱스 값이 필요하다면 새로운 칼럼을 만들어 저장한 후 `set_index()`를 실행하는 것이 좋습니다.

이름이 있는 컬럼이 인덱스로 변경되었을 경우 인덱스 값과 컬럼의 구분을 하기 위해서 판다스는 아래와 같이 인덱스는 아래로 컬럼 값은 위쪽으로 붙여서 보여줍니다.

In [None]:
df['country'] = df.index # 기존에 있던 인덱스 값들을 'country'라는 컬럼에 저장
df = df.set_index('Gold') # 'Gold' 칼럼의 값들을 인덱스 값으로 지정
df.head()

<br>

특정한 값들이 아니라 pandas에서 임의로 지정하는 인덱스 값을 DataFrame의 인덱스 값으로 지정하면서 원래 있던 인덱스 값을 다시 컬럼으로 되돌려 놓고 싶은 경우에는 `reset_index()`를 사용합니다.

In [None]:
df = df.reset_index()
df.head()

<br>\
<br>\
<br>

판다스의 개쩌는 기능 중 하나는 멀티 인덱스 기능입니다.

잘쓰면 개쩔고 유용한데, 못쓰면 복잡하고 답답한데 빡치기만 할 수 있습니다.

데이터 셋을 바꿔서 census.csv를 봅시다.

이 통걔에는 크게 세가지 종류의 데이터들이 들어있습니다. 그중 2번과 3번을 구분하는 값은 'SUMLEV' 컬럼의 값으로 들어있습니다.

1. 전체에 대한 정보
2. states에 대한 요약 정보
3. counties에 대한 요약 정보

<br>

우리는 각각의 couinties의 정보만 보고 싶다면 어떻게 하면 될까요.

In [None]:
df = pd.read_csv('census.csv')
df.head()

<br>

`unique()` 함수를 사용하면 SQL에서 Distinct를 사용한 효과를 볼 수 있습니다.

df의 'SUMLEV' 컬럼의 값은 40 또는 50 두 종류의 값들이 들어있습니다. 이중 counties를 나타내는 값은 50입니다.

In [None]:
df['SUMLEV'].unique()

<br>

'SUMLEV' 칼럼의 값이 50인 데이터들만 뽑아옵니다.

In [None]:
df=df[df['SUMLEV'] == 50]
df.head()

<br>

'SUMLEV' 칼럼의 값이 50인 데이터들 중에서도 어떤 컬럼들의 값들만 보고 싶은지 추려봅니다.

In [None]:
columns_to_keep = ['STNAME',
                   'CTYNAME',
                   'BIRTHS2010',
                   'BIRTHS2011',
                   'BIRTHS2012',
                   'BIRTHS2013',
                   'BIRTHS2014',
                   'BIRTHS2015',
                   'POPESTIMATE2010',
                   'POPESTIMATE2011',
                   'POPESTIMATE2012',
                   'POPESTIMATE2013',
                   'POPESTIMATE2014',
                   'POPESTIMATE2015']
df = df[columns_to_keep]
df.head()

<br>

'STNAME'(states 이름), 'CTYNAME'(county 이름)으로 인덱싱을 하여 한눈에 어떤 카운티가 어떤 주에 속하고 그것들의 데이터가 어떻게 되는지 확인할 수 있는 데이터 프레임을 만듭니다.

`set_index()`를 사용해 두겹으로 인덱싱을 합니다.

In [None]:
df = df.set_index(['STNAME', 'CTYNAME'])

df.head()

<br>

멀티 인덱싱 된 데이터 프레임의 값에 접근하는 방법은 다음과 같습니다. 

튜플 자료구조형을 사용하면 여러개의 멀티인덱싱된 데이터를 참조할 수도 있습니다.

<주의>인덱스가 위치한 순서 그대로 괄호 안에 인덱스 라벨 값을 넣어줘야만 합니다. CTYNAME, STNAME으로 바꿔서 접근하면 에러납니다. 

In [None]:
df.loc['Michigan', 'Washtenaw County']

In [None]:
df.loc[ [('Michigan', 'Washtenaw County'),
         ('Michigan', 'Wayne County')] ]

<br>\
<br>


# Missing values

데이터 클리닝에서 결측치를 핸들링하는 것은 굉장히 흔한 일입니다. 판다스에서는 결측치를 어떻게 메꿀 수 있는지 알아봅시다.

In [None]:
df = pd.read_csv('log.csv')
df

`fillna()`를 사용하면 결측치를 한번에 하나의 값으로 메꿀 수도 있습니다. `value` 옵션을 사용하면 됩니다.

`method` 옵션에서 `'ffill'`를 설정해주면 앞에있는 행의 값으로 결측치가 자동으로 채워집니다. 이 옵션을 사용할 때에는 데이터가 내가 원하는 대로 잘 정렬이 되어있는지 반드시 확인을 해야 합니다.

In [None]:
df.fillna?

<br>

`method = 'ffill'`를 사용하기 위해 적절한 정렬을 해보도록 하겠습니다.

In [None]:
df = df.set_index('time')
df = df.sort_index()
df

In [None]:
df = df.reset_index()
df = df.set_index(['time', 'user'])
df

정렬이 끝났습니다. `method='ffill'`을 사용하여 앞에 있는 값들로 결측치를 채워봅시다.

In [None]:
df = df.fillna(method='ffill')
df.head()

<br>\
<br>\
<br>\
<br>

수고하셨습니다 :)

이 강의 노트를 참고하며 assignment를 풀어주시면 됩니다.

생각보다 과제의 난이도가 높습니다. 하지만 제가 다 풀었으니 여러분도 할 수 있어요! 힘내세요!