# Part 1: Pandas - from Zero to Hero

## Pandas Index Objects

### First Steps

In [1]:
import pandas as pd

In [2]:
summer = pd.read_csv("summer.csv", index_col="Athlete")
# Athlete column은 원래 그냥 column이었으나, index 지정을 통해 index가 됨

In [3]:
summer.head()

Unnamed: 0_level_0,Year,City,Sport,Discipline,Country,Gender,Event,Medal
Athlete,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
"HAJOS, Alfred",1896,Athens,Aquatics,Swimming,HUN,Men,100M Freestyle,Gold
"HERSCHMANN, Otto",1896,Athens,Aquatics,Swimming,AUT,Men,100M Freestyle,Silver
"DRIVAS, Dimitrios",1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Bronze
"MALOKINIS, Ioannis",1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Gold
"CHASAPIS, Spiridon",1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Silver


In [None]:
summer.tail()

In [None]:
summer.info()

In [4]:
summer.index
# 앞서 athlete를 index로 지정하면서, 그 값을 .index를 통해 확인할 수 있음

Index(['HAJOS, Alfred', 'HERSCHMANN, Otto', 'DRIVAS, Dimitrios',
       'MALOKINIS, Ioannis', 'CHASAPIS, Spiridon', 'CHOROPHAS, Efstathios',
       'HAJOS, Alfred', 'ANDREOU, Joannis', 'CHOROPHAS, Efstathios',
       'NEUMANN, Paul',
       ...
       'AHMADOV, Emin', 'KAZAKEVIC, Aleksandr', 'KHUGAEV, Alan',
       'EBRAHIM, Karam Mohamed Gaber', 'GAJIYEV, Danyal', 'JANIKOWSKI, Damian',
       'REZAEI, Ghasem Gholamreza', 'TOTROV, Rustam', 'ALEKSANYAN, Artur',
       'LIDBERG, Jimmy'],
      dtype='object', name='Athlete', length=31165)

In [5]:
type(summer.index)

pandas.core.indexes.base.Index

In [7]:
summer.columns

Index(['Year', 'City', 'Sport', 'Discipline', 'Country', 'Gender', 'Event',
       'Medal'],
      dtype='object')

In [6]:
type(summer.columns)

pandas.core.indexes.base.Index

In [8]:
summer.axes

[Index(['HAJOS, Alfred', 'HERSCHMANN, Otto', 'DRIVAS, Dimitrios',
        'MALOKINIS, Ioannis', 'CHASAPIS, Spiridon', 'CHOROPHAS, Efstathios',
        'HAJOS, Alfred', 'ANDREOU, Joannis', 'CHOROPHAS, Efstathios',
        'NEUMANN, Paul',
        ...
        'AHMADOV, Emin', 'KAZAKEVIC, Aleksandr', 'KHUGAEV, Alan',
        'EBRAHIM, Karam Mohamed Gaber', 'GAJIYEV, Danyal', 'JANIKOWSKI, Damian',
        'REZAEI, Ghasem Gholamreza', 'TOTROV, Rustam', 'ALEKSANYAN, Artur',
        'LIDBERG, Jimmy'],
       dtype='object', name='Athlete', length=31165),
 Index(['Year', 'City', 'Sport', 'Discipline', 'Country', 'Gender', 'Event',
        'Medal'],
       dtype='object')]

In [10]:
summer.columns[:3]
# 열 라벨의 첫 세 원소를 슬라이스 하였음
# 0,1,2 위치의 요소가 출력됨

Index(['Year', 'City', 'Sport'], dtype='object')

In [12]:
summer.index[0]
# 인덱스의 첫번째 행 요소도 확인할 수 있음

'HAJOS, Alfred'

In [15]:
summer.index[-1]
# 반대로 -1을 넣어서 마지막 원소를 출력함

'LIDBERG, Jimmy'

In [16]:
summer.index[100:102]

Index(['FLATOW, Alfred', 'FLATOW, Gustav Felix'], dtype='object', name='Athlete')

In [17]:
summer.columns.tolist()
# 인덱스 객체를 tolist() 메소드를 이용해서 리스트로 전환할 수 있음

['Year', 'City', 'Sport', 'Discipline', 'Country', 'Gender', 'Event', 'Medal']

- 앞에서 라벨을 이용한 인덱싱을 배울 때, 중복된 인덱스 라벨이 있는지에 따라 결과가 달라질 수 있음을 배웠음
- Phelps, Michael로 인덱싱하면 이 인덱스 라벨에 해당하는 모든 데이터가 얻어짐
- 반대로 고유값인 라벨을 이용하면 인덱싱이나 슬라이싱을 할 때 하나의 값만 얻어짐



In [19]:
# is_unique 속성
# 모든 인덱스가 고유값인지 판단할 때 쓸 수 있음
summer.index.is_unique

False

In [20]:
summer.index.get_loc("DRIVAS, Dimitrios")

2

### Creating Index Objects
- 아무것도 없는 상태에서 인덱스 객체를 만드는 법

In [None]:
import pandas as pd

In [21]:
# 리스트 변수 만들기
list_1 = [1,2,3]

In [22]:
# 판다스의 index 메소드를 이용해서 인덱스 객체를 생성
pd.Index(list_1)

Index([1, 2, 3], dtype='int64')

In [23]:
# 문자열 리스트를 만든 다음, 인덱스 객체로 생성
list_2 = ["m", "t", "w"]

In [25]:
pd.Index(list_2)
# dtype이 object이므로 문자열임을 알 수 있음

Index(['m', 't', 'w'], dtype='object')

In [26]:
index_1 = pd.Index(range(1,4))
index_1

RangeIndex(start=1, stop=4, step=1)

In [32]:
index_2 = pd.Index(["Mon", "Tue", "Wed"], name = "days")
index_2
# name 파라미터를 이용해서 인덱스 객체에 이름을 지어줌, 이걸 index_2라는 변수에 저장

Index(['Mon', 'Tue', 'Wed'], dtype='object', name='days')

In [31]:
pd.Series([34,32,21], index = index_2)
# index 파라미터를 이용해 인덱스가 index_1 (or 2)인 시리즈를 생성

days
Mon    34
Tue    32
Wed    21
dtype: int64

In [33]:
# 다음 강의에서 인덱스 라벨과 객체를 어떻게 변경하는 지 배움

### Changing Row Index Labels
- 47. set_index()와 reset_index() 메소드를 이용해 행 인덱스 바꾸기

In [None]:
import pandas as pd

In [35]:
summer = pd.read_csv("summer.csv", index_col="Athlete")
# summer라는 변수에 저장할 때, index_col을 이용해서 athlete 열을 인덱스로 지정하였음
# 그렇다면 인덱스를 다시 rangeindex로 바꾸고 싶다면??

In [40]:
summer.head()

Unnamed: 0_level_0,City,Sport,Discipline,Country,Gender,Event,Medal
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1896,Athens,Aquatics,Swimming,HUN,Men,100M Freestyle,Gold
1896,Athens,Aquatics,Swimming,AUT,Men,100M Freestyle,Silver
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Bronze
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Gold
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Silver


In [41]:
summer.index

Index([1896, 1896, 1896, 1896, 1896, 1896, 1896, 1896, 1896, 1896,
       ...
       2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012, 2012],
      dtype='int64', name='Year', length=31165)

In [43]:
summer.reset_index(drop = False, inplace=True)

In [None]:
summer.head()

In [44]:
# 만약 Athlete 열 대신 Year 열을 인덱스로 바꾸고 싶다면?
# 첫 번째 방법 : 데이터를 임포트할 때 index_col="Year"로 설정하는 방법, 만약 이미 임포트했다면 set_index() 메소드를 이용할 수 있음!
summer.set_index("Year", drop = True, inplace = True)
# set_index란? 데이터프레임의 인덱스를 이미 존재하는 인덱스로 바꿔주는 메소드
# drop이라는 파라미터는? : 인덱스로 바꾼 열을 데이터프레임에서 지울 것인지 여부

In [45]:
summer.head()

Unnamed: 0_level_0,City,Sport,Discipline,Country,Gender,Event,Medal
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1896,Athens,Aquatics,Swimming,HUN,Men,100M Freestyle,Gold
1896,Athens,Aquatics,Swimming,AUT,Men,100M Freestyle,Silver
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Bronze
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Gold
1896,Athens,Aquatics,Swimming,GRE,Men,100M Freestyle For Sailors,Silver


In [46]:
summer.index.is_unique

False

In [None]:
#summer.index[0] = 1894

In [None]:
#summer.index = "Before 2016"

In [None]:
summer.index.size

In [None]:
new_index = ["Medal_No{}".format(i) for i in range(1,summer.index.size+1)]
new_index

In [None]:
summer.index = new_index

In [None]:
summer.head()

In [None]:
summer.tail()

In [None]:
summer.index.is_unique

In [None]:
summer.index.name = "Medal_No"

In [None]:
summer.reset_index()

### Changing Column Labels

In [None]:
import pandas as pd

In [None]:
titanic = pd.read_csv("titanic.csv")

In [None]:
titanic.head()

In [None]:
titanic.tail()

In [None]:
titanic.columns

In [None]:
titanic.columns[0]

In [None]:
#titanic.columns[0] = "Alive"

In [None]:
titanic.columns = ["Alive", "Class", "Sex", "Age", "SibSp", "ParChi", "Fare", "Emb", "Deck"]

In [None]:
titanic.head()

In [None]:
titanic.columns.name

In [None]:
titanic.columns.name = "Pass_Charact"

In [None]:
titanic.head()

In [None]:
titanic.index.name = "Passenger_no"

### Renaming Index & Column Labels

In [None]:
import pandas as pd

In [None]:
summer= pd.read_csv("summer.csv", index_col = "Athlete")

In [None]:
summer

In [None]:
#summer.index[0] = 'HAYOS, Alfred'

In [None]:
summer.rename(mapper = {"HAJOS, Alfred":'HAYOS, Alfred'}, axis = "index")

In [None]:
summer.rename(index = {"HAJOS, Alfred":'HAYOS, Alfred'}, inplace = True)

In [None]:
summer

In [None]:
summer.rename(mapper = {"Sex":"Gender", "City":"Host_City"}, axis = "columns")

In [None]:
summer.rename(columns = {"Sex":"Gender", "City":"Host_City"}, inplace = True)

In [None]:
summer