Pandas의 정의
Pandas는 데이터 조작 및 분석을 위한 파이썬 언어로 작성된 소프트웨어 라이브리러입니다. 
Pandas를 사용하게 되면쉼표로 구분된 값(CSV), JSON, SQL, Excel 등의 다양한 파일 형식의 데이터를 불러올 수 있습니다. 
또한 이러한 데이터를 pandas의 dataframe을 사용하여 행과 열로 이루어진 데이터 객체를 생성할 수 있고 데이터에 포함된 많은 항목들을 한 눈에 알아보기 쉽게 정리하는데 용이합니다. 

pandas에서 사용되는 데이터 오브젝트로는 Series와 DataFrame이 있습니다. 
Series는 1차원 배열로, 행(index)의 하나의 기준에 대해서 데이터들이 저장됩니다. 
DataFrame은 2차원 배열로, 행(index)와 열(column)의 두 가지 기준에 의해 데이터들이 저장됩니다. 
주로 DataFrame을 사용하여 데이터들의 다양한 항목들을 하나의 표로 정리할 수 있고, 해당 표에서 특정 기준만 선택하여 뽑거나, 특정 조건에 해당하는 데이터들만을 찾을 수 있습니다. 

DataFrame의 구성
DataFrame은 표를 다루는 Pandas의 타입으로, Excel의 표와 동일한 역할을 수행합니다. 
row와 column으로 구성돼 있고, 이때 row는 index로 표현됩니다. 
index는 각 데이터들의 순번에 대한 정보를 저장합니다. 
column은 각 열에 대한 정보이며, 각 열에 이름값을 부여하여 데이터를 편리하게 구분할 수 있습니다. 

pd.DataFrame()의 ( ) 안에서 Shift+Tab을 누르게 되면 pd.DataFrame()에 대해서 초기화할 때 도움이 되는 각 속성값들에 관한 설명이 표시됩니다. 속성값들은 다음과 같습니다. 

pd.DataFrame(data = None, index = None, columns = None, dtype = None, copy = False)

data는 DataFrame을 생성할 데이터로, dictionary 형태로 직접 생성하거나 다른 파일에서 데이터를 불러와서 DataFrame을 생성할 수 있습니다. 
index는 index에 대한 정보로, 미입력시 0부터 순차적으로 index가 부여됩니다.
columns는 column 열의 이름값들로, 미입력시 0부터 순차적으로 column의 이름 값들이 부여됩니다. columns의 값을 설정함으로써 데이터들을 각각의 구분에 따라 분류할 수 있습니다.
dtype은 각 column의 데이터 타입에 대한 정보로, 미입력시 입력된 데이터들의 정보를 자체적으로 판단하여 dtype 값을 부여합니다. dtype에는 int64, object 등이 있습니다.
copy는 복사할지 여부로, copy=False를 하면 입력 데이터를 복사하지 않고 참조한다는 것을 의미합니다. 이 경우, 원본 데이터를 복사하지 않고 그대로 참조하여 DataFrame을 생성하므로, 원본 데이터가 수정되면 DataFrame도 영향을 받습니다. 반면에 copy=True가 기본값이며, 이 경우 원본 데이터를 복사하여 새로운 DataFrame을 생성하기 때문에 원본 데이터가 변경 되어도 DataFrame의 데이터는 이것에 독립적입니다. 

In [3]:
import pandas as pd

lst = [['민지', 15, '커뮤', 'AI', '회장'], ['다니엘', 16, '경영', '심리', '교육팀장'],
       ['하니', 17, '경영', '빅사', '교육팀원'], ['해린', 19, '경영', '빅사', '교육팀원'],
       ['혜인', 16, '경제', '빅사', '교육팀원']]

df = pd.DataFrame(lst, columns=['이름', '학번', '전공', '복수전공', '역할'])
df = df.set_index('이름')

DataFrame을 생성하기 위해 먼저 pandas를 import 합니다.
이후에 제공할 데이터에 대해 리스트 형식으로 데이터를 구성한 뒤, 해당 리스트를 제공했습니다.
이후에 columns 변수에 값을 지정함에 따라 각 속성값들의 이름이 "이름", "학번", "전공", "복수전공", "역할"로 지정됩니다. 
df.set_index("이름")을 통해 index열의 값을 "이름"으로 지정할 수 있습니다. 
이렇게 DataFrame을 생성하게 되면 columns 값들을 "이름", "학번", "전공", "복수전공", "역할"의 지정 값들로 하며, 이 중에서 "이름"은 index 값이므로 "이름"에 관해서 "민지","다니엘", "하니", "해린", "혜인" 등의 이름이 index 0~4 대신에 할당됩니다. 

In [5]:
dic = {
    '이름': ['민지', '다니엘', '하니', '해린', '혜인'],
    '학번': [15, 16, 17, 19, 16],
    '전공': ['커뮤', '경영', '경영', '경영', '경제'],
    '복수전공': ['AI', '심리', '빅사', '빅사', '빅사'],
    '역할': ['회장', '교육팀장', '교육팀원', '교육팀원', '교육팀원']
}

df2 = pd.DataFrame(dic)
df2 = df2.set_index('이름')

리스트가 아닌 dictionary 형태로 data를 구성할 경우, columns 값들은 dictionary의 key 값들로 지정되기 때문에 따로 설정할 필요가 없고, 마찬가지로 index 값만 "이름"으로 설정해주면 위의 리스트로 작성된 코드와 동일한 DataFrame이 생성됩니다.

DataFrame에 저장된 정보들의 양은 방대한 경우가 대부분이며, 데이터들의 구성을 확인하기 위해 DataFrame 전체를 출력하는 것은 불필요한 작업입니다. 따라서 특정 부분만 보는 것이 필요하고 이때 head()와 tail()을 사용합니다. 
df.head()는 DataFrame의 위에서부터 지정된 개수만큼의 데이터를 출력하고, 값을 지정하지 않을시 default로 5개의 데이터를 출력합니다.
df.tail()은 DataFrame의 아래에서부터 지정된 개수만큼의 데이터를 출력하고, 마찬가지로 값을 지정하지 않으면 default로 5개의 하위 데이터를 출력합니다.

DataFrame에서 특정 값을 검색할 때, DataFrame의 모든 값을 볼 필요 없이, 원하는 부분만 뽑아서 보는 것이 가능합니다. 이때 사용하는 방식이 df.loc['행명','열명']과 df.iloc['행번호','열번호'] 입니다. 

df.loc['행명','열명']는 행과 열의 실제 이름을 입력하여 검색하는 방식입니다. 
하나의 index에 대해서만 조회할 경우, 행명인 '다니엘'에 대한 정보를 출력하기 위해서는 df.loc['다니엘'] 혹은 df.loc['다니엘',:]을 실행시킵니다. 
행이 아닌 열명으로 정보를 조회할때는 df.loc[:,'전공'] 혹은 df['전공']의 방식을 사용합니다. 

In [10]:
df.loc[['다니엘']]

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
다니엘,16,경영,심리,교육팀장


In [11]:
df.loc['다니엘']

학번        16
전공        경영
복수전공      심리
역할      교육팀장
Name: 다니엘, dtype: object

이때 다음과 같이 df.loc['다니엘']이라고만 표현하면 해당되는 값들을 출력해주고, 이것에 [ ]을 한번 더 씌운 뒤 실행시키면 해당 정보에 대해서 DataFrame 형식으로 출력됩니다. 열명으로 데이터를 조회할 때도 [ ]의 유뮤에 따라 출력되는 값에 차이가 있습니다. 

여러 개의 index를 조회할 때는 조회하려는 값들을 [ ]로 묶어서 제공합니다. 
행명으로 조회할 때는 df.loc[['해린','혜인'],:] 혹은 df.loc[['해린', '혜인']]를 통해 index 값들 중에 "해린"과 "혜인"에 해당되는 값들을 DataFrame 형식으로 출력합니다.

열명으로 조회할 때는 df.loc[:, ['전공','복수전공']] 혹은 df[['전공', '복수전공']]를 통해 columns 값들 중에 '전공'과 '복수전공'에 해당하는 데이터들을 DataFrame 형식으로 출력합니다. 

조회할 index 값들이 많을 경우, 슬라이싱 기법을 사용할 수 있습니다. 

행명에 대해 값을 조회할 때는 df.loc['하니' : '혜인', : ], df.loc['하니' : '혜인'], df['하니' : '혜인'] 중에 하나를 택하여 진행할 수 있습니다. 이 경우 "하니"부터 "혜인"에 이르기까지의 모든 데이터들을 DataFrame 형태로 출력합니다.

열명에 대해서도 마찬가지로 df.loc[:, '학번' : '복수전공']를 통해 columns 값이 '학번'인 데이터부터 '복수전공'에 이르기까지의 모든 데이터를 DataFrame 형식으로 출력합니다. 

df.iloc['행번호','열번호'] 방식은 df.loc방식에서 실제 이름값 대신에 해당 값의 위치를 제공하는 방식입니다. 가령 0번 row, 3번 column에 해당하는 값을 출력하기 위해서는 df.iloc[0,3]의 표현식을 사용할 수 있고, 위의 예시에서 '회장'이 출력됩니다. 
이때 3번 column이라는 것은 column값이자 index값인 "이름"을 제외한, "학번"부터 0번째, "전공"이 1번째, ... 로 구성됩니다. 
그 외의 값을 조회하는 방식과 슬라이싱 기법은 loc 방식과 동일합니다. 

이미 DataFrame으로 생성된 데이터들에 대해서 값을 수정하는 것도 가능합니다. 
방식은 df.loc['민지', '역할'] = '인싸'를 통해 '민지' 행의, '역할' 열에 존재하는 값을 '인싸'로 변경할 수 있습니다. 또한 df.loc['민지'] = [21, '아텍', '컴공', '인싸이더']를 통해 한 줄의 값 전체를 한 번에 수정하는 것도 가능합니다. 
column에 대해서 값을 수정할 때는 df.loc[ : , '역할'] = '5기'를 통해 모든 index값들에 대해서, '역할' column의 값을 모두 '5기'라는 값으로 대체하는 것을 의미합니다. 
또한 df.loc[['민지', '다니엘']] = "-", df[['복수전공', '역할']] = "?" 등으로 여러 개의 값을 동시에 수정할 수 있습니다. 
지금까지의 수정 방식은 loc으로 index와 column의 정확한 이름값을 사용하여 수정했지만, iloc 방식을 사용하여 수정하려는 곳의 위치 번호를 제공하여 값을 수정하는 것도 가능합니다. 

기존에 만들어진 DataFrame에는 없는 새로운 값을 추가하는 것도 가능합니다. 
df.loc['아이유'] = [19, '수학', '-', '부회장']에 대해서, 만약 기존 DataFrame에 '아이유'라는 index 값이 존재하지 않았다면 '아이유'를 index 값으로 하고, 해당 리스트를 각 column의 값으로 하는 새로운 index가 기존의 DataFrame 가장 하단에 추가됩니다. 
새로운 column을 추가할 때는 df['기수'] = '100기'를 통해 기존 column값에는 존재하지 않았던 값을 제공하고, 해당 column의 값을 pair로 제공하여 새로운 column값을 추가할 수 있습니다. 

마지막으로 DataFrame에서 특정 값을 삭제하는 방법도 존재합니다. 
먼저 삭제를 행에 대해서 할지, 열에 대해서 할지에 따라 axis=1, axis=0으로 구분됩니다. 
먼저 axis=0을 하면 각 열에 대해서 특정 행동을 한다는 의미로, df.drop('아이유', axis = 0, inplace = True)의 경우, index가 '아이유'인 행에 존재하는 값들을 "모든 열에 대해서" 삭제한다는 것을 의미합니다. 
axis=1은 각 행에 대해서 특정 행동을 한다는 의미로, df.drop(['복수전공', '기수'], axis = 1, inplace = True)를 하면 column값 중에서 '복수전공'과 '기수'에 대한 값들을 "모든 행에 대해서" 삭제한다는 것을 의미합니다. 

이때 inplace=True의 경우 삭제한 연산이 DataFrame에도 반영되고, inplace=False의 경우에는 DataFrame에 연산이 반영되지 않습니다.

In [16]:
df_new2 = df.copy()
df_new2.drop('하니', axis = 0, inplace = False)
df_new2

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
민지,15,커뮤,AI,회장
다니엘,16,경영,심리,교육팀장
하니,17,경영,빅사,교육팀원
해린,19,경영,빅사,교육팀원
혜인,16,경제,빅사,교육팀원


inplace=False이므로 df_new2는 '하니' 행을 삭제했지만, 이후에 df_new2를 출력해보면 여전히 '하니' index에 대한 데이터들이 삭제되지 않고 존재하는 것을 확인할 수 있습니다. 

In [17]:
df_new2.drop('하니', axis = 0, inplace = True)
df_new2

Unnamed: 0_level_0,학번,전공,복수전공,역할
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
민지,15,커뮤,AI,회장
다니엘,16,경영,심리,교육팀장
해린,19,경영,빅사,교육팀원
혜인,16,경제,빅사,교육팀원


그러나 inplace=True를 하게 되면 df_new2에서 삭제한 연산이 df_new2 DataFrame에 적용되어 기존 DataFrame의 데이터가 변경됩니다. 