# **Pandas**

이 강좌에서는 Pandas를 사용하여 데이터를 조작(manipulation), 정리(cleaning) 및 필터링(filtering)하는 방법에 대해 다룬다. Pandas는 2008년 Wes McKinney에 의해 만들어진 오픈 소스 프로젝트이며 Python을 사용하는 데이터 과학자들에게 관계형(relational) 데이터를 나타내는 사실상의 표준 라이브러리가 되었다.

#### 설치

먼저 `pandas`를 설치한다. Colab에는 이미 설치되어 있으므로 불필요하다.

```
$ pip install pandas
```

`pandas` `import`하고 버전을 확인해보자.

In [3]:
import numpy as np
import pandas as pd
pd.__version__

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


'2.2.0'

# **Series**

`pandas`의 핵심 자료구조는 `Series`와 `DataFrame`이다. 기본적으로로 `Series`는 1차원 데이터, `DataFrame`은 2차원 데이터를 표현하기 위한 자료구조이다. 먼저 `Series`에 대해서 간단히 살펴보자.

* `Series`는 **인덱스를 가진 1차원 데이터**를 저장한다. 그런 의미에서 리스트(list)와 딕셔너리(dictionary)의 중간 쯤에 해당한다고 볼 수 있다.
* `Series`를 시각화하는 쉬운 방법은 두 개의 컬럼(column)으로 표현하는 것이다. 첫 번째 컬럼은 인덱스이고 두 번째 컬럼은 데이터이다.
* 데이터 컬럼에는 이름이 부여되어 있을 수 있고 `.name` 속성으로 엑세스할 수 있다. 아래 그림에서 데이터 컬럼에는 `last name`이라는 이름이 부여되어 있다. 컬럼의 이름은 여러 Series를 병합하여 2차원 자료구조인 DataFrame을 만들 때 유용하다.
* 인덱스 컬럼 또한 이름을 가질 수 있다. 아래 그림에서 인덱스에는 `id`라는 이름이 부여되어 있다.


> <img src="https://raw.githubusercontent.com/ohheum/DS2022/c07d4659020cf8ffb6cea39c385bbe6ca166e4ee/assets/fig01.png" width="600" height="600">

#### `Series`의 생성

`Series`를 생성하는 가장 쉬운 방법은 Python 리스트나 Numpy 배열과 같은 일종의 1차원 배열을 사용하는 것이다. 이 때 `pandas`는 자동으로 0으로 시작하는 정수 인덱스를 할당한다. 예를 들어보자.

In [4]:
students = ['Alice', 'Jack', 'Molly']
s = pd.Series(students)
print(s)
students2 = np.array(['Alice', 'Jack', 'Molly'])
s2 = pd.Series(students2)
print(s2)

0    Alice
1     Jack
2    Molly
dtype: object
0    Alice
1     Jack
2    Molly
dtype: object


`Series`의 인덱스 컬럼은 `index` 속성에, 데이터 값들은 `values` 속성에 저장된다.

In [5]:
print(s.index)
print(s.values)

RangeIndex(start=0, stop=3, step=1)
['Alice' 'Jack' 'Molly']


인덱스와 데이터 컬럼에는 이름이 부여되어 있지 않다.


In [6]:
print(s.name)
print(s.index.name)

None
None


인덱스와 데이터 컬럼에 다음과 같이 사후적으로 이름을 부여할 수 있다.

In [7]:
s.index.name = 'Id'
s.name = 'Last Name'
print(s)

Id
0    Alice
1     Jack
2    Molly
Name: Last Name, dtype: object


Series의 **인덱스는 배열이나 리스트에서처럼 위치를 나타내는 암묵적인 값이 아니라 실제로 `Series` 객체에 저장된 값이다**. 따라서 인덱스를 다른 값으로 변경할 수 있다. 예를 들어보면 아래와 같이 중복된 값을 가질 수도 있고, 서로 다른 데이터 타입일 수도 있다.

In [8]:
s.index = [2, 2, 'hello']
s

2        Alice
2         Jack
hello    Molly
Name: Last Name, dtype: object

혹은 다음과 같이 Series를 생성할 때 매개변수 `index`에 명시적으로 인덱스를 제공할 수도 있다.

In [9]:
s = pd.Series(students, index=[2, 2, 'hello'])
s

2        Alice
2         Jack
hello    Molly
dtype: object

#### Dictionary로 부터 `Series`의 생성

`Series`는 dictionary로 부터 생성할 수 있다. 이 경우 0에서 시작되는 정수 인덱스가 자동 생성되는 대신 dictionary의 `key`가 인덱스가 된다.

In [10]:
students_scores = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}
s = pd.Series(students_scores)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

딕셔너리를 이용하여 Series를 생성할 경우에도 인덱스를 명시적으로 지정할 수 있다. 이 경우 딕셔너리의 데이터는 인덱스에서 지정한 순서로 정렬된다.

In [11]:
students_scores = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}
s = pd.Series(students_scores, index=['Jack', 'Alice', 'Molly'])
print(s)

Jack     Chemistry
Alice      Physics
Molly      English
dtype: object


딕셔너리의 키들과 인덱스로 제공되는 항목들이 일치하지 않을 경우에는 어떻게 되는지 살펴보자.

In [12]:
students_scores = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English'}


s = pd.Series(students_scores, index=['Alice', 'Molly', 'Sam', 'Alice'])
s

Alice    Physics
Molly    English
Sam          NaN
Alice    Physics
dtype: object

위의 예를 보면 딕셔너리의 항목들 중에 명시적으로 제공된 인덱스에 포함되지 않은 키들은 무시되며, 또한 딕셔너리에 없는 인덱스 항목에 대해서는 `NaN`값이 할당된다는 것을 알 수 있다.
또한 Series의 인덱스가 유일한 값들로 구성될 필요는 없다.

#### Series의 데이터 타입

Series는 데이터타입을 나타내는 `dtype` 속성을 가진다. 데이터 타입을 명시적으로 지정하지 않으면 자동으로 추론한다. Series의 인덱스 역시 dtype 속성을 가진다.

In [13]:
data_int = pd.Series([5, 0, 7, 1],
                 index=['a', 'b', 'c', 'd'])
print(data_int)
print(data_int.dtype)
print(data_int.index.dtype)

data_float = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[1, 2, 3, 4])
print(data_float)
print(data_float.index)

a    5
b    0
c    7
d    1
dtype: int64
int64
object
1    0.25
2    0.50
3    0.75
4    1.00
dtype: float64
Index([1, 2, 3, 4], dtype='int64')


Series가 `dtype` 속성을 가진다는 것이 Series를 생성할 때 모든 데이터가 동일한 타입이어야 한다는 의미는 아니다.

In [14]:
data_mixed = pd.Series([0.5, 0, 7, 1.23],
                 index=['a', 'b', 'c', 'd'])
print(data_mixed)

a    0.50
b    0.00
c    7.00
d    1.23
dtype: float64


정수와 실수가 섞여 있는 경우 `float` 타입으로 추론된다. 수가 아닌 데이터가 하나라도 포함되어 있으면 `object` 타입으로 추론된다.

In [15]:
data_object = pd.Series([0.5, 0, 7, 1.23, 'hello'],
                 index=['a', 'b', 'c', 'd', 'e'])
print(data_object)

a      0.5
b        0
c        7
d     1.23
e    hello
dtype: object


#### <code>.loc</code>과 <code>.iloc</code>을 이용한 Series의 인덱싱

Series에서 **위치(position, 행 번호)** 혹은 **인덱스 라벨(label)**을 이용해 원하는 행(row)에 접근할 수 있다.
위치를 이용하여 접근할 때는 `iloc`을 사용하고, 라벨을 이용해 접근할 때는 `loc`을 사용한다.
예를 들어보자.

In [16]:
students_classes = {'Alice': 'Physics',
                   'Jack': 'Chemistry',
                   'Molly': 'English',
                   'Sam': 'History'}
s = pd.Series(students_classes)
s

Alice      Physics
Jack     Chemistry
Molly      English
Sam        History
dtype: object

In [17]:
# 가령 Series의 4번째 행을 엑세스한다면 다음과 같이 iloc을 이용한다.
s.iloc[3]

'History'

In [18]:
# 다음과 같이 인덱스의 라벨을 이용하여 엑세스할 수 있다.
s.loc['Molly']

'English'

여기서 `loc`과 `iloc`은 함수가 아니고 `Series`가 제공하는 속성(attribute)이다. 따라서 소괄호가 아닌 대괄호를 사용한다.

pandas는 '모호함이 없는 경우'에는 `loc`이나 `iloc`을 생략하는 다음과 같은 약식 표현을 허용한다.

In [19]:
s[3]

  s[3]


'History'

In [20]:
s['Molly']

'English'

여기서 '모호함이 없는 경우'란 어떤 의미일까? 예를 들어 아래와 같이 0에서 시작하지 않는 정수 인덱스를 가진 Series의 경우 `.loc`이나 `.iloc` 속성이 아닌 약식 표현을 사용할 경우 '위치'인지 '라벨'인지 모호해진다. 따라서 약식 표현을 피하고 `.loc`이나 `.iloc` 속성을 사용하는 것이 의도하지 않은 오류를 피할 수 있는 안전한 방법이다.

In [21]:
ambiguous_case = pd.Series(['A', 'B', 'C', 'D'], index=[2, 3, 4, 5])
print(ambiguous_case)

print(ambiguous_case[2])
# print(ambiguous_case[1])

2    A
3    B
4    C
5    D
dtype: object
A


`.loc`과 `.iloc`으로 Series의 행에 접근하여 값을 변경하거나 혹은 새로운 행을 추가할 수도 있다.


In [22]:
s.loc['Alice'] = 'History'    # 값의 변경
s.loc['David'] = 'Math'       # 행 추가
s.loc[5] = None               # 행 추가
s

Alice      History
Jack     Chemistry
Molly      English
Sam        History
David         Math
5             None
dtype: object

위 코드의 마지막에서 인덱스 라벨이 5이고 데이터 값이 `None`인 새로운 행을 Series에 추가하였다.
이 예에서 보듯이 Series에서는 데이터 값이나 인덱스 라벨의 타입이 단일하지 않고 섞여 있어도 상관없다.

# **DataFrame**

`DataFram`e은 pandas 라이브러리의 핵심이다. `DataFrame`은 하나의 인덱스와 다수의 열(column)로 구성된 2차원 객체이다. 일반적으로 각각의 컬럼들은 이름(label)을 가진다.

> <img src="https://raw.githubusercontent.com/ohheum/DS2022/24e75e124099bcb7d19e0d0e6fc13ea6f0f8f6e0/assets/fig02.png" width="500" height="450">



#### DataFrame 생성

`DataFrame`은 2차원 데이터이므로 리스트의 리스트 혹은 `NumPy` 배열 등 Python에서 2차원 배열을 표현하는 자료구조로 부터 생성할 수 있다.

In [23]:
lst = [[0, 1, 2], [3, 4, 5]]    # list of list
df_list = pd.DataFrame(lst)
df_list

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


In [24]:
arr = np.array([[0, 1, 2], [3, 4, 5]])
df_arr = pd.DataFrame(arr)
df_arr

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


위의 두 경우 모두 **인덱스**와 **각 컬럼의 이름**은 0으로 시작하는 정수로 자동 할당되었다.

`DataFrame`은 다수의 `Series` 객체 혹은 딕셔너리 혹은 딕셔너리의 리스트로 부터 생성 할 수도 있다. (실제로는 파일이나 데이터베이스로부터 테이블을 읽어와서 생성하는 것이 좀 더 일반적이라고 할 수 있다.)

In [25]:
# 예를 들어 다음과 같이 학생 이름, 과목 명, 그리고 성적으로 구성된 Series를 3개 생성하였다.

record1 = pd.Series({'Name': 'Alice',
                        'Class': 'Physics',
                        'Score': 85})
record2 = pd.Series({'Name': 'Jack',
                        'Class': 'Chemistry',
                        'Score': 82})
record3 = pd.Series({'Name': 'Helen',
                        'Class': 'Biology',
                        'Score': 90})

In [26]:
# 다수의 Series의의 리스트로 부터 DataFrame의 생성 예. 각 시리즈가 행이됨

df = pd.DataFrame([record1, record2, record3])
df

Unnamed: 0,Name,Class,Score
0,Alice,Physics,85
1,Jack,Chemistry,82
2,Helen,Biology,90


In [27]:
# 각 항목이 하나의 컬럼을 표현하는 딕셔너리로부터 DataFrame의 생성 예
students = {'Name': ['Alice', 'Jack', 'Helen'],
             'Class': ['Physics', 'Chemistry','Biology'],
             'Score': [85, 82, 90]}
df = pd.DataFrame(students)
df

Unnamed: 0,Name,Class,Score
0,Alice,Physics,85
1,Jack,Chemistry,82
2,Helen,Biology,90


DataFrame을 생성하면서 인덱스 값을 `index` 매개변수로 아래와 같이 제공할 수도 있다.

In [28]:
# 혹은 다음과 같이 테이블의 행들을 값으로 가지는 딕셔너리로 부터 DataFrame을 생성할 수도 있다.
students = {'Name': ['Alice', 'Jack', 'Helen'],
              'Class': ['Physics', 'Chemistry','Biology'],
              'Score': [85, 82, 90]}
df = pd.DataFrame(students, index=['school1', 'school2', 'school1'])
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


혹은 인덱스를 공유하는 Series들로부터 생성할 수도 있다. 이때 각 Series는 DataFrame의 열(column)이 된다.

In [29]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [30]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [31]:
# 인덱스를 공유하는 시리즈들을 값으로 가지는 딕셔너리로부터 생성. 각 시리즈가 컬럼이 됨
states_df = pd.DataFrame({'population': population,
                       'area': area})
states_df

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


`DatFrame`의 `index`, `columns`, 그리고 `values` 속성은 각각 인덱스, 컬럼 이름들, 그리고 테이블의 값들을 나타낸다.

In [32]:
states_df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [33]:
states_df.columns

Index(['population', 'area'], dtype='object')

In [34]:
states_df.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]], dtype=int64)

#### 인덱스의 재설정

`set_index` 메서드로 기존의 컬럼 중 하나를 DataFrame의 인덱스로 설정할 수 있다.

In [35]:
people = {
    "first": ["Corey", 'Jane', 'John'],
    "last": ["Schafer", 'Doe', 'Doe'],
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com']
}
df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [36]:
df2 = df.set_index('email')
df

Unnamed: 0,first,last,email
0,Corey,Schafer,CoreyMSchafer@gmail.com
1,Jane,Doe,JaneDoe@email.com
2,John,Doe,JohnDoe@email.com


In [37]:
df.set_index('email', inplace=True)
df

Unnamed: 0_level_0,first,last
email,Unnamed: 1_level_1,Unnamed: 2_level_1
CoreyMSchafer@gmail.com,Corey,Schafer
JaneDoe@email.com,Jane,Doe
JohnDoe@email.com,John,Doe


In [38]:
df.reset_index(inplace=True)
df

Unnamed: 0,email,first,last
0,CoreyMSchafer@gmail.com,Corey,Schafer
1,JaneDoe@email.com,Jane,Doe
2,JohnDoe@email.com,John,Doe


#### DataFrame의 인덱싱

`Series`에서와 마찬가지로 `.loc`과 `.iloc` 속성을 이용하여 `DataFrame`의 행들을 엑세스할 수 있다. `DataFrame`은 2차원이므로 만약 선택된 행이 하나라면 하나의 `Series`가 반환되고, 선택된 행이 하나 이상이면 하나의 `DataFrame` 객체가 반환된다.

In [39]:
students = {'Name': ['Alice', 'Jack', 'Helen'],
              'Class': ['Physics', 'Chemistry','Biology'],
              'Score': [85, 82, 90]}
df = pd.DataFrame(students, index=['school1', 'school2', 'school1'])
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [40]:
print(df.loc['school2'])
print(type(df.loc['school2']))

Name          Jack
Class    Chemistry
Score           82
Name: school2, dtype: object
<class 'pandas.core.series.Series'>


In [41]:
# school1에 해당하는 행은 2개이다. school1으로 인덱싱을 한다면 Series가 아니라 DataFrame이 반환될 것이다.
print(df.loc['school1'])
print(type(df.loc['school1']))

          Name    Class  Score
school1  Alice  Physics     85
school1  Helen  Biology     90
<class 'pandas.core.frame.DataFrame'>


`DataFrame`에서는 행과 열 양 축에 대해서 선택할 수 있다. 예를 들어 `school1`에 해당하는 학생의 이름들을 얻고 싶다면 `.loc` 속성에서 행 인덱스와 열 이름을 동시에 제공하면 된다.

In [42]:
df.loc['school1', 'Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [43]:
# 동일한 일을 다음과 같이 할 수도 있지만, 이렇게 인덱스 연산자를 chaining하는 것은 임시적인 DataFrame을 생성하게되므로 비효율적이다.

print(df.loc['school1']['Name'])
print(df.loc['school2'].loc['Name'])

school1    Alice
school1    Helen
Name: Name, dtype: object
Jack


`DataFrame`에서 `iloc`이나 `loc`은 항상 행을 선택하는 것이다.
`Series`에서와 달리 `DataFrame`에서 인덱싱 연산자(대괄호)는 항상 열(column)을 선택한다.
이것은 관계형 데이터베이스에서 column projection과 유사하다고 생각하면 된다.

In [44]:
df['Name']

school1    Alice
school2     Jack
school1    Helen
Name: Name, dtype: object

In [45]:
# 즉 아래의 예와 같이 인덱싱 연산자로 행을 선택하거나 loc으로 열을 선택할 수는 없다.

# df['school1']   # not working
df.loc['Name']    # not working

KeyError: 'Name'

`.loc` 속성은 slicing을 지원한다. 가령 모든 행을 선택하려고 한다면 콜론(colon)을 사용한다. 이것은 리스트에서의 slicing과 유사하다. 만약 동시에 여러 개의 열을 선택한다면 열 이름의 리스트를 제공하면 된다.

In [None]:
df.loc[:,['Name', 'Score']]

Unnamed: 0,Name,Score
school1,Alice,85
school2,Jack,82
school1,Helen,90


In [None]:
df.loc[['school1', 'school2'], :]

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school1,Helen,Biology,90
school2,Jack,Chemistry,82


`iloc`을 이용한 위치 기반의 선택을 할 수도 있다.

In [None]:
df.iloc[0, [0,1]]

Name       Alice
Class    Physics
Name: school1, dtype: object

In [None]:
df.iloc[0:2, [0,1]]

Unnamed: 0,Name,Class
school1,Alice,Physics
school2,Jack,Chemistry


#### 행과 열의 추가와 삭제

DataFrame에 새로운 행을 추가할 수 있다.

In [None]:
df.loc['school3'] = ['John', 'History', 98]
df.iloc[3] = ['Johnson', 'Programming Basics', 46] # not working
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90
school3,Johnson,Programming Basics,46


In [None]:
df2 = df.copy()
df2.iloc[4] = ['Johnson', 'Programming Basics', 46] # not working

IndexError: ignored

In [None]:
df.iloc[1] = ['Johnson', 'Programming Basics', 46] # not working
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Johnson,Programming Basics,46
school1,Helen,Biology,90
school3,John,History,98


DataFrame에 새로운 열을 추가해보자. 추가될 값을 리스트로 제공할 수도 있고, 혹은 단일 값을 브로드케스트할 수도 있다.

In [None]:
df['Grade'] = ['B', 'B', 'A', 'A']
df['Remark'] = None
df

Unnamed: 0,Name,Class,Score,Grade,Remark
school1,Alice,Physics,85,B,
school2,Johnson,Programming Basics,46,B,
school1,Helen,Biology,90,A,
school3,John,History,98,A,


이번에는 DataFrame에서 행을 삭제해보자. 행의 삭제는 `.drop` 함수를 이용한다.
하지만 `drop` 함수는 DataFrame에서 실제로 행을 삭제하지는 않으며 행이 삭제된 새로운 DataFrame을 생성하여 반환한다.

In [None]:
df2 = df.drop('school1')
df2

Unnamed: 0,Name,Class,Score,Grade,Remark
school2,Johnson,Programming Basics,46,B,
school3,John,History,98,A,


원래의 DataFrame은 변화없이 유지된다.

In [None]:
df

Unnamed: 0,Name,Class,Score,Grade,Remark
school1,Alice,Physics,85,B,
school2,Johnson,Programming Basics,46,B,
school1,Helen,Biology,90,A,
school3,John,History,98,A,


`drop`함수는 2가지 optional parameter를 받는다. 매개변수 `inplace`를 `True`로 설정하면 실제로 `DataFrame`이 수정된다.

두 번째 매개변수 `axis`는 삭제될 축을 지정하는 것이다. 0은 행을, 1은 열을 의미한다.

In [None]:
# 예를 위해서 먼저 .copy()함수를 이용하여 DataFrame의 복제본 copy_df를 만들자.
copy_df = df.copy()

# 이제 'Name' 열을 삭제해보자.
copy_df.drop("Name", inplace=True, axis=1)
copy_df

Unnamed: 0,Class,Score,Grade,Remark
school1,Physics,85,B,
school2,Chemistry,82,B,
school1,Biology,90,A,
school3,History,98,A,


DataFrame에서 열을 삭제하는 또 다른 방법은 `del` 키워드를 이용하는 것이다. `del` 키워드는 dataFrame에서 실제로 해당하는 열을 삭제한다.

In [None]:
del copy_df['Class']
copy_df

Unnamed: 0,Score,Grade,Remark
school1,85,B,
school2,82,B,
school1,90,A,
school3,98,A,


# **사례 1**

하나의 `.csv` 파일로 부터 DataFrame을 생성해보자. 이 예에서 사용하는 데이터 파일은 [여기](https://www.dropbox.com/s/ljjk435ti2pbeg4/Admission_Predict.csv?dl=0)에서 다운로드하라.

In [None]:
from google.colab import drive
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
path = '/content/drive/MyDrive/DataScience2023/chap04_pandas/datasets/Admission_Predict.csv'

Jupyter notebook은 내부적으로 `ipython`을 사용한다. `ipython`에서는 !기호를 이용하여 shell command를 처리할 수 있다. `cat` 명령으로 우리가 다룰 `.csv` 파일의 내용을 간단히 살펴보자.
csv 파일의 첫 줄은 테이블의 각 컬럼의 명칭임을 알 수 있고, 테이블의 첫 컬럼은 정수 1에서 시작하는 번호(Serial No.)이다.

In [None]:
!cat /content/drive/MyDrive/DataScience2023/chap04_pandas/datasets/Admission_Predict.csv

Pandas는 `csv` 파일을 읽어서 `DataFrame`을 생성하는 `read_csv()` 메서드를 제공한다.

In [None]:
df = pd.read_csv(path)
df.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


`csv` 파일에 행 번호를 나타내는 `Serial No`가 있음에도 불구하고 추가로 0에서 시작하는 인덱스가 자동 생성된 것을 확인할 수 있다. 이럴 경우 추가적으로 인덱스를 자동생성하는 대신 `Serial No.` 자체를 인덱스로 사용하는 것이 좋을 것이다. `read_csv` 메서드에서 `index_col` 매개변수의 값을 0으로 지정하거나 혹은 컬럼의 명칭으로 지정하여 인덱스 자동생성을 막고 csv 파일에 존재하는 컬럼을 인덱스로 만들 수 있다.

In [None]:
df = pd.read_csv(path, index_col=0)
# df = pd.read_csv(path, index_col='Serial No.')
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


컬럼 이름 중에 `"SOP"`와 `"LOR"`은 모두가 알고 있는 약어는 아니다. 이 두 이름을 `'Statement of Purpose'`와 `'Letter of Recommendation'`로 변경하고 싶으면
`.rename()` 함수를 사용하면 된다. `rename`함수로 데이터프레임의 인덱스나 컬럼 이름을 변경할 수 있으며, `.rename()` 함수는 원래의 이름과 변경할 이름으로 구성된 딕셔너리를 매개변수로 받는다,

In [None]:
new_df=df.rename(columns={'SOP': 'Statement of Purpose', 'LOR': 'Letter of Recommendation'})
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


열 이름 `SOP`는 변경되었지만 `LOR`은 수정되지 않았다. 왜 그런가? 자세히 보면 `LOR`이 아니라 공백 문자가 추가된 `LOR `임을 확인할 수 있다.

In [None]:
new_df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'LOR ', 'CGPA', 'Research', 'Chance of Admit '],
      dtype='object')

pandas는 문자열의 앞뒤에 붙은 white space를 제거하는 편리한 도구인 `strip()` 함수를 제공한다.
이 함수를 `rename` 함수의 `mapper` 매개변수로 전달하여 white space를 제거할 수 있다.
또한 `axis` 매개변수를 이용하여 행 혹은 열을 지정할 수 있다.

In [None]:
new_df=df.rename(mapper=str.strip, axis='columns')
new_df=new_df.rename(columns={ 'SOP': 'Statement of Purpose', 'LOR': 'Letter of Recommendation'})
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
new_df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'Letter of Recommendation', 'CGPA', 'Research', 'Chance of Admit'],
      dtype='object')

# **사례 2**

1장에서 사용했던 Stackoverflow 설문조사의의 2022년 결과를 `DataFrame`으로 만들어보자. 조사 결과는 [여기](https://insights.stackoverflow.com/survey)에서 다운로드 받을 수 있다.

In [None]:
df = pd.read_csv('/content/drive/MyDrive/DataScience2023/chap01_python/data/stack-overflow-developer-survey-2022/survey_results_public.csv', index_col='ResponseId')
schema_df = pd.read_csv('/content/drive/MyDrive/DataScience2023/chap01_python/data/stack-overflow-developer-survey-2022/survey_results_schema.csv', index_col='qid')

In [None]:
pd.set_option('display.max_columns', 85)
pd.set_option('display.max_rows', 85)

In [None]:
df.head()

Unnamed: 0_level_0,MainBranch,Employment,RemoteWork,CodingActivities,EdLevel,LearnCode,LearnCodeOnline,LearnCodeCoursesCert,YearsCode,YearsCodePro,DevType,OrgSize,PurchaseInfluence,BuyNewTool,Country,Currency,CompTotal,CompFreq,LanguageHaveWorkedWith,LanguageWantToWorkWith,DatabaseHaveWorkedWith,DatabaseWantToWorkWith,PlatformHaveWorkedWith,PlatformWantToWorkWith,WebframeHaveWorkedWith,WebframeWantToWorkWith,MiscTechHaveWorkedWith,MiscTechWantToWorkWith,ToolsTechHaveWorkedWith,ToolsTechWantToWorkWith,NEWCollabToolsHaveWorkedWith,NEWCollabToolsWantToWorkWith,OpSysProfessional use,OpSysPersonal use,VersionControlSystem,VCInteraction,VCHostingPersonal use,VCHostingProfessional use,OfficeStackAsyncHaveWorkedWith,OfficeStackAsyncWantToWorkWith,OfficeStackSyncHaveWorkedWith,OfficeStackSyncWantToWorkWith,Blockchain,NEWSOSites,SOVisitFreq,SOAccount,SOPartFreq,SOComm,Age,Gender,Trans,Sexuality,Ethnicity,Accessibility,MentalHealth,TBranch,ICorPM,WorkExp,Knowledge_1,Knowledge_2,Knowledge_3,Knowledge_4,Knowledge_5,Knowledge_6,Knowledge_7,Frequency_1,Frequency_2,Frequency_3,TimeSearching,TimeAnswering,Onboarding,ProfessionalTech,TrueFalse_1,TrueFalse_2,TrueFalse_3,SurveyLength,SurveyEase,ConvertedCompYearly
ResponseId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1
1,None of these,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,I am a developer by profession,"Employed, full-time",Fully remote,Hobby;Contribute to open-source projects,,,,,,,,,,,Canada,CAD\tCanadian dollar,,,JavaScript;TypeScript,Rust;TypeScript,,,,,,,,,,,,,macOS,Windows Subsystem for Linux (WSL),Git,,,,,,,,Very unfavorable,Collectives on Stack Overflow;Stack Overflow f...,Daily or almost daily,Yes,Daily or almost daily,Not sure,,,,,,,,No,,,,,,,,,,,,,,,,,,,,Too long,Difficult,
3,"I am not primarily a developer, but I write co...","Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Books / Physical media;Friend or family member...,Technical documentation;Blogs;Programming Game...,,14.0,5.0,Data scientist or machine learning specialist;...,20 to 99 employees,I have some influence,,United Kingdom of Great Britain and Northern I...,GBP\tPound sterling,32000.0,Yearly,C#;C++;HTML/CSS;JavaScript;Python,C#;C++;HTML/CSS;JavaScript;TypeScript,Microsoft SQL Server,Microsoft SQL Server,,,Angular.js,Angular;Angular.js,Pandas,.NET,,,Notepad++;Visual Studio,Notepad++;Visual Studio,Windows,Windows,Git,Code editor,,,,,Microsoft Teams,Microsoft Teams,Very unfavorable,Collectives on Stack Overflow;Stack Overflow;S...,Multiple times per day,Yes,Multiple times per day,Neutral,25-34 years old,Man,No,Bisexual,White,None of the above,"I have a mood or emotional disorder (e.g., dep...",No,,,,,,,,,,,,,,,,,,,,Appropriate in length,Neither easy nor difficult,40205.0
4,I am a developer by profession,"Employed, full-time",Fully remote,I don’t code outside of work,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Books / Physical media;School (i.e., Universit...",,,20.0,17.0,"Developer, full-stack",100 to 499 employees,I have some influence,Other (please specify):,Israel,ILS\tIsraeli new shekel,60000.0,Monthly,C#;JavaScript;SQL;TypeScript,C#;SQL;TypeScript,Microsoft SQL Server,Microsoft SQL Server,,,ASP.NET;ASP.NET Core,ASP.NET;ASP.NET Core,.NET,.NET,,,Notepad++;Visual Studio;Visual Studio Code,Notepad++;Visual Studio;Visual Studio Code,Windows,Windows,Git,Code editor;Command-line;Version control hosti...,,,Jira Work Management;Trello,Jira Work Management;Trello,Slack;Zoom,Slack;Zoom,Very unfavorable,Collectives on Stack Overflow;Stack Overflow f...,Daily or almost daily,Yes,A few times per week,"Yes, definitely",35-44 years old,Man,No,Straight / Heterosexual,White,None of the above,None of the above,No,,,,,,,,,,,,,,,,,,,,Appropriate in length,Easy,215232.0
5,I am a developer by profession,"Employed, full-time","Hybrid (some remote, some in-person)",Hobby,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)","Other online resources (e.g., videos, blogs, f...",Technical documentation;Blogs;Stack Overflow;O...,,8.0,3.0,"Developer, front-end;Developer, full-stack;Dev...",20 to 99 employees,I have some influence,Start a free trial;Visit developer communities...,United States of America,USD\tUnited States dollar,,,C#;HTML/CSS;JavaScript;SQL;Swift;TypeScript,C#;Elixir;F#;Go;JavaScript;Rust;TypeScript,Cloud Firestore;Elasticsearch;Microsoft SQL Se...,Cloud Firestore;Elasticsearch;Firebase Realtim...,Firebase;Microsoft Azure,Firebase;Microsoft Azure,Angular;ASP.NET;ASP.NET Core ;jQuery;Node.js,Angular;ASP.NET Core ;Blazor;Node.js,.NET,.NET;Apache Kafka,npm,Docker;Kubernetes,Notepad++;Visual Studio;Visual Studio Code;Xcode,Rider;Visual Studio;Visual Studio Code,Windows,macOS;Windows,Git;Other (please specify):,Code editor,,,,,Microsoft Teams;Zoom,,Unfavorable,Collectives on Stack Overflow;Stack Overflow f...,Multiple times per day,Yes,Daily or almost daily,"Yes, definitely",25-34 years old,,,,,,,No,,,,,,,,,,,,,,,,,,,,Too long,Easy,


In [None]:
schema_df

Unnamed: 0_level_0,qname,question,force_resp,type,selector
qid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
QID16,S0,"<div><span style=""font-size:19px;""><strong>Hel...",False,DB,TB
QID12,MetaInfo,Browser Meta Info,False,Meta,Browser
QID1,S1,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
QID2,MainBranch,Which of the following options best describes ...,True,MC,SAVR
QID296,Employment,Which of the following best describes your cur...,False,MC,MAVR
QID308,RemoteWork,Which best describes your current work situation?,False,MC,SAVR
QID297,CodingActivities,Which of the following best describes the code...,False,MC,MAVR
QID190,S2,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
QID25,EdLevel,Which of the following best describes the high...,False,MC,SAVR
QID276,LearnCode,How did you learn to code? Select all that apply.,False,MC,MAVR


In [None]:
schema_df.set_index('qname', inplace=True)
schema_df

Unnamed: 0_level_0,question,force_resp,type,selector
qname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
S0,"<div><span style=""font-size:19px;""><strong>Hel...",False,DB,TB
MetaInfo,Browser Meta Info,False,Meta,Browser
S1,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
MainBranch,Which of the following options best describes ...,True,MC,SAVR
Employment,Which of the following best describes your cur...,False,MC,MAVR
RemoteWork,Which best describes your current work situation?,False,MC,SAVR
CodingActivities,Which of the following best describes the code...,False,MC,MAVR
S2,"<span style=""font-size:22px; font-family: aria...",False,DB,TB
EdLevel,Which of the following best describes the high...,False,MC,SAVR
LearnCode,How did you learn to code? Select all that apply.,False,MC,MAVR


In [None]:
schema_df.columns

Index(['question', 'force_resp', 'type', 'selector'], dtype='object')

In [None]:
schema_df.loc['SOVisitFreq', 'question']

'How frequently would you say you visit Stack Overflow?'

In [None]:
schema_df.sort_index(inplace=True)

In [None]:
schema_df

Unnamed: 0_level_0,question,force_resp,type,selector
qname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Accessibility,"Which of the following describe you, if any? P...",False,MC,MAVR
Age,What is your age?,False,MC,MAVR
Blockchain,"How favorable are you about blockchain, crypto...",False,MC,SAVR
BuyNewTool,"When buying a new tool or software, how do you...",False,MC,MAVR
CodingActivities,Which of the following best describes the code...,False,MC,MAVR
CompFreq,"Is that compensation weekly, monthly, or yearly?",False,MC,MAVR
CompTotal,What is your current total compensation (salar...,False,TE,SL
Country,"Where do you live? <span style=""font-weight: b...",True,MC,DL
Currency,Which currency do you use day-to-day? If your ...,True,MC,DL
Database,Which <b>database environments </b>have you do...,False,Matrix,Likert
