# Pandas

참고 문서: https://pandas.pydata.org/docs/getting_started/index.html

pandas의 두 가지 주요 데이터 구조인 Series(1차원)와 DataFrame(2차원)은 다양한 엔지니어링 분야에서 일반적인 사용 사례를 처리한다.

pandas의 데이터 구조를 이해하는 가장 좋은 방법은, 이를 저차원 데이터에 대한 유연한 컨테이너로 생각하는 것이다. 예를 들어, DataFrame은 여러 개의 Series를 담는 컨테이너이며, Series는 스칼라 값을 담는 컨테이너이다.

모든 pandas 데이터 구조는 값 변경 가능(value-mutable) 하지만 크기 변경 가능(size-mutable) 하지 않다. 즉, 데이터가 포함된 값을 변경할 수는 있지만, 그 크기나 구조는 항상 변경할 수 있는 것은 아니다. 예를 들어, Series의 길이는 변경할 수 없지만, DataFrame에서는 열을 추가할 수 있다. 그러나 대부분의 pandas 메서드는 새로운 객체를 생성하고 입력 데이터를 변경하지 않는다.

In [225]:
import pandas as pd
pd.set_option('display.max_rows', 6)

## DataFrame

### DataFrame에 대해 알아보자

In [226]:
df = pd.DataFrame({
    "Name": ["James",
             "Daniel",
             "Chris"],
    "Age": [22, 58, 33],
    "Sex": ["Male", "Male", "Female"]
})
df

Unnamed: 0,Name,Age,Sex
0,James,22,Male
1,Daniel,58,Male
2,Chris,33,Female


DataFrame의 각 열은 Series이다.

* DataFrame과 Series 모두 NDFrame의 자식 클래스이다.

In [227]:
df["Name"]

0     James
1    Daniel
2     Chris
Name: Name, dtype: object

In [228]:
type(df["Name"])

pandas.core.series.Series

Age 열의 최대값 구하기 - np.int64 객체가 스칼라 객체로서 반환된다.

In [229]:
df["Age"].max()

np.int64(58)

기본 통계량 구하기 - 많은 Pandas의 오퍼레이션들은 DataFrame이나 Series 객체를 반환한다.
* describe 메서드는 기본적으로 숫자 데이터에 대한 overview를 제공한다.

In [230]:
df.describe()

Unnamed: 0,Age
count,3.000000
mean,37.666667
std,18.448125
...,...
50%,33.000000
75%,45.500000
max,58.000000


In [231]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   Sex     3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


csv 파일로부터 DataFrame 객체를 생성할 수 있다.

In [232]:
data = pd.read_csv("data.csv")

data.head(3)

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
1,Sarah,29,Female,3.5,Chinese
2,Daniel,58,Male,4.0,


In [233]:
data.tail(3)

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
27,Lisa,41,Female,3.5,
28,Robert,34,Male,2.5,Japanese
29,Grace,28,Female,4.0,


각 열의 데이터 타입을 확인할 수 있다.
* 아래 코드의 출력 결과의 마지막에 나타난 'dtype: object'는, data.dtypes라는 시리즈 객체가 object type의 스칼라 객체들을 담고 있음을 의미한다.
* 'dtype'이라는 구체적인 타입 대신 'object'로 나타난 이유는 Pandas가 기본적으로 처리할 수 있는 타입이 아니기 때문이다.

In [234]:
display(data.dtypes)
display(data.dtypes.array)

Name               object
Age                 int64
Sex                object
Grade             float64
SecondLanguage     object
dtype: object

<NumpyExtensionArray>
[dtype('O'), dtype('int64'), dtype('O'), dtype('float64'), dtype('O')]
Length: 5, dtype: object

In [235]:
display(type(data.dtypes))
display(type(data.dtypes["Name"]))

pandas.core.series.Series

numpy.dtypes.ObjectDType

### DataFrame의 subset 구하기

1. 특정 열을 어떻게 선택할까? 열의 이름을 이용하여  통해 열을 하나만 추출하는 것은 앞서 해보았다.

* 열 선택 시 Series 객체가 반환되는 것을 기억하자.

DataFrame.shape 속성을 통해 객체의 차원을 구할 수 있다.

In [236]:
data.shape

(30, 5)

In [237]:
# 열은 Series, 즉 1차원이기 때문에 행의 개수만 출력된다.
data["Name"].shape

(30,)

* 여러 열을 동시에 선택할 수도 있다. 이 경우 `DataFrame` 객체가 반환된다.

In [238]:
data[["Name", "Age"]]

Unnamed: 0,Name,Age
0,James,22
1,Sarah,29
2,Daniel,58
...,...,...
27,Lisa,41
28,Robert,34
29,Grace,28


In [239]:
display(data[["Name", "Age"]].shape)
data[["Name", "Age"]].dtypes

(30, 2)

Name    object
Age      int64
dtype: object

2. 특정 행 선택하기

* `data["Age"] > 30` 같은 표현식을 조건으로 이용하여 행을 필터링할 수 있다.
* `loc`나 `iloc`와 같은 속성을 이용하지 않고 인덱싱을 할 때는 다음과 같은 규칙이 존재한다.
  * 문자열 -> 열 선택
  * 슬라이스/불리언 -> 행 선택
  * 이중 대괄호 -> 열 선택
* 필터링 조건이 복잡하거나 명확한 열/행 선택이 필요한 경우 `loc` 및 `iloc`를 사용하는 것이 좋을 것 같다.

In [240]:
display((data["Age"] > 30).array)

display(data)

display(data[data["Age"] > 30])

<NumpyExtensionArray>
[np.False_, np.False_,  np.True_,  np.True_,  np.True_, np.False_, np.False_,
  np.True_,  np.True_,  np.True_,  np.True_,  np.True_,  np.True_,  np.True_,
  np.True_, np.False_,  np.True_, np.False_,  np.True_,  np.True_, np.False_,
  np.True_, np.False_,  np.True_,  np.True_, np.False_,  np.True_,  np.True_,
  np.True_, np.False_]
Length: 30, dtype: bool

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
1,Sarah,29,Female,3.5,Chinese
2,Daniel,58,Male,4.0,
...,...,...,...,...,...
27,Lisa,41,Female,3.5,
28,Robert,34,Male,2.5,Japanese
29,Grace,28,Female,4.0,


Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
2,Daniel,58,Male,4.0,
3,Chris,33,Female,3.0,French
4,Michael,45,Male,2.5,German
...,...,...,...,...,...
26,Daniel,58,Male,4.0,Chinese
27,Lisa,41,Female,3.5,
28,Robert,34,Male,2.5,Japanese


In [241]:
display(data.loc[data["Age"] > 30, ["Name", "Age"]])

Unnamed: 0,Name,Age
2,Daniel,58
3,Chris,33
4,Michael,45
...,...,...
26,Daniel,58
27,Lisa,41
28,Robert,34


In [244]:
display(data[data["Grade"].isin([4.5, 4.0])])
display(data[data["SecondLanguage"].notna()])

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
2,Daniel,58,Male,4.0,
5,Emma,27,Female,4.5,
...,...,...,...,...,...
24,Andrew,43,Male,4.5,
26,Daniel,58,Male,4.0,Chinese
29,Grace,28,Female,4.0,


Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
1,Sarah,29,Female,3.5,Chinese
3,Chris,33,Female,3.0,French
...,...,...,...,...,...
25,Emily,26,Female,3.0,German
26,Daniel,58,Male,4.0,Chinese
28,Robert,34,Male,2.5,Japanese


* 각 조건을 소괄호`()`로 감싸고, `|`, `&` 및 `~` 연산자를 적용하여 and / or / not 연산을 수행할 수 있다.
  * 소괄호로 감싸는 이유는 파이썬의 연산자 우선순위 규칙 때문..

In [243]:
display(data.loc[(data['Sex'] == 'Male') & (data["Grade"] == 4.5), ["Name", "Grade"]])

Unnamed: 0,Name,Grade
0,James,4.5
14,Thomas,4.5
24,Andrew,4.5


* Series 객체의 `map` 메서드를 이용하거나, List comprehensions를 이용할 수 있다.
  * `map`을 사용하는 것이 더 빠르다.
  * 더 나아가 `apply` 메서드를 이용할 수도 있고, 각 데이터 타입에 특화된 메서드를 이용할 수도 있다.

In [264]:
# 아래의 4개는 모두 같은 결과를 출력한다.
data[data["Name"].map(lambda x: x.startswith("J"))]

data[data["Name"].str.startswith("J")]

data[data["Name"].apply(lambda x: x.startswith("J"))]

# 다만 위 3개는 Series 객체를 인덱싱에 사용하는데, 아래는 list 객체를 인덱싱에 사용한다.
# 내부적으로 list가 어떻게 처리되는지는 찾아봐야 함.
display(data[[x.startswith("J") for x in data["Name"]]])

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
6,James,24,Male,3.5,Chinese
10,John,38,Male,3.5,
17,Jessica,25,Female,4.0,
20,James,22,Male,3.0,
23,Julia,37,Female,2.5,French


계속해서 여러 예시들을 살펴보자.

In [272]:
s = data["Name"].str.startswith("J")

display(s)
display(s.values)

# 아래의 2개는 같은 결과를 반환한다.
# 다만 iloc에는 boolean Series 객체를 직접 전달할 수 없고, values 속성을 통해 numpy.ndarray 객체를 전달해야 한다.
data.loc[s]
display(data.iloc[s.values])

0      True
1     False
2     False
      ...  
27    False
28    False
29    False
Name: Name, Length: 30, dtype: bool

array([ True, False, False, False, False, False,  True, False, False,
       False,  True, False, False, False, False, False, False,  True,
       False, False,  True, False, False,  True, False, False, False,
       False, False, False])

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,James,22,Male,4.5,Japanese
6,James,24,Male,3.5,Chinese
10,John,38,Male,3.5,
17,Jessica,25,Female,4.0,
20,James,22,Male,3.0,
23,Julia,37,Female,2.5,French


In [280]:
values = {
    "Sex": ["Male"],
    "Grade": [3.5, 4.0],
}

# DataFrame 객체에 isin() 메서드를 사용하면, 해당 값이 포함되어 있는지 여부를 확인할 수 있다.
display(data.isin(values))

# DataFrame 객체에 all() 메서드를 사용하면, 모든 값이 True인지 여부를 확인할 수 있다.
row_mask = data[["Sex", "Grade"]].isin(values).all(1)

display(row_mask)

display(data[row_mask])

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
0,False,False,True,False,False
1,False,False,False,True,False
2,False,False,True,True,False
...,...,...,...,...,...
27,False,False,False,True,False
28,False,False,True,False,False
29,False,False,False,True,False


0     False
1     False
2      True
      ...  
27    False
28    False
29    False
Length: 30, dtype: bool

Unnamed: 0,Name,Age,Sex,Grade,SecondLanguage
2,Daniel,58,Male,4.0,
6,James,24,Male,3.5,Chinese
10,John,38,Male,3.5,
12,Daniel,35,Male,4.0,Japanese
22,Kevin,29,Male,3.5,
26,Daniel,58,Male,4.0,Chinese
