# Pandas

참고 문서: https://pandas.pydata.org/docs/getting_started/index.html

pandas의 두 가지 주요 데이터 구조인 Series(1차원)와 DataFrame(2차원)은 다양한 엔지니어링 분야에서 일반적인 사용 사례를 처리한다.

pandas의 데이터 구조를 이해하는 가장 좋은 방법은, 이를 저차원 데이터에 대한 유연한 컨테이너로 생각하는 것이다. 예를 들어, DataFrame은 여러 개의 Series를 담는 컨테이너이며, Series는 스칼라 값을 담는 컨테이너이다.

모든 pandas 데이터 구조는 값 변경 가능(value-mutable) 하지만 크기 변경 가능(size-mutable) 하지 않다. 즉, 데이터가 포함된 값을 변경할 수는 있지만, 그 크기나 구조는 항상 변경할 수 있는 것은 아니다. 예를 들어, Series의 길이는 변경할 수 없지만, DataFrame에서는 열을 추가할 수 있다. 그러나 대부분의 pandas 메서드는 새로운 객체를 생성하고 입력 데이터를 변경하지 않는다.

In [2]:
import pandas as pd

## DataFrame

### DataFrame에 대해 알아보자

In [3]:
df = pd.DataFrame({
    "Name": ["James",
             "Daniel",
             "Chris"],
    "Age": [22, 58, 33],
    "Sex": ["Male", "Male", "Female"]
})
df

Unnamed: 0,Name,Age,Sex
0,James,22,Male
1,Daniel,58,Male
2,Chris,33,Female


DataFrame의 각 열은 Series이다.

In [4]:
df["Name"]

0     James
1    Daniel
2     Chris
Name: Name, dtype: object

Age 열의 최대값 구하기 - np.int64 객체가 스칼라 객체로서 반환된다.

In [5]:
df["Age"].max()

np.int64(58)

기본 통계량 구하기 - 많은 Pandas의 오퍼레이션들은 DataFrame이나 Series 객체를 반환한다.
* describe 메서드는 기본적으로 숫자 데이터에 대한 overview를 제공한다.

In [6]:
df.describe()

Unnamed: 0,Age
count,3.0
mean,37.666667
std,18.448125
min,22.0
25%,27.5
50%,33.0
75%,45.5
max,58.0


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   Sex     3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


csv 파일로부터 DataFrame 객체를 생성할 수 있다.

In [13]:
data = pd.read_csv("data.csv")

data.head(3)

Unnamed: 0,Name,Age,Sex
0,James,22,Male
1,Daniel,58,Male
2,Chris,33,Female


In [14]:
data.tail(3)

Unnamed: 0,Name,Age,Sex
30,James,22,Male
31,Daniel,58,Male
32,Chris,33,Female


각 열의 데이터 타입을 확인할 수 있다.
* 아래 코드의 출력 결과의 마지막에 나타난 'dtype: object'는, data.dtypes라는 시리즈 객체가 object type의 스칼라 객체들을 담고 있음을 의미한다.
* 더 구체적인 타입 대신 'object'로 나타난 이유는 Pandas가 기본적으로 처리할 수 있는 타입이 아니기 때문이다.

In [16]:
data.dtypes

Name    object
Age      int64
Sex     object
dtype: object

In [18]:
print(type(data.dtypes))
print(type(data.dtypes["Name"]))

<class 'pandas.core.series.Series'>
<class 'numpy.dtypes.ObjectDType'>


### DataFrame의 subset 구하기

1. 특정 열을 어떻게 선택할까?
* 위에서 해봤으니까 생략
* 열 선택 시 Series 객체가 반환되는 것을 기억하자.

In [20]:
data.shape

(33, 3)

In [22]:
# 열은 Series, 즉 1차원이기 때문에 행의 개수만 출력된다.
data["Name"].shape

(33,)

2. 특정 행을