# Pandas

파이썬에서 가장 널리 사용되는 데이터 분석 및 조작 라이브러리

다음과 같은 핵심 데이터 구조를 가지고 있음

- DataFrame : 2차원 테이블 형태의 데이터 구조 (엑셀 시트와 유사)
- Series : 1차원 배열 형태의 데이터 구조

Attribute인지 Method인지, 반환값이 있는지 없는지를 추가로 확인해 보는것을 추천함


# Series

1D Labeled data structure로 하나의 row 또는 하나의 column을 추상화 하고 있는 Class임

pandas의 1D data를 위한 핵심 데이터 구조

index와 value로 구성된 labeled 1차원 데이터 구조를 관리함

- index : 각 데이터 포인트의 레이블 (unique할 필요 없음)

  - 흔히, 0부터 시작하는 정수 index로 접근 : .iloc
  - 또는 명시적으로 할당된 label을 통해 접근 : .loc

- value : 실제 데이터 값
  - 모든 값은 동일한 데이터 타입(dtype)을 가짐
  - 선택적으로 Series는 name속성을 가질 수 있음 (Series를 가르키는 이름)

DataFrame은 2D Labeled Tabular data structure로, 여러 개의 Series가 열(column)로 결합된 형태라고 볼 수 있음. 즉, DataFrame의 각 column은 Series임

## 1. Series 생성

### 1-1. list로 생성


In [None]:
import pandas as pd
import numpy as np

# pandas는 내부적으로 numpy array 를 기반으로 동작함
s1 = pd.Series([10, 20, 30, 40, 50])
print("리스트로 생성")
print(s1)

리스트로 생성
0    10
1    20
2    30
3    40
4    50
dtype: int64


| 구성 요소                   | 설명                                                                       |
| --------------------------- | -------------------------------------------------------------------------- |
| Index                       | 행/열의 라벨 (numpy에는 없음, pandas에서 추가된 개념)                      |
| Data                        | 실제 값 저장. numpy.ndarray 또는 ExtensionArray 형태                       |
| dtype                       | NumPy dtype(예: int64, float64 등) 혹은 pandas 전용 dtype                  |
| BlockManager / ArrayManager | DataFrame 내부에서 열 단위 데이터를 효율적으로 관리하는 pandas 내부 구조체 |

### 1-2. index를 지정하여 생성


In [22]:
s2 = pd.Series([83, 92, 98],
               index=['김철수', '김영희', '김행근'],
               name='점수')

print(s2)

김철수    83
김영희    92
김행근    98
Name: 점수, dtype: int64


### 1-3. dictionary로 생성


In [4]:
dict_data = {'서울': 9765, '부산': 3419, '인천': 2958, '대구': 2427}
s3 = pd.Series(dict_data, name='인구(천명)')

print(s3)

서울    9765
부산    3419
인천    2958
대구    2427
Name: 인구(천명), dtype: int64


## 2.Series의 Attribute

Series는 Class이기 때문에 속성값을 가질 수 있음

Attritube는 객체의 상태를 나타내는 데이터 값으로 Method와 다르게 실행 없이 값을 반환함


In [10]:
print(f"values : {s2.values}")
print(f"index : {s2.index}")
print(f"name : {s2.name}")
print(f"size : {s2.size}")
print(f"dtype : {s2.dtype}")

values : [83 92 98]
index : Index(['김철수', '김영희', '김행근'], dtype='object')
name : 점수
size : 3
dtype : int64


- `.values` 보다는 `.to_numpy(dtype='float64', copy='True')`가 권장됨
  - numpy array로 반환 되어 용이함
- 값을 읽는 경우만 `.values` 또는 `.to_numpy()`를 사용
- 값을 바꿔야 하는 경우에는 `indexer`를 사용하거나 `filtering` 또는 `apply`를 사용


In [37]:
s2.to_numpy(dtype='float64', copy='True')

array([83., 92., 98.])

In [None]:
print(type(s2.values))  # numpy array
print(type(s2.index))  # Index type
print(type(s2.name))  # str
print(type(s2.size))  # int
print(type(s2.dtype))  # numpy dtype

<class 'numpy.ndarray'>
<class 'pandas.core.indexes.base.Index'>
<class 'str'>
<class 'int'>
<class 'numpy.dtypes.Int64DType'>


## 3. data 접근

panda에서는 `loc`, `iloc`, `at`, `iat`의 indexer를 제공함


### 3-1. index로 접근 (`.iloc`)


In [None]:
s2['김철수']  # indexer .loc을 사용하는 경우와 동일하게 작동

np.int64(83)

In [32]:
s2.loc['김철수']  # NumPy 스칼라 값이 반환

np.int64(83)

In [35]:
s2.loc[['김행근']]  # 부분 시리즈 반환

김행근    98
Name: 점수, dtype: int64

In [33]:
s2.loc[['김철수', '김영희']]  # 부분 시리즈

김철수    83
김영희    92
Name: 점수, dtype: int64

### 3-2. 위치로 접근 (`.loc`)


In [30]:
s2.iloc[0:2]  # 부분 시리즈 반환

김철수    83
김영희    92
Name: 점수, dtype: int64

In [28]:
s2.iloc[0]  # NumPy 스칼라 값이 반환됨환

np.int64(83)

## 4. 데이터 필터링

condition에 의해 boolean mask(Series 객체)가 생성되며 이를 이용한 indexing임

- 여러개의 condition을 사용시 각각을 ()로 감싸야 함.
- &, |, ~ 를 사용하여 condition을 묶음 (and, or, not 사용 불가)


In [45]:
data_list = [10, 20, 30, 40, 50]

s3 = pd.Series(data_list, index=['정은교', '배서준',
               '이원준', '최일환', '이제석'], name='score')

In [46]:
print('students who have a score over 30')
print(s3[s3 >= 30])

students who have a score over 30
이원준    30
최일환    40
이제석    50
Name: score, dtype: int64


In [48]:
s3 >= 30

정은교    False
배서준    False
이원준     True
최일환     True
이제석     True
Name: score, dtype: bool

In [49]:
print('students who have a score between 20 and 30')
print(s3[(s3 >= 20) & (s3 <= 30)])

students who have a score between 20 and 30
배서준    20
이원준    30
Name: score, dtype: int64


# DataFrame

pandas의 핵심 데이터 구조

엑셀 시트처럼 행과 열로 구성된 labeled 2차원 tavular data를 관리

- Row : a case of sample (=single instance)
  - 흔히, 0부터 시작하는 index를 통해 접근 : .iloc
  - 또는 index로 할당된 label을 통해 접근 : .loc
- Column : a feature (or attribute).
  - DataFrame 에서 각각의 Column은 문자열 이름을 가진 Series라고 볼 수 있음

> 참고사항 0 :
>
> pandas 2.0부터는 \
> DataFrame.append()와 Series.append() 메서드가 완전히 제거(deprecated)되어 \
> pd.concat()을 이용한 결합 방식이 표준이 됨.
>
> 참고사항 1 :
>
> 문자열 데이터(Python의 str)는 기본적으로 object dtype으로 생성됨: \
> 결측값 처리와 타입 일관성을 위해서는 \
> dtype="string" 으로 명시적으로 지정하는 것이 권장됨. \
> 이는 Pandas 전용 nullable string타입으로 Python의 str과 다름.


## Column을 직접 할당하여 DataFrame 생성

새로운 empty DataFrame 객체를 만든 뒤, 각 Column에

- list,
- numpy array
- Series 등을 직접 할당하여

DataFrame 객체를 만드는 방식

문자열은 기본적으로 `object dtype`이지만 결측치(pd.NA)와 처리와 타입 일관성을 위해 `dtype="string"`을 명히적으로 지정하는 것이 권장됨

#### 이게 뭔 소리냐면..

pandas에선 기본적으로 `object dtype`을 할당함, `object dtype`은 모든 타입을 가질 수 있고 `NaN(float형 결측치)`와 문자열이 섞여 있을 수 있어 타입 일관성이 깨질 수 있음

이 때 `dtype="string"`으로 설정하면 `StringDtype`으로 설정되어 결측치를 NA로 처리히게됨


In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame()

# 문자열 열: dtype="string"으로 명시 (nullable)
df["Name"] = pd.Series(["Alice", "Bob", "Charlie"], dtype="string")

# 정수형 열: nullable 정수 dtype (Int64) 사용
df["Age"] = pd.Series([25, 30, 35], dtype="Int64")

# 실수형 열: NumPy 배열로 할당
df["Score"] = np.array([88.5, 92.0, 79.0])

# Series 할당 시 인덱스 레이블이 겹치는 위치에만 값이 채워짐
s_city = pd.Series(["Seoul", "Busan"], index=[0, 2],
                   name="City", dtype="string")
df["City"] = s_city

print(df)

      Name  Age  Score   City
0    Alice   25   88.5  Seoul
1      Bob   30   92.0   <NA>
2  Charlie   35   79.0  Busan


## 개별 Series를 기존 DataFrame에 새로운 Column으로 추가하기

`Series` 객체를 기존의 `DataFrame`에 새로운 `column`으로 합칠 때 (추가)는,\
해당 `Series` 객체에서 .`to_frame()` 메서드를 통해 `DataFrame` 객체로 변환한 뒤\
`pd.concat(axis=1)`으로 결합(`axis=1` 이어야 column으로 결합됨)시킬 수 있음.

- pandas는 인덱스 레이블을 기준으로 정합(label-based alignment)해 결합함.
- `pd.concat()`함수의 기본 동작은 `outer join` 이나, join파라미터에 `"inner"`를 할당해서 `inner join` 모드로 동작 가능함.

  - `pd.concat()`함수는 `left join`과 `right join`은 지원 안함.

  - 이는 `DataFrame`의 메서드인 `join()`,`merge()`에서 지원.


In [None]:
import pandas as pd

# 기준 DataFrame
base = pd.DataFrame({"Name": pd.Series(["Alice", "Bob", "Charlie"], dtype="string",
                    index=[100, 101, 102])})

# 각각 일부 인덱스를 가진 Series
age_s = pd.Series([25, 30], index=[100, 101], name="Age", dtype="Int64")
city_s = pd.Series(["Seoul", "Busan", "Incheon"], index=[100, 102, 103],
                   name="City", dtype="string")

df.index = df.index * 10

# Series를 DataFrame으로 변환
df = pd.concat([base, age_s.to_frame(), city_s.to_frame()],
               axis=1)  # default outer join
print(df)

        Name   Age     City
100    Alice    25    Seoul
101      Bob    30     <NA>
102  Charlie  <NA>    Busan
103     <NA>  <NA>  Incheon


# Basic Attribute and Exploration Methods

pandas의 DataFrame객체는 2차원 데이터 구조(2D tabular structure)로, 데이터 분석에서 가장 자주 사용되는 객체임.

- 일반적으로 데이터에서 수백 ~ 수십만의 row (case) 및 column (feature, attribute)이 존재
- 일부 데이터를 출력하거나 통계치로서 데이터를 살펴보는 과정 필요. ← Descriptive Statistics

이같은 DataFrame 객체의 구조 및 내용을 빠르게 파악하기 위한 주요 attributes와 exploration methods를 소개한다.


### 1. DataFrame 기본 속성 (Attributes)

- DataFrame 객체는 NumPy 배열처럼 몇 가지 기초 속성을 바로 확인할 수 있음
- shape, ndim, dtype 등을 손쉽게 확인 가능

*다음중 Attribute 인걸 골라라

In [53]:
# import pandas as pd

# # 예제 DataFrame
# data = {
#     "Name": ["Alice", "Bob", "Charlie", "David"],
#     "Age": [25, 30, 35, 40],
#     "City": ["Seoul", "Busan", "Incheon", "Daegu"]
# }
# df = pd.DataFrame(data, dtype="string")

# 주요 속성 확인
print("Shape:", df.shape)        # (행, 열)
print("ndim:", df.ndim)          # 차원 수 (항상 2)
print("Size:", df.size)          # 전체 원소 개수
print("dtypes:\n", df.dtypes)    # 각 column의 dtype
print("Index:", df.index)        # 행 인덱스 객체
print("Columns:", df.columns)    # 열 이름

Shape: (4, 3)
ndim: 2
Size: 12
dtypes:
 Name    string[python]
Age              Int64
City    string[python]
dtype: object
Index: Index([100, 101, 102, 103], dtype='int64')
Columns: Index(['Name', 'Age', 'City'], dtype='object')


### 2. 구조 확인 메서드: info()

- 데이터의 전반적 구조 요약 제공
- 행 개수, 열 개수, 각 열의 데이터 타입, 결측치 여부 등을 확인 가능
  

In [55]:
df.info() # return None

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 100 to 103
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      string
 1   Age     2 non-null      Int64 
 2   City    3 non-null      string
dtypes: Int64(1), string(2)
memory usage: 132.0 bytes


In [59]:
a = df.info()

print("-"*10, a, sep='\n')

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 100 to 103
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      string
 1   Age     2 non-null      Int64 
 2   City    3 non-null      string
dtypes: Int64(1), string(2)
memory usage: 132.0 bytes
----------
None


### 3. 통계 요약 메서드 : describe()

In [65]:
print(df.describe()) #return DataFrame

            Age
count       2.0
mean       27.5
std    3.535534
min        25.0
25%       26.25
50%        27.5
75%       28.75
max        30.0


In [66]:
a = df.describe()

In [67]:
type(a)

pandas.core.frame.DataFrame

In [68]:
a

Unnamed: 0,Age
count,2.0
mean,27.5
std,3.535534
min,25.0
25%,26.25
50%,27.5
75%,28.75
max,30.0
