# 4. 라이브러리
## 4.2. Pandas 라이브러리
### 4.2.1. 판다스 객체
#### 4.2.1.2. 판다스 객체 생성

In [2]:
import numpy as np
import pandas as pd

In [3]:
# 판다스 설치법: !pip install pandas

In [5]:
# Series 생성1: 리스트 사용
pd.Series([1, 2, 3, 4, 5])  # 1열의 01234는 인덱스고 그 옆이 내가 적은 값

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [6]:
# Series 생성2: 딕셔너리 사용
pd.Series({'a': 10, 'b': 20, 'c': 30})

a    10
b    20
c    30
dtype: int64

In [7]:
# Series 생성3: 인덱스 지정
pd.Series([1,2,3], index = ['a', 'b', 'c'])

a    1
b    2
c    3
dtype: int64

In [18]:
# DataFrame 생성1: Series 사용
sr = pd.Series([1,2,3], index = ['a', 'b', 'c'])
pd.DataFrame(sr)         # 기존의 인덱스 행의 인덱스로, 하나의 열이 생성됨.
pd.DataFrame(sr, columns = ['value']) 

Unnamed: 0,value
a,1
b,2
c,3


In [19]:
# DataFrame 생성2: 리스트 사용
lst = [['a', 22], ['b', 20], ['c', 27]]
pd.DataFrame(lst)

Unnamed: 0,0,1
0,a,22
1,b,20
2,c,27


In [20]:
# DataFrame 생성3: 딕셔너리 사용
dct = {
    'Name': ['A', 'B', 'C'],
    'Age': [22, 20, 27]
}
pd.DataFrame(dct)

Unnamed: 0,Name,Age
0,A,22
1,B,20
2,C,27


In [26]:
# DataFrame 생성4: 인덱스 및 열 이름 지정
data = [[101,22], [102, 20], [103, 27]]
pd.DataFrame(data,
            columns = ['ID','Age'],
            index = ['A', 'B', 'C'])

Unnamed: 0,ID,Age
A,101,22
B,102,20
C,103,27


In [22]:
# Index 생성1: 리스트 생성
pd.Index([1,2,3,4])

Int64Index([1, 2, 3, 4], dtype='int64')

In [23]:
# Index 생성2: range() 시용
pd.Index(range(1,6))

RangeIndex(start=1, stop=6, step=1)

In [24]:
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [25, 30, 35, 40, 28],
    'Score': [85.5, 90.3, 78.2, 88.9, 92.5]
})

In [29]:
df

Unnamed: 0,Name,Age,Score
0,Alice,25,85.5
1,Bob,30,90.3
2,Charlie,35,78.2
3,David,40,88.9
4,Eva,28,92.5


#### 4.2.1.3. 데이터프레임 속성

In [30]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [33]:
df.columns

Index(['Name', 'Age', 'Score'], dtype='object')

In [35]:
df.dtypes

Name      object
Age        int64
Score    float64
dtype: object

In [37]:
df.shape  #(행,열)

(5, 3)

#### 4.2.1.4. 데이터프레임 정보 조회

In [39]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    5 non-null      object 
 1   Age     5 non-null      int64  
 2   Score   5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes


In [41]:
df.head(n = 3)  # 상위 세 개의 데이터만 확인

Unnamed: 0,Name,Age,Score
0,Alice,25,85.5
1,Bob,30,90.3
2,Charlie,35,78.2


In [42]:
df.describe()

Unnamed: 0,Age,Score
count,5.0,5.0
mean,31.6,87.08
std,5.94138,5.576917
min,25.0,78.2
25%,28.0,85.5
50%,30.0,88.9
75%,35.0,90.3
max,40.0,92.5


### 4.2.2. 데이터프레임 인덱싱과 슬라이싱
#### 4.2.2.1. 열 인덱싱과 슬라이싱

In [43]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9],
    'D': [10, 11, 12]
}, index=['x', 'y', 'z'])

In [44]:
df

Unnamed: 0,A,B,C,D
x,1,4,7,10
y,2,5,8,11
z,3,6,9,12


In [51]:
# 열 이름 사용
df['A']
df[['A', 'C']]


Unnamed: 0,A,C
x,1,7
y,2,8
z,3,9


In [60]:
# 라벨 기반 접근
df.loc[:, 'A']           # 열 이름을 이용해서 추출
df.loc[:, ['A', 'D']]    # 열 이름 리스트
df.loc[:, 'A':'B']       # 열 이름 슬라이싱(B까지 포함함!)
df.loc[:, ::2]           # 열 이름 스트라이딩
df.loc[:, 'B'::2]        # B에서 시작하여 열 이름 스트라이딩
df.loc[:, [True,False,True,True]]   # bool 리스트

Unnamed: 0,A,C,D
x,1,7,10
y,2,8,11
z,3,9,12


In [68]:
# 정수 기반 접근
df.iloc[:, 0]          # 정수
df.iloc[:, [0,3]]      # 정수 리스트
df.iloc[:, range(2)]   # range
df.iloc[:, 0:3]        # 슬라이싱
df.iloc[:, ::2]        # 스트라이딩

Unnamed: 0,A,C
x,1,7
y,2,8
z,3,9
