## 4.2. Pandas 라이브러리
### 4.2.2. 행 인덱싱과 슬라이싱
#### 4.2.2.2. 행 인덱싱과 슬라이싱

In [1]:
import pandas as pd
import numpy as np

In [8]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9],
    'D': [10, 11, 12]
}, index=['x', 'y', 'z'])

In [9]:
# 행 인덱싱과 슬라이싱1: 레이블 기반 접근
df.loc['x', ]                                # 인덱스 이름
df.loc[['x', 'y'], :]                        # 인덱스 이름 리스트
df.loc['x':'y', :]                           # 인덱스 이름 슬라이싱
df.loc['x'::1, :]                            # 인덱스 이름 스트라이딩
df.loc[[True, False, True], :]               # bool 리스트
df.loc[list(df['A'] < 3), :]                 # bool 리스트
df.loc[df['A'] < 3, :]                       # bool 리스트

Unnamed: 0,A,B,C,D
x,1,4,7,10
y,2,5,8,11


In [23]:
# 행 인덱싱과 슬라이싱1: 정수 기반 접근
df.iloc[0, :]                                # 인덱스 이름
df.iloc[[0,2], :]                        # 인덱스 이름 리스트
df.iloc[0:2, :]                           # 인덱스 이름 슬라이싱
df.iloc[::2, :]                            # 인덱스 이름 스트라이딩
df.iloc[[True, False, False], :]               # bool 리스트  권장x
df.iloc[list(df['A'] < 3), :]                 # bool 리스트  에러!
#df.iloc[df['A'] < 3, :]                       # bool 리스트 에러

Unnamed: 0,A,B,C,D
x,1,4,7,10
y,2,5,8,11


In [24]:
list(df['A'] < 3)

[True, True, False]

In [34]:
# 인덱싱은 열을 참조
df['A']
df[['A', 'C']]

# 슬라이싱은 행을 참조
# df[0]  0번째 열 추출 안됨. 에러뜸
df[0:2] # 이건 또 된다. 행이 슬라이싱 된 것! 다만 권장은 안함,, 헷갈린다
df['A': 'B']  # 행의 인덱스는 ab가 없기에 이렇게 뜬 것

Unnamed: 0,A,B,C,D


In [29]:
df['x':'y']  # 행 슬라이싱

Unnamed: 0,A,B,C,D
x,1,4,7,10
y,2,5,8,11


In [35]:
df['A'] < 3  # 행이 뽑힘! 불리언 인덱싱은 행 단위로 적용

x     True
y     True
z    False
Name: A, dtype: bool

In [39]:
# 행 인덱싱과 슬라이싱5
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9],
    'D': [10, 11, 12]})
df # 행의 인덱스 자동으로 012

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [45]:
# 명시적 인덱스(label) 사용 -  마지막 인덱스가 포함
df.loc[0:1, :]  # 레이블을 썼기 때문에 1까지 포함해서 추출됨 1 직전까지가 아니라


Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11


In [46]:
# 명시적 인덱스(integer) 사용 - 마지막 인덱스 제외
df.iloc[0:1, :]

Unnamed: 0,A,B,C,D
0,1,4,7,10


In [48]:
# 암묵적 인덱스(integer) 사용- iloc과 동일
df[0:1]  

Unnamed: 0,A,B,C,D
0,1,4,7,10


### 4.2.3. 데이터프레임 연산
#### 4.2.3.1. 데이터프레임 기본 연산

In [51]:
# 단항 연산1: Series
# 연산자 +, 1+2 = 3  여기서 1과 2가 피연산자, +는 이항연산자
sr = pd.Series([1,2,3,4,5])
sr + 2          # 기존의 시리즈가 가지고 있던 인덱스가 보존됨


0    3
1    4
2    5
3    6
4    7
dtype: int64

In [56]:
df = pd.DataFrame({
    'x': [1,2,3],
    'y': [11,12,13]
})

df 
np.log(df) # <- 로그는 대표적인 단항연산자
# np.abs(df)  <- 절댓값도 그렇슴

Unnamed: 0,x,y
0,1,11
1,2,12
2,3,13


In [57]:
# 이항 연산1 : Series
# 두 시리즈에 존재하는 모든 행 인덱스를 포함한 결과 생성 (합집합처럼 동작)

math = pd.Series({'Park': 85, 'Lee': 90, 'Kim': 78})
english = pd.Series({'Park': 95, 'Kim': 80, 'Choi': 88})
math + english  # 최와 이는 안 나옴. 

Choi      NaN
Kim     158.0
Lee       NaN
Park    180.0
dtype: float64

In [63]:
# 이항 연산2: DataFrame

midterm = pd.DataFrame({
    'math': [85, 90, 78],
    'science': [88, 92, 79]
}, index=['Alice', 'Bob', 'Charlie'])

final = pd.DataFrame({
    'math': [95, 88, 82],
    'english': [95, 80, 88]
}, index=['Alice', 'Charlie', 'David'])


In [64]:
midterm + final

Unnamed: 0,english,math,science
Alice,,180.0,
Bob,,,
Charlie,,166.0,
David,,,


In [66]:
# midterm + final 결과와 동일
midterm.add(final)

Unnamed: 0,english,math,science
Alice,,180.0,
Bob,,,
Charlie,,166.0,
David,,,


In [68]:
# 하나의 데이터프레임에만 값이 있는 경우 0으로 처리하고, 둘 다 값이 없으면 NaN으로 반환
midterm.add(final, fill_value = 0)

Unnamed: 0,english,math,science
Alice,95.0,180.0,88.0
Bob,,90.0,92.0
Charlie,80.0,166.0,79.0
David,88.0,82.0,


In [72]:
df = pd.DataFrame({
    'product': ['A', 'B', 'C', 'D', 'E'],
    'price': [100, 200, 150, 300, 250],
    'quantity': [10, 5, 3, 7, 6]
})
print(df)

  product  price  quantity
0       A    100        10
1       B    200         5
2       C    150         3
3       D    300         7
4       E    250         6


In [73]:
# 새로운 열 생성1: 기본 할당
# 기본 할당은 데이터를 직접 수정하므로, 권장하지 않음
df['total_price'] = df['price'] * df['quantity']
print(df)

  product  price  quantity  total_price
0       A    100        10         1000
1       B    200         5         1000
2       C    150         3          450
3       D    300         7         2100
4       E    250         6         1500


In [78]:
# 새로운 열 생성2: assign() 사용
# 기존 데이터 프레임을 수정하지 않고, 새로운 열을 추가한 복사본을 반환
df.assign(total_price = df['price'] * df['quantity'])

Unnamed: 0,product,price,quantity,total_price
0,A,100,10,1000
1,B,200,5,1000
2,C,150,3,450
3,D,300,7,2100
4,E,250,6,1500


In [85]:
# 새로운 열 생성3: eval() 사용 수식을 문자열로~ 
# 기존 데이터 프레임을 수정하지 않고, 새로운 열을 추가한 복사본을 반환
# implace=TRUE: 기존 데이터 프레임에 직접 적용(새 객체를 반환하지 않음)
df.eval('total_price = price * quantity', inplace = True)
df

Unnamed: 0,product,price,quantity,total_price
0,A,100,10,1000
1,B,200,5,1000
2,C,150,3,450
3,D,300,7,2100
4,E,250,6,1500


In [86]:
# 새로운 열 생성4: where() 사용
# 가격이 200 이상이면 'Expensive', 아니면 'Affordable'로 구분
np.where(df['price'] > 200, 'Expensive', 'Affordable')

array(['Affordable', 'Affordable', 'Affordable', 'Expensive', 'Expensive'],
      dtype='<U10')

#### 4.2.3.4. 데이터프레임 집계

In [87]:
import seaborn as sns

In [None]:
# pip install seaborn

In [91]:
tips = sns.load_dataset('tips')
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


In [92]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [93]:
tips.describe()

Unnamed: 0,total_bill,tip,size
count,244.0,244.0,244.0
mean,19.785943,2.998279,2.569672
std,8.902412,1.383638,0.9511
min,3.07,1.0,1.0
25%,13.3475,2.0,2.0
50%,17.795,2.9,2.0
75%,24.1275,3.5625,3.0
max,50.81,10.0,6.0


In [94]:
# 각 열의 유효한 데이터 수 (NaN 제외)
tips.count()

total_bill    244
tip           244
sex           244
smoker        244
day           244
time          244
size          244
dtype: int64

In [95]:
# 식사 시간별 주문 수 런치타임? 디너타임?
tips.value_counts('time')

time
Dinner    176
Lunch      68
dtype: int64

In [102]:
# 전체 식사 금액, 식사 인원 수
tips.sum()
tips[['total_bill', 'tip', 'size']].sum()  # 행방향 연산이 된 것

0      20.00
1      15.00
2      27.51
3      28.99
4      32.20
       ...  
239    37.95
240    31.18
241    26.67
242    21.57
243    23.78
Length: 244, dtype: float64

In [105]:
# total_bill: 식사 금액
# tip: 팁 금액
# sex: 성별
# smoker: 흡연 여부
# day: 요일
# time: 식사 시간(Lunch, Dinner)
# size: 식사 인원 수

# 고객 1인당 평균 식사 금액
(tips['total_bill'] / tips['size']).mean()

7.88822950819673

In [106]:
# 고객 1인당 평균 팁 금액
(tips['tip'] / tips['size']).mean()

1.2127616120218587

In [107]:
# 전체 식사 금액에서 팁이 차지하는 비율
(tips['tip'] / tips['total_bill']).describe()

count    244.000000
mean       0.160803
std        0.061072
min        0.035638
25%        0.129127
50%        0.154770
75%        0.191475
max        0.710345
dtype: float64

In [110]:
# 전체 식사금액에서 팁이 차지하는 비율이 50% 이상인 경우
tips.loc[(tips['tip'] / tips['total_bill']) >= 0.5]

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
172,7.25,5.15,Male,Yes,Sun,Dinner,2
