## Contetnts
- 기초 연산
- 그룹 연산 : 집계, 변환, 필터링, 그룹매핑
- 함수 매핑 : map, apply, applymap
- Pivot

#### 기초연산

In [None]:
import pandas as pd
import numpy as np

In [None]:
st1 = pd.Series({'국어':100, '영어':80, '수학':90})
st2 = pd.Series({'수학':80, '국어':90, '영어':80})

print(st1, '\n')
print(st2)

국어    100
영어     80
수학     90
dtype: int64 

수학    80
국어    90
영어    80
dtype: int64


In [None]:
# 시리즈 끼리의 덧셈
pd.DataFrame(st1+st2)

Unnamed: 0,0
국어,190
수학,170
영어,160


In [None]:
# 사칙연산
add = st1 + st2
sub = st1 - st2
mul = st1 * st2
div = round(st1 / st2, 2)

df = pd.concat([add, sub, mul, div], axis = 1)
df

Unnamed: 0,0,1,2,3
국어,190,10,9000,1.11
수학,170,10,7200,1.12
영어,160,0,6400,1.0


In [None]:
df = pd.concat([add, sub, mul, div], axis = 1)
df.columns = ['덧셈', '뺄셈', '곱셈', '나눗셈']
df

Unnamed: 0,덧셈,뺄셈,곱셈,나눗셈
국어,190,10,9000,1.11
수학,170,10,7200,1.12
영어,160,0,6400,1.0


In [None]:
result = pd.DataFrame([add, sub, mul, div]) # axis = 0
result

Unnamed: 0,국어,수학,영어
0,190.0,170.0,160.0
1,10.0,10.0,0.0
2,9000.0,7200.0,6400.0
3,1.11,1.12,1.0


In [None]:
# NaN 값이 하나라도 있으면 값 전체가 NaN으로 나옴

st1 = pd.Series({'국어':np.nan,'영어':80,'수학':90})
st2 = pd.Series({'수학':80,'국어':90})

st1

국어     NaN
영어    80.0
수학    90.0
dtype: float64

In [None]:
add = st1 + st2
sub = st1 - st2
mul = st1 * st2
div = round((st1 / st2),2)

result = pd.DataFrame([add,sub,mul,div],
                     index=['덧셈','뺄셈','곱셈','나눗셈'])
result

Unnamed: 0,국어,수학,영어
덧셈,,170.0,
뺄셈,,10.0,
곱셈,,7200.0,
나눗셈,,1.12,


In [None]:
result_fn = result.fillna(0)
result_fn

Unnamed: 0,국어,수학,영어
덧셈,0.0,170.0,0.0
뺄셈,0.0,10.0,0.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.12,0.0


In [None]:
# Q. Null값을 0으로 출력하기
st1 = pd.Series({'국어':np.nan,'영어':80,'수학':90})
st2 = pd.Series({'수학':80,'국어':90})

ad = st1.add(st2, fill_value = 0)
su = st1.sub(st2, fill_value = 0)
mu = st1.mul(st2, fill_value = 0)
di = st1.div(st2, fill_value = 0)

df = pd.DataFrame([ad,su,mu,di],
                     index=['덧셈','뺄셈','곱셈','나눗셈'])
df

Unnamed: 0,국어,수학,영어
덧셈,90.0,170.0,80.0
뺄셈,-90.0,10.0,80.0
곱셈,0.0,7200.0,0.0
나눗셈,0.0,1.125,inf


In [None]:
np.arange(12.) # array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

In [None]:
np.arange(12.).reshape((3,4)) # 2차원적인 3행 4열

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns = list('abcd'))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
df1.loc[:, 'e'] = 0
df1.loc[3, :] =  0
df1

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0.0
1,4.0,5.0,6.0,7.0,0.0
2,8.0,9.0,10.0,11.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns = list('abcde'))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3,4)), columns = list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4,5)), columns = list('abcde'))

df2.loc[1, 'b'] = np.nan
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [None]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


####  Task1_0528. 연산메소드 이용 및 NaN 값을 0으로 대체 후 사칙연산을 수행한 후 결과를 출력하세요.

In [None]:
ad = df1.add(df2, fill_value = 0)
su = df1.sub(df2, fill_value = 0)
mu = df1.mul(df2, fill_value = 0)
di = df1.div(df2, fill_value = 0)

ad = ad.fillna(0)
su = su.fillna(0)
mu = mu.fillna(0)
di = di.fillna(0)

df = pd.concat([ad,su,mu,di],
                     keys=['덧셈','뺄셈','곱셈','나눗셈'])
df

Unnamed: 0,Unnamed: 1,a,b,c,d,e
덧셈,0,0.0,2.0,4.0,6.0,4.0
덧셈,1,9.0,5.0,13.0,15.0,9.0
덧셈,2,18.0,20.0,22.0,24.0,14.0
덧셈,3,15.0,16.0,17.0,18.0,19.0
뺄셈,0,0.0,0.0,0.0,0.0,-4.0
뺄셈,1,-1.0,5.0,-1.0,-1.0,-9.0
뺄셈,2,-2.0,-2.0,-2.0,-2.0,-14.0
뺄셈,3,-15.0,-16.0,-17.0,-18.0,-19.0
곱셈,0,0.0,1.0,4.0,9.0,0.0
곱셈,1,20.0,0.0,42.0,56.0,0.0


In [None]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [None]:
# 계산인자를 뒤집어 계산
df1.rdiv(1)

Unnamed: 0,a,b,c,d
0,inf,1.0,0.5,0.333333
1,0.25,0.2,0.166667,0.142857
2,0.125,0.111111,0.1,0.090909


In [None]:
print(df1)
df1.rsub(1)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


Unnamed: 0,a,b,c,d
0,1.0,0.0,-1.0,-2.0
1,-3.0,-4.0,-5.0,-6.0
2,-7.0,-8.0,-9.0,-10.0


In [None]:
print(df1)
df1.radd(1)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


Unnamed: 0,a,b,c,d
0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0
2,9.0,10.0,11.0,12.0


In [None]:
print(df1)
df1.rmul(10)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


Unnamed: 0,a,b,c,d
0,0.0,10.0,20.0,30.0
1,40.0,50.0,60.0,70.0
2,80.0,90.0,100.0,110.0


In [None]:
print(df1)
df1.rdiv(2)

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0


Unnamed: 0,a,b,c,d
0,inf,2.0,1.0,0.666667
1,0.5,0.4,0.333333,0.285714
2,0.25,0.222222,0.2,0.181818


In [None]:
# 배열 : np.arange(12.).reshape((3,4))

arr = np.arange(12.).reshape((3,4))
print(arr, '\n')
print(arr[0]) # 첫 번째 행

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]] 

[0. 1. 2. 3.]


In [None]:
# broadcasting
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [None]:
# DataFrame과 Series간 연산
frame = pd.DataFrame(np.arange(12.).reshape(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [None]:
# 하나의 행을 선택
SERIES = frame.iloc[0]
SERIES

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [None]:
frame - SERIES

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [None]:
a = np.arange(6).reshape(1,6)
a

array([[0, 1, 2, 3, 4, 5]])

In [None]:
a = np.arange(6).reshape(6,)
a

array([0, 1, 2, 3, 4, 5])

#### Task2_0528. 주어진 DataFrame의 N열에서 Series s값을 빼고 결과를 새로운 열 O에 저장 후 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "M": [15, 25, 35, 45, 55],
    "N": [100, 200, 300, 400, 500]
})
print(df,'\n')
# Series 생성
s = pd.Series([5, 10, 15, 20, 25])
s

    M    N
0  15  100
1  25  200
2  35  300
3  45  400
4  55  500 



0     5
1    10
2    15
3    20
4    25
dtype: int64

In [None]:
df['O'] = df['N'] - s
df

Unnamed: 0,M,N,O
0,15,100,95
1,25,200,190
2,35,300,285
3,45,400,380
4,55,500,475


#### Task3_0528. 주어진 DataFrame의 여러 열에 대해 각기 다른 Series를 더하고, 결과를 새로운 DataFrame으로 반환한 후 각 행의 합계를 계산하여 새로운 열에 추가하여 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3, 4, 5],
    "B": [10, 20, 30, 40, 50],
    "C": [100, 200, 300, 400, 500]
})

# Series 생성
s1 = pd.Series([5, 5, 5, 5, 5])
s2 = pd.Series([10, 10, 10, 10, 10])
s3 = pd.Series([15, 15, 15, 15, 15])

In [None]:
df['A'] = df['A'] + s1
df['B'] = df['B'] + s2
df['C'] = df['C'] + s3
df

Unnamed: 0,A,B,C
0,6,20,115
1,7,30,215
2,8,40,315
3,9,50,415
4,10,60,515


In [None]:
df['D'] = df.sum(axis = 1)
df

Unnamed: 0,A,B,C,D
0,6,20,115,141
1,7,30,215,252
2,8,40,315,363
3,9,50,415,474
4,10,60,515,585


#### Task4_0528. df에서 세 열의 값을 더하여 새로운 컬럼을 생성한 후 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [10, 20, 30, 40, 50],
    "B": [1, 2, 3, 4, 5],
    "C": [5, 10, 15, 20, 25],
    "D": [3, 6, 9, 12, 15],
    "E": [2, 4, 6, 8, 10]
})

In [None]:
df['F'] = df['A'] + df['B'] + df['C']
df['G'] = df['A'] + df['B'] + df['D']
df['H'] = df['A'] + df['B'] + df['E']
df['I'] = df['A'] + df['C'] + df['D']
df['J'] = df['A'] + df['C'] + df['E']
df['K'] = df['A'] + df['D'] + df['E']
df['L'] = df['B'] + df['C'] + df['D']
df['M'] = df['B'] + df['C'] + df['E']
df['N'] = df['B'] + df['D'] + df['E']
df['O'] = df['C'] + df['D'] + df['E']
df

Unnamed: 0,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O
0,10,1,5,3,2,16,14,13,18,17,15,9,8,6,10
1,20,2,10,6,4,32,28,26,36,34,30,18,16,12,20
2,30,3,15,9,6,48,42,39,54,51,45,27,24,18,30
3,40,4,20,12,8,64,56,52,72,68,60,36,32,24,40
4,50,5,25,15,10,80,70,65,90,85,75,45,40,30,50


In [None]:
import pandas as pd
from itertools import combinations

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [10, 20, 30, 40, 50],
    "B": [1, 2, 3, 4, 5],
    "C": [5, 10, 15, 20, 25],
    "D": [3, 6, 9, 12, 15],
    "E": [2, 4, 6, 8, 10]
})

# 열 목록
columns = ['A', 'B', 'C', 'D', 'E']

# 3개의 열 조합에 대한 합계를 구하여 새로운 열로 추가
for i, combo in enumerate(combinations(columns, 3)):
    df[f'Sum_{i+1}'] = df[list(combo)].sum(axis=1)
df

Unnamed: 0,A,B,C,D,E,Sum_1,Sum_2,Sum_3,Sum_4,Sum_5,Sum_6,Sum_7,Sum_8,Sum_9,Sum_10
0,10,1,5,3,2,16,14,13,18,17,15,9,8,6,10
1,20,2,10,6,4,32,28,26,36,34,30,18,16,12,20
2,30,3,15,9,6,48,42,39,54,51,45,27,24,18,30
3,40,4,20,12,8,64,56,52,72,68,60,36,32,24,40
4,50,5,25,15,10,80,70,65,90,85,75,45,40,30,50


#### Task5_0528. df에서 세 열의 값을 평균하여 새로운 컬럼을 생성 후 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [100, 200, 300, 400, 500],
    "B": [10, 20, 30, 40, 50],
    "C": [1, 2, 3, 4, 5],
    "D": [7, 8, 9, 10, 11],
    "E": [3, 6, 9, 12, 15]
})

#### Task6_0528. df에서 두 개의 열을 더한 값이 다른 한 개의 열보다 큰 경우에는 1, 작거나 같은 경우에는 0으로 값을 정하는 새로운 열을 생성한 후 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [2, 3, 4, 5, 6],
    "B": [1, 2, 3, 4, 5],
    "C": [3, 4, 5, 6, 7],
    "D": [8, 9, 10, 11, 12],
    "E": [10, 20, 30, 40, 50]
})

In [None]:
# bool 값이 False or True 가 나오는데 .astyple(int)를 넣음으로써
# True : 1 / False : 0의 값이 나온다.

df['A_B_greater_than_C'] = (df['A'] + df['B'] > df['C']).astype(int)
df

Unnamed: 0,A,B,C,D,E,A_B_greater_than_C
0,2,1,3,8,10,0
1,3,2,4,9,20,1
2,4,3,5,10,30,1
3,5,4,6,11,40,1
4,6,5,7,12,50,1


#### 그룹 연산
* 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나누어서 관찰할 수 있으며 이런 방식으로 분할 처리하는 것을 그룹 연산이라 함
* 그룹 연산은 데이터를 집계, 변환, 필터링하는데 효율적이며 판다스 groupby() 메소드를 사용함
* 그룹 객체 만들기(분할)
* 그룹 연산 메소드(적용-결합)

In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex', 'class', 'fare', 'survived']]
# df = titanic[['age','sex', 'class', 'fare', 'survived']]
print('승객 수:', len(df))
print(df.head())

승객 수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


In [None]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [None]:
# class 열을 기준으로 분할(1개 열을 기준)
# 그룹으로 나눠서 봄
df1 = df[['age', 'fare', 'survived', 'class']]
grouped = df.groupby(['class'])
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7954965597b0>


In [None]:
# 그룹 객체를 iteration으로 출력 : head() 메소드로 첫 5행만 출력

for key, group in grouped:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())

* key : ('First',)
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1
* key : ('Second',)
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1
* key : ('Third',)
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


In [None]:
grouped = df.groupby('survived')

In [None]:
grouped = df.groupby('survived')

# 그룹별로 수치형 열만 선택하여 평균 계산
average = grouped[['age', 'fare']].mean()
print(average)

                age       fare
survived                      
0         30.626179  22.117887
1         28.343690  48.395408


In [None]:
stat = grouped.max()
stat

TypeError: Cannot perform max with non-ordered Categorical

In [None]:
# 개별 그룹 선택하기
group3 = grouped.get_group('Third')
print(group3.head())

In [None]:
group3.describe()

In [None]:
df2 = df[['age', 'fare', 'survived', 'class', 'sex']]
grouped_two = df2.groupby(['class', 'sex'])

In [None]:
# class 열, sex 열을 기준으로 분할(여러 열을 기준으로 분할)
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())

In [None]:
# grouped_two 그룹 객체에 연산 메소드 적용
average_two = grouped_two.mean()
print(average_two)

In [None]:
print(type(average_two))

# grouped_two 그룹 객체에서 개별 그룹 선택하기
group3f = grouped_two.get_group(('Third', 'female'))
print(group3f.head())

### 데이터 집계(agg),
- 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하려면 agg() 메서드 사용
- 모든열에 여러 함수를 매핑 : group객체.agg([함수1,함수2,함수3,…])
- 각 열마다 다른 함수를 매핑 : group객체.agg({‘열1’: 함수1, ‘열2’:함수2, …})

###변환(transform)
- 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
- 데이터 변환 연산 : group객체.transform(매핑함수)

### 필터링(filter)
- 그룹 객체에 filter() 메서드를 적용할 때 조건식을 가진 함수를 전달하면 조건이 참인 그룹만을 남김
- 그룹 객체 필터링 : group 객체.filter(조건 함수식)

### 객체에 함수 매핑(apply)
 - 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑. 사용자가 원하는 대부분의 연산을 그룹 객체에 적용
 - group 객체.apply(매핑함수)

In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])

In [None]:
mean_all = grouped.mean()
print(mean_all)
print()
print(type(mean_all))

In [None]:
mean_all.index.name = None
mean_all

In [None]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 변환
# fare 의 차이 확인
std_all = grouped.std()
print(std_all)
print()
print(type(std_all))

In [None]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 시리즈로 변환
std_fare = grouped.fare.std()
print(std_fare)
print()
print(type(std_fare))

In [None]:
# 그룹 객체에 agg() 메소드 적용 = 사용자 정의 함수를 인수로 전달
def min_max(x) : # 최댓값 - 최솟값
    return x.max() - x.min()

# 각 그룹의 최대값과 최소값의 차이를 계산하여 그룹별로 집계
agg_minmax = grouped.agg(min_max)
print(agg_minmax.head())

In [None]:
# 모든열에 여러 함수를 매핑 : group 객체.agg([함수1, 함수2, 함수3])
# 각 열마다 다른 함수를 매핑 : group객체.agg(['열1':함수1, '열2':함수2])
# 외장 함수를 함수1, 함수2, 함수3 에 넣을 수 있고 나머지의 함수는 각각 정의를 해야한다.

agg_all = grouped.agg(['min', 'max', 'mean'])
print(agg_all.head())

In [None]:
# 각 열마다 다른 함수를 적용하여 집계
agg_sep = grouped.agg({'fare':['min', 'max'], 'age':'mean'})
print(agg_sep.head())

In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])
list(grouped)

In [None]:
# 데이터 개수가 200개 이상인 그룹만을 핑터링하여 데이터프레임으로 반환
grouped_filter = grouped.filter(lambda x: len(x) >= 200)
print(grouped_filter.head(), '\n')
print(type(grouped_filter))

In [None]:
# 그룹명.value_counts(컬럼명)

grouped_filter.value_counts('class')

#### Task1_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 평균을 계산하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})
df.head()

#
# class 열을 기준으로 분할
grouped_df = df.groupby(['Category'])
grouped_df

In [None]:
grouped_mean = grouped_df.agg({'Value':'mean'})
print(grouped_mean)

#### Task2_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 누적 합을 계산하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

# class 열을 기준으로 분할
grouped_df = df.groupby(['Category'])
grouped_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x795496360f70>

In [None]:
grouped_sum = grouped_df.agg({'Value':'sum'})
print(grouped_sum)

          Value
Category       
A           190
B           140
C           220


In [None]:
# 누적 합계 : .cumsum()
df['Cumulative_Sum'] = df.groupby('Category')['Value'].cumsum()
print(df)

  Category  Value  Cumulative_Sum
0        A     10              10
1        B     20              20
2        A     30              40
3        B     40              60
4        C     50              50
5        A     60             100
6        C     70             120
7        B     80             140
8        A     90             190
9        C    100             220


#### Task3_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 합계, 평균, 최대값, 최소값을 계산하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

# class 열을 기준으로 분할
grouped_df = df.groupby(['Category'])
grouped_df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x795496360e20>

In [None]:
grouped = grouped_df.agg({'Value':['sum','mean','max','min']})
print(grouped)

         Value                    
           sum       mean  max min
Category                          
A          190  47.500000   90  10
B          140  46.666667   80  20
C          220  73.333333  100  50


In [None]:
grouped = df.groupby('Category')['Value'].agg(['sum','mean','max','min']).reset_index()
print(grouped)

  Category  sum  mean  max  min
0        A   60  12.0   15   10
1        B  130  26.0   50   10


In [None]:
grouped.index.name = None
grouped

#### Task4_0529. 주어진 df에서 category별로 가장 자주 등장하는 value를 찾아서 새로운 열의 값으로 적용한 후 출력하세요.

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)

# class 열을 기준으로 분할
grouped_df = df.groupby(['Category'])
print(grouped_df)
df

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x79549654ace0>


Unnamed: 0,Category,Value
0,A,10
1,A,15
2,B,10
3,B,20
4,A,10
5,B,30
6,B,50
7,A,10
8,B,20
9,A,15


In [None]:
# class 열, sex 열을 기준으로 분할(여러 열을 기준으로 분할)
for key, group in grouped_df:
    print('* value :', len(group))
    print(group)

* value : 5
  Category  Value
0        A     10
1        A     15
4        A     10
7        A     10
9        A     15
* value : 5
  Category  Value
2        B     10
3        B     20
5        B     30
6        B     50
8        B     20


In [None]:
# 그룹별로 가장 자주 등장하는 값을 찾아서 새로운 열을 만들어 출력하세요.
def most_frequent(x):
    return x.mode().iloc[0] # 최빈값이 여러 개일 경우 첫 번째 값 선택

# Category 열을 기준으로 그룹화하고, 'Value' 열에 대해 가장 자주 등장하는 값 찾기
df['Most_frequent'] = df.groupby('Category')['Value'].transform(most_frequent)
df

Unnamed: 0,Category,Value,Most_frequent
0,A,10,10
1,A,15,10
2,B,10,20
3,B,20,20
4,A,10,10
5,B,30,20
6,B,50,20
7,A,10,10
8,B,20,20
9,A,15,10


#### Task5_0529. 주어진 데이터프레임에서 각 그룹별로 누적 평균을 계산하여 새로운 열로 추가한 후 출력하세요. 단 누적 평균은 그룹 내에서 각 요소까지의 평균을 계산한 것임

In [None]:
data = [1, 2, 3, 4, 5]
a = pd.Series(data)
cum_sum = s.expanding().sum()
cum_mean = s.expanding().mean()

print(cum_sum, '\n')
print(cum_mean)

0     5.0
1    15.0
2    30.0
3    50.0
4    75.0
dtype: float64 

0     5.0
1     7.5
2    10.0
3    12.5
4    15.0
dtype: float64


In [None]:
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)

# 각 그룹별로 누적 평균 계산
df['accrue_avg'] = df.groupby('Category')['Value'].expanding().mean().reset_index(level=0, drop=True)

print(df)



  Category  Value  accrue_avg
0        A     10   10.000000
1        A     15   12.500000
2        B     10   10.000000
3        B     20   15.000000
4        A     10   11.666667
5        B     30   20.000000
6        B     50   27.500000
7        A     10   11.250000
8        B     20   26.000000
9        A     15   12.000000


In [None]:
def expanding_mean(x):
  return x.expanding().mean()

df['ex_mean'] = df.groupby('Category')['Value'].transform(expanding_mean)
df

Unnamed: 0,Category,Value,accrue_avg,ex_mean
0,A,10,10.0,10.0
1,A,15,12.5,12.5
2,B,10,10.0,10.0
3,B,20,15.0,15.0
4,A,10,11.666667,11.666667
5,B,30,20.0,20.0
6,B,50,27.5,27.5
7,A,10,11.25,11.25
8,B,20,26.0,26.0
9,A,15,12.0,12.0


#### 함수 매핑
커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map 함수는 Series의 각 요소에 함수를 적용.
- apply 함수는 Series 또는 DataFrame의 행이나 열에 함수를 적용.
- applymap 함수는 DataFrame의 각 요소에 함수를 적용.

#### apply vs map
- apply는 DataFrame의 행이나 열 단위로 함수를 적용할 수 있지만, map은 Series의 각 요소에만 함수를 적용
- Series의 각 요소를 변환하는 간단한 작업에는 map이 적합하고, 더 복잡한 변환이 필요한 경우나 DataFrame 전체를 다룰 때는 apply가 유용

#### apply vs applymap
- df.apply는 DataFrame의 각 행(row) 또는 열(column)에 함수를 적용합니다. 기본적으로 axis=0으로 설정되어 있어 열 단위로 함수를 적용
- 각 행 또는 열 자체가 Series로 전달되며, 이 Series 전체에 대해 함수를 적용하려고 한다.
- applymap은 DataFrame의 모든 요소에 대해 함수를 적용하므로, 전체 DataFrame에 대한 변환이 필요할 때 유용

In [5]:
# DataFrame에서의 적용

# 예제 DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [6]:
df1 = df.copy()
df1['Row_sum'] = df1.apply(lambda row : row.sum(), axis = 1)
print(df1, '\n')

df2 = df.copy()
df2.loc['Column_Sum'] = df2.apply(lambda col :col.sum(), axis = 0)
print(df2)

   A  B  C  Row_sum
0  1  4  7       12
1  2  5  8       15
2  3  6  9       18 

            A   B   C
0           1   4   7
1           2   5   8
2           3   6   9
Column_Sum  6  15  24


In [None]:
# 'A' 열의 각 요소를 제곱
df['A_Squared'] = df['A'].map(lambda x : x ** 2)
df

In [None]:
import pandas as pd

# 예제 Series 생성
s = pd.Series([1,2,3,4,5])

# 각 요소에 2를 더하는 함수
s_mapped = s.map(lambda x : x + 2)
print(s_mapped)

0    3
1    4
2    5
3    6
4    7
dtype: int64


In [None]:
# DataFrame에서의 적용

# 예제 DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
# 각 열에 대해 최대값을 구하는 함수
df_applied_col = df.apply(lambda x: x.max(), axis = 0)
print(df_applied_col)

# 각 행에 대해 합계를 구하는 함수
df_applied_row = df.apply(lambda x: x.sum(), axis = 1)
print(df_applied_row)

A    3
B    6
C    9
dtype: int64
0    12
1    15
2    18
dtype: int64


In [None]:
# applymap 함수는 DataFrame에만 적용되며, 각 요소에 함수를 적용
# 예제 DataFrame 생성
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
df

# 각 요소에 2를 더하는 함수
df_applymapped = df.applymap(lambda x : x + 2)
print(df_applymapped)

   A  B   C
0  3  6   9
1  4  7  10
2  5  8  11


In [None]:
# 함수 적용과 매핑
# np.random.randn(4, 3) 코드는 4행 3열의 행렬을 생성하며,
# 이 행렬의 각 요소는 표준 정규 분포를 따르는 난수로 채워집니다.
import numpy as np
np.random.seed(0)
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
print(frame, type(frame))

               b         d         e
Utah    1.764052  0.400157  0.978738
Ohio    2.240893  1.867558 -0.977278
Texas   0.950088 -0.151357 -0.103219
Oregon  0.410599  0.144044  1.454274 <class 'pandas.core.frame.DataFrame'>


In [None]:
format = lambda x : '%.2f' %x

In [None]:
# map 함수는 series에만 적용
frame['e'].map(format)

Utah       0.98
Ohio      -0.98
Texas     -0.10
Oregon     1.45
Name: e, dtype: object

In [None]:
# Series의 최대값과 최소값의 차리를 계산
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.830295
d    2.018915
e    2.431551
dtype: float64

In [None]:
# 각 로우에 대해서 한 번씩 수행
frame.apply(f, axis = 'columns')


Utah      1.363895
Ohio      3.218171
Texas     1.101446
Oregon    1.310230
dtype: float64

In [None]:
f1 = lambda x: round(x*10)
frame.apply(f1, axis = 0)

Unnamed: 0,b,d,e
Utah,18.0,4.0,10.0
Ohio,22.0,19.0,-10.0
Texas,10.0,-2.0,-1.0
Oregon,4.0,1.0,15.0


In [None]:
frame

Unnamed: 0,b,d,e
Utah,1.764052,0.400157,0.978738
Ohio,2.240893,1.867558,-0.977278
Texas,0.950088,-0.151357,-0.103219
Oregon,0.410599,0.144044,1.454274


In [None]:
f1 = lambda x: round(x*20)
frame.apply(f1, axis = 1)

Unnamed: 0,b,d,e
Utah,35.0,8.0,20.0
Ohio,45.0,37.0,-20.0
Texas,19.0,-3.0,-2.0
Oregon,8.0,3.0,29.0


In [None]:
f1 = lambda x : sum(x)
frame.apply(f1, axis = 0)

b    5.365632
d    2.260402
e    1.352515
dtype: float64

In [None]:
# 여러 값을 가진 Series 반환
print(frame, '\n')
def f(x):
    return pd.Series([x.min(), x.max()], index = ['min', 'max'])
frame.apply(f)

               b         d         e
Utah    1.764052  0.400157  0.978738
Ohio    2.240893  1.867558 -0.977278
Texas   0.950088 -0.151357 -0.103219
Oregon  0.410599  0.144044  1.454274 



Unnamed: 0,b,d,e
min,0.410599,-0.151357,-0.977278
max,2.240893,1.867558,1.454274


In [None]:
# 실수값을 문자열 포멧으로 변환
format = lambda x : '%.2f' %x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,1.76,0.4,0.98
Ohio,2.24,1.87,-0.98
Texas,0.95,-0.15,-0.1
Oregon,0.41,0.14,1.45


In [None]:
np.random.seed(0)
data = np.random.randint(1,100, size = (5,5))
df = pd.DataFrame(data, columns = list('abcde'))
print(type(df))
df


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,a,b,c,d,e
0,45,48,65,68,68
1,10,84,22,37,88
2,71,89,89,13,59
3,66,40,88,47,89
4,82,38,26,78,73


In [None]:
df['f'] = df.apply(lambda x:x.a+x.b+x.c+x.d+x.e, axis = 1)
# df['f'] = df.apply(lambda x:x.sum(), axis = 1)
df

Unnamed: 0,a,b,c,d,e,f
0,45,48,65,68,68,294
1,10,84,22,37,88,241
2,71,89,89,13,59,321
3,66,40,88,47,89,330
4,82,38,26,78,73,297


In [None]:
# 표준화 : 데이터의 평균을 0, 표준편차를 1로 변환하는 과정
# 이걸 왜함? : 이 과정을 통해 데이터의 스케일을 조정하고 비교 가능한 형태로 만듦.

def z_score(x):
    return (x - x.mean()) / x.std()

In [None]:
import pandas as pd
import numpy as np

# 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
df_zscore = df.a.transform(z_score)
df_zscore

0   -0.344827
1   -1.576351
2    0.570020
3    0.394088
4    0.957070
Name: a, dtype: float64

In [None]:
# 정규화를 진행
# 있는 형태에서 표준화를 하여 사용한다.

df_zscore = df.apply(lambda x: z_score(x))
df_zscore

Unnamed: 0,a,b,c,d,e,f
0,-0.344827,-0.477299,0.215257,0.754401,-0.570413,-0.074984
1,-1.576351,0.978867,-1.107037,-0.451085,0.971244,-1.603498
2,0.57002,1.181112,0.953282,-1.384365,-1.264159,0.703693
3,0.394088,-0.800891,0.922531,-0.062219,1.048327,0.963252
4,0.95707,-0.881789,-0.984033,1.143268,-0.184999,0.011536


#### Task6_0529. 주어진 Series의 각 값에 대해 2배로 변환하는 함수를 적용하여 값을 변환하세요.

In [None]:
import pandas as pd

# Series 생성
s = pd.Series([1, 2, 3, 4, 5])

s_map = s.map(lambda x : x * 2)
print(s_map)

0     2
1     4
2     6
3     8
4    10
dtype: int64


#### Task7_0529. 주어진 DataFrame의 특정 열에 대해 map을 사용하여 등급을 부여하는 함수를 적용하여 변환을 수행하세요.

In [1]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Score": [85, 90, 95, 80, 75]
})


In [4]:
def grade(score):
    if score >= 90:
        return 'A'
    elif score >= 80:
        return 'B'
    else:
        return 'C'

df['Grade'] = df['Score'].map(grade)
df

Unnamed: 0,Name,Score,Grade
0,Alice,85,B
1,Bob,90,A
2,Charlie,95,A
3,David,80,B
4,Eve,75,C


#### Task8_0529. 주어진 DataFrame의 특정 열에 대해 각 요소에 제곱하는 함수를 적용하여 새로운 열을 생성하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

df

Unnamed: 0,Numbers
0,1
1,2
2,3
3,4
4,5


In [None]:
format = lambda x : x * x
df['제곱'] = df.applymap(format)
df

Unnamed: 0,Numbers,제곱
0,1,1
1,2,4
2,3,9
3,4,16
4,5,25


#### Task9_0529. 주어진 DataFrame의 여러 열에 대해 각 열의 값을 합하는 함수를 적용하여 새로운 열을 생성한 후 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3, 4, 5],
    "B": [10, 20, 30, 40, 50]
})
df

Unnamed: 0,A,B
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [None]:
for i in range(len(df.loc[:, ])):
    df.loc[i, 'A+B'] = (df.iloc[i, 0] + df.iloc[i, 1]).astype(int)
df

Unnamed: 0,A,B,A+B
0,1,10,11.0
1,2,20,22.0
2,3,30,33.0
3,4,40,44.0
4,5,50,55.0


In [None]:
# 다른 풀이
df['A+B'] = df.apply(lambda x : x['A'] + x['B'], axis = 1)
df

#### Task10_0529. 주어진 DataFrame의 각 요소에 대해 10보다 크면 2배, 그렇지 않으면 원래의 수를 반영하는 함수를 적용하여 값을 변환하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Values": [5, 10, 15, 20, 25]
})
df

Unnamed: 0,Values
0,5
1,10
2,15
3,20
4,25


In [None]:
df['New_Values'] = df['Values']

for i in range(len(df)):
    if df.loc[i, 'Values'] > 10 :
        df.loc[i, 'New_Values'] = (df.loc[i, 'Values']*2).astype(int)
    else:
        df.loc[i, 'New_Values'] = df.loc[i, 'Values']
df

Unnamed: 0,Values,New_Values
0,5,5
1,10,10
2,15,30
3,20,40
4,25,50


In [None]:
# 다른 풀이
df['New_Values'] = df['Values'].apply(lambda x : x * 2 if x > 10 else x)
df

#### Task11_0529. 주어진 DataFrame에서 특정 열을 그룹화한 후 각 그룹에 대해 그룹별로 평균 값을 계산하는 함수를 적용하여 새로운 열을 생성하여 출력하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

In [None]:
# 기존의 df의 형태를 유지하고 싶을 때는 transform 을 사용
# transform 괄호 안에 있는 문자들은 외부 함수를 사용할 수 있다.
df['Group_Mean'] = df.groupby('Category')['Value'].transform('mean')
df

#### Task12_0529. 주어진 DataFrame의 특정 열에 대해 제곱과 제곱근을 계산하는 함수들을 동시에 적용하여 새로운 열을 생성한 후 출력하세요.

In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

In [None]:
df['Square'] = df.transform(lambda x : (df[['Numbers']] ** 2))
df['Root'] = np.sqrt(df['Numbers'])
df

Unnamed: 0,Numbers,Root,Square
0,1,1.0,1
1,2,1.414214,4
2,3,1.732051,9
3,4,2.0,16
4,5,2.236068,25


#### Task13_0529. 주어진 DataFrame의 각 요소에 대해 제곱하는 함수를 적용하여 값을 변환하세요.

In [None]:
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6],
    "C": [7, 8, 9]
})

In [None]:
df_applymapped = df.applymap(lambda x : x*x)
df_applymapped

#### Task14_0529. 주어진 데이터프레임에서 각 그룹별로 Value 열을 표준화하여 새로운 열로 추가하여 출력하세요.(apply, transform 두가지 적용)

In [None]:
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

In [None]:
# apply를 사용하여 그룹별 표준화 (추가 처리 필요)
standardize_seires = df.groupby('Category')['Value'].apply(z_score)
print(standardize_seires)

In [None]:
df['Standardize_Vaule'] = df.groupby('Category')['Value'].transform(z_score)
df

####Pivot
pivot 함수의 구성 형식
- index: 새로운 DataFrame에서 인덱스로 사용할 기존 열 또는 열들의 이름.
- columns: 새로운 DataFrame에서 열로 사용할 기존 열 또는 열들의 이름.
- values: 피벗할 때 사용할 값이 있는 열의 이름.

기능
- 긴 형식의 데이터를 넓은 형식으로 변환하여 특정 차원에서 데이터를 재구성.
- 피벗된 데이터를 통해 시간 경과에 따른 변화나 여러 카테고리의 비교를 쉽게 할 수 있다.
- 넓은 형식의 데이터는 시각화 도구에서 더 쉽게 다룰 수 있다.

In [11]:
# 날짜(date)를 인덱스로, 도시(City)를 열로, 온도(temperature)를 값으로 사용하여 피벗 테이블을 생성
import pandas as pd

# 예제 DataFrame 생성
data = {
    'date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 78]
}

df = pd.DataFrame(data)
print(df, '\n')
# 피벗 테이블 생성
pivot_df = df.pivot(index = 'date', columns = 'city', values = 'temperature')
print(pivot_df)

         date         city  temperature
0  2021-01-01     New York           32
1  2021-01-01  Los Angeles           75
2  2021-01-02     New York           30
3  2021-01-02  Los Angeles           78 

city        Los Angeles  New York
date                             
2021-01-01           75        32
2021-01-02           78        30


In [13]:
# 중복된 값을 평균으로 처리하여 피벗 테이블을 생성

data = {
    'date': ['2021-01-01', '2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 30, 78]
}

df = pd.DataFrame(data)
print(df, '\n')
# 피벗 테이블 생성(중복 값의 평균 계산)
pivot_table_df = df.pivot_table(index = 'date', columns = 'city', values = 'temperature', aggfunc = 'mean')
print(pivot_table_df)

         date         city  temperature
0  2021-01-01     New York           32
1  2021-01-01  Los Angeles           75
2  2021-01-01     New York           30
3  2021-01-02     New York           30
4  2021-01-02  Los Angeles           78 

city        Los Angeles  New York
date                             
2021-01-01           75        31
2021-01-02           78        30


In [15]:
# 다중 인덱스와 다중 값 사용 : 날짜와 도시를 기준으로 온도와 습도를 모두 포함한 피벗 테이블을 생성

data = {
    'date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 78],
    'humidity': [80, 20, 85, 15]
}

df = pd.DataFrame(data)
print(df, '\n')

# 다중 인덱스 및 다중 값 피벗 테이블 생성
pivot_multi_df = df.pivot(index = 'date', columns = 'city')
pivot_multi_df

         date         city  temperature  humidity
0  2021-01-01     New York           32        80
1  2021-01-01  Los Angeles           75        20
2  2021-01-02     New York           30        85
3  2021-01-02  Los Angeles           78        15 



Unnamed: 0_level_0,temperature,temperature,humidity,humidity
city,Los Angeles,New York,Los Angeles,New York
date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2021-01-01,75,32,20,80
2021-01-02,78,30,15,85


In [16]:
pivot_multi_df.index.name = None
pivot_multi_df

Unnamed: 0_level_0,temperature,temperature,humidity,humidity
city,Los Angeles,New York,Los Angeles,New York
2021-01-01,75,32,20,80
2021-01-02,78,30,15,85


In [27]:
import pandas as pd

# 예제 데이터프레임 생성

data = {
    'Year': [2020, 2020, 2021, 2021, 2022, 2022, 2022, 2023, 2023],
    'Product': ['A', 'B', 'A', 'B', 'A', 'B', 'C', 'A', 'C'],
    'Sales': [100, 150, 200, 250, 300, 350, 400, 500, 450]
}

df = pd.DataFrame(data)
print(df, '\n')

   Year Product  Sales
0  2020       A    100
1  2020       B    150
2  2021       A    200
3  2021       B    250
4  2022       A    300
5  2022       B    350
6  2022       C    400
7  2023       A    500
8  2023       C    450 



Product,A,B,C
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,100,150,0
2021,200,250,0
2022,300,350,400
2023,500,0,450


In [None]:
# 피벗 테이블 생성 : 각 연도와 각 제품별로 매출액 계산
pivot_date_df = df.pivot_table(values = 'Sales', index = 'Year', columns = 'Product', aggfunc = 'sum', fill_value = 0)
pivot_date_df

In [None]:
data = {
    'Employee': ['John', 'John', 'John', 'Anna', 'Anna', 'Anna', 'Peter', 'Peter', 'Peter'],
    'Month': ['Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar'],
    'Hours': [160, 170, 175, 150, 165, 180, 155, 160, 170]
}

df = pd.DataFrame(data)
print(df)

#### Q. 주어진 직원 근무 시간 데이터에서, 각 직원별로 각 월의 총 근무 시간을 계산하세요.

In [29]:
data = {
    'Employee': ['John', 'John', 'John', 'Anna', 'Anna', 'Anna', 'Peter', 'Peter', 'Peter'],
    'Month': ['Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar'],
    'Hours': [160, 170, 175, 150, 165, 180, 155, 160, 170]
}

df = pd.DataFrame(data)
print(df)

  Employee Month  Hours
0     John   Jan    160
1     John   Feb    170
2     John   Mar    175
3     Anna   Jan    150
4     Anna   Feb    165
5     Anna   Mar    180
6    Peter   Jan    155
7    Peter   Feb    160
8    Peter   Mar    170


In [33]:
pivot_date_df = df.pivot_table(values = 'Hours', index = 'Employee', columns = 'Month', aggfunc = 'sum')
pivot_date_df

Month,Feb,Jan,Mar
Employee,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Anna,165,150,180
John,170,160,175
Peter,160,155,170
