## Contetnts
- 기초 연산
- 그룹 연산 : 집계, 변환, 필터링, 그룹매핑
- 함수 매핑 : map, apply, applymap
- Pivot

#### 그룹 연산
* 복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나누어서 관찰할 수 있으며 이런 방식으로 분할 처리하는 것을 그룹 연산이라 함
* 그룹 연산은 데이터를 집계, 변환, 필터링하는데 효율적이며 판다스 groupby() 메소드를 사용함
* 그룹 객체 만들기(분할)
* 그룹 연산 메소드(적용-결합)

In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age','sex','class','fare','survived']]
# df = titanic[['age','sex','class','fare','survived']]
print('승객 수:',len(df))
print(df.head())

승객 수: 891
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0


In [None]:
# class 열을 기준으로 분할(1개 열을 기준)
df1 = df[['age','fare','survived','class']]
grouped = df1.groupby(['class'])
print(grouped)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ce12ff7cb20>


In [None]:
# 그룹 객체를  iteration으로 출력 : head() 메소드로 첫 5행만을 출력
for key, group in grouped:
    print('* key : ', key)
    print('* number : ', len(group))
    print(group.head())


* key :  ('First',)
* number :  216
     age     fare  survived  class
1   38.0  71.2833         1  First
3   35.0  53.1000         1  First
6   54.0  51.8625         0  First
11  58.0  26.5500         1  First
23  28.0  35.5000         1  First
* key :  ('Second',)
* number :  184
     age     fare  survived   class
9   14.0  30.0708         1  Second
15  55.0  16.0000         1  Second
17   NaN  13.0000         1  Second
20  35.0  26.0000         0  Second
21  34.0  13.0000         1  Second
* key :  ('Third',)
* number :  491
    age     fare  survived  class
0  22.0   7.2500         0  Third
2  26.0   7.9250         1  Third
4  35.0   8.0500         0  Third
5   NaN   8.4583         0  Third
7   2.0  21.0750         0  Third


In [None]:
# 연산 메소드 적용
average = grouped.mean()
print(average)

              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.877630  20.662183  0.472826
Third   25.140620  13.675550  0.242363


In [None]:
stat = grouped.max()
print(stat)

         age      fare  survived
class                           
First   80.0  512.3292         1
Second  70.0   73.5000         1
Third   74.0   69.5500         1


In [None]:
# 개별 그룹 선택하기
group3 = grouped.get_group('Third')
print(group3.head())

    age     fare  survived  class
0  22.0   7.2500         0  Third
2  26.0   7.9250         1  Third
4  35.0   8.0500         0  Third
5   NaN   8.4583         0  Third
7   2.0  21.0750         0  Third


In [None]:
group3.describe()

Unnamed: 0,age,fare,survived
count,355.0,491.0,491.0
mean,25.14062,13.67555,0.242363
std,12.495398,11.778142,0.428949
min,0.42,0.0,0.0
25%,18.0,7.75,0.0
50%,24.0,8.05,0.0
75%,32.0,15.5,0.0
max,74.0,69.55,1.0


In [None]:
# class열, sex열을 기준으로 분할(여러 열을 기준으로 분할)
df2 = df[['age','fare','survived','class','sex']]
grouped_two = df2.groupby(['class','sex'])

In [None]:
# grouped_two 그룹 객체를 iteration으로 출력
for key, group in grouped_two:
    print('* key :', key)
    print('* number :', len(group))
    print(group.head())

* key : ('First', 'female')
* number : 94
     age      fare  survived  class     sex
1   38.0   71.2833         1  First  female
3   35.0   53.1000         1  First  female
11  58.0   26.5500         1  First  female
31   NaN  146.5208         1  First  female
52  49.0   76.7292         1  First  female
* key : ('First', 'male')
* number : 122
     age      fare  survived  class   sex
6   54.0   51.8625         0  First  male
23  28.0   35.5000         1  First  male
27  19.0  263.0000         0  First  male
30  40.0   27.7208         0  First  male
34  28.0   82.1708         0  First  male
* key : ('Second', 'female')
* number : 76
     age     fare  survived   class     sex
9   14.0  30.0708         1  Second  female
15  55.0  16.0000         1  Second  female
41  27.0  21.0000         0  Second  female
43   3.0  41.5792         1  Second  female
53  29.0  26.0000         1  Second  female
* key : ('Second', 'male')
* number : 108
     age  fare  survived   class   sex
17   NaN  13.

In [None]:
# grouped_two 그룹 객체에 연산 메소드 적용
average_two = grouped_two.mean()
print(average_two)

                     age        fare  survived
class  sex                                    
First  female  34.611765  106.125798  0.968085
       male    41.281386   67.226127  0.368852
Second female  28.722973   21.970121  0.921053
       male    30.740707   19.741782  0.157407
Third  female  21.750000   16.118810  0.500000
       male    26.507589   12.661633  0.135447


In [None]:
print(type(average_two))

# grouped_two 그룹 객체에서 개별 그룹 선택하기
group3f = grouped_two.get_group(('Third','female'))
print(group3f.head())

<class 'pandas.core.frame.DataFrame'>
     age     fare  survived  class     sex
2   26.0   7.9250         1  Third  female
8   27.0  11.1333         1  Third  female
10   4.0  16.7000         1  Third  female
14  14.0   7.8542         0  Third  female
18  31.0  18.0000         0  Third  female


데이터 집계(agg),
- 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하려면 agg() 메서드 사용
- 모든열에 여러 함수를 매핑 : group객체.agg([함수1,함수2,함수3,…])
- 각 열마다 다른 함수를 매핑 : group객체.agg({‘열1’: 함수1, ‘열2’:함수2, …})

변환(transform)
- 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
- 데이터 변환 연산 : group객체.transform(매핑함수)

필터링(filter)
- 그룹 객체에 filter() 메서드를 적용할 때 조건식을 가진 함수를 전달하면 조건이 참인 그룹만을 남김
- 그룹 객체 필터링 : group 객체.filter(조건 함수식)

객체에 함수 매핑(apply)
 - 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑. 사용자가 원하는 대부분의 연산을 그룹 객체에 적용
 - group 객체.apply(매핑함수)

In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])

In [None]:
mean_all = grouped.mean()
print(mean_all,'\n')
print(type(mean_all))

              age       fare  survived
class                                 
First   38.233441  84.154687  0.629630
Second  29.877630  20.662183  0.472826
Third   25.140620  13.675550  0.242363 

<class 'pandas.core.frame.DataFrame'>


In [None]:
# index name 삭제
mean_all.index.name = None
mean_all

Unnamed: 0,age,fare,survived
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [None]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환
std_all = grouped.std()
print(std_all,'\n')
print(type(std_all))

              age       fare  survived
First   14.802856  78.380373  0.484026
Second  14.001077  13.417399  0.500623
Third   12.495398  11.778142  0.428949 

<class 'pandas.core.frame.DataFrame'>


In [None]:
# 각 그룹에 대한 fare 열의 표준편차를 집계하여 시리즈로 반환
std_fare = grouped.fare.std()
print(std_fare,'\n')
print(type(std_fare))

First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64 

<class 'pandas.core.series.Series'>


In [None]:
# 그룹객체에 agg() 메소드 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x):
    return x.max() - x.min()

# 각 그룹의 최댓값과 최솟값의 차이를 계산하여 그룹별로 집계
# 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하려면 agg() 메서드 사용
agg_minmax = grouped.agg(min_max)
print(agg_minmax.head())

          age      fare  survived
First   79.08  512.3292         1
Second  69.33   73.5000         1
Third   73.58   69.5500         1


In [None]:
# 모든열에 여러 함수를 매핑 : group객체.agg([함수1,함수2,함수3,…])
# 내장함수는 ''를 사용

agg_all = grouped.agg(['max','min','mean',min_max])
print(agg_all)

         age                               fare                            \
         max   min       mean min_max       max  min       mean   min_max   
First   80.0  0.92  38.233441   79.08  512.3292  0.0  84.154687  512.3292   
Second  70.0  0.67  29.877630   69.33   73.5000  0.0  20.662183   73.5000   
Third   74.0  0.42  25.140620   73.58   69.5500  0.0  13.675550   69.5500   

       survived                        
            max min      mean min_max  
First         1   0  0.629630       1  
Second        1   0  0.472826       1  
Third         1   0  0.242363       1  


In [None]:
# 각 열마다 다른 함수를 적용하여 집계
# str만 가능해서 사용자함수 x
agg_sep = grouped.agg({'fare':['min','max'], 'age':'mean'})
print(agg_sep)

       fare                  age
        min       max       mean
First   0.0  512.3292  38.233441
Second  0.0   73.5000  29.877630
Third   0.0   69.5500  25.140620


In [None]:
import pandas as pd
import seaborn as sns

# titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','sex','class', 'fare', 'survived']]

# class 열을 기준으로 분할
grouped = df.groupby(['class'])
list(grouped)

[(('First',),
        age     sex  class     fare  survived
  1    38.0  female  First  71.2833         1
  3    35.0  female  First  53.1000         1
  6    54.0    male  First  51.8625         0
  11   58.0  female  First  26.5500         1
  23   28.0    male  First  35.5000         1
  ..    ...     ...    ...      ...       ...
  871  47.0  female  First  52.5542         1
  872  33.0    male  First   5.0000         0
  879  56.0  female  First  83.1583         1
  887  19.0  female  First  30.0000         1
  889  26.0    male  First  30.0000         1
  
  [216 rows x 5 columns]),
 (('Second',),
        age     sex   class     fare  survived
  9    14.0  female  Second  30.0708         1
  15   55.0  female  Second  16.0000         1
  17    NaN    male  Second  13.0000         1
  20   35.0    male  Second  26.0000         0
  21   34.0    male  Second  13.0000         1
  ..    ...     ...     ...      ...       ...
  866  27.0  female  Second  13.8583         1
  874  28.0  

In [None]:
# 데이터 개수가 200개 이상인 그룹만을 필터링하여 데이터프레임으로 반환
grouped_filter = grouped.filter(lambda x: len(x) >= 200)
print(grouped_filter.head(),'\n')
print(type(grouped_filter))

    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
1  38.0  female  First  71.2833         1
2  26.0  female  Third   7.9250         1
3  35.0  female  First  53.1000         1
4  35.0    male  Third   8.0500         0 

<class 'pandas.core.frame.DataFrame'>


In [None]:
grouped_filter.value_counts()

age   sex     class  fare      survived
17.0  male    Third  8.6625    0           3
19.0  male    Third  7.8958    0           3
22.0  male    Third  7.2500    0           3
33.0  male    Third  7.8958    0           2
22.0  female  Third  7.7500    1           2
                                          ..
      male    Third  7.1250    0           1
              First  135.6333  0           1
      female  Third  10.5167   0           1
                     9.8375    0           1
80.0  male    First  30.0000   1           1
Name: count, Length: 515, dtype: int64

In [None]:
# Task1_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 평균을 계산하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})
df.head()

Unnamed: 0,Category,Value
0,A,10
1,B,20
2,A,30
3,B,40
4,C,50


In [None]:
df_group = df.groupby('Category')
df_group.mean()

Unnamed: 0_level_0,Value
Category,Unnamed: 1_level_1
A,47.5
B,46.666667
C,73.333333


In [None]:
df.groupby('Category')['Value'].mean()

Category
A    47.500000
B    46.666667
C    73.333333
Name: Value, dtype: float64

In [None]:
# category 별로 그룹화하여 value의 평균계산
# 기존 컬럼 사용시 .Value로 사용 가능
# 새로운 열을 만들 땐 무조건 [] 사용

grouped_mean = df.groupby('Category')['Value'].mean().reset_index()

print(grouped_mean)

  Category      Value
0        A  47.500000
1        B  46.666667
2        C  73.333333


In [None]:
# Task2_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 누적 합을 계산하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

In [None]:
df_group = df.groupby('Category')
df_group.sum()

Unnamed: 0_level_0,Value
Category,Unnamed: 1_level_1
A,190
B,140
C,220


In [None]:
df['Cumulative_Sum'] = df.groupby('Category')['Value'].cumsum()

print(df)

  Category  Value  Cumulative_Sum
0        A     10              10
1        B     20              20
2        A     30              40
3        B     40              60
4        C     50              50
5        A     60             100
6        C     70             120
7        B     80             140
8        A     90             190
9        C    100             220


In [None]:
# Task3_0529. 주어진 DataFrame에서 'Category'별로 그룹화하여 각 그룹의 'Value' 열의 합계, 평균, 최대값, 최소값을 계산하세요.
df_group = df.groupby('Category')
df_group.agg(['sum','mean','max','min'])


Unnamed: 0_level_0,Value,Value,Value,Value
Unnamed: 0_level_1,sum,mean,max,min
Category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,190,47.5,90,10
B,140,46.666667,80,20
C,220,73.333333,100,50


In [None]:
grouped_stats = df.groupby('Category').Value.agg(['sum','mean','max','min']).reset_index()

print(grouped_stats)

  Category  sum       mean  max  min
0        A  190  47.500000   90   10
1        B  140  46.666667   80   20
2        C  220  73.333333  100   50


In [1]:
# Task4_0529. 주어진 df에서 category별로 가장 자주 등장하는 value를 찾아서 새로운 열의 값으로 적용한 후 출력하세요.
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Category,Value
0,A,10
1,A,15
2,B,10
3,B,20
4,A,10
5,B,30
6,B,50
7,A,10
8,B,20
9,A,15


In [3]:
df_group = df.groupby('Category')
print(df_group.value_counts())
print(type(df_group.value_counts()))
df_group.value_counts().agg('mode')

Category  Value
A         10       3
          15       2
B         20       2
          10       1
          30       1
          50       1
Name: count, dtype: int64
<class 'pandas.core.series.Series'>


0    1
Name: count, dtype: int64

In [None]:
import pandas as pd

df_group['Value'].agg(lambda x : x.mode())

In [None]:
# 최빈값이 여러개 있을 수 있으므로(시리즈로 반환) nan발생
df['a'] = df_group['Value'].transform(lambda x : x.mode())
df

Unnamed: 0,Category,Value,Cumulative_Sum,Most_Frequent,a
0,A,10,10,10,10.0
1,B,20,20,20,40.0
2,A,30,40,10,60.0
3,B,40,60,20,
4,C,50,50,50,
5,A,60,100,10,
6,C,70,120,50,
7,B,80,140,20,
8,A,90,190,10,
9,C,100,220,50,


In [None]:
df['b'] = df_group['Value'].transform(lambda x : x.mode().iloc[0])
df

Unnamed: 0,Category,Value,Cumulative_Sum,Most_Frequent,a,b
0,A,10,10,10,10.0,10
1,B,20,20,20,40.0,20
2,A,30,40,10,60.0,10
3,B,40,60,20,,20
4,C,50,50,50,,50
5,A,60,100,10,,10
6,C,70,120,50,,50
7,B,80,140,20,,20
8,A,90,190,10,,10
9,C,100,220,50,,50


In [None]:
# idxmax 최댓값을 갖는 인덱스 번호 반환
df['c'] = df_group['Value'].transform(lambda x: x.value_counts().idxmax())
df

Unnamed: 0,Category,Value,Cumulative_Sum,Most_Frequent,a,b,c
0,A,10,10,10,10.0,10,10
1,B,20,20,20,40.0,20,20
2,A,30,40,10,60.0,10,10
3,B,40,60,20,,20,20
4,C,50,50,50,,50,50
5,A,60,100,10,,10,10
6,C,70,120,50,,50,50
7,B,80,140,20,,20,20
8,A,90,190,10,,10,10
9,C,100,220,50,,50,50


In [None]:
ddf = pd.DataFrame(df_group.value_counts())
ddf

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Category,Value,Unnamed: 2_level_1
A,10,3
A,15,2
B,20,2
B,10,1
B,30,1
B,50,1


In [None]:
# 그룹별로 가장 자주 등장하는 값을 찾아서 새로운 열을 만들어 출력
def most_frequent(x):
    return x.mode().iloc[0] #최빈값이 여러 개일 경우 첫 번재 값 선택

# category 열을 기준으로 그룹화하고 value 열에 대해 가장 자주 등장하는 값 찾기
df['Most_Frequent'] = df.groupby('Category')['Value'].transform(most_frequent)
df

Unnamed: 0,Category,Value,Cumulative_Sum,Most_Frequent
0,A,10,10,10
1,B,20,20,20
2,A,30,40,10
3,B,40,60,20
4,C,50,50,50
5,A,60,100,10
6,C,70,120,50
7,B,80,140,20
8,A,90,190,10
9,C,100,220,50


In [None]:
# Task5_0529. 주어진 데이터프레임에서 각 그룹별로 누적 평균을 계산하여 새로운 열로 추가한 후 출력하세요. 단 누적 평균은 그룹 내에서 각 요소까지의 평균을 계산한 것임

import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)
print(df)

  Category  Value
0        A     10
1        A     15
2        B     10
3        B     20
4        A     10
5        B     30
6        B     50
7        A     10
8        B     20
9        A     15


In [None]:
df['Cum_Mean'] = df.groupby('Category')['Value'].transform(lambda x: x.expanding().mean())
df

Unnamed: 0,Category,Value,Cum_Mean
0,A,10,10.0
1,A,15,12.5
2,B,10,10.0
3,B,20,15.0
4,A,10,11.666667
5,B,30,20.0
6,B,50,27.5
7,A,10,11.25
8,B,20,26.0
9,A,15,12.0


In [None]:
df_group['Value'].agg(lambda x : x.mean())

Category
A    12.0
B    26.0
Name: Value, dtype: float64

In [None]:
data = [1,2,3,4,5]
s= pd.Series(data)

cum_sum = s.expanding().sum()
cum_mean = s.expanding().mean()
print(cum_sum)
print(cum_mean)

0     1.0
1     3.0
2     6.0
3    10.0
4    15.0
dtype: float64
0    1.0
1    1.5
2    2.0
3    2.5
4    3.0
dtype: float64


#### 함수 매핑
커스텀 함수(custom function)를 DataFrame에 적용하려면 map함수, apply함수, applymap함수를 사용
- map 함수는 Series의 각 요소에 함수를 적용.
- apply 함수는 Series 또는 DataFrame의 행이나 열에 함수를 적용.
- applymap 함수는 DataFrame의 각 요소에 함수를 적용.

In [None]:
import pandas as pd

# 예제 series  생성
s = pd.Series([1,2,3,4,5])

# 각 요소에 2를 더하는 함수
s_mapped = s.map(lambda x: x +2)
print(s_mapped)

0    3
1    4
2    5
3    6
4    7
dtype: int64


In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 각 열에 대해 최댓값을 구하는 함수
df_applied_col = df.apply(lambda x : x.max(), axis = 0)
print(df_applied_col)

# 각 행에 대해 합계를 구하는 함수
df_applied_row = df.apply(lambda x : x.sum(), axis = 1)
print(df_applied_row)

A    3
B    6
C    9
dtype: int64
0    12
1    15
2    18
dtype: int64


In [None]:
# applymap 함수는 DataFrame에만 적용되며, 각 요소에 함수를 적용
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 각 요소에 2를 더하는 함수
df_applymapped = df.applymap(lambda x:x+2)
print(df_applymapped)

   A  B   C
0  3  6   9
1  4  7  10
2  5  8  11


In [None]:
# 함수 적용과 매핑
import numpy as np
import pandas as pd

np.random.seed(10)
frame = pd.DataFrame(np.random.randn(4,3),columns=list('bde'),
                    index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,1.331587,0.715279,-1.5454
Ohio,-0.008384,0.621336,-0.720086
Texas,0.265512,0.108549,0.004291
Oregon,-0.1746,0.433026,1.203037


In [None]:
format = lambda x: '%.2f'%x

In [None]:
# AttributeError: 'DataFrame' object has no attribute 'map'
# frame.map(format)

# map함수는 series에만 적용
frame['e'].map(format)

Utah       0.65
Ohio      -0.72
Texas      0.18
Oregon     0.28
Name: e, dtype: object

In [None]:
# Series의 최댓값과 최솟값의 차이를 계산
# 최대-최소니깐 각 요소마다가 아니라 각 행마다 적용
# apply함수는 dataframe에 적용
f = lambda x: x.max() - x.min()
frame.apply(f)

b    2.710478
d    2.409562
e    1.701265
dtype: float64

In [None]:
# 각 로우에 대해서 한 번씩 수행
# 최대-최소이므로 각 열마다 적용
frame.apply(f,axis = 'columns') # 1 = columns


Utah      1.089763
Ohio      1.059272
Texas     4.343772
Oregon    1.307934
dtype: float64

In [None]:
# 각 요소마다 적용
f1 = lambda x: round(x*10)
frame.apply(f1,axis = 0)

Unnamed: 0,b,d,e
Utah,13.0,7.0,-15.0
Ohio,-0.0,6.0,-7.0
Texas,3.0,1.0,0.0
Oregon,-2.0,4.0,12.0


In [None]:
f1 = lambda x : round(x*20)
frame.apply(f1, axis = 1)

Unnamed: 0,b,d,e
Utah,27.0,14.0,-31.0
Ohio,-0.0,12.0,-14.0
Texas,5.0,2.0,0.0
Oregon,-3.0,9.0,24.0


In [None]:
f1 = lambda x : sum(x)
frame.apply(f1,axis = 0)

b    1.414114
d    1.878190
e   -1.058157
dtype: float64

In [None]:
# 여러값을 가진 Series 반환
print(frame, '\n')
def f(x):
    return pd.Series([x.min(),x.max()],index = ['min','max'])

frame.apply(f)

               b         d         e
Utah    1.331587  0.715279 -1.545400
Ohio   -0.008384  0.621336 -0.720086
Texas   0.265512  0.108549  0.004291
Oregon -0.174600  0.433026  1.203037 



Unnamed: 0,b,d,e
min,-0.1746,0.108549,-1.5454
max,1.331587,0.715279,1.203037


In [None]:
# 실수값을 문자열 포맷으로 변환
format = lambda x: '%.2f' %x
frame.applymap(format)

Unnamed: 0,b,d,e
Utah,1.33,0.72,-1.55
Ohio,-0.01,0.62,-0.72
Texas,0.27,0.11,0.0
Oregon,-0.17,0.43,1.2


In [None]:
np.random.seed(0)

data = np.random.randint(1,100,size =(5,5))
df = pd.DataFrame(data, columns = list('abcde'))
df

Unnamed: 0,a,b,c,d,e
0,45,48,65,68,68
1,10,84,22,37,88
2,71,89,89,13,59
3,66,40,88,47,89
4,82,38,26,78,73


In [None]:
df['f'] = df.apply(lambda x: x.a+x.b+x.c+x.d+x.e, axis = 1)
# x.sum()과 같다
df

Unnamed: 0,a,b,c,d,e,f
0,45,48,65,68,68,294
1,10,84,22,37,88,241
2,71,89,89,13,59,321
3,66,40,88,47,89,330
4,82,38,26,78,73,297


In [None]:
# 표준화
# 데이터의 평균을 0, 표준편차를 1로 변환하는 과정
# 이 과정을 통해 데이터의 스케일을 조정하고 비교 가능한 형태로 만듦

def z_score(x):
    return (x-x.mean()) / x.std()

In [None]:
# 원소의 본래 행 인덱스와 열 이름을 기준으로 연산 결과를 반환
df_zscore = df.a.transform(z_score)
df_zscore

0   -0.344827
1   -1.576351
2    0.570020
3    0.394088
4    0.957070
Name: a, dtype: float64

In [None]:
df_zscore = df.apply(lambda x: z_score(x))
df_zscore

Unnamed: 0,a,b,c,d,e,f
0,-0.344827,-0.477299,0.215257,0.754401,-0.570413,-0.074984
1,-1.576351,0.978867,-1.107037,-0.451085,0.971244,-1.603498
2,0.57002,1.181112,0.953282,-1.384365,-1.264159,0.703693
3,0.394088,-0.800891,0.922531,-0.062219,1.048327,0.963252
4,0.95707,-0.881789,-0.984033,1.143268,-0.184999,0.011536


In [None]:
# Task6_0529. 주어진 Series의 각 값에 대해 2배로 변환하는 함수를 적용하여 값을 변환하세요.
import pandas as pd

# Series 생성
s = pd.Series([1, 2, 3, 4, 5])

s_mul = s.map(lambda x: x * 2)
print(s_mul)

0     2
1     4
2     6
3     8
4    10
dtype: int64


In [7]:
# Task7_0529. 주어진 DataFrame의 특정 열에 대해 map을 사용하여 등급을 부여하는 함수를 적용하여 변환을 수행하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Name": ["Alice", "Bob", "Charlie", "David", "Eve"],
    "Score": [85, 90, 95, 80, 75]
})

df['rank'] = df['Score'].map(lambda x: 'A'if x >=90 else 'B' if x>=80 else 'C' if x >= 70 else 'F')
df

Unnamed: 0,Name,Score,rank
0,Alice,85,B
1,Bob,90,A
2,Charlie,95,A
3,David,80,B
4,Eve,75,C


In [6]:
def grade(score):
    if score >= 90:
        return 'A'
    elif score >= 80:
        return 'B'
    else:
        return 'C'

df['Grade'] = df['Score'].map(grade)

df

Unnamed: 0,Name,Score,Grade
0,Alice,85,B
1,Bob,90,A
2,Charlie,95,A
3,David,80,B
4,Eve,75,C


In [None]:
# Task8_0529. 주어진 DataFrame의 특정 열에 대해 각 요소에 제곱하는 함수를 적용하여 새로운 열을 생성하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

df['Numbers**2'] = df['Numbers'].apply(lambda x: x ** 2)
# df['Squared'] = df['Numbers'].map(lambda x: x ** 2)
df

Unnamed: 0,Numbers,Numbers**2
0,1,1
1,2,4
2,3,9
3,4,16
4,5,25


apply vs map
- apply는 DataFrame의 행이나 열 단위로 함수를 적용할 수 있지만, map은 Series의 각 요소에만 함수를 적용
- Series의 각 요소를 변환하는 간단한 작업에는 map이 적합하고, 더 복잡한 변환이 필요한 경우나 DataFrame 전체를 다룰 때는 apply가 유용

In [8]:
df = pd.DataFrame({
    "A": [1, 2, 3, 4],
    'B' : [5,6,7,8]
})

# 행 단위
df1 = df.copy()
df1['Row_Sum'] = df1.apply(lambda row : row.sum(), axis = 1)
print(df1,'\n')
# 열 단위
df2 = df.copy()
df2.loc['Column_Sum'] = df2.apply(lambda col: col.sum(), axis = 0)
print(df2)

   A  B  Row_Sum
0  1  5        6
1  2  6        8
2  3  7       10
3  4  8       12 

             A   B
0            1   5
1            2   6
2            3   7
3            4   8
Column_Sum  10  26


In [9]:
df = pd.DataFrame({
    "A": [1, 2, 3, 4],
    'B' : [5,6,7,8]
})

# A열의 각 요소를 제곱
# map : 각 요소에만 함수 적용
df['A_Squared'] = df['A'].map(lambda x: x ** 2)
print(df)

   A  B  A_Squared
0  1  5          1
1  2  6          4
2  3  7          9
3  4  8         16


In [None]:
# Task9_0529. 주어진 DataFrame의 여러 열에 대해 각 열의 값을 합하는 함수를 적용하여 새로운 열을 생성한 후 출력하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3, 4, 5],
    "B": [10, 20, 30, 40, 50]
})
df['sum'] = df.apply(lambda x: x.A+x.B, axis = 1)
# df['A_plus_B'] = df.apply(lambda row: row['A']+row['B'],axis = 1)
df

Unnamed: 0,A,B,sum
0,1,10,11
1,2,20,22
2,3,30,33
3,4,40,44
4,5,50,55


In [None]:
# Task10_0529. 주어진 DataFrame의 각 요소에 대해 10보다 크면 2배, 그렇지 않으면 원래의 수를 반영하는 함수를 적용하여 값을 변환하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Values": [5, 10, 15, 20, 25]
})
df.applymap(lambda x: x *2 if x >10 else x)
# df['Transformed'] = df['Values'].apply(lambda x: x*2 if x> 10 else x)

Unnamed: 0,Values
0,5
1,10
2,30
3,40
4,50


apply vs applymap

- df.apply는 DataFrame의 각 행(row) 또는 열(column)에 함수를 적용합니다. 기본적으로 axis=0으로 설정되어 있어 열 단위로 함수를 적용
- 각 행 또는 열 자체가 Series로 전달되며, 이 Series 전체에 대해 함수를 적용하려고 한다.
- applymap은 DataFrame의 모든 요소에 대해 함수를 적용하므로, 전체 DataFrame에 대한 변환이 필요할 때 유용

In [11]:
# Task11_0529. 주어진 DataFrame에서 특정 열을 그룹화한 후 각 그룹에 대해 그룹별로 평균 값을 계산하는 함수를 적용하여 새로운 열을 생성하여 출력하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Category": ["A", "B", "A", "B", "C", "A", "C", "B", "A", "C"],
    "Value": [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
})

# apply -> 불가 transform 가능

# def mean(x):
#     return x.mean()
# df['mean'] = df.groupby('Category')['Value'].transform(mean)

# df['mean'] = df.groupby('Category')['Value'].transform(lambda x: x.mean())

# 기존은 유지하고 새로운 열에 함수를 적용하여 출력
df['mean'] = df.groupby('Category')['Value'].transform('mean')
df

Unnamed: 0,Category,Value,mean
0,A,10,47.5
1,B,20,46.666667
2,A,30,47.5
3,B,40,46.666667
4,C,50,73.333333
5,A,60,47.5
6,C,70,73.333333
7,B,80,46.666667
8,A,90,47.5
9,C,100,73.333333


In [None]:
df.groupby('Category')['Value'].apply('mean')
# 그룹별로 평균 출력 -> 기존 형태 바뀜

In [None]:
# Task12_0529. 주어진 DataFrame의 특정 열에 대해 제곱과 제곱근을 계산하는 함수들을 동시에 적용하여 새로운 열을 생성한 후 출력하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

def square(x):
    return x**2, x
df['square'] = df.Numbers.transform(square)
df

Unnamed: 0,Numbers,square
0,1,"(1, 1)"
1,2,"(4, 2)"
2,3,"(9, 3)"
3,4,"(16, 4)"
4,5,"(25, 5)"


In [12]:
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

df['Squared'] = df['Numbers'].apply(lambda x: x** 2)
df['Square_Root'] = df['Numbers'].apply(lambda x: x** 0.5)

df

Unnamed: 0,Numbers,Squared,Square_Root
0,1,1,1.0
1,2,4,1.414214
2,3,9,1.732051
3,4,16,2.0
4,5,25,2.236068


In [19]:
df = pd.DataFrame({
    "Numbers": [1, 2, 3, 4, 5]
})

result = df.Numbers.agg({lambda x: x **2, lambda x:x ** 0.5})
result.columns = ['Squared','Square_Root']
# join을 이용하여 df에 result 합침
df = df.join(result)
# df = pd.concat([df,result], axis = 1)
df

Unnamed: 0,Numbers,Squared,Square_Root
0,1,1,1.0
1,2,4,1.414214
2,3,9,1.732051
3,4,16,2.0
4,5,25,2.236068


In [None]:
# Task13_0529. 주어진 DataFrame의 각 요소에 대해 제곱하는 함수를 적용하여 값을 변환하세요.
import pandas as pd

# 데이터프레임 생성
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [4, 5, 6],
    "C": [7, 8, 9]
})

df.applymap(lambda x: x**2)
# df.apply(lambda x: x**2)

Unnamed: 0,A,B,C
0,1,16,49
1,4,25,64
2,9,36,81


In [23]:
# Task14_0529. 주어진 데이터프레임에서 각 그룹별로 Value 열을 표준화하여 새로운 열로 추가하여 출력하세요.(apply, transform 두가지 적용)
import pandas as pd

# 예제 데이터프레임 생성
data = {
    'Category': ['A', 'A', 'B', 'B', 'A', 'B', 'B', 'A', 'B', 'A'],
    'Value': [10, 15, 10, 20, 10, 30, 50, 10, 20, 15]
}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)
print()
def z_score(x):
    return (x-x.mean()) / x.std()
print('transform 사용')
print(df.groupby('Category').Value.transform(z_score))
print()
print('apply 사용')
print(df.groupby('Category').Value.apply(lambda x: (x-x.mean())/ x.std()))

Original DataFrame:
  Category  Value
0        A     10
1        A     15
2        B     10
3        B     20
4        A     10
5        B     30
6        B     50
7        A     10
8        B     20
9        A     15

transform 사용
0   -0.730297
1    1.095445
2   -1.055009
3   -0.395628
4   -0.730297
5    0.263752
6    1.582513
7   -0.730297
8   -0.395628
9    1.095445
Name: Value, dtype: float64

apply 사용
Category   
A         0   -0.730297
          1    1.095445
          4   -0.730297
          7   -0.730297
          9    1.095445
B         2   -1.055009
          3   -0.395628
          5    0.263752
          6    1.582513
          8   -0.395628
Name: Value, dtype: float64


In [22]:
# 그룹별 표준화하는 함수 정의
def standardize(x):
    return (x-x.mean()) / x.std()

# category 열을 기준으로 그룹화하고, value열에 대해 표준화 적용
df['Standardized_Value']= df.groupby('Category')['Value'].transform(standardize)
print(df)

  Category  Value  Standardized_Value
0        A     10           -0.730297
1        A     15            1.095445
2        B     10           -1.055009
3        B     20           -0.395628
4        A     10           -0.730297
5        B     30            0.263752
6        B     50            1.582513
7        A     10           -0.730297
8        B     20           -0.395628
9        A     15            1.095445


In [24]:
def standardize(x):
    return (x-x.mean()) / x.std()


# apply 사용
df['Standardized_Value']= df.groupby('Category', group_keys = False).apply(standardize)
print(df)

  Category  Value  Standardized_Value
0        A     10           -0.730297
1        A     15            1.095445
2        B     10           -1.055009
3        B     20           -0.395628
4        A     10           -0.730297
5        B     30            0.263752
6        B     50            1.582513
7        A     10           -0.730297
8        B     20           -0.395628
9        A     15            1.095445


####Pivot
pivot 함수의 구성 형식
- index: 새로운 DataFrame에서 인덱스로 사용할 기존 열 또는 열들의 이름.
- columns: 새로운 DataFrame에서 열로 사용할 기존 열 또는 열들의 이름.
- values: 피벗할 때 사용할 값이 있는 열의 이름.

기능
- 긴 형식의 데이터를 넓은 형식으로 변환하여 특정 차원에서 데이터를 재구성.
- 피벗된 데이터를 통해 시간 경과에 따른 변화나 여러 카테고리의 비교를 쉽게 할 수 있다.
- 넓은 형식의 데이터는 시각화 도구에서 더 쉽게 다룰 수 있다.

In [25]:
import pandas as pd

# df생성
data = {
    'date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 78]
}

df = pd.DataFrame(data)
print(df,'\n')
# pivot 테이블 생성
# 날짜별로 도시의 온도를 간편히 볼 수 있다
pivot_df = df.pivot(index = 'date', columns = 'city', values = 'temperature')
print(pivot_df)

         date         city  temperature
0  2021-01-01     New York           32
1  2021-01-01  Los Angeles           75
2  2021-01-02     New York           30
3  2021-01-02  Los Angeles           78 

city        Los Angeles  New York
date                             
2021-01-01           75        32
2021-01-02           78        30


In [27]:
# 중복된 값을 평균으로 처리하여 피벗 테이블을 생성
data = {
    'date': ['2021-01-01', '2021-01-01','2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 30, 78]
}
df = pd.DataFrame(data)

# 피벗 테이블 생성 (중복 값의 평균 계산)
pivot_table_df = df.pivot_table(index = 'date', columns = 'city', values = 'temperature', aggfunc = 'mean')
print(pivot_table_df)

city        Los Angeles  New York
date                             
2021-01-01           75        31
2021-01-02           78        30


In [28]:
# 다중 인덱스와 다중 값 사용 : 날짜와 도시를 기준으로 온도와 습도를 모두 포함한 피벗 테이블을 생성
data = {
    'date': ['2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'],
    'city': ['New York', 'Los Angeles', 'New York', 'Los Angeles'],
    'temperature': [32, 75, 30, 78],
    'humidity': [80, 20, 85, 15]
}
df = pd.DataFrame(data)
print(df, '\n')
# 다중 인덱스 및 다중 값 피벗 테이블 생성
pivot_multi_df = df.pivot(index = 'date', columns = 'city')
print(pivot_multi_df)

         date         city  temperature  humidity
0  2021-01-01     New York           32        80
1  2021-01-01  Los Angeles           75        20
2  2021-01-02     New York           30        85
3  2021-01-02  Los Angeles           78        15 

           temperature             humidity         
city       Los Angeles New York Los Angeles New York
date                                                
2021-01-01          75       32          20       80
2021-01-02          78       30          15       85


In [37]:
# Q. 주어진 매출 데이터에서, 각 연도와 각 제품별로 총 매출액을 계산하세요
data = {
    'Year': [2020, 2020, 2021, 2021, 2022, 2022, 2022, 2023, 2023],
    'Product': ['A', 'B', 'A', 'B', 'A', 'B', 'C', 'A', 'C'],
    'Sales': [100, 150, 200, 250, 300, 350, 400, 500, 450]
}

df= pd.DataFrame(data)
print(df)
# aggfunc을 사용할 땐 pivot_table로 사용해야한다
# value를 적지 않아도 남은 하나를 values로 사용
# sum을 적지 않아도 기본적으로 sum이 적용된다
pivot_sum = df.pivot(index = 'Year', columns = 'Product')
# pivot_table_1 = df.pivot_table(index = 'Year', columns = 'Product',values = 'Sales, aggfunc = 'sum', fill_value = 0)
print(pivot_sum)

   Year Product  Sales
0  2020       A    100
1  2020       B    150
2  2021       A    200
3  2021       B    250
4  2022       A    300
5  2022       B    350
6  2022       C    400
7  2023       A    500
8  2023       C    450
         Sales              
Product      A      B      C
Year                        
2020     100.0  150.0    NaN
2021     200.0  250.0    NaN
2022     300.0  350.0  400.0
2023     500.0    NaN  450.0


In [43]:
# Q. 주어진 직원 근무시간 데이터에서, 각 직원별로 각 월의 총 근무시간을 계산하세요
data = {
    'Employee': ['John', 'John', 'John', 'Anna', 'Anna', 'Anna', 'Peter', 'Peter', 'Peter'],
    'Month': ['Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar'],
    'Hours': [160, 170, 175, 150, 165, 180, 155, 160, 170]
}

df = pd.DataFrame(data)
print(df)
pivot_parttime = df.pivot_table(index = 'Employee', columns = 'Month', values = 'Hours', aggfunc = 'sum',fill_value = 0)
print(pivot_parttime)

  Employee Month  Hours
0     John   Jan    160
1     John   Feb    170
2     John   Mar    175
3     Anna   Jan    150
4     Anna   Feb    165
5     Anna   Mar    180
6    Peter   Jan    155
7    Peter   Feb    160
8    Peter   Mar    170
Month     Feb  Jan  Mar
Employee               
Anna      165  150  180
John      170  160  175
Peter     160  155  170
