# Pandas 데이터 가공
- pivot() / pivot_table()
- crosstab()
- get_dummies()
- stack()/unstack()
- melt()
- 텍스트데이터 가공
- 그룹연산
- 통게함수

# pivot()

`pivot`은 판다스의 데이터프레임에서 데이터를 재구조화하는 기능을 제공하는 메서드 중 하나입니다.  
pivot 메서드를 사용하면 데이터프레임의 `행`과 `열`을 재배치하여 새로운 데이터프레임을 생성할 수 있습니다.  
기존 데이터프레임에서 `특정 열`을 `행 인덱스`로, `다른 열`을 `열 인덱스`로 사용하여  
데이터를 다시 배열하는 것이 특징입니다.  
pivot은 데이터프레임에 **중복된 인덱스가 없을 때** 사용합니다.

pivot 메서드의 구문:
```python
DataFrame.pivot(index=None, columns=None, values=None)
```

- `index`: 새로운 데이터프레임의 행 인덱스로 사용할 기존 데이터프레임의 열 이름을 지정합니다.
- `columns`: 새로운 데이터프레임의 열 인덱스로 사용할 기존 데이터프레임의 열 이름을 지정합니다.
- `values`: 새로운 데이터프레임의 데이터로 사용할 기존 데이터프레임의 열 이름을 지정합니다. 기본값은 None이며, 이 경우 모든 열이 데이터로 사용됩니다.

In [1]:
import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
    'Subject': ['Math', 'Science', 'Math', 'English', 'Science'],
    'Score': [85, 92, 78, 88, 90]
}

df = pd.DataFrame(data)

In [2]:
df

Unnamed: 0,Name,Subject,Score
0,Alice,Math,85
1,Bob,Science,92
2,Charlie,Math,78
3,David,English,88
4,Ella,Science,90


In [3]:
"""
pivot 사용 예제:
"""
df.pivot(index='Name', columns='Subject', values='Score')

Subject,English,Math,Science
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alice,,85.0,
Bob,,,92.0
Charlie,,78.0,
David,88.0,,
Ella,,,90.0


# pivot_table()

pivot_table은 판다스의 데이터프레임에서 데이터를 `재구조화`하고 `집계 연산`을 수행하는 기능을 제공하는 메서드입니다.  
pivot_table 메서드를 사용하면 데이터프레임의 `행`과 `열`을 `재배치`하여 `새로운 데이터프레임`을 생성하며,   
`중복된 조합`에 대해 `집계 함수`를 적용하여 결과를 생성할 수 있습니다.

pivot_table 메서드의 구문:

```python
DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')
```

- `values`: 집계하고자 하는 열의 이름(들). 기본값은 None이며, 모든 열에 대해 집계함수가 적용됩니다.
- `index`: 행 인덱스로 사용할 열의 이름(들).
- `columns`: 열 인덱스로 사용할 열의 이름(들).
- `aggfunc`: 집계 함수를 지정합니다. 기본값은 'mean'으로 평균을 의미합니다. 다른 자주 사용되는 함수로 'sum', 'count', 'min', 'max' 등이 있습니다.
fill_value: 결측값 대체를 위한 값.
- `margins`: 부분 합계를 생성할지 여부를 지정하는데, 기본값은 False입니다.
- `dropna`: 결측값이 포함된 행/열을 제거할지 여부를 지정하는데, 기본값은 True입니다.
- `margins_name`: 부분 합계의 이름을 지정합니다.


In [4]:
import pandas as pd
import numpy as np

# 데이터 생성
data = {
    'Date': ['2023-08-01', '2023-08-01', '2023-08-02', '2023-08-02', '2023-08-03', '2023-08-03'],
    'City': ['Seoul', 'Busan', 'Seoul', 'Busan', 'Seoul', 'Busan'],
    'Temperature': [32, 28, 30, 27, 33, 29],
    'Humidity': [50, 60, 55, 58, 45, 62]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Date,City,Temperature,Humidity
0,2023-08-01,Seoul,32,50
1,2023-08-01,Busan,28,60
2,2023-08-02,Seoul,30,55
3,2023-08-02,Busan,27,58
4,2023-08-03,Seoul,33,45
5,2023-08-03,Busan,29,62


In [5]:
# pivot을 사용하여 데이터프레임 재구조화 
df.pivot_table(index='Date', values=['Temperature'], aggfunc='mean')

Unnamed: 0_level_0,Temperature
Date,Unnamed: 1_level_1
2023-08-01,30.0
2023-08-02,28.5
2023-08-03,31.0


In [6]:
# 다수의 column 활용 (날짜기준)
df.pivot_table(index='Date', values=['Temperature', 'Humidity'], aggfunc='mean')

Unnamed: 0_level_0,Humidity,Temperature
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-08-01,55.0,30.0
2023-08-02,56.5,28.5
2023-08-03,53.5,31.0


In [7]:
# 다수의 column 활용 (도시기준)
df.pivot_table(index='City', values=['Temperature', 'Humidity'], aggfunc='mean')

Unnamed: 0_level_0,Humidity,Temperature
City,Unnamed: 1_level_1,Unnamed: 2_level_1
Busan,60,28.0
Seoul,50,31.666667


In [8]:
# agg_func 추가
df.pivot_table(index='City',  values=['Temperature'], aggfunc=[np.mean, 'count', 'std', 'min', 'max', lambda x: x.max()-x.min()])

Unnamed: 0_level_0,mean,count,std,min,max,<lambda>
Unnamed: 0_level_1,Temperature,Temperature,Temperature,Temperature,Temperature,Temperature
City,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Busan,28.0,3,1.0,27,29,2
Seoul,31.666667,3,1.527525,30,33,3


# crosstab()

crosstab은 판다스의 데이터프레임에서 교차표를 생성하는 기능을 제공하는 함수입니다. 교차표는 두 변수 사이의 빈도, 빈도 비율 등을 보여주는 표로서, 특히 범주형 데이터에 유용하게 활용됩니다.

crosstab 함수의 구문:

```python
pd.crosstab(index, columns, values=None, rownames=None, colnames=None, aggfunc=None, margins=False, margins_name='All', dropna=True, normalize=False)
```

- `index`: 교차표의 행 인덱스를 지정하는데 사용되는 열(또는 열 이름)입니다.
- `columns`: 교차표의 열 인덱스를 지정하는데 사용되는 열(또는 열 이름)입니다.
- `values`: 교차표의 데이터로 사용할 열(또는 열 이름)을 선택적으로 지정합니다. 기본값은 None이며, 이 경우 빈도가 계산됩니다.
- `rownames`: 행 인덱스에 사용할 이름을 지정합니다.
- `colnames`: 열 인덱스에 사용할 이름을 지정합니다.
- `aggfunc`: 교차표 셀에 적용할 집계 함수를 지정합니다. 기본값은 None이며, 이 경우 빈도가 계산됩니다.
- `margins`: 부분 합계를 생성할지 여부를 지정하는데, 기본값은 False입니다.
- `margins_name`: 부분 합계의 이름을 지정합니다.
- `dropna`: 결측값이 포함된 행/열을 제거할지 여부를 지정하는데, 기본값은 True입니다.
- `normalize`: 빈도를 빈도 비율로 정규화할지 여부를 지정하는데, 기본값은 False입니다.

In [9]:
import pandas as pd

data = {
    'User': [1, 2, 1, 3, 2, 4, 3, 4, 4, 2],
    'Movie': ['A', 'B', 'A', 'C', 'B', 'D', 'C', 'D', 'B', 'A'],
    'Rating': [5, 4, 3, 4, 5, 2, 3, 4, 1, 3]
}

df = pd.DataFrame(data)


In [10]:
pd.crosstab(df.User, df.Movie)

Movie,A,B,C,D
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,0,0,0
2,1,2,0,0
3,0,0,2,0
4,0,1,0,2


In [11]:
pd.crosstab(df.User, df.Movie)

Movie,A,B,C,D
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,0,0,0
2,1,2,0,0
3,0,0,2,0
4,0,1,0,2


In [12]:
pd.crosstab(df.User, df.Movie, margins=True)

Movie,A,B,C,D,All
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,2,0,0,0,2
2,1,2,0,0,3
3,0,0,2,0,2
4,0,1,0,2,3
All,3,3,2,2,10


In [13]:
pd.crosstab(df.User, df.Movie, normalize=True)

Movie,A,B,C,D
User,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0.2,0.0,0.0,0.0
2,0.1,0.2,0.0,0.0
3,0.0,0.0,0.2,0.0
4,0.0,0.1,0.0,0.2


# get_dummies()

get_dummies는 판다스의 데이터프레임에서 `범주형 변수`를  
`더미 변수`(0 또는 1로 이루어진 이진 변수)로 변환하는 기능을 제공하는 함수입니다.  
범주형 변수를 더미 변수로 변환하여 기계 학습 모델에 적용하거나 데이터 분석에 활용하는 데 유용합니다.

get_dummies 함수의 구문:

```python
pd.get_dummies(data, prefix=None, prefix_sep='_', columns=None, drop_first=False, dtype=None)
```

- **data**: 더미 변수로 변환할 데이터프레임이나 시리즈를 지정합니다.
- **prefix**: 더미 변수의 컬럼 이름에 추가할 접두어를 지정합니다.
- **prefix_sep**: 접두어와 변수 이름 사이에 추가할 구분 기호를 지정합니다.
- **columns**: 더미 변수로 변환할 열(또는 열 이름)을 선택적으로 지정합니다. 기본값은 None이며, 이 경우 모든 열이 더미 변수로 변환됩니다.
- **drop_first**: 더미 변수 중 첫 번째 변수를 제거할지 여부를 지정합니다. 기본값은 False이며, True로 설정하면 첫 번째 더미 변수가 제거됩니다.
- **dtype**: 생성된 더미 변수의 데이터 타입을 지정합니다.


In [14]:
import pandas as pd

# 학생 성적 데이터 생성
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Ella'],
    'Subject': ['Math', 'Science', 'Math', 'English', 'Science'],
    'Grade': ['A', 'B', 'B', 'C', 'A']
}

df = pd.DataFrame(data)
dummies_df = pd.get_dummies(df, columns=['Subject', 'Grade'], prefix=['Sub', 'Grade'])


# stack()/unstack()

`stack()`과 `unstack()`은 데이터프레임의 인덱스와 컬럼을 변환하는 데 사용되는 판다스 메서드입니다.
둘 다 데이터프레임의 구조를 변경하는데 사용되지만, 
`stack()`은 차원을 축소하고 `unstack()`은 차원을 증가시킵니다.

**stack() 메서드:**

stack() 메서드는 데이터프레임의 `컬럼`을 `인덱스의 레벨`로 `"압축"`하여 Series로 변환합니다.  
컬럼을 인덱스로 변환하므로, 데이터프레임의 `차원이 축소`됩니다.  
일반적으로 `MultiIndex`가 있는 데이터프레임에서 사용됩니다.  


**unstack() 메서드:**

unstack() 메서드는 `MultiIndex`로 구성된 인덱스의 레벨을 `컬럼`으로 `"펼쳐서"` 데이터프레임으로 변환합니다.  
`인덱스`를 `컬럼`으로 변환하므로, 데이터프레임의 `차원이 증가`합니다.  
stack()과 반대로, 데이터프레임의 MultiIndex를 해제할 때 사용됩니다.  
  


In [15]:
import pandas as pd

# 다중 인덱스 생성 예제
data = {
    'Year': [2019, 2019, 2020, 2020, 2021, 2021],
    'Quarter': [1, 2, 1, 2, 1, 2],
    'Profit': [20, 25, 22, 28, 24, 30],
    'Revenue': [100, 120, 110, 130, 120, 140],
}

df = pd.DataFrame(data)
multi_index_df = df.set_index(['Year', 'Quarter'])

In [16]:
df

Unnamed: 0,Year,Quarter,Profit,Revenue
0,2019,1,20,100
1,2019,2,25,120
2,2020,1,22,110
3,2020,2,28,130
4,2021,1,24,120
5,2021,2,30,140


In [17]:
multi_index_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Profit,Revenue
Year,Quarter,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,1,20,100
2019,2,25,120
2020,1,22,110
2020,2,28,130
2021,1,24,120
2021,2,30,140


In [18]:
# stack() 예제
stacked_df = multi_index_df.stack()


In [19]:
# unstack() 예제
unstacked_df = stacked_df.unstack()

# stack()과 unstack() 메소드는 포함된 인덱스 레벨의 순서를 내부적으로 정렬하므로, stack(), unstack() 을 통함 결과가 원래의 순서와 같지 않을 수 있습니다.

In [20]:
unstacked_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Profit,Revenue
Year,Quarter,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,1,20,100
2019,2,25,120
2020,1,22,110
2020,2,28,130
2021,1,24,120
2021,2,30,140


# melt()

`melt()`는 데이터프레임의 `컬럼들`을 `정리`하여   
`'긴 형식(long format)'`으로 변환하는 기능을 제공하는 판다스 메서드입니다.   
이를 통해 데이터프레임의 `컬럼`들을 `유지`하면서  
특정 컬럼들을 행으로 '녹여내어' 새로운 데이터프레임을 생성합니다.

melt() 메서드는 주로 데이터베이스의 `'정규화(normalization)'` 개념과 관련이 있습니다.  
원래 `넓은 형식(wide format)`으로 되어있는 데이터프레임을 정리하여  
`긴 형식`으로 변환하는 작업을 수행합니다.  
melt() 메서드의 기본적인 사용 방법은 다음과 같습니다:

```python
pd.melt(
    df, id_vars=['고정 컬럼1', '고정 컬럼2', ...], 
    value_vars=['녹여낼 컬럼1', '녹여낼 컬럼2', ...], 
    var_name='새로운 열 이름', 
    value_name='새로운 값 이름'
)
```

- `df`: 대상 데이터프레임
- `id_vars`: 유지할 컬럼들의 리스트. 이 컬럼들은 기존 데이터프레임에 그대로 남아있습니다.
- `value_vars`: 녹여낼 컬럼들의 리스트. 이 컬럼들의 값들이 '녹여내어' 새로운 열과 값을 형성합니다.
- `var_name`: '녹여낸 컬럼들'을 나타내는 열의 이름을 지정합니다.
- `value_name`: '녹여낸 컬럼들'에 해당하는 값들을 나타내는 열의 이름을 지정합니다.


In [21]:
import pandas as pd

# 원본 데이터프레임 생성 예제
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Math': [90, 85, 78],
    'Science': [85, 92, 80],
    'English': [80, 88, 75],
}

df = pd.DataFrame(data)
print(df)


      Name  Math  Science  English
0    Alice    90       85       80
1      Bob    85       92       88
2  Charlie    78       80       75


In [22]:
melted_df = pd.melt(df, id_vars='Name', value_vars=['Math', 'Science', 'English'], var_name='Subject', value_name='Score')

In [23]:
melted_df

Unnamed: 0,Name,Subject,Score
0,Alice,Math,90
1,Bob,Math,85
2,Charlie,Math,78
3,Alice,Science,85
4,Bob,Science,92
5,Charlie,Science,80
6,Alice,English,80
7,Bob,English,88
8,Charlie,English,75


In [24]:
melted_df.pivot(index="Name", columns="Subject", values="Score")

Subject,English,Math,Science
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alice,80,90,85
Bob,88,85,92
Charlie,75,78,80


# 텍스트데이터 가공하기

데이터프레임의 `텍스트 데이터 가공`은 데이터프레임의 `텍스트 컬럼`에 대해  
문자열을 `조작`, `변환`하거나 특정 패턴을 `검색`하여 원하는 정보를 추출하는 작업을 의미합니다.  
텍스트 데이터 가공은 데이터 정제, 특정 정보 추출, 문자열 매칭, 토큰화(tokenization) 등  
다양한 용도로 사용될 수 있습니다.  
판다스에서는 데이터프레임의 텍스트 데이터 가공을 위해 다양한 메서드와 함수를 제공합니다.

텍스트 데이터 가공에 사용되는 판다스 메서드와 함수:
| 함수명 | 설명 |
|--|--|
|str.contains()| 특정 문자열이 컬럼의 각 요소에 포함되어 있는지 여부를 검사합니다.|
|str.startswith() 및  str.endswith()| 특정 문자열이 컬럼의 각 요소에 포함되어 있는지 여부를 검사합니다.|
|str.replace()| 문자열에서 특정 패턴을 찾아 다른 문자열로 치환합니다.|
|str.split()| 문자열을 지정된 구분자(delimiter)를 기준으로 분할하여 리스트로 반환합니다.|
|str.extract()| 정규표현식을 사용하여 문자열에서 특정 패턴을 추출합니다.|
|str.len()| 문자열의 길이를 계산합니다.|
|str.lower() 및 str.upper()| 문자열을 소문자 또는 대문자로 변환합니다.|
|str.strip(), str.lstrip(), str.rstrip()| 문자열의 앞뒤 공백을 제거합니다.|
|str.join()| 문자열 리스트를 지정된 구분자로 결합합니다.|
|str.cat()| 문자열 시리즈들을 결합하여 새로운 문자열 시리즈를 생성합니다.|
|str.contains()| 특정 문자열이 컬럼의 각 요소에 포함되어 있는지 여부를 검사합니다.|
|str.extract()| 문자열에서 정규표현식을 사용하여 특정 패턴을 추출합니다.|
|str.findall()| 문자열에서 정규표현식을 사용하여 특정 패턴에 매칭되는 모든 부분 문자열을 리스트로 반환합니다.|



In [25]:
import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Description': ['Student at XYZ University', 'Employee at ABC Corp', 'Manager at DEF Inc']
}

df = pd.DataFrame(data)
print(df)

      Name                Description
0    Alice  Student at XYZ University
1      Bob       Employee at ABC Corp
2  Charlie         Manager at DEF Inc


In [26]:
# 'Description' 컬럼에서 'Student'를 포함하는 행 선택
result = df[df['Description'].str.contains('Student')]

In [27]:
# 'Description' 컬럼을 공백 기준으로 분리하여 'Role' 컬럼 생성
df['Role'] = df['Description'].str.split(' at ').str[0]


In [28]:
# 'Name' 컬럼의 문자열을 모두 대문자로 변환
df['Name_upper'] = df['Name'].str.upper()

# 'Name' 컬럼의 문자열을 모두 소문자로 변환
df['Name_lower'] = df['Name'].str.lower()



## DataFrame의 index/columns의 텍스트 가공하기

데이터프레임의 인덱스와 컬럼을 텍스트 데이터를 가공하는 방법은 str 속성을 사용하여 텍스트를 조작할 수 있습니다. 인덱스와 컬럼의 텍스트를 가공하는데 사용되는 기능은 기본적으로 str 속성을 활용하는 것과 동일합니다. 다만, 인덱스는 컬럼과 달리 Series로서 별도의 특성이 있으므로 적용하는 방법이 약간 다릅니다.

In [29]:
import pandas as pd

# 다중 인덱스 생성 예제
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Subject': ['Math', 'Science', 'English'],
    'Score': [90, 85, 78],
}

df = pd.DataFrame(data)
multi_index_df = df.set_index(['Name', 'Subject'])


In [30]:
# 인덱스의 문자열을 대문자로 변환
multi_index_df.index = multi_index_df.index.set_levels(multi_index_df.index.levels[0].str.upper(), level=0)

In [31]:
# 컬럼의 문자열을 대문자로 변환
multi_index_df.columns = multi_index_df.columns.str.upper()

# 그룹연산


데이터프레임의 그룹연산(GroupBy operation)은 데이터를 그룹으로 분할하여 각 그룹에 대해 특정 연산을 수행하는 기능을 말합니다. 이를 통해 데이터를 특정 기준에 따라 그룹화하고, 그룹별로 집계, 변환, 필터링 등의 연산을 수행할 수 있습니다.

그룹연산의 주요 단계:

분할(Divide): 데이터를 기준에 따라 여러 그룹으로 분할합니다.
적용(Apply): 각 그룹에 대해 원하는 연산을 적용합니다.
결합(Combine): 연산 결과를 하나의 데이터로 결합하여 최종 결과를 생성합니다.
그룹연산에 사용되는 기능:

|이름|설명|
|--|--|
|groupby()| 데이터를 그룹으로 분할하기 위해 사용하는 메서드입니다.|
|agg()| 그룹연산에 대한 집계(aggregation) 함수를 적용할 때 사용합니다.|
|transform()| 각 그룹에 대해 변환(transform) 연산을 수행할 때 사용합니다.|
|filter()| 그룹을 필터링하여 특정 조건을 만족하는 그룹만 선택할 때 사용합니다.|

In [32]:
import pandas as pd

# 예제 데이터 생성
data = {
    'Subject': ['Math', 'Science', 'Math', 'Science', 'Math', 'English'],
    'Applicants': [45, 30, 47, 28, 41, 70],
    'Score': [90, 85, 78, 92, 87, 80],
}

df = pd.DataFrame(data)



In [33]:
# 'Subject'로 그룹화하여 각 과목의 평균 점수를 계산
grouped = df.groupby('Subject')
mean_scores = grouped['Score'].mean()

In [34]:
# 그룹객체의 반복처리
for subject, group in grouped:
    print(subject, group, sep="\n", end="\n----\n")

English
   Subject  Applicants  Score
5  English          70     80
----
Math
  Subject  Applicants  Score
0    Math          45     90
2    Math          47     78
4    Math          41     87
----
Science
   Subject  Applicants  Score
1  Science          30     85
3  Science          28     92
----


In [35]:
# index기반 group

In [36]:
df.index = ["1st", "2nd", "1st", "1st", "2nd", "3rd"]

In [37]:
df

Unnamed: 0,Subject,Applicants,Score
1st,Math,45,90
2nd,Science,30,85
1st,Math,47,78
1st,Science,28,92
2nd,Math,41,87
3rd,English,70,80


In [38]:
for index, group in df.groupby(df.index):
    print(index, group, sep="\n", end="\n----\n")

1st
     Subject  Applicants  Score
1st     Math          45     90
1st     Math          47     78
1st  Science          28     92
----
2nd
     Subject  Applicants  Score
2nd  Science          30     85
2nd     Math          41     87
----
3rd
     Subject  Applicants  Score
3rd  English          70     80
----


## agg() 활용
agg() 메서드는 그룹화된 데이터에 대해 원하는 집계(aggregation) 함수를 적용하여 그룹별로 요약된 결과를 얻을 수 있습니다. 

| 이름 | 기능 |
|--|--|
|mean()| 평균을 계산합니다.|
|sum()| 합계를 계산합니다.|
|min()| 최소값을 찾습니다.|
|max()| 최대값을 찾습니다.|
|count()| 데이터의 개수를 세어줍니다.|
|median()| 중앙값을 계산합니다.|
|std()| 표준편차를 계산합니다.|
|var()| 분산을 계산합니다.|
|quantile(q)| q-분위수를 계산합니다. (0 <= q <= 1)|


In [39]:
# 'Subject'로 그룹화하여 각 과목의 평균, 합계, 최대 Score를 계산

In [40]:
# 'Subject'로 그룹화하여 각 과목의 평균, 표준편차,, 최댓값을 계산
grouped = df.groupby('Subject')["Score"].agg(['mean', 'std', 'max'])


In [41]:
grouped

Unnamed: 0_level_0,mean,std,max
Subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
English,80.0,,80
Math,85.0,6.244998,90
Science,88.5,4.949747,92


In [42]:
# 'Subject'로 그룹화하여 각 과목의 평균, 표준편차,, 최댓값을 계산
grouped1 = df.groupby('Subject')["Score"].agg(
    Average='mean', 
    Stddev='std', 
    Max='max'
)


In [43]:
grouped

Unnamed: 0_level_0,mean,std,max
Subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
English,80.0,,80
Math,85.0,6.244998,90
Science,88.5,4.949747,92


In [44]:
# 'Subject'로 그룹화하여 각 과목의 평균, 표준편차, 최대-최소차이
grouped2 = df.groupby('Subject').agg(
    Avgerage=('Score', 'mean'),
    Stddev=('Score','std'),
    Range=('Score',lambda x: x.max()-x.min())
)

In [45]:
grouped

Unnamed: 0_level_0,mean,std,max
Subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
English,80.0,,80
Math,85.0,6.244998,90
Science,88.5,4.949747,92


In [46]:
# 'Subject'로 그룹화하여 각 과목의 평균, 표준편차, 최대-최소차이
grouped3 = df.groupby('Subject').agg(
    Avgerage=('Score', 'mean'),
    Stddev=('Score','std'),
    Range=('Score',lambda x: x.max()-x.min()),
    Average_Applicants=('Applicants', 'mean')
)

In [47]:
grouped3

Unnamed: 0_level_0,Avgerage,Stddev,Range,Average_Applicants
Subject,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
English,80.0,,0,70.0
Math,85.0,6.244998,12,44.333333
Science,88.5,4.949747,7,29.0


## transform()

`그룹별`로 `계산된 값`을 원본 데이터프레임과 `동일한 크기`로 반환하는 메서드입니다.   
즉, 그룹별로 계산된 결과를 각 행에 맞게 매핑하여 새로운 시리즈를 생성합니다.


In [48]:

import pandas as pd

# 예제 데이터 생성
data = {
    'Drink': ['Coffee', 'Coffee', 'Coffee', 'Tea', 'Tea', 'Milk', 'Bread'],
    'Branch': ['A', 'B', 'C', 'A', 'B', 'A', 'A'],
    'Income': [900, 850, 780, 192, 287, 80, 50],
}

df = pd.DataFrame(data)

In [49]:
df

Unnamed: 0,Drink,Branch,Income
0,Coffee,A,900
1,Coffee,B,850
2,Coffee,C,780
3,Tea,A,192
4,Tea,B,287
5,Milk,A,80
6,Bread,A,50


#### 각 품목(Drink)의 판매금액(income)이 각 매장(Branch)의 총판매금액에 대한 비율을 구하시오

In [50]:
df.groupby("Branch")["Income"].sum().rename("Total").reset_index()

Unnamed: 0,Branch,Total
0,A,1222
1,B,1137
2,C,780


In [51]:
df_ans = df.copy()
df_summary =  df.groupby("Branch")["Income"].sum().rename("Total").reset_index().set_index("Branch")
df_ans["Ratio"] = df.apply(lambda x: x['Income']/df_summary.loc[x['Branch'],"Total"], axis=1)

In [52]:
df_ans

Unnamed: 0,Drink,Branch,Income,Ratio
0,Coffee,A,900,0.736498
1,Coffee,B,850,0.747581
2,Coffee,C,780,1.0
3,Tea,A,192,0.157119
4,Tea,B,287,0.252419
5,Milk,A,80,0.065466
6,Bread,A,50,0.040917


In [53]:
df2 = pd.merge(df, df.groupby("Branch")["Income"].sum().rename("Total").reset_index(), on="Branch")

In [54]:
df2

Unnamed: 0,Drink,Branch,Income,Total
0,Coffee,A,900,1222
1,Tea,A,192,1222
2,Milk,A,80,1222
3,Bread,A,50,1222
4,Coffee,B,850,1137
5,Tea,B,287,1137
6,Coffee,C,780,780


In [55]:
df["Total"] = df.groupby("Branch")["Income"].transform('sum')

In [56]:
df["Ratio"] = df.Income/df.Total

In [57]:
df

Unnamed: 0,Drink,Branch,Income,Total,Ratio
0,Coffee,A,900,1222,0.736498
1,Coffee,B,850,1137,0.747581
2,Coffee,C,780,780,1.0
3,Tea,A,192,1222,0.157119
4,Tea,B,287,1137,0.252419
5,Milk,A,80,1222,0.065466
6,Bread,A,50,1222,0.040917


## filter()

groupby()의 `filter()`는 `그룹별`로 `조건`을 적용하여 `원하는 그룹`만 `선택`하는 메서드입니다.  
filter()를 사용하면 그룹화된 데이터프레임에서 특정 조건을 만족하는 그룹만 추출할 수 있습니다.

In [58]:
import pandas as pd

# 예제 데이터 생성
data = {
    'Subject': ['Math', 'Science', 'Math', 'Science', 'Math', 'English'],
    'Score': [90, 85, 78, 92, 87, 80],
    'Year': [2021, 2021, 2022, 2022, 2021, 2022]
}

df = pd.DataFrame(data)


In [59]:
df

Unnamed: 0,Subject,Score,Year
0,Math,90,2021
1,Science,85,2021
2,Math,78,2022
3,Science,92,2022
4,Math,87,2021
5,English,80,2022


In [60]:
# 'Subject'로 그룹화하여 각 과목의 평균 점수가 85 이상인 그룹만 선택
filtered_groups = df.groupby('Subject').filter(lambda x: x['Score'].mean() >= 85)


In [61]:
filtered_groups

Unnamed: 0,Subject,Score,Year
0,Math,90,2021
1,Science,85,2021
2,Math,78,2022
3,Science,92,2022
4,Math,87,2021


# 통계함수

|이름|기능|
|--|--|
|pct_change()| 시계열 데이터에서 이전 값과의 백분율 변화를 계산하는 메서드입니다. |
|cov()|각 컬럼(또는 Series)들 간의 공분산(covariance)을 계산하는 메서드입니다. |
|corr()| 데이터프레임에서 각 컬럼(또는 Series)들 간의 상관계수(correlation coefficient)를 계산하는 메서드입니다.|
|rank()| 데이터프레임 내의 값들을 순위로 변환하는 메서드입니다. |

## pct_change() 
`시계열 데이터`에서 `이전 값`과의 `백분율 변화`를 계산하는 메서드입니다.  
이를 통해 데이터의 `상대적인 변화율`을 확인할 수 있습니다.  
보통 주식 가격, 경제 지표, 시계열 데이터 등에서 주로 사용됩니다. 

In [62]:
import pandas as pd

# 예제 데이터 생성
data = {
    'Date': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04'],
    'Price': [100, 120, 150, 130]
}

df = pd.DataFrame(data)
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)



In [63]:
df['Price'].pct_change()

Date
2021-01-01         NaN
2021-01-02    0.200000
2021-01-03    0.250000
2021-01-04   -0.133333
Name: Price, dtype: float64

## cov() 
데이터프레임에서 각 `컬럼(또는 Series)`들 간의 `공분산(covariance)`을 계산하는 메서드입니다.  
`공분산`은 두 변수의 `상관관계`를 나타내며, 두 변수가 함께 어떻게 변하는지를 나타내는 통계적 지표입니다.

In [64]:


import pandas as pd

# 예제 데이터 생성
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1]
}

df = pd.DataFrame(data)

In [65]:
cov_matrix = df.cov()

In [66]:
type(cov_matrix)

pandas.core.frame.DataFrame

## corr() 

데이터프레임에서 각` 컬럼(또는 Series)들 간`의 `상관계수(correlation coefficient)`를 계산하는 메서드입니다.  
상관계수는 두 변수 간의 선형 관계 정도를 나타내는 지표로, `-1`부터 `1`까지의 범위를 가집니다.

***`method`:***
- `'pearson'`: 피어슨 상관계수를 계산합니다 **(기본값)**.
- `'kendall'`: 켄달의 타우 상관계수를 계산합니다.
- `'spearman'`: 스피어맨 순위 상관계수를 계산합니다.


In [67]:


import pandas as pd

# 예제 데이터 생성
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [5, 4, 3, 2, 1],
    'C': [2, 3, 3, 4, 1],
}

df = pd.DataFrame(data)

In [68]:
# 'A'와 'B' 컬럼 간의 상관계수 계산
corr_matrix = df.corr()


In [69]:
corr_matrix

Unnamed: 0,A,B,C
A,1.0,-1.0,-0.138675
B,-1.0,1.0,0.138675
C,-0.138675,0.138675,1.0


In [70]:
# spearman 상관계수
corr_matrix = df.corr(method='spearman')
print(corr_matrix)

          A         B         C
A  1.000000 -1.000000 -0.051299
B -1.000000  1.000000  0.051299
C -0.051299  0.051299  1.000000


## rank() 

 데이터프레임 내의 `값`들을 `순위`로 변환하는 메서드입니다.  
순위는 데이터의 상대적인 위치를 나타내며, 동일한 값은 평균 순위로 처리됩니다.

**method (기본값: 'average'):** 순위를 계산할 때 동일한 값들의 순위 처리 방법을 지정합니다.
- `'average'`: 동일한 값들에 대해 평균 순위를 부여합니다 (기본값).
- `'min'`: 동일한 값들에 대해 최소 순위를 부여합니다.
- `'max'`: 동일한 값들에 대해 최대 순위를 부여합니다.
- `'first'`: 동일한 값 중 첫 번째 값에 더 높은 순위를 부여합니다.


**ascending (기본값: True):** 순위를 오름차순으로 할지 내림차순으로 할지를 지정합니다.
- `True`: 오름차순 순위를 부여합니다.
- `False`: 내림차순 순위를 부여합니다.


**na_option (기본값: 'keep'):** 결측치 (NaN) 값에 대한 처리 방법을 지정합니다.
- `'keep'`: 결측치 값을 순위에 포함하지 않고 그대로 유지합니다 (기본값).
- `'top'`: 결측치 값을 가장 높은 순위로 처리합니다.
- `'bottom'`: 결측치 값을 가장 낮은 순위로 처리합니다.

**pct (기본값: False):** 상대 순위를 계산할지 여부를 지정합니다.
- `False`: 일반 순위를 계산합니다 (기본값).
- `True`: 0에서 1 사이의 상대 순위를 계산합니다.

In [71]:


import pandas as pd

# 예제 데이터 생성
data = {
    'Score': [85, 85, 92, 78, 90, 87, 80]
}

df = pd.DataFrame(data)


In [72]:
df['Rank'] = df['Score'].rank()

In [73]:
df

Unnamed: 0,Score,Rank
0,85,3.5
1,85,3.5
2,92,7.0
3,78,1.0
4,90,6.0
5,87,5.0
6,80,2.0


In [74]:
df['Rank'] = df['Score'].rank(method="min")
df

Unnamed: 0,Score,Rank
0,85,3.0
1,85,3.0
2,92,7.0
3,78,1.0
4,90,6.0
5,87,5.0
6,80,2.0


In [75]:
df['Rank'] = df['Score'].rank(method="max")
df

Unnamed: 0,Score,Rank
0,85,4.0
1,85,4.0
2,92,7.0
3,78,1.0
4,90,6.0
5,87,5.0
6,80,2.0


In [76]:
df['Rank'] = df['Score'].rank(method="first")
df

Unnamed: 0,Score,Rank
0,85,3.0
1,85,4.0
2,92,7.0
3,78,1.0
4,90,6.0
5,87,5.0
6,80,2.0


In [77]:
"""

"""
import numpy as np
import pandas as pd

data = {'Score': [85, 92, 78, 90, 87, 80, None]}
df = pd.DataFrame(data)

# 순위 계산 (내림차순, 결측치는 순위에서 제외)
df['Rank'] = df['Score'].rank(method='first', ascending=False, na_option='keep')
print(df)

   Score  Rank
0   85.0   4.0
1   92.0   1.0
2   78.0   6.0
3   90.0   2.0
4   87.0   3.0
5   80.0   5.0
6    NaN   NaN


In [78]:
# 순위 계산 (내림차순, 결측치는 높은순위로 처리)
df['Rank'] = df['Score'].rank(method='first', ascending=False, na_option='top')
print(df)

   Score  Rank
0   85.0   5.0
1   92.0   2.0
2   78.0   7.0
3   90.0   3.0
4   87.0   4.0
5   80.0   6.0
6    NaN   1.0


In [79]:
# 순위 계산 (내림차순, 결측치는 낮은순위로 처리)
df['Rank'] = df['Score'].rank(method='first', ascending=False, na_option='bottom')
print(df)

   Score  Rank
0   85.0   4.0
1   92.0   1.0
2   78.0   6.0
3   90.0   2.0
4   87.0   3.0
5   80.0   5.0
6    NaN   7.0
