# Pandas 

- 개발자 웨스 메키니 (Wes McKinney)는 금융 데이터에 대한 계량적 분석을 수행하기 위한 고성능의 유연한 툴을 만들 필요가 있다 생각하여, AQR Capital Management에서 근무하던 2008년부터 팬더스 개발 작업을 시작
- Python for Data Analysis, 3E (https://wesmckinney.com/book/)
- Pandas는 구조화된 데이터의 조작과 분석을 위한 데이터프레임 및 시리즈 객체를 제공하는 파이썬 라이브러리
- Pandas는 다양한 형태의 데이터를 쉽게 조작하고 변환할 수 있으며, 데이터 정리, 필터링, 집계, 시각화 등 광범위한 기능을 지원
- 엑셀, CSV, SQL, JSON 등 다양한 데이터 소스와의 호환성을 제공하여, 데이터를 불러오고 저장하는 작업을 간편하게 수행할 수 있음

In [1]:
!conda install pandas -y

Channels:
 - defaults
Platform: osx-arm64
Collecting package metadata (repodata.json): done
Solving environment: done

# All requested packages already installed.



In [1]:
import pandas as pd

# Pandas 버전 확인
print(pd.__version__)

2.3.2


In [2]:
# 간단한 데이터프레임 생성
data = {
    '이름': ['홍길동', '김철수'],
    '나이': [25, 30],
    '도시': ['서울', '부산']
}

df = pd.DataFrame(data)

In [4]:
type(df)

pandas.core.frame.DataFrame

In [3]:
df.shape

(2, 3)

In [4]:
# 데이터프레임 출력
print(df)

    이름  나이  도시
0  홍길동  25  서울
1  김철수  30  부산


# 시리즈(Series)
- Pandas에서 Series는 인덱스를 가지는 1차원 배열 형태의 데이터 구조
- 기본 자료형인 리스트(list), 딕셔너리(dict), NumPy 배열(ndarray)과 유사한 형태를 가지지만, 고유한 인덱스를 통해 각 데이터 요소에 쉽게 접근
- Series는 한 개의 열(column)으로 구성된 데이터로 볼 수 있으며, 각 요소가 고유한 인덱스를 가짐
- 일반적으로 숫자형, 문자열, 날짜 데이터 등을 저장하는 데 사용되며, Pandas의 핵심 데이터 구조인 DataFrame(데이터프레임)의 구성 요소로 활용

<img src='https://i0.wp.com/www.dataairevolution.com/wp-content/uploads/2024/06/dataframe.png?w=837&ssl=1'>

## Pandas Series의 주요 특징

| | |
|-|-|
|특징|	설명|
|인덱스를 기반으로 하는 1차원 구조|	Series는 1차원 데이터로 구성되며, 각 요소는 인덱스를 통해 접근이 가능<br>기본적으로 정수형(0부터 시작) 인덱스를 가지지만, 특정한 레이블(문자열, 날짜 등)로 지정할 수도 있음|
|다양한 데이터 유형 지원|	Series는 정수, 실수, 문자열, 불리언, 날짜 데이터 등 다양한 유형의 데이터를 저장할 수 있음<br>단일 데이터 타입을 가지지만, dtype=object를 통해 여러 유형을 함께 저장할 수도 있음|
|유연한 데이터 생성 및 변환|	리스트, 딕셔너리, NumPy 배열 등을 사용하여 쉽게 Series를 생성<br>필요한 경우 기존 데이터의 일부를 선택하여 새로운 Series로 변환|
|벡터 연산 지원|	NumPy와 유사한 벡터 연산이 가능하여, 반복문 없이 빠르게 연산을 수행, 요소별 연산이 가능하며 브로드캐스팅 기능을 지원
|누락된 데이터 처리|	Series는 결측값(NaN)을 자동으로 처리하며, 누락된 데이터를 탐지하고 조작하는 다양한 기능을 제공|

## Pandas Series의 구조
- Series는 데이터 값(values)과 인덱스(index)로 구성
- index를 통해 각 요소를 참조할 수 있으며, 기본적으로 0부터 시작하는 정수형 인덱스를 가짐

|||
|-|-|
|index|	values|
|0|	10|
|1|	20|
|2|	30|
|3|	40|

## Pandas Series의 기본 속성

||||
|-|-|-|
|속성|	설명	|예제|
|values|	Series의 데이터 값을 ndarray 형식으로 반환|	series.values|
|index|	Series의 인덱스를 반환|	series.index|
|dtype|	Series의 데이터 유형을 반환|	series.dtype|
|shape|	Series의 크기(길이)를 반환|	series.shape|
|size|	Series의 총 요소 수 반환|	series.size|
|name|	Series 객체의 이름 설정 및 확인|	series.name = '이름'|

## Pandas Series의 데이터 타입

||||
|-|-|-|
|데이터| 유형|	설명	예제|
|int64|	정수형 데이터|	pd.Series([1, 2, 3], dtype='int64')|
|float64|	실수형 데이터|	pd.Series([1.1, 2.2, 3.3], dtype='float64')|
|object|	문자열 데이터|	pd.Series(['a', 'b', 'c'], dtype='object')|
|bool|	불리언 데이터|	pd.Series([True, False, True], dtype='bool')|
|datetime64|	날짜/시간 데이터|	pd.Series(pd.date_range('20230101', periods=3))|

In [7]:
pd.Series(pd.date_range('20230101', periods=3))

0   2023-01-01
1   2023-01-02
2   2023-01-03
dtype: datetime64[ns]

## 사용 방법


### 기본 문법

In [8]:
import pandas as pd

# 리스트를 이용한 Series 생성
series = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

In [9]:
series

a    10
b    20
c    30
d    40
dtype: int64

In [10]:
# 요소 접근: 인덱스 'a'에 해당하는 값 가져오기
print("series['a']:", series['a'])

series['a']: 10


In [11]:
# 벡터 연산 적용: 모든 요소에 2를 곱하기
print("series * 2:\n", series * 2)

series * 2:
 a    20
b    40
c    60
d    80
dtype: int64


### 1. Series 생성 방법

In [12]:
# 리스트를 이용한 생성
series_from_list = pd.Series([1, 2, 3, 4])
series_from_list

0    1
1    2
2    3
3    4
dtype: int64

In [13]:
# 딕셔너리를 이용한 생성 (인덱스 지정)
series_from_dict = pd.Series({'a': 10, 'b': 20, 'c': 30})
series_from_dict

a    10
b    20
c    30
dtype: int64

In [14]:
# 인덱스와 함께 생성
series_with_index = pd.Series([100, 200, 300], index=['x', 'y', 'z'])
series_with_index

x    100
y    200
z    300
dtype: int64

In [15]:
# 특정 데이터 타입 지정
series_with_dtype = pd.Series([1.5, 2.5, 3.5], dtype='float64')
series_with_dtype

0    1.5
1    2.5
2    3.5
dtype: float64

### 2. Series 기본 속성 활용

In [16]:
series_example = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])

In [17]:
series_example

a    10
b    20
c    30
d    40
dtype: int64

In [18]:
# Series의 값 출력
series_example.values

array([10, 20, 30, 40])

In [19]:
# 인덱스 확인
series_example.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [20]:
# 데이터 타입 확인
series_example.dtype

dtype('int64')

In [21]:
# 크기 확인 (튜플 형식)
series_example.shape

(4,)

In [22]:
# 요소 개수 확인
series_example.size

4

In [23]:
# Series의 이름 설정
series_example.name = "Example Series"
series_example.name

'Example Series'

In [24]:
series_example

a    10
b    20
c    30
d    40
Name: Example Series, dtype: int64

### 3. Series의 데이터 타입 활용

In [25]:
# 정수형 데이터
int_series = pd.Series([1, 2, 3], dtype="int64")
int_series

0    1
1    2
2    3
dtype: int64

In [26]:
# 실수형 데이터
float_series = pd.Series([1.1, 2.2, 3.3], dtype="float64")
float_series

0    1.1
1    2.2
2    3.3
dtype: float64

In [27]:
# 문자열 데이터
string_series = pd.Series(["apple", "banana", "cherry"], dtype="object")
string_series

0     apple
1    banana
2    cherry
dtype: object

In [28]:
# 불리언 데이터
bool_series = pd.Series([True, False, True], dtype="bool")
bool_series

0     True
1    False
2     True
dtype: bool

In [29]:
# 날짜 데이터
date_series = pd.Series(pd.date_range("2024-01-01", periods=3))
date_series

0   2024-01-01
1   2024-01-02
2   2024-01-03
dtype: datetime64[ns]

### 4. 데이터 접근 및 수정

In [30]:
series_data = pd.Series([10, 20, 30], index=["a", "b", "c"])
series_data

a    10
b    20
c    30
dtype: int64

In [31]:
# 요소 접근: 인덱스 'a' 값 확인
series_data["a"]

np.int64(10)

In [32]:
# 인덱스 변경 후 접근
series_data.index = ["x", "y", "z"]
series_data["x"]

np.int64(10)

In [33]:
# 값 수정: 인덱스 'y' 값을 50으로 변경
series_data["y"] = 50
series_data

x    10
y    50
z    30
dtype: int64

### 5. 데이터 연산

In [34]:
series_data = pd.Series([1, 2, 3, 4])
series_data

0    1
1    2
2    3
3    4
dtype: int64

In [35]:
# 요소별 연산: 모든 값에 10을 더함
print("series_data + 10:\n", series_data + 10)

series_data + 10:
 0    11
1    12
2    13
3    14
dtype: int64


In [36]:
# 요소별 연산: 모든 값을 2배로 곱함
print("series_data * 2:\n", series_data * 2)

series_data * 2:
 0    2
1    4
2    6
3    8
dtype: int64


In [37]:
# 조건 필터링: 값이 2보다 큰 요소만 선택
print("series_data[series_data > 2]:\n", series_data[series_data > 2])

series_data[series_data > 2]:
 2    3
3    4
dtype: int64


### 6. 결측치 처리

In [38]:
series_data = pd.Series([1, 2, None, 4])
series_data

0    1.0
1    2.0
2    NaN
3    4.0
dtype: float64

In [39]:
# 결측치 확인: NaN 여부를 True/False로 반환
print("series_data.isnull():\n", series_data.isnull())

series_data.isnull():
 0    False
1    False
2     True
3    False
dtype: bool


In [40]:
# 결측치 채우기: NaN을 0으로 대체
series_filled = series_data.fillna(0)
print("series_data.fillna(0):\n", series_filled)

series_data.fillna(0):
 0    1.0
1    2.0
2    0.0
3    4.0
dtype: float64


### 7. 데이터 필터링 및 슬라이싱

In [41]:
series_data = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
series_data

a    10
b    20
c    30
d    40
dtype: int64

In [42]:
# 조건 필터링: 값이 20보다 큰 요소 선택
series_data[series_data > 20]

c    30
d    40
dtype: int64

In [43]:
# 슬라이싱: 인덱스 'b'부터 'd'까지 선택
series_data['b':'d']

b    20
c    30
d    40
dtype: int64

### Series의 활용 예시

In [44]:
# 성적 시리즈 생성
grades = pd.Series([85, 90, 78, 92], index=['국어', '영어', '수학', '과학'])
grades

국어    85
영어    90
수학    78
과학    92
dtype: int64

In [45]:
# 특정 과목 점수 접근: 국어 점수 확인
print("grades['국어']:", grades['국어'])

grades['국어']: 85


In [46]:
# 평균 계산: 모든 과목 점수의 평균
print("grades.mean():", grades.mean())

grades.mean(): 86.25


In [47]:
# 조건 필터링: 80점 초과 과목만 선택
print("grades[grades > 80]:\n", grades[grades > 80])

grades[grades > 80]:
 국어    85
영어    90
과학    92
dtype: int64


## 데이터프레임(DataFrame)
- Pandas에서 데이터 프레임은 행과 열로 구성된 2차원 테이블 형태의 데이터 구조

<img src='https://i0.wp.com/www.dataairevolution.com/wp-content/uploads/2024/06/dataframe.png?w=837&ssl=1'>

### Pandas DataFrame의 구성 요소

| | |
|-|-|
|요소|설명|
|데이터(values)|	DataFrame의 핵심 구성 요소로, 실제 데이터가 포함된 부분입니다.각 열(column)은 개별적인 데이터 타입을 가질 수 있음|
|열(column, Series)|	DataFrame의 열은 Pandas의 Series 객체로 표현되며, 동일한 데이터 타입을 유지. 각 열에는 이름(레이블)이 할당되어 데이터를 명확하게 식별|
|행(row)|	DataFrame의 각 행은 서로 다른 속성의 데이터를 포함하며, 고유한 인덱스로 접근. 행 단위의 조작 및 필터링이 가능하여 데이터를 효과적으로 가공 가능|
|인덱스(index)|각 행을 고유하게 식별하는 레이블(기본적으로 0부터 시작)을 가짐. 필요에 따라 문자열이나 날짜 형식의 인덱스를 사용 가능|

## 사용방법

### 1. 딕셔너리를 이용한 생성
- 딕셔너리의 키가 열(column) 이름으로 설정되고, 값들이 행(row) 단위로 입력
- 인덱스는 기본적으로 0부터 시작하는 정수형 인덱스가 자동으로 부여

In [48]:
import pandas as pd
import numpy as np

data = {'이름': ['홍길동', '김철수', '박영희'],
        '나이': [25, 30, 28],
        '성별': ['남', '남', '여']}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,박영희,28,여


## 2. 리스트를 이용한 생성
- 리스트를 사용하여 행 단위의 데이터를 입력하고, columns 매개변수를 통해 열 이름을 지정
- 리스트 내부의 각 서브리스트가 행(row)을 구성
- 열(column) 이름은 columns 매개변수를 통해 설정하며, 데이터의 크기와 일치해야 함

In [49]:
data = [[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]]

df = pd.DataFrame(data, columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


## 3. NumPy 배열을 이용한 생성


In [50]:
data = np.array([[10, 20, 30],
                 [40, 50, 60]])

df = pd.DataFrame(data, columns=['X', 'Y', 'Z'])
df

Unnamed: 0,X,Y,Z
0,10,20,30
1,40,50,60


### 데이터프레임 기본 속성

In [51]:
# 학생들의 성적 데이터 (10명)
data = {
    '이름': ['홍길동', '김철수', '박영희', '이순신', '강감찬', '신사임당', '율곡이이', '정약용', '허준', '세종대왕'],
    '국어': [90, 85, 78, 92, 88, 95, 89, 91, 86, 93],
    '영어': [88, 92, 80, 90, 85, 93, 87, 90, 89, 91],
    '수학': [95, 87, 91, 94, 89, 92, 90, 93, 88, 94]
}

# 데이터프레임 생성
df = pd.DataFrame(data)
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88,95
1,김철수,85,92,87
2,박영희,78,80,91
3,이순신,92,90,94
4,강감찬,88,85,89
5,신사임당,95,93,92
6,율곡이이,89,87,90
7,정약용,91,90,93
8,허준,86,89,88
9,세종대왕,93,91,94


In [52]:
df.head()       # 처음 5개 행

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88,95
1,김철수,85,92,87
2,박영희,78,80,91
3,이순신,92,90,94
4,강감찬,88,85,89


In [53]:
df.tail()     # 마지막 5개 행

Unnamed: 0,이름,국어,영어,수학
5,신사임당,95,93,92
6,율곡이이,89,87,90
7,정약용,91,90,93
8,허준,86,89,88
9,세종대왕,93,91,94


In [54]:
df.shape         # 행과 열 개수를 튜플 형태로 반환 ((10, 4) → 10행 4열)

(10, 4)

In [55]:
df.columns     # 열의 이름 목록 반환

Index(['이름', '국어', '영어', '수학'], dtype='object')

In [56]:
df.index        # 행 인덱스 범위 반환

RangeIndex(start=0, stop=10, step=1)

In [57]:
df.info()      # 데이터의 타입, 결측치 여부 등을 요약

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      10 non-null     object
 1   국어      10 non-null     int64 
 2   영어      10 non-null     int64 
 3   수학      10 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 452.0+ bytes


In [58]:
df.describe()  # 수치형 데이터를 요약하여 평균(mean), 표준편차(std), 최댓값(max) 등을 제공

Unnamed: 0,국어,영어,수학
count,10.0,10.0,10.0
mean,88.7,88.5,91.3
std,4.854551,3.807887,2.750757
min,78.0,80.0,87.0
25%,86.5,87.25,89.25
50%,89.5,89.5,91.5
75%,91.75,90.75,93.75
max,95.0,93.0,95.0


In [59]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
국어,10.0,88.7,4.854551,78.0,86.5,89.5,91.75,95.0
영어,10.0,88.5,3.807887,80.0,87.25,89.5,90.75,93.0
수학,10.0,91.3,2.750757,87.0,89.25,91.5,93.75,95.0


### 데이터 접근

In [60]:
# 특정 열 선택
df['이름']

0     홍길동
1     김철수
2     박영희
3     이순신
4     강감찬
5    신사임당
6    율곡이이
7     정약용
8      허준
9    세종대왕
Name: 이름, dtype: object

In [61]:
# 여러 열 선택
df[['이름', '수학']]

Unnamed: 0,이름,수학
0,홍길동,95
1,김철수,87
2,박영희,91
3,이순신,94
4,강감찬,89
5,신사임당,92
6,율곡이이,90
7,정약용,93
8,허준,88
9,세종대왕,94


In [62]:
# 특정 행 선택 (iloc: 정수 기반 인덱싱)
df.iloc[0]

이름    홍길동
국어     90
영어     88
수학     95
Name: 0, dtype: object

In [63]:
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88,95
1,김철수,85,92,87
2,박영희,78,80,91
3,이순신,92,90,94
4,강감찬,88,85,89
5,신사임당,95,93,92
6,율곡이이,89,87,90
7,정약용,91,90,93
8,허준,86,89,88
9,세종대왕,93,91,94


In [64]:
# '이름' 컬럼을 인덱스로 설정
df = df.set_index('이름')

In [65]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,90,88,95
김철수,85,92,87
박영희,78,80,91
이순신,92,90,94
강감찬,88,85,89
신사임당,95,93,92
율곡이이,89,87,90
정약용,91,90,93
허준,86,89,88
세종대왕,93,91,94


In [66]:
# 특정 행 선택 (loc: 레이블 기반 인덱싱)
df.loc['이순신']

국어    92
영어    90
수학    94
Name: 이순신, dtype: int64

In [67]:
# 특정 행과 열 선택 (특정 셀)
df.loc['이순신', '국어']

np.int64(92)

### 

### 데이터 수정 및 연산

#### 특정 값 수정
- 홍길동의 국어 점수를 92점으로 변경합니다.

In [68]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,90,88,95
김철수,85,92,87
박영희,78,80,91
이순신,92,90,94
강감찬,88,85,89
신사임당,95,93,92
율곡이이,89,87,90
정약용,91,90,93
허준,86,89,88
세종대왕,93,91,94


In [69]:
df.loc[0, '국어'] = 92 # not working

In [70]:
df.iloc[0]

국어    90.0
영어    88.0
수학    95.0
Name: 홍길동, dtype: float64

In [71]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,90.0,88.0,95.0
김철수,85.0,92.0,87.0
박영희,78.0,80.0,91.0
이순신,92.0,90.0,94.0
강감찬,88.0,85.0,89.0
신사임당,95.0,93.0,92.0
율곡이이,89.0,87.0,90.0
정약용,91.0,90.0,93.0
허준,86.0,89.0,88.0
세종대왕,93.0,91.0,94.0


In [72]:
df.drop(index=0, axis=0, inplace=True)

In [73]:
df.loc['홍길동', '국어'] = 92

In [74]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,92.0,88.0,95.0
김철수,85.0,92.0,87.0
박영희,78.0,80.0,91.0
이순신,92.0,90.0,94.0
강감찬,88.0,85.0,89.0
신사임당,95.0,93.0,92.0
율곡이이,89.0,87.0,90.0
정약용,91.0,90.0,93.0
허준,86.0,89.0,88.0
세종대왕,93.0,91.0,94.0


#### 새로운 열 추가
- 모든 학생의 국적을 '한국'으로 추가합니다.


In [75]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,92.0,88.0,95.0
김철수,85.0,92.0,87.0
박영희,78.0,80.0,91.0
이순신,92.0,90.0,94.0
강감찬,88.0,85.0,89.0
신사임당,95.0,93.0,92.0
율곡이이,89.0,87.0,90.0
정약용,91.0,90.0,93.0
허준,86.0,89.0,88.0
세종대왕,93.0,91.0,94.0


In [76]:
df['국적'] = '한국'

In [77]:
df

Unnamed: 0_level_0,국어,영어,수학,국적
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,한국
김철수,85.0,92.0,87.0,한국
박영희,78.0,80.0,91.0,한국
이순신,92.0,90.0,94.0,한국
강감찬,88.0,85.0,89.0,한국
신사임당,95.0,93.0,92.0,한국
율곡이이,89.0,87.0,90.0,한국
정약용,91.0,90.0,93.0,한국
허준,86.0,89.0,88.0,한국
세종대왕,93.0,91.0,94.0,한국


#### 기존 열 삭제
- '국적' 열을 삭제합니다.

In [78]:
df

Unnamed: 0_level_0,국어,영어,수학,국적
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,한국
김철수,85.0,92.0,87.0,한국
박영희,78.0,80.0,91.0,한국
이순신,92.0,90.0,94.0,한국
강감찬,88.0,85.0,89.0,한국
신사임당,95.0,93.0,92.0,한국
율곡이이,89.0,87.0,90.0,한국
정약용,91.0,90.0,93.0,한국
허준,86.0,89.0,88.0,한국
세종대왕,93.0,91.0,94.0,한국


In [79]:
df.drop('국적', axis=1, inplace=True)

In [80]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,92.0,88.0,95.0
김철수,85.0,92.0,87.0
박영희,78.0,80.0,91.0
이순신,92.0,90.0,94.0
강감찬,88.0,85.0,89.0
신사임당,95.0,93.0,92.0
율곡이이,89.0,87.0,90.0
정약용,91.0,90.0,93.0
허준,86.0,89.0,88.0
세종대왕,93.0,91.0,94.0


#### 새로운 열 생성 (기존 열 연산)
- 총점 열을 추가합니다.

In [81]:
df

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
홍길동,92.0,88.0,95.0
김철수,85.0,92.0,87.0
박영희,78.0,80.0,91.0
이순신,92.0,90.0,94.0
강감찬,88.0,85.0,89.0
신사임당,95.0,93.0,92.0
율곡이이,89.0,87.0,90.0
정약용,91.0,90.0,93.0
허준,86.0,89.0,88.0
세종대왕,93.0,91.0,94.0


In [82]:
df['총점'] = df['국어'] + df['영어'] + df['수학']

In [83]:
df

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
이순신,92.0,90.0,94.0,276.0
강감찬,88.0,85.0,89.0,262.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
세종대왕,93.0,91.0,94.0,278.0


#### 조건에 따른 데이터 추출
- 국어 점수가 90점 이상인 학생만 추출합니다.

In [85]:
df

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
이순신,92.0,90.0,94.0,276.0
강감찬,88.0,85.0,89.0,262.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
세종대왕,93.0,91.0,94.0,278.0


In [86]:
df[df['국어'] >= 90]

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
이순신,92.0,90.0,94.0,276.0
신사임당,95.0,93.0,92.0,280.0
정약용,91.0,90.0,93.0,274.0
세종대왕,93.0,91.0,94.0,278.0


### 데이터 정렬

#### 특정 열 기준 오름차순 정렬
- 수학 점수 기준으로 오름차순으로 정렬해 출력합니다.

In [87]:
df

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
이순신,92.0,90.0,94.0,276.0
강감찬,88.0,85.0,89.0,262.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
세종대왕,93.0,91.0,94.0,278.0


In [88]:
df_sorted_math = df.sort_values(by='수학')
df_sorted_math

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
김철수,85.0,92.0,87.0,264.0
허준,86.0,89.0,88.0,263.0
강감찬,88.0,85.0,89.0,262.0
율곡이이,89.0,87.0,90.0,266.0
박영희,78.0,80.0,91.0,249.0
신사임당,95.0,93.0,92.0,280.0
정약용,91.0,90.0,93.0,274.0
이순신,92.0,90.0,94.0,276.0
세종대왕,93.0,91.0,94.0,278.0
홍길동,92.0,88.0,95.0,275.0


#### 특정 열 기준 내림차순 정렬
- 이름 기준으로 내림차순 정렬합니다.

In [89]:
df_sorted_name = df.sort_values(by='수학', ascending=False)
df_sorted_name

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
이순신,92.0,90.0,94.0,276.0
세종대왕,93.0,91.0,94.0,278.0
정약용,91.0,90.0,93.0,274.0
신사임당,95.0,93.0,92.0,280.0
박영희,78.0,80.0,91.0,249.0
율곡이이,89.0,87.0,90.0,266.0
강감찬,88.0,85.0,89.0,262.0
허준,86.0,89.0,88.0,263.0
김철수,85.0,92.0,87.0,264.0


In [90]:
df

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
이순신,92.0,90.0,94.0,276.0
강감찬,88.0,85.0,89.0,262.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
세종대왕,93.0,91.0,94.0,278.0


In [91]:
df_sorted_idx = df.sort_index()
df_sorted_idx

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
강감찬,88.0,85.0,89.0,262.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
세종대왕,93.0,91.0,94.0,278.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
이순신,92.0,90.0,94.0,276.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
홍길동,92.0,88.0,95.0,275.0


### 데이터 그룹화

In [92]:
df

Unnamed: 0_level_0,국어,영어,수학,총점
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
홍길동,92.0,88.0,95.0,275.0
김철수,85.0,92.0,87.0,264.0
박영희,78.0,80.0,91.0,249.0
이순신,92.0,90.0,94.0,276.0
강감찬,88.0,85.0,89.0,262.0
신사임당,95.0,93.0,92.0,280.0
율곡이이,89.0,87.0,90.0,266.0
정약용,91.0,90.0,93.0,274.0
허준,86.0,89.0,88.0,263.0
세종대왕,93.0,91.0,94.0,278.0


In [93]:
df['성별'] = ['남', '남', '여', '남', '남', '여', '남', '남', '남', '남']
df

Unnamed: 0_level_0,국어,영어,수학,총점,성별
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
홍길동,92.0,88.0,95.0,275.0,남
김철수,85.0,92.0,87.0,264.0,남
박영희,78.0,80.0,91.0,249.0,여
이순신,92.0,90.0,94.0,276.0,남
강감찬,88.0,85.0,89.0,262.0,남
신사임당,95.0,93.0,92.0,280.0,여
율곡이이,89.0,87.0,90.0,266.0,남
정약용,91.0,90.0,93.0,274.0,남
허준,86.0,89.0,88.0,263.0,남
세종대왕,93.0,91.0,94.0,278.0,남


In [94]:
df.groupby('성별').mean()

Unnamed: 0_level_0,국어,영어,수학,총점
성별,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
남,89.5,89.0,91.25,269.75
여,86.5,86.5,91.5,264.5


In [95]:
gender_mean = df.groupby('성별')['국어'].mean()
gender_mean

성별
남    89.5
여    86.5
Name: 국어, dtype: float64

### 결측치 처리

In [96]:
# 학생들의 성적 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '박영희', '이순신', '강감찬', '신사임당', '율곡이이', '정약용', '허준', '세종대왕'],
    '국어': [90, 85, 78, 92, 88, 95, 89, 91, 86, 93],
    '영어': [88, 92, 80, 90, 85, 93, 87, 90, 89, 91],
    '수학': [95, 87, 91, 94, 89, 92, 90, 93, 88, 94]
}
df = pd.DataFrame(data)

In [97]:
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88,95
1,김철수,85,92,87
2,박영희,78,80,91
3,이순신,92,90,94
4,강감찬,88,85,89
5,신사임당,95,93,92
6,율곡이이,89,87,90
7,정약용,91,90,93
8,허준,86,89,88
9,세종대왕,93,91,94


In [98]:
# 가상의 결측치 생성
df.loc[2, '영어'] = np.nan
df.loc[4, '영어'] = np.nan
df.loc[7, '영어'] = np.nan

df.loc[1, '수학'] = np.nan
df.loc[3, '수학'] = np.nan
df.loc[4, '수학'] = np.nan
df.loc[9, '수학'] = np.nan

In [99]:
df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88.0,95.0
1,김철수,85,92.0,
2,박영희,78,,91.0
3,이순신,92,90.0,
4,강감찬,88,,
5,신사임당,95,93.0,92.0
6,율곡이이,89,87.0,90.0
7,정약용,91,,93.0
8,허준,86,89.0,88.0
9,세종대왕,93,91.0,


In [100]:
# 결측치 확인
df.isnull().sum()

이름    0
국어    0
영어    3
수학    4
dtype: int64

In [101]:
df.isnull().sum() / len(df)

이름    0.0
국어    0.0
영어    0.3
수학    0.4
dtype: float64

In [297]:
# 결측치 제거
df.dropna(inplace=False)

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [298]:
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [299]:
# 결측치 확인
df.isnull().sum()

이름    0
나이    0
성별    0
dtype: int64

In [300]:
# 결측치 제거
df.dropna(inplace=True)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [106]:
# 결측치 확인
df.isnull().sum()

이름    0
국어    0
영어    0
수학    0
dtype: int64

### 데이터 저장 및 로딩

In [107]:
# CSV 파일로 저장
df.to_csv("student_scores.csv", index=False)

In [108]:
# CSV 파일로 읽기
new_df = pd.read_csv("student_scores.csv")
new_df

Unnamed: 0,이름,국어,영어,수학
0,홍길동,90,88.0,95.0
1,신사임당,95,93.0,92.0
2,율곡이이,89,87.0,90.0
3,허준,86,89.0,88.0


# 필터링(Filtering)

In [109]:
import pandas as pd

# 데이터프레임 생성
data = {
    '이름': ['홍길동', '김철수', '박영희', '이순신', '강감찬'],
    '나이': [25, 30, 35, 40, 45],
    '도시': ['서울', '부산', '서울', '대구', '부산'],
    '점수': [85, 90, 75, 95, 80]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


### 불리언 인덱싱을 사용한 필터링
- 불리언 인덱싱(Boolean Indexing)은 조건식의 결과(True/False) 배열을 이용해 True에 해당하는 행만 선택하는 방법

In [110]:
# 나이가 30 이상
df[df['나이'] >= 30]

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [111]:
# 점수가 85 이상
df[df['점수'] >= 85]

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
3,이순신,40,대구,95


### 논리 연산자를 사용한 다중 조건 필터링
- 다중 조건 필터링은 여러 조건을 논리 연산자 ( &(AND), |(OR), ~(NOT))로 조합해 행을 선택하는 방법

In [112]:
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [113]:
# 나이가 30 이상 AND 점수 80 초과
df[(df['나이'] >= 30) & (df['점수'] > 80)]

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
3,이순신,40,대구,95


In [114]:
# 도시가 '서울' OR 점수가 90 이상
df[(df['도시'] == '서울') | (df['점수'] >= 90)]

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95


In [115]:
# 나이가 40 이하가 아닌 데이터 (NOT)
df[~(df['나이'] <= 40)]

Unnamed: 0,이름,나이,도시,점수
4,강감찬,45,부산,80


### query()를 사용한 필터링
- query()는 SQL과 유사한 문자열 표현식으로 조건을 작성해 행을 선택하는 메서드

In [116]:
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [117]:
# 점수가 85 초과
df.query("점수 > 85")

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
3,이순신,40,대구,95


In [118]:
# 나이가 30 이상 AND 도시가 '부산'
df.query("나이 >= 30 and 도시 == '부산'")

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
4,강감찬,45,부산,80


### isin()을 사용한 필터링
- isin()은 여러 값 중 하나라도 포함되어 있는지를 검사해 해당 행을 선택하는 메서드
- 특정 목록에 속하는 값만 남기고 싶을 때 유용

In [119]:
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [120]:
# 도시가 '서울' 또는 '부산'
df[df['도시'].isin(['서울','부산'])]

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
4,강감찬,45,부산,80


In [121]:
# 이름이 '김철수' 또는 '이순신'
df[df['이름'].isin(['김철수','이순신'])]

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
3,이순신,40,대구,95


### 문자열 필터링 (str.contains() 활용)
- 문자열 관련 메서드(str.contains, str.startswith)를 활용해 특정 패턴이 있는 행을 선택하는 방법
- 텍스트 데이터에서 특정 키워드를 포함하는 행을 추출할 때 사용

In [122]:
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [123]:
# 이름에 '김' 포함
df[df['이름'].str.contains('김')]

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90


In [124]:
# 도시가 '부'로 시작
df[df['도시'].str.startswith('부')]

Unnamed: 0,이름,나이,도시,점수
1,김철수,30,부산,90
4,강감찬,45,부산,80


### 조건에 따른 새로운 열 추가
- 조건에 따른 새로운 열 추가는 apply() 함수 등을 이용해 조건을 충족하는 경우 새로운 값을 부여해 열을 생성하는 방법
- 합격/불합격 같은 분류 결과를 추가하고 싶을 때 사용

In [125]:
df

Unnamed: 0,이름,나이,도시,점수
0,홍길동,25,서울,85
1,김철수,30,부산,90
2,박영희,35,서울,75
3,이순신,40,대구,95
4,강감찬,45,부산,80


In [126]:
df['합격여부'] = df['점수'].apply(lambda x: '합격' if x >= 90 else '불합격')
df

Unnamed: 0,이름,나이,도시,점수,합격여부
0,홍길동,25,서울,85,불합격
1,김철수,30,부산,90,합격
2,박영희,35,서울,75,불합격
3,이순신,40,대구,95,합격
4,강감찬,45,부산,80,불합격


### 결측치(NaN) 필터링

In [127]:
df

Unnamed: 0,이름,나이,도시,점수,합격여부
0,홍길동,25,서울,85,불합격
1,김철수,30,부산,90,합격
2,박영희,35,서울,75,불합격
3,이순신,40,대구,95,합격
4,강감찬,45,부산,80,불합격


In [128]:
# 결측치가 있는 행
df[df['점수'].isnull()]

Unnamed: 0,이름,나이,도시,점수,합격여부


In [129]:
# 결측치가 없는 행
df[df['점수'].notnull()]

Unnamed: 0,이름,나이,도시,점수,합격여부
0,홍길동,25,서울,85,불합격
1,김철수,30,부산,90,합격
2,박영희,35,서울,75,불합격
3,이순신,40,대구,95,합격
4,강감찬,45,부산,80,불합격


# 그룹화(Grouping)
- Group은 특정 서비스나 기능을 제공하기 위해 관련된 여러 요소들을 하나로 묶은 논리적 또는 물리적 단위

  <img src='https://jakevdp.github.io/figures/split-apply-combine.svg'>
  
  <i>The basic idea is to split the data into groups based on some value, apply a particular operation to the subset of data within each group (often an aggregation), and then combine the results into an output dataframe. Python users generally turn to the Pandas library for this type of operation, where it is is implemented effiently via a concise object-oriented API:</i>

### 그룹화의 주요 개념

|||
|-|-|
|개념|설명|
|그룹 키 (Group Key)|	데이터를 그룹화하는 기준이 되는 열(column) 또는 인덱스 값. 단일 키뿐만 아니라 복수의 키를 조합하여 그룹화할 수 있음|
집계 (Aggregation)|	그룹 내에서 특정 연산(예: 합계, 평균, 최댓값)을 수행하여 요약된 결과를 제공|
|변환 (Transformation)|	각 그룹별로 변환 연산을 수행하여 원래 데이터의 크기를 유지하며 값을 변경|

### 그룹화의 기본 원리
- 그룹화는 Pandas의 groupby() 메서드를 사용하여 수행되며, 다음과 같은 방식으로 데이터를 그룹화

|||
|-|-|
 | 기본 원리|	설명|
 |단일 열을 기준으로 그룹화|	하나의 열 값을 기준으로 데이터를 그룹화|
|복수 열을 기준으로 그룹화|	두 개 이상의 열을 기준으로 데이터를 그룹화하여, 다차원적인 분석이 가능|
|인덱스를 기준으로 그룹화|	행의 인덱스를 기준으로 데이터를 그룹화|
|사용자 정의 함수를 적용한 그룹화|	특정 함수나 연산을 적용하여 그룹별로 맞춤형 처리를 수행|

### 기본문법
- `groupby()` 메서드를 사용하여 특정 열을 기준으로 데이터를 그룹화하고, 집계·변환·필터링 등의 연산을 수행

In [130]:
import pandas as pd

# 예제 데이터 생성
data = {
    '이름': ['홍길동', '김철수', '박영희', '이순신', '강감찬', '신사임당'],
    '부서': ['영업', '영업', '인사', '인사', 'IT', 'IT'],
    '급여': [5000, 5500, 4800, 5100, 6000, 6200]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
2,박영희,인사,4800
3,이순신,인사,5100
4,강감찬,IT,6000
5,신사임당,IT,6200


In [131]:
# 부서별 급여 평균 계산
grouped = df.groupby('부서')['급여'].mean()
grouped

부서
IT    6100.0
영업    5250.0
인사    4950.0
Name: 급여, dtype: float64

### 단일 열을 기준으로 그룹화

In [132]:
df

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
2,박영희,인사,4800
3,이순신,인사,5100
4,강감찬,IT,6000
5,신사임당,IT,6200


In [133]:
grouped = df.groupby('부서')['급여'].sum()
grouped

부서
IT    12200
영업    10500
인사     9900
Name: 급여, dtype: int64

### 여러 열을 기준으로 그룹화

In [134]:
df

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
2,박영희,인사,4800
3,이순신,인사,5100
4,강감찬,IT,6000
5,신사임당,IT,6200


In [135]:
grouped = df.groupby(['부서', '이름'])['급여'].sum()
grouped

부서  이름  
IT  강감찬     6000
    신사임당    6200
영업  김철수     5500
    홍길동     5000
인사  박영희     4800
    이순신     5100
Name: 급여, dtype: int64

### 그룹별 여러 집계 연산
- 집계 연산(Aggregation)은 하나의 그룹에 여러 개의 요약 통계 함수를 동시에 적용하는 방법
- 그룹별 합계, 평균, 최댓값, 최솟값을 한 번에 확인 가능

In [136]:
grouped = df.groupby('부서')['급여'].agg(['sum', 'mean', 'max', 'min'])
grouped

Unnamed: 0_level_0,sum,mean,max,min
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
IT,12200,6100.0,6200,6000
영업,10500,5250.0,5500,5000
인사,9900,4950.0,5100,4800


Q:  agg 함수는 무엇인가요?
> - agg(aggregate)는 그룹화된 데이터에 여러 개의 집계 함수를 한 번에 적용할 수 있게 해주는 메서드입니다.
> - df.groupby('부서')['급여'].agg(['sum','mean','max','min']) 은 부서별로 데이터를 묶은 뒤, 급여 컬럼에 대해 합계(sum), 평균(mean), 최댓값(max), 최솟값(min)을 각각 계산합니다.
> - 결과는 함수 이름이 새로운 열로 붙은 데이터프레임 형태로 반환됩니다.

### 그룹화 후 필터링
- 그룹 필터링은 각 그룹에 조건을 적용해 조건을 만족하는 그룹만 남기는 방법

In [137]:
df

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
2,박영희,인사,4800
3,이순신,인사,5100
4,강감찬,IT,6000
5,신사임당,IT,6200


In [138]:
filtered = df.groupby('부서').filter(lambda x: x['급여'].sum() > 10000)
filtered

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
4,강감찬,IT,6000
5,신사임당,IT,6200


### 그룹별 변환 (Transformation)
- 그룹 변환은 그룹별 계산 결과를 원래 행에 그대로 매칭해 반환하는 기능

In [139]:
df

Unnamed: 0,이름,부서,급여
0,홍길동,영업,5000
1,김철수,영업,5500
2,박영희,인사,4800
3,이순신,인사,5100
4,강감찬,IT,6000
5,신사임당,IT,6200


In [142]:
df.groupby('부서')['급여'].agg('mean')

부서
IT    6100.0
영업    5250.0
인사    4950.0
Name: 급여, dtype: float64

In [140]:
df.groupby('부서')['급여'].transform('mean')

0    5250.0
1    5250.0
2    4950.0
3    4950.0
4    6100.0
5    6100.0
Name: 급여, dtype: float64

In [141]:
df['급여_평균'] = df.groupby('부서')['급여'].transform('mean')
df

Unnamed: 0,이름,부서,급여,급여_평균
0,홍길동,영업,5000,5250.0
1,김철수,영업,5500,5250.0
2,박영희,인사,4800,4950.0
3,이순신,인사,5100,4950.0
4,강감찬,IT,6000,6100.0
5,신사임당,IT,6200,6100.0


### 그룹별 사용자 정의 함수 적용
- 사용자 정의 함수 적용은 직접 만든 함수를 그룹별 데이터에 적용하는 기능


In [144]:
df

Unnamed: 0,이름,부서,급여,급여_평균
0,홍길동,영업,5000,5250.0
1,김철수,영업,5500,5250.0
2,박영희,인사,4800,4950.0
3,이순신,인사,5100,4950.0
4,강감찬,IT,6000,6100.0
5,신사임당,IT,6200,6100.0


In [145]:
def categorize_salary(x):
    return '고임금' if x.mean() > 5000 else '저임금'

df['급여_카테고리'] = df.groupby('부서')['급여'].transform(categorize_salary)

In [146]:
df

Unnamed: 0,이름,부서,급여,급여_평균,급여_카테고리
0,홍길동,영업,5000,5250.0,고임금
1,김철수,영업,5500,5250.0,고임금
2,박영희,인사,4800,4950.0,저임금
3,이순신,인사,5100,4950.0,저임금
4,강감찬,IT,6000,6100.0,고임금
5,신사임당,IT,6200,6100.0,고임금


In [149]:
df.groupby('부서')['급여'].transform(lambda x : '고임금' if x.mean() > 5000 else '저임금')

0    고임금
1    고임금
2    저임금
3    저임금
4    고임금
5    고임금
Name: 급여, dtype: object

### 그룹별 순위 계산
- 그룹별 순위는 각 그룹 안에서 값을 정렬하여 순위를 매기는 기능

In [150]:
df

Unnamed: 0,이름,부서,급여,급여_평균,급여_카테고리
0,홍길동,영업,5000,5250.0,고임금
1,김철수,영업,5500,5250.0,고임금
2,박영희,인사,4800,4950.0,저임금
3,이순신,인사,5100,4950.0,저임금
4,강감찬,IT,6000,6100.0,고임금
5,신사임당,IT,6200,6100.0,고임금


In [154]:
df['급여_순위'] = df.groupby('부서')['급여'].rank(ascending=True)

In [155]:
df

Unnamed: 0,이름,부서,급여,급여_평균,급여_카테고리,급여_순위
0,홍길동,영업,5000,5250.0,고임금,1.0
1,김철수,영업,5500,5250.0,고임금,2.0
2,박영희,인사,4800,4950.0,저임금,1.0
3,이순신,인사,5100,4950.0,저임금,2.0
4,강감찬,IT,6000,6100.0,고임금,1.0
5,신사임당,IT,6200,6100.0,고임금,2.0


# 병합(Merging)
- Pandas에서 Merging(병합)은 여러 데이터프레임을 공통 열 또는 인덱스를 기준으로 결합하는 과정

<img src='https://ichi.pro/assets/images/max/724/1*-I_1qa5TIiB5eNYxnodfAA.png'>

https://how.dev/answers/three-ways-to-combine-dataframes-in-pandas

| | | |
|-|-|-|
|유형|	설명|
|Inner Join (내부 조인)|	두 데이터프레임의 공통된 키 값을 기준으로 병합하며, 일치하는 값만 포함|
|Outer Join (외부 조인)|	모든 데이터를 유지하며, 일치하지 않는 값은 NaN으로 표시|
|Left Join (왼쪽 조인)|	첫 번째 데이터프레임의 모든 데이터를 유지하며, 일치하는 값이 없는 경우 NaN을 채움|
|Right Join (오른쪽 조인)|	두 번째 데이터프레임의 모든 데이터를 유지하며, 일치하는 값이 없는 경우 NaN을 채움|

### 기본 문법
- Pandas의 `merge()` 메서드를 사용하여 데이터프레임을 병합

```
pd.merge(left, right, how='병합 방식', on='기준 열')
```

- `left`, `right`: 병합할 두 개의 데이터프레임을 지정
- `how`: 병합 방식
  - `'inner'`: 공통된 키 값만 유지
  - `'outer'`: 모든 데이터를 유지하며, 일치하지 않는 값은 NaN으로 처리
  - `'left'`: 왼쪽 데이터프레임 기준으로 병합
  - `'right'`: 오른쪽 데이터프레임 기준으로 병합
- `on`: 병합할 기준이 되는 공통 열(키)을 지정합니다. 여러 개의 열을 기준으로 할 경우 리스트 형태로 제공

### 내부조인 (Innter Join)
- 공통된 키 값이 있는 행만 병합하여 반환

In [162]:
customer_info = pd.DataFrame({
    '고객ID': [1, 2, 3],
    '이름': ['홍길동', '김철수', '이영희']
})

purchase_data = pd.DataFrame({
    '고객ID': [2, 3, 4],
    '구매액': [10000, 20000, 30000]
})

In [163]:
customer_info

Unnamed: 0,고객ID,이름
0,1,홍길동
1,2,김철수
2,3,이영희


In [165]:
purchase_data

Unnamed: 0,고객ID,구매액
0,2,10000
1,3,20000
2,4,30000


In [166]:
# on='고객ID': 두 데이터프레임에서 공통 열인 '고객ID'를 기준으로 병합합니다.
# how='inner': 공통된 고객ID 값이 있는 행만 남기고, 나머지는 제거합니다.
merged_inner = pd.merge(customer_info, purchase_data, on='고객ID', how='inner')
merged_inner

Unnamed: 0,고객ID,이름,구매액
0,2,김철수,10000
1,3,이영희,20000


### 외부 조인 (Outer Join)
- 모든 데이터를 병합하며, 일치하지 않는 값은 NaN으로 처리

In [167]:
customer_info

Unnamed: 0,고객ID,이름
0,1,홍길동
1,2,김철수
2,3,이영희


In [168]:
purchase_data

Unnamed: 0,고객ID,구매액
0,2,10000
1,3,20000
2,4,30000


In [169]:
# how='outer': 모든 데이터를 포함하여 병합하고, 일치하지 않는 값은 NaN으로 채웁니다.
merged_outer = pd.merge(customer_info, purchase_data, on='고객ID', how='outer')
merged_outer

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,
1,2,김철수,10000.0
2,3,이영희,20000.0
3,4,,30000.0


### 왼쪽 조인 (Left Join)
- 왼쪽 데이터프레임의 모든 데이터를 유지하고, 일치하는 값만 병합

In [170]:
customer_info

Unnamed: 0,고객ID,이름
0,1,홍길동
1,2,김철수
2,3,이영희


In [171]:
purchase_data

Unnamed: 0,고객ID,구매액
0,2,10000
1,3,20000
2,4,30000


In [172]:
# how='left': 왼쪽 데이터프레임(`customer_info`)의 모든 행을 유지하고, 오른쪽 데이터프레임(`purchase_data`)에서 일치하는 데이터를 병합합니다.
# 일치하지 않는 경우, 오른쪽에서 가져올 값이 없는 경우 `NaN`으로 표시합니다.
merged_left = pd.merge(customer_info, purchase_data, on='고객ID', how='left')
merged_left

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,
1,2,김철수,10000.0
2,3,이영희,20000.0


### 오른쪽 조인 (Right Join)
- 오른쪽 데이터프레임의 모든 데이터를 유지하고, 일치하는 값만 병합

In [173]:
customer_info

Unnamed: 0,고객ID,이름
0,1,홍길동
1,2,김철수
2,3,이영희


In [174]:
purchase_data

Unnamed: 0,고객ID,구매액
0,2,10000
1,3,20000
2,4,30000


In [175]:
# how='right': 오른쪽 데이터프레임(`purchase_data`)의 모든 행을 유지하고, 왼쪽 데이터프레임(`customer_info`)에서 일치하는 데이터를 병합합니다.
# 왼쪽에 없는 값은 `NaN`으로 채워집니다.
merged_right = pd.merge(customer_info, purchase_data, on='고객ID', how='right')
merged_right

Unnamed: 0,고객ID,이름,구매액
0,2,김철수,10000
1,3,이영희,20000
2,4,,30000


### 여러 열을 기준으로 병합
- 두 개 이상의 열을 기준으로 병합

In [189]:
customer_info = pd.DataFrame({
    '고객ID': [1, 2, 3],
    '이름': ['홍길동', '김철수', '이영희'],
    '도시': ['서울', '부산', '대전']
})

purchase_data = pd.DataFrame({
    '고객ID': [2, 3, 4],
    '도시': ['부산', '대전', '광주'],
    '구매액': [10000, 20000, 30000]
})

In [190]:
customer_info

Unnamed: 0,고객ID,이름,도시
0,1,홍길동,서울
1,2,김철수,부산
2,3,이영희,대전


In [191]:
purchase_data

Unnamed: 0,고객ID,도시,구매액
0,2,부산,10000
1,3,대전,20000
2,4,광주,30000


In [192]:
# 두 개 이상의 열을 기준으로 병합하여 동일한 고객ID와 도시가 모두 일치하는 경우에만 데이터를 병합합니다.
merged_multiple_keys = pd.merge(customer_info, purchase_data, on=['고객ID', '도시'], how='inner')
merged_multiple_keys

Unnamed: 0,고객ID,이름,도시,구매액
0,2,김철수,부산,10000
1,3,이영희,대전,20000


### 인덱스를 기준으로 병합
- 인덱스를 기준으로 병합하려면 left_index=True 또는 right_index=True 옵션을 사용

In [194]:
customer_info = pd.DataFrame({'이름': ['홍길동', '김철수', '박영희']}, index=[1, 2, 3])
purchase_data = pd.DataFrame({'구매액': [15000, 25000, 30000]}, index=[1, 3, 4])

In [195]:
customer_info

Unnamed: 0,이름
1,홍길동
2,김철수
3,박영희


In [196]:
purchase_data

Unnamed: 0,구매액
1,15000
3,25000
4,30000


In [197]:
# left_index=True, right_index=True: 행 인덱스를 기준으로 데이터를 병합합니다.
# how='outer': 모든 인덱스를 유지하고 일치하지 않는 값은 NaN으로 채워집니다.
merged_index = pd.merge(customer_info, purchase_data,
                        left_index=True, right_index=True, how='outer')
merged_index

Unnamed: 0,이름,구매액
1,홍길동,15000.0
2,김철수,
3,박영희,25000.0
4,,30000.0


### 병합 후 열 이름 변경
- 병합된 결과에서 열 이름이 충돌하는 경우, 접미사(suffix)를 사용하여 구분

In [198]:
customer_info_old = pd.DataFrame({
    '고객ID': [1, 2],
    '이름': ['홍길동', '김철수'],
    '구매액': [20000, 30000]
})

customer_info_new = pd.DataFrame({
    '고객ID': [1, 2],
    '이름': ['박영희', '이순신'],
    '구매액': [40000, 50000]
})

In [199]:
customer_info_old

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,20000
1,2,김철수,30000


In [200]:
customer_info_new

Unnamed: 0,고객ID,이름,구매액
0,1,박영희,40000
1,2,이순신,50000


In [201]:
# on='고객ID': '고객ID' 열을 기준으로 병합합니다.
# suffixes=('_기존', '_신규'): 두 데이터프레임에 존재하는 동일한 열 이름(예: '이름', '구매액')을 '_기존'과 '_신규'로 구분하여 처리합니다.
# 병합된 결과에서 '이름'과 '구매액' 열이 '이름_기존', '이름_신규'와 같이 새로운 열 이름으로 생성됩니다.
merged_suffix = pd.merge(customer_info_old, customer_info_new,
                         on='고객ID', suffixes=('_기존', '_신규'))

In [202]:
merged_suffix

Unnamed: 0,고객ID,이름_기존,구매액_기존,이름_신규,구매액_신규
0,1,홍길동,20000,박영희,40000
1,2,김철수,30000,이순신,50000


### 병합을 활용한 조건 기반 분석
- 병합된 데이터에서 특정 조건을 만족하는 행만 선택

In [203]:
customer_info_old = pd.DataFrame({
    '고객ID': [1, 2],
    '이름': ['홍길동', '김철수'],
    '구매액': [20000, 30000]
})

customer_info_new = pd.DataFrame({
    '고객ID': [1, 2],
    '이름': ['박영희', '이순신'],
    '구매액': [40000, 50000]
})

In [204]:
customer_info_old

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,20000
1,2,김철수,30000


In [205]:
customer_info_new

Unnamed: 0,고객ID,이름,구매액
0,1,박영희,40000
1,2,이순신,50000


In [206]:
# pd.merge(df1, df2, on='고객ID', how='inner', suffixes=('_기존', '_신규')): ‘고객ID’를 기준으로 내부 조인을 수행합니다.
# 결과적으로 두 데이터프레임에서 ‘고객ID' 1, 2가 병합된 상태가 됩니다.
# filtered_result[filtered_result['구매액_기존'] > 25000]:'구매액_기존' 열의 값이 25000보다 큰 행만 필터링하여 출력합니다.
filtered_result = pd.merge(customer_info_old, customer_info_new,
                           on='고객ID', how='inner', suffixes=('_기존', '_신규'))

In [207]:
filtered_result

Unnamed: 0,고객ID,이름_기존,구매액_기존,이름_신규,구매액_신규
0,1,홍길동,20000,박영희,40000
1,2,김철수,30000,이순신,50000


In [208]:
filtered_result = filtered_result[filtered_result['구매액_기존'] > 25000]
filtered_result

Unnamed: 0,고객ID,이름_기존,구매액_기존,이름_신규,구매액_신규
1,2,김철수,30000,이순신,50000


### 데이터프레임 연결 (concat) vs 병합 (merge)
- Pandas의 `concat()` 함수는 데이터를 단순히 연결(위/아래 또는 좌/우)하는 반면, `merge()`는 공통된 열을 기준으로 데이터를 결합

- 병합(merge) vs 연결(concat) 차이점
    |||
    |-|-|
    |구분|	차이점|
    |merge()	|공통 열(키)을 기준으로 병합 수행. 일치하는 데이터를 병합하고 일치하지 않으면 NaN이 발생|
    |concat()	|단순한 연결이며, 병합할 키 없이 데이터를 합치는 데 사용|

In [209]:
customer_info_old

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,20000
1,2,김철수,30000


In [210]:
customer_info_new

Unnamed: 0,고객ID,이름,구매액
0,1,박영희,40000
1,2,이순신,50000


In [211]:
# pd.concat([df1, df2], ignore_index=True): 두 데이터프레임을 행 방향으로 연결합니다. 
# ignore_index=True 옵션을 사용하여 기존 인덱스를 무시하고 새 인덱스를 생성합니다.

concat_result = pd.concat([customer_info_old, customer_info_new], ignore_index=True)
concat_result

Unnamed: 0,고객ID,이름,구매액
0,1,홍길동,20000
1,2,김철수,30000
2,1,박영희,40000
3,2,이순신,50000


# 결측치 처리(Missing Data) 
- Pandas에서 결측치 처리는 데이터프레임이나 시리즈에서 누락된 값을 탐지하고 제거하거나 대체하는 작업
- Pandas에서는 결측치를 `NaN`(Not a Number) 또는 `None`으로 표시하며, 이러한 결측치를 탐지하고 적절히 처리하는 기능을 제공

  <img src='https://phoenixnap.com/kb/wp-content/uploads/2021/06/drop-missing-values-visual-example.png'>

### 결측치 확인

In [215]:
import pandas as pd
import numpy as np

# 예제 데이터프레임 생성
data = {'이름': ['홍길동', '김철수', np.nan, '이영희'],
        '나이': [25, np.nan, 30, 28],
        '성별': ['남', '남', '여', np.nan]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
2,,30.0,여
3,이영희,28.0,


In [217]:
# 결측치 확인
# 각 요소의 결측 여부 (True: 결측치, False: 정상 값)
df.isnull()

Unnamed: 0,이름,나이,성별
0,False,False,False
1,False,True,False
2,True,False,False
3,False,False,True


In [220]:
# 열별 결측치 개수
df.isnull().sum()

이름    1
나이    1
성별    1
dtype: int64

In [221]:
# 데이터 요약 정보로 결측치 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      3 non-null      object 
 1   나이      3 non-null      float64
 2   성별      3 non-null      object 
dtypes: float64(1), object(2)
memory usage: 228.0+ bytes


### 결측치 제거
- 결측치가 포함된 행이나 열을 삭제할 수 있으며, 특정 열에서만 결측치를 제거하는 것도 가능

In [222]:
df

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
2,,30.0,여
3,이영희,28.0,


In [224]:
# 결측치가 포함된 "행" 삭제
# 기본적으로 axis=0이며, 모든 열에서 하나라도 결측치가 있으면 해당 행을 제거합니다.
df_dropped_rows = df.dropna()
df_dropped_rows

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남


In [225]:
# 특정 열 기준으로 결측치가 있는 행만 삭제
# 특정 열(예: '이름')에서 결측치가 포함된 행만 삭제합니다. 다른 열의 결측치가 있어도 유지됩니다.
df_dropped_subset = df.dropna(subset=['이름'])
df_dropped_subset

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
3,이영희,28.0,


In [226]:
# 결측치가 포함된 "열" 삭제
# 결측치가 포함된 열을 삭제합니다. 하나라도 결측치가 있는 열은 완전히 제거됩니다
df_dropped_cols = df.dropna(axis=1)
df_dropped_cols

0
1
2
3


### 결측치 대체 (값 채우기)
- 결측치를 특정 값으로 대체하거나, 통계적 방법을 이용해 대체 가능

In [227]:
# 예제 데이터프레임 재생성
data = {'이름': ['홍길동', '김철수', np.nan, '이영희'],
        '나이': [25, np.nan, 30, 28],
        '성별': ['남', '남', '여', np.nan]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
2,,30.0,여
3,이영희,28.0,


In [229]:
# 특정 값으로 대체
df_filled_value = df.fillna(value={'이름': '미상', '나이': '모름', '성별': '없음'})
df_filled_value

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,모름,남
2,미상,30.0,여
3,이영희,28.0,없음


In [231]:
# 평균값으로 대체(숫자열)
df_numeric_mean = df.copy()
df_numeric_mean['나이'] = df_numeric_mean['나이'].fillna(df_numeric_mean['나이'].mean())
df_numeric_mean

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,27.666667,남
2,,30.0,여
3,이영희,28.0,


In [232]:
# 이전 값으로 대체 (앞방향 채우기)
df_filled_forward = df_numeric_mean.ffill()
df_filled_forward

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,27.666667,남
2,김철수,30.0,여
3,이영희,28.0,여


In [233]:
# 이후 값으로 대체 (뒤방향 채우기)
df_filled_backward = df_numeric_mean.bfill()
df_filled_backward

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,27.666667,남
2,이영희,30.0,여
3,이영희,28.0,


### 결측치가 있는 행 필터링
- 특정 조건을 만족하는 데이터를 남기고 결측치를 포함하는 행을 필터링

In [234]:
# 예제 데이터프레임 재생성
data = {'이름': ['홍길동', '김철수', np.nan, '이영희'],
        '나이': [25, np.nan, 30, 28],
        '성별': ['남', '남', '여', np.nan]}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
2,,30.0,여
3,이영희,28.0,


In [235]:
# 결측치가 없는 행만 선택
df_no_missing = df[df['이름'].notnull()]
df_no_missing

Unnamed: 0,이름,나이,성별
0,홍길동,25.0,남
1,김철수,,남
3,이영희,28.0,


In [236]:
# 특정 열 결측치만 선택
df_filtered = df[df['성별'].isnull()]
df_filtered

Unnamed: 0,이름,나이,성별
3,이영희,28.0,


# 피벗(Pivot)
- Pandas에서 피벗은 데이터를 특정 기준에 따라 재구성하여 요약 통계를 계산하고, 행과 열을 재배치하여 보다 쉽게 분석할 수 있도록 하는 과정

<img src='https://media.geeksforgeeks.org/wp-content/uploads/20210109131825/Annotation20210109131527-660x225.png'>

### 피벗의 주요 구성 요소
|||
|-|-|
|구성 요소|	설명|
|인덱스(index)|	새로운 행 인덱스를 설정할 열을 지정|
|열(columns)|	새로운 열로 설정할 기존 열을 지정|
|값(values)|	행과 열 조합에 해당하는 값으로 사용할 데이터를 지정|

### 기본 문법
- Pandas의 pivot() 메서드를 사용하면 데이터프레임을 특정 열을 기준으로 재구성

  ```
  df.pivot(index='행으로 설정할 열', columns='열로 설정할 열', values='값으로 설정할 열')
  ```
  - `index`: 행으로 사용할 열을 지정합니다. (예: 날짜, 카테고리 등)
  - `columns`: 열로 사용할 열을 지정합니다. (예: 제품, 지역 등)
  - `values`: 값으로 사용할 열을 지정합니다. (예: 판매량, 이익 등)

### 단순 피벗

In [239]:
import pandas as pd

# 샘플 데이터 생성
data = {
    '날짜': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02'],
    '제품': ['A', 'B', 'A', 'B'],
    '판매량': [100, 200, 150, 250]
}

df = pd.DataFrame(data)
df

Unnamed: 0,날짜,제품,판매량
0,2024-01-01,A,100
1,2024-01-01,B,200
2,2024-01-02,A,150
3,2024-01-02,B,250


In [240]:
# 피벗 적용
# '날짜' 열을 행(index)으로 설정, '제품' 열을 열(columns)로 설정, '판매량'을 값(values)으로 설정
df_pivot = df.pivot(index='날짜', columns='제품', values='판매량')
df_pivot

제품,A,B
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,100,200
2024-01-02,150,250


### 여러 열을 피벗하기 (다중 인덱싱)
- 하나 이상의 열을 기준으로 데이터 구조를 변경

In [241]:
category_data = {
    '날짜': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02'],
    '카테고리': ['전자', '가전', '전자', '가전'],
    '제품': ['A', 'B', 'A', 'B'],
    '판매량': [100, 200, 150, 250]
}
df_category = pd.DataFrame(category_data)
df_category

Unnamed: 0,날짜,카테고리,제품,판매량
0,2024-01-01,전자,A,100
1,2024-01-01,가전,B,200
2,2024-01-02,전자,A,150
3,2024-01-02,가전,B,250


In [242]:
# '날짜'와 '카테고리'를 행으로 설정, '제품'을 열로 설정, '판매량'을 값으로 설정
df_pivot_multi = df_category.pivot(index=['날짜', '카테고리'], columns='제품', values='판매량')
df_pivot_multi

Unnamed: 0_level_0,제품,A,B
날짜,카테고리,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-01-01,가전,,200.0
2024-01-01,전자,100.0,
2024-01-02,가전,,250.0
2024-01-02,전자,150.0,


###  결측치 처리
- pivot()을 사용하면 중복된 데이터가 있을 경우 오류가 발생하므로, pivot_table()을 대신 사용

In [253]:
category_data = {
    '날짜': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02', '2024-01-02'],
    '카테고리': ['전자', '가전', '전자', '가전', '가전'],
    '제품': ['A', 'B', 'A', 'B', 'B'],
    '판매량': [100, 200, 150, 250, 250]
}
df_category = pd.DataFrame(category_data)
df_category

Unnamed: 0,날짜,카테고리,제품,판매량
0,2024-01-01,전자,A,100
1,2024-01-01,가전,B,200
2,2024-01-02,전자,A,150
3,2024-01-02,가전,B,250
4,2024-01-02,가전,B,250


In [254]:
df_pivot_table = df_category.pivot(index='날짜', columns='제품', values='판매량')
df_pivot_table

ValueError: Index contains duplicate entries, cannot reshape

In [255]:
# aggfunc='sum'을 사용하여 중복된 데이터를 합산
# fill_value=0으로 결측치를 0으로 채움
df_pivot_table = df_category.pivot_table(index='날짜', columns='제품',
                                         values='판매량', aggfunc='sum', fill_value=0)
df_pivot_table

제품,A,B
날짜,Unnamed: 1_level_1,Unnamed: 2_level_1
2024-01-01,100,200
2024-01-02,150,500


### 여러 값 피벗하기

In [259]:
profit_data = {
    '날짜': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02'],
    '제품': ['A', 'B', 'A', 'B'],
    '판매량': [100, 200, 150, 250],
    '이익': [20, 50, 30, 60]
}
df_profit = pd.DataFrame(profit_data)
print("여러 값 피벗 전:\n")
df_profit

여러 값 피벗 전:



Unnamed: 0,날짜,제품,판매량,이익
0,2024-01-01,A,100,20
1,2024-01-01,B,200,50
2,2024-01-02,A,150,30
3,2024-01-02,B,250,60


In [260]:
# 판매량과 이익을 동시에 피벗
df_pivot_values = df_profit.pivot(index='날짜', columns='제품', values=['판매량', '이익'])
print("여러 값 피벗 결과:\n")
df_pivot_values

여러 값 피벗 결과:



Unnamed: 0_level_0,판매량,판매량,이익,이익
제품,A,B,A,B
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2024-01-01,100,200,20,50
2024-01-02,150,250,30,60


### 특정 함수 적용 (aggfunc)
- pivot_table()을 사용하면 다양한 요약 통계 적용

In [263]:
profit_data = {
    '날짜': ['2024-01-01', '2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02', '2024-01-02'],
    '제품': ['A', 'B', 'A', 'B', 'A', 'B'],
    '판매량': [100, 200, 150, 250, 150, 250],
    '이익': [20, 50, 30, 60, 30, 60]
}
df_profit = pd.DataFrame(profit_data)
print("여러 값 피벗 전:\n")
df_profit

여러 값 피벗 전:



Unnamed: 0,날짜,제품,판매량,이익
0,2024-01-01,A,100,20
1,2024-01-01,B,200,50
2,2024-01-01,A,150,30
3,2024-01-02,B,250,60
4,2024-01-02,A,150,30
5,2024-01-02,B,250,60


In [264]:
df_pivot_stats = df_profit.pivot_table(index='날짜', columns='제품',
                                       values='판매량', aggfunc=['sum', 'mean'])
df_pivot_stats

Unnamed: 0_level_0,sum,sum,mean,mean
제품,A,B,A,B
날짜,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2024-01-01,250,200,125.0,200.0
2024-01-02,150,500,150.0,250.0


# 중복 제거(Duplicates Removal)
- Pandas에서 중복 제거는 데이터프레임이나 시리즈에서 동일한 값을 갖는 중복된 행을 식별하고 제거하는 작업

<img src='https://sharpsight.ai/wp-content/uploads/2020/11/drop-duplicates_removes-duplicate-records_example.png'>

### 기본문법
- Pandas에서는 중복된 데이터를 제거하기 위해 drop_duplicates() 메서드를 사용

```
df.drop_duplicates(subset=None, keep='first', inplace=False)
```


- `subset`:  중복 여부를 판단할 열 (기본값: None, 모든 열 기준)
- `keep`: 어떤 값을 남길지 지정 ('first' – 첫 번째 값 유지, 'last' – 마지막 값 유지, False – 모두 삭제)
- `inplace`: 원본 데이터프레임 수정 여부 (False는 새로운 데이터프레임 반환)

### 데이터프레임에서 중복 제거
- 기본적으로 모든 열을 기준으로 중복된 행을 제거

In [268]:
import pandas as pd

student_data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df_students = pd.DataFrame(student_data)
df_students

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [269]:
df_unique = df_students.drop_duplicates()
df_unique

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
3,이영희,28,여


### 특정 열을 기준으로 중복 제거

In [270]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [271]:
df_unique_name = df_students.drop_duplicates(subset=['이름'])
df_unique_name

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
3,이영희,28,여


### 중복된 행에서 특정 값 유지
- 중복된 행이 있을 경우 첫 번째 또는 마지막 값을 유지하거나, 모든 중복을 제거

In [272]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [276]:
# 첫 번째 값 유지
df_first = df_students.drop_duplicates(keep='first')
print("첫 번째 값 유지:\n")
df_first

첫 번째 값 유지:



Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
3,이영희,28,여


In [277]:
# 마지막 값 유지
df_last = df_students.drop_duplicates(keep='last')
print("마지막 값 유지:\n")
df_last

마지막 값 유지:



Unnamed: 0,이름,나이,성별
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [278]:
# 모든 중복 제거
df_none = df_students.drop_duplicates(keep=False)
print("모든 중복 제거:\n")
df_none

모든 중복 제거:



Unnamed: 0,이름,나이,성별
1,김철수,30,남
3,이영희,28,여


### 원본 데이터 수정
- inplace=True 옵션을 사용하면 원본 데이터프레임을 수정

In [279]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [280]:
print("원본 데이터프레임 수정 전:\n")
df_students

원본 데이터프레임 수정 전:



Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [281]:
# drop_duplicates()는 모든 열(이름, 나이, 성별)을 기준으로 중복 여부를 판단
# 따라서 keep='first'(기본값)이 적용되어 첫 번째 홍길동(0번)은 남기고, 이후 동일한 행(2번)은 중복으로 간주되어 삭제된 것
df_students.drop_duplicates(inplace=True)
print("원본 데이터프레임 수정 후:\n")
df_students

원본 데이터프레임 수정 후:



Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
3,이영희,28,여


### 중복 확인
- duplicated() 메서드를 사용하여 중복된 행을 확인

In [288]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df_students = pd.DataFrame(data)
df_students

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [289]:
df_students['중복여부'] = df_students.duplicated()
print("중복 여부 확인:\n")
df_students

중복 여부 확인:



Unnamed: 0,이름,나이,성별,중복여부
0,홍길동,25,남,False
1,김철수,30,남,False
2,홍길동,25,남,True
3,이영희,28,여,False


### 여러 열 조합으로 중복 제거
- 두 개 이상의 열을 기준으로 중복을 판별

In [293]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희', '이영희'],
    '나이': [25, 30, 25, 28, 25],
    '성별': ['남', '남', '남', '여', '남']
}

df_students = pd.DataFrame(data)
df_students

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여
4,이영희,25,남


In [294]:
df_unique_multi = df_students.drop_duplicates(subset=['이름', '나이'])
print("이름+나이 기준 중복 제거:\n")
df_unique_multi

이름+나이 기준 중복 제거:



Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
3,이영희,28,여
4,이영희,25,남


### 중복된 데이터 개수 확인

In [295]:
# 샘플 데이터 재생성
data = {
    '이름': ['홍길동', '김철수', '홍길동', '이영희'],
    '나이': [25, 30, 25, 28],
    '성별': ['남', '남', '남', '여']
}

df_students = pd.DataFrame(data)
df_students

Unnamed: 0,이름,나이,성별
0,홍길동,25,남
1,김철수,30,남
2,홍길동,25,남
3,이영희,28,여


In [296]:
duplicate_count = df_students.duplicated().sum()
print("중복된 행 개수:", duplicate_count)

중복된 행 개수: 1


# 문자열 처리(String Operations) 
- Pandas에서 문자열 처리는 시리즈 객체 또는 문자열이 포함된 데이터프레임에서 문자열 조작 및 변환을 수행하는 기능

### Pandas 문자열 처리의 주요 메서드
- Pandas에서는 문자열 처리를 위해 `.str` 접근자를 제공하며, 이를 통해 다양한 문자열 연산을 수행

||||
|-|-|-|
|메서드|	설명|	예제|
|str.lower()|	문자열을 소문자로 변환|	df['컬럼'].str.lower()|
|str.upper()|	문자열을 대문자로 변환|	df['컬럼'].str.upper()|
|str.strip()|	앞뒤 공백 제거|	df['컬럼'].str.strip()|
|str.replace()|	특정 문자열을 다른 값으로 대체|	df['컬럼'].str.replace('a', 'b')|
|str.contains()|	특정 문자열 포함 여부 확인|	df['컬럼'].str.contains('패턴')|
|str.startswith()|	특정 문자열로 시작하는지 여부 확인|	df['컬럼'].str.startswith('문자')|
|str.endswith()|	특정 문자열로 끝나는지 여부 확인|	df['컬럼'].str.endswith('문자')|
|str.split()|	특정 구분자로 문자열 나누기|	df['컬럼'].str.split('-')|
|str.len()| 문자열 길이 반환|	df['컬럼'].str.len()|
|str.findall()|	정규 표현식 패턴과 일치하는 부분 검색|	df['컬럼'].str.findall(r'\d+')|