```python
import pandas as pd
```


# 시리즈(Series) 기초

## 시리즈 생성 (pd.Series())

In [1]:
import pandas as pd

# 리스트 데이터를 이용하여 시리즈 생성
data = [1, 2, 3, 4, 5]
sr = pd.Series(data)
sr

0    1
1    2
2    3
3    4
4    5
dtype: int64

인덱스 활용

In [2]:
# 인덱스를 직접 지정하여 시리즈 생성
index = ['a', 'b', 'c', 'd', 'e']
sr_index = pd.Series(data, index=index)
sr_index

a    1
b    2
c    3
d    4
e    5
dtype: int64

데이터 선택과 필터링

In [3]:
# 인덱스를 사용하여 데이터 선택
sr_index['c']

3

In [4]:
# 조건을 사용하여 데이터 필터링
sr_index[sr_index > 2]

c    3
d    4
e    5
dtype: int64

실습

주어진 데이터를 사용하여 시리즈를 생성하고, 특정 조건에 맞는 데이터를 선택해 보세요.
```python
data = [10, 20, 30, 40, 50]
index = ['가', '나', '다', '라', '마']
```
1. '다' 인덱스의 데이터를 출력하세요
2. 데이터 값이 30보다 큰 항목만 출력하세요

In [None]:
# 실습을 위한 시리즈 생성
data = [10, 20, 30, 40, 50]
index = ['가', '나', '다', '라', '마']
sr = pd.Series(data, index=index)

# '다' 인덱스의 데이터를 출력하세요
print(sr['다'])

# 데이터 값이 30보다 큰 항목만 출력하세요
print(sr[sr > 30])

# 데이터프레임(DataFrame) 이해하기

## 데이터프레임 생성 (pd.DataFrame())


```python
import pandas as pd

# 딕셔너리를 이용하여 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주']
}
df = pd.DataFrame(data)
print(df)

In [9]:
import pandas as pd

# 딕셔너리를 이용하여 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주']
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,도시
0,김지수,28,서울
1,박영희,22,부산
2,이민준,21,대구
3,최예원,30,광주


## 1. 데이터프레임 검토 (head(), tail() 사용하기)

In [6]:
# 데이터프레임의 처음 3개 행을 보여줍니다. 기본값 5
df.head(3)

Unnamed: 0,이름,나이,도시
0,김지수,28,서울
1,박영희,22,부산
2,이민준,21,대구


In [7]:
# 데이터프레임의 마지막 2개 행을 보여줍니다.
df.tail(2)

Unnamed: 0,이름,나이,도시
2,이민준,21,대구
3,최예원,30,광주


## 2. 데이터프레임 정보 확인 (info() 사용하기)

In [None]:
# 데이터프레임의 구조와 데이터 타입을 확인합니다.
df.info()

## 3. 열(column)과 행(row)의 기초

In [None]:
# index 값 확인
df.index

In [None]:
# columns 값 확인
df.columns 

In [None]:
# '이름' 열만 선택하기
df['이름']

In [None]:
# 데이터 프레임 형태로 보려면 대괄호 2번
df[['이름']]

In [None]:
# 0번째(인덱스) 행만 선택하기
df.iloc[0]

In [None]:
# 데이터 프레임 형태로 보려면 대괄호 2번
df.iloc[[0]]

## 4. 데이터 접근 방법

### 1. 위치 기반 인덱싱 (iloc)

iloc는 위치 기반 인덱싱, 정수 인덱스를 사용하여 데이터에 접근할 수 있다. (이미 만들어져 있는 인덱스에만 접근 가능)

In [None]:
# 첫 번째 행의 데이터 선택
df.iloc[0]

In [None]:
# 슬라이싱 가능
df.iloc[0:2]

In [None]:
# 정수 인덱스 접근이라 컬럼도 인덱스로 접근해야 함
df.iloc[0:2, 0:2]

### 2. 레이블 기반 인덱싱 (loc)

loc는 레이블 기반으로 데이터에 접근

In [None]:
# 사용자 정의 인덱스 설정
df.index = ['A', 'B', 'C', 'D']
df.loc['A']

In [None]:
df

In [None]:
# 레이블 접근이라 'C'도 포함됨 슬라이싱이랑 차이 있음
df.loc['A':'C']

In [None]:
df.loc['A':'C', '이름']

In [None]:
df.loc['A':'C', ['이름', '나이']]

### 3. 조건을 사용한 데이터 접근

In [None]:
# 참 거짓으로만 나옴
df['나이'] >= 25

In [None]:
# 나이가 25세 이상인 사람만 선택
df[df['나이'] >= 25]

응용: 나이가 25세 이상인 '이름', '나이' 컬럼만 선택해보기

In [13]:
df.loc[df['나이'] >= 25, ['이름', '나이']]

Unnamed: 0,이름,나이
0,김지수,28
3,최예원,30


### 4. any, all

특정 값을 가진 행이 있는지 판별해야하는 경우가 생김, 그 특정값이 단순히 1개라도 있는지, 아니면 전체 행이 그 값을 가졌는지 확인할때

In [None]:
(df['이름'] == '이민준').any() # 이름에 이민준이라는 이름을 가진 사람이 있는지

In [None]:
(df['이름'] == '김영욱').any() # 이름에 김영욱이라는 이름을 가진 사람이 있는지

In [None]:
(df['도시'] == '서울').any() # 서울에 사는 사람이 있는지

In [None]:
(df['도시'] == '서울').all() # 모든 사람이 서울에 살고 있는지

## 5. 컬럼 및 인덱스 변경

In [None]:
import pandas as pd

# 딕셔너리를 이용하여 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주']
}
df = pd.DataFrame(data)
print(df)

### 1. 컬럼명 변경

In [None]:
# inplace를 사용하지 않으면 원본 df는 유지되고 새로운 데이터프레임을 만듬 이를 사용하려면 새로운 변수에 할당하거나 기존 변수에 할당하는 작업이 필요함

df.rename(columns={'이름': '성명', '도시': '거주지'}, inplace=True)
print(df)

컬럼명 리스트 할당: 데이터프레임의 모든 컬럼명을 새로운 리스트로 한 번에 변경 가능(컬럼 갯수에 맞춰서 다 넣어줘야 함)

In [None]:
df.columns = ['성명', '나이', '거주지']

### 2. 인덱스 변경

In [None]:
new_index = ['사용자1', '사용자2', '사용자3', '사용자4']
df.index = new_index
df

In [None]:
df_change_index = df.set_index('성명')
df_change_index # 컬럼값을 인덱스로 바꿀 수 있음

### 3. 인덱스 리셋

In [None]:
# 인덱스 리셋
df.reset_index(drop=True, inplace=True)
df

## 6. 컬럼 추가, 컬럼 삭제, 행 추가, 행 삭제

### 1. 컬럼 추가

In [22]:
import pandas as pd

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주']
}
df = pd.DataFrame(data)

# '직업' 컬럼 추가
df['직업'] = ['의사', '변호사', '회계사', '엔지니어']
df

Unnamed: 0,이름,나이,도시,직업
0,김지수,28,서울,의사
1,박영희,22,부산,변호사
2,이민준,21,대구,회계사
3,최예원,30,광주,엔지니어


### 2. 컬럼 삭제

In [15]:
df.drop('나이', axis=1, inplace=True)
df

Unnamed: 0,이름,도시,직업
0,김지수,서울,의사
1,박영희,부산,변호사
2,이민준,대구,회계사
3,최예원,광주,엔지니어


### 3. 행 추가

In [None]:
# 새 행 추가(레이블이 인덱스 형식일 때), iloc는 안됨
new_row = {'이름': '정우성', '도시': '인천', '직업': '배우'}
df.loc[len(df)] = new_row
df

In [16]:
df.loc[len(df)] = ['정우성', '인천', '배우']

In [17]:
df

Unnamed: 0,이름,도시,직업
0,김지수,서울,의사
1,박영희,부산,변호사
2,이민준,대구,회계사
3,최예원,광주,엔지니어
4,정우성,인천,배우


### 4. 행 삭제

In [25]:
# 첫 번째 행 삭제 (axis의 기본값은 0, 생략 가능)
df.drop(index=[0,3], inplace=True)
df

Unnamed: 0,이름,나이,도시,직업
1,박영희,22,부산,변호사
2,이민준,21,대구,회계사


## 중간 실습

1. 판다스 라이브러리를 pd라는 별칭으로 임포트하세요.

2. 다음 데이터를 포함하는 데이터프레임을 생성하세요.  
이름: 김철수, 이영희, 박동민, 최지은  
나이: 25, 30, 22, 31  
성별: 남, 여, 남, 여  
직업: 개발자, 디자이너, 마케터, 기획자  

3. 생성한 데이터프레임의 처음 2개 행과 마지막 2개 행을 출력하세요.

4. 데이터프레임의 정보를 출력하여 각 컬럼의 데이터 타입과 결측치 여부를 확인하세요.

5. '이름' 컬럼을 '사용자 이름'으로, '나이' 컬럼을 '사용자 나이'로 변경하세요.

6. 모든 사용자의 '거주지'를 '서울'로 설정하는 새로운 컬럼을 추가하세요.

7. '성별' 컬럼을 삭제하세요.

8. 나이가 30세 이상인 사용자만 선택하여 출력하세요.

9. 최종 데이터프레임을 CSV 파일로 저장하세요. 파일 이름은 'user_data.csv'로 설정하고, 인덱스는 저장하지 않습니다.

In [19]:
# 1
import pandas as pd

# 2
data = {
    '이름': ['김철수', '이영희', '박동민', '최지은'],
    '나이': [25, 30, 22, 31],
    '성별': ['남', '여', '남', '여'],
    '직업': ['개발자', '디자이너', '마케터', '기획자']
}
df = pd.DataFrame(data)

# 3
print(df.head(2))
print(df.tail(2))

# 4
print(df.info())

# 5
df.rename(columns={'이름': '사용자 이름', '나이': '사용자 나이'}, inplace=True)

# 6
df['거주지'] = '서울'

# 7
df.drop('성별', axis=1, inplace=True)

# 8
print(df[df['사용자 나이'] >= 30])

print(df)

# 9
df.to_csv('user_data.csv', index=False)

    이름  나이 성별    직업
0  김철수  25  남   개발자
1  이영희  30  여  디자이너
    이름  나이 성별   직업
2  박동민  22  남  마케터
3  최지은  31  여  기획자
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      4 non-null      object
 1   나이      4 non-null      int64 
 2   성별      4 non-null      object
 3   직업      4 non-null      object
dtypes: int64(1), object(3)
memory usage: 256.0+ bytes
None
  사용자 이름  사용자 나이    직업 거주지
1    이영희      30  디자이너  서울
3    최지은      31   기획자  서울
  사용자 이름  사용자 나이    직업 거주지
0    김철수      25   개발자  서울
1    이영희      30  디자이너  서울
2    박동민      22   마케터  서울
3    최지은      31   기획자  서울


# 데이터 불러오기 및 저장하기

## 1. csv 파일 불러오기

위 실습에서 저장한 user_data.csv를 사용함

In [None]:
import pandas as pd

# CSV 파일 불러오기 user_data.csv
df = pd.read_csv('user_data.csv')
df

## 2. csv 파일 저장하기

index 매개변수를 False로 설정하면 인덱스가 파일에 저장되지 않음

In [None]:
# 데이터프레임을 CSV 파일로 저장
df.to_csv('save_user_data.csv', index=False)

## 3. excel 파일 불러오기

엑셀을 열어서 user_data.csv 데이터를 불러온 후 엑셀 파일로 저장

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.  
pip install openpyxl

In [None]:
# 엑셀 파일 불러오기
df = pd.read_excel('user_data.xlsx')
df

In [None]:
# 데이터프레임을 엑셀 파일로 저장
df.to_excel('save_user_data.xlsx', index=False)

# 데이터 탐색 및 조작

In [26]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어']
}
df = pd.DataFrame(data)

In [27]:
df['점수'] = np.random.randint(50, 100, size=len(df))

In [28]:
df

Unnamed: 0,이름,나이,도시,직업,점수
0,김지수,28,서울,의사,64
1,박영희,22,부산,변호사,68
2,이민준,21,대구,회계사,52
3,최예원,30,광주,엔지니어,79


## 1. 기초 통계

In [None]:
df.describe()

count: 비결측치(non-NA/null)의 개수를 나타냅니다.  
mean: 평균값을 나타냅니다.  
std: 표준편차를 나타냅니다. 
min: 최소값을 나타냅니다.  
25% (1st quartile): 데이터의 25%에 해당하는 값(하위 사분위수)입니다.  
50% (median, 2nd quartile): 중앙값을 나타냅니다.  
75% (3rd quartile): 데이터의 75%에 해당하는 값(상위 사분위수)입니다.  
max: 최대값을 나타냅니다.  

In [None]:
# 점수 계산
df['점수'].sum()

In [None]:
# 평균 계산
df['점수'].mean()

### axis

axis=0 행을 따라 작업을 수행(열에 대한 요소들), axis=1 열을 따라 작업을 수행(행에 대한 요소들), 기본값은 0

<div style="width:150px; height:50px; background-color:#D3D3D3; margin-bottom:5px;"></div>
<div style="width:150px; height:50px; background-color:#D3D3D3; margin-bottom:5px;"></div>
<div style="width:150px; height:50px; background-color:#D3D3D3; margin-bottom:5px;"></div>
<div style="width:150px; height:50px; background-color:#D3D3D3; margin-bottom:5px;"></div>

axix = 0

<div style="display:flex; justify-content:start; align-items:center;">
  <div style="width:50px; height:120px; background-color:#D3D3D3; margin-right:5px;"></div>
  <div style="width:50px; height:120px; background-color:#D3D3D3; margin-right:5px;"></div>
  <div style="width:50px; height:120px; background-color:#D3D3D3; margin-right:5px;"></div>
  <div style="width:50px; height:120px; background-color:#D3D3D3;"></div>
</div>

axis = 1

In [None]:
data  = {
  '학생': [f'학생{i}' for i in range(1, 11)],
  '국어': np.random.randint(50, 100, size=10),
  '영어': np.random.randint(50, 100, size=10),
  '수학': np.random.randint(50, 100, size=10)
  }

df = pd.DataFrame(data)

In [None]:
df[['국어', '영어', '수학']].mean() # 행들의 평균

In [None]:
df[['국어', '영어', '수학']].mean(axis=1) # 열들의 평균

In [None]:
df.loc[len(df)] = df[['국어', '영어', '수학']].mean()

In [None]:
df['평균'] = df[['국어', '영어', '수학']].mean(axis=1)
df

## 2. 결측치 다루기

### 1. 결측치 확인

In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어']
}
df = pd.DataFrame(data)

In [None]:
df['점수'] = np.random.randint(50, 100, len(df))

In [None]:
df.loc[len(df)] = {'이름': '정우성', '나이': 37, '도시': '인천', '직업': '배우'} # 점수가 없음
df

In [None]:
# 결측치 확인
df.isnull() # isnull 이랑 isna랑 같음

In [None]:
df[df.isna().any(axis=1)]

### 2. 결측치 처리

In [None]:
# # 점수 컬럼의 평균으로 결측치를 채움
# df['점수'].fillna(value=df['점수'].mean(), inplace=True)
# df

In [None]:
# 점수의 공백을 채우는데 점수의 평균값으로 채움, 점수 데이터에 다시 저장함
df['점수'] = df['점수'].fillna(value=df['점수'].mean())
df

## 3. 중복 데이터 처리

In [None]:
df.loc[len(df)] = df.iloc[0] # 중복 데이터 삽입
df

### 1. 중복 데이터 확인

In [None]:
# 중복 데이터 확인
df.duplicated()

In [None]:
print("특정 컬럼에 대한 중복 데이터 확인:")
print(df.duplicated(subset=['이름', '도시']))

In [None]:
df.loc[4, '도시'] = '서울'

In [None]:
df

In [None]:
# unique()를 사용해서 특정 컬럼 데이터의 고유값을 확인할수도 있음

df['도시'].unique()

In [None]:
print("특정 컬럼에 대한 중복 데이터 확인:")
print(df.duplicated(subset=['도시']))

### 2. 중복 데이터 출력

In [None]:
df[df.duplicated()]

In [None]:
df[df.duplicated(subset=['도시'])]

### 3. 중복 데이터 제거

In [None]:
df.drop_duplicates(inplace=True)
df

In [None]:
df.drop_duplicates(subset=['도시'], inplace=True)
df

## 4. 데이터 정렬

In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어'],
    '점수': [85, 95, 78, 89]
}
df = pd.DataFrame(data)

In [None]:
# 'Age'를 기준으로 오름차순 정렬
df_sorted = df.sort_values(by='나이')
df_sorted

In [None]:
# 'Score'를 기준으로 내림차순 정렬
df_sorted_desc = df.sort_values(by='점수', ascending=False)
df_sorted_desc

여러 열을 기준으로 정렬할 수 있다, 나이를 기준으로 정렬 후 점수을 기준으로 정렬

In [None]:
# '점수'를 먼저 내림차순으로 정렬하고, 동점자의 경우 '나이'를 오름차순으로 정렬
df_multi_sorted = df.sort_values(by=['점수', '나이'], ascending=[False, True])
df_multi_sorted

## 5. 데이터 필터링

### 1. query()

In [None]:
import pandas as pd
import numpy as np

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원'],
    '나이': [28, 22, 21, 30],
    '도시': ['서울', '부산', '대구', '광주'],
    '직업': ['의사', '변호사', '회계사', '엔지니어'],
    '점수': [85, 95, 78, 89]
}
df = pd.DataFrame(data)

query()는 표현식을 문자열로 입력받아 해당 조건에 맞는 데이터만 필터링

In [None]:
df_filter = df.query('점수 >= 85 and 나이 >= 25') # 점수가 85이상이면서 나이가 25이상
df_filter

### 2. 조건문

논리연산자(&, |, ~)를 사용하여 조건을 표현할 수 있습니다

| 연산자 | 설명 | 사용 예 |
|--------|------|--------|
| `&`    | AND 연산자는 두 조건이 모두 참일 때 참을 반환합니다. | `df[(df['나이'] > 20) & (df['점수'] > 80)]` |
| `\|`    | OR 연산자는 두 조건 중 하나라도 참일 때 참을 반환합니다. | `df[(df['나이'] > 30) \| (df['점수'] > 90)]` |
| `~`    | NOT 연산자는 조건의 반대를 반환합니다. | `df[~(df['이름'] == '이민준')]` |


In [None]:
df_filter_2 = df[(df['점수'] >= 85) | (df['나이'] >= 25)] # 점수가 85이상이거나 나이가 25 이상
df_filter_2

## 6. 이상치 식별 및 처리

matplotlib: https://matplotlib.org/stable/users/index  
seaborn: https://seaborn.pydata.org/api.html  
plotly: https://plotly.com/python/

### 1. 이상치 식별

박스플롯을 이용한 이상치 식별, 이상치는 보통 박스 외부에 위치한 점으로 표시됩니다.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.family'] ='Malgun Gothic' # 맷플롯랩은 한글을 지원안함 폰트를 설정해 줘야함
plt.rcParams['axes.unicode_minus'] =False

# 데이터프레임 생성 # 합격자 데이터
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원', '정우성', '조민수', '한예슬', '백두산', '서태지', '아이유', '강호동', '유재석', '신민아', '하정우', '김하늘'],
    '나이': [28, 22, 21, 30, 37, 34, 29, 45, 48, 25, 41, 46, 38, 35, 37],
    '도시': ['서울', '부산', '대구', '광주', '인천', '서울', '서울', '광주', '대구', '인천', '부산', '서울', '대구', '부산', '서울'],
    '직업': ['의사', '변호사', '회계사', '엔지니어', '배우', '회계사', '의사', '엔지니어', '가수', '가수', '방송인', '방송인', '배우', '배우', '배우'],
    '점수': [88, 92, 200, 85, 95, 78, 88, 95, 64, 82, 91, 89, 85, 90, 93]
}
df = pd.DataFrame(data)
df

In [None]:
plt.boxplot(df['점수'])
plt.title('점수 박스플롯')
plt.show()

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px

# 데이터프레임 생성
data = {
    '이름': ['김지수', '박영희', '이민준', '최예원', '정우성', '조민수', '한예슬', '백두산', '서태지', '아이유', '강호동', '유재석', '신민아', '하정우', '김하늘'],
    '나이': [28, 22, 21, 30, 37, 34, 29, 45, 48, 25, 41, 46, 38, 35, 37],
    '도시': ['서울', '부산', '대구', '광주', '인천', '서울', '서울', '광주', '대구', '인천', '부산', '서울', '대구', '부산', '서울'],
    '직업': ['의사', '변호사', '회계사', '엔지니어', '배우', '회계사', '의사', '엔지니어', '가수', '가수', '방송인', '방송인', '배우', '배우', '배우'],
    '점수': [88, 92, 200, 85, 95, 78, 88, 95, 64, 82, 91, 89, 85, 90, 93]
}
df = pd.DataFrame(data)

# Plotly를 사용한 박스플롯 생성
fig = px.box(df, y='점수', width=700, height=1000, title='점수에 대한 박스플롯')
fig.show()

상자의 윗부분: Q3(3분위수)  
상자의 아랫부분: Q1(1분위수)  
상자의 길이(Interquartile Range, IQR): Q3 - Q1  
상단 수염: Q3 + 1.5*IQR 이내의 최댓값  
하단 수염: Q1 - 1.5*IQR 이내의 최솟값  
여기서 수염을 넘어가는 점들은 이상치(outliers)로  간주할 수 있습니다.  

In [None]:
df.describe() # 기초통계를 찍고 나오는 25%가 제 1사분위수, 50%가 제 2사분위수, 75%가 제 3사분위수, IQR도 알 수 있음

### 2. 분위수(quantile)

1.5xIQR 공식

In [None]:
Q1 = df['점수'].quantile(0.25) # 제 1사분위수
Q1

In [None]:
Q3 = df['점수'].quantile(0.75) # 제 3사분위수
Q3

In [None]:
IQR = Q3-Q1 # IQR
IQR

In [None]:
df['점수'] <= Q3 + 1.5 * IQR # 상단 수염 이하 값

In [None]:
df[df['점수'] <= Q3 + 1.5 * IQR] # 상단 수염 이하 값

In [None]:
df['점수'] >= Q1 - 1.5 * IQR # 하단 수염 이상 값

In [None]:
df[df['점수'] >= Q1 - 1.5 * IQR] # 하단 수염 이상 값

In [None]:
(df['점수'] <= Q3 + 1.5 * IQR) & (df['점수'] >= Q1 - 1.5 * IQR) # 상단수염, 하단수엄의 교집합

In [None]:
df_filter = df[(df['점수'] <= Q3 + 1.5 * IQR) & (df['점수'] >= Q1 - 1.5 * IQR)]
df_filter

### 3. 임계값 적용

요소들의 범위를 제한하는 메서드입니다  

In [None]:
df['점수'] = df['점수'].clip(lower=70, upper=100)
df

## 실습

학생 점수.csv 파일을 읽어 데이터를 검토해 보세요(이 시험 기간의 날짜는 2022년도로 가정)

결측치를 확인하고 어떻게 처리할지 생각해 보세요

이상치를 확인하고 어떻게 처리할지 생각해 보세요 (시각화도 해보세요)