# 소비자빅데이터분석 2025-2:

## Practice 3 - 넘파이 복습 및 데이터프레임 (DataFrame)

## 1. NumPy 복습: 다차원 배열과 통계

### 1.1 다차원 배열 이해

NumPy의 다차원 배열은 여러 개의 차원(dimension)을 가지는 배열입니다. 1차원 배열은 벡터와 같고, 2차원 배열은 행렬과 같습니다. 3차원 이상의 배열도 만들 수 있습니다.

다차원 배열은 이미지 데이터(픽셀의 행, 열, 색상 채널), 시계열 데이터(시간, 측정값), 또는 복잡한 데이터 구조를 표현하는 데 매우 유용합니다. 행렬 연산 등 수학적인 계산을 효율적으로 수행할 수 있도록 최적화되어 있습니다.

In [99]:
import numpy as np

# 2x3 형태의 2차원 NumPy 배열 생성 (임의의 정수)
multi_dim_array = np.random.randint(0, 10, size=(2, 3))
print("2차원 배열:")
multi_dim_array

2차원 배열:


array([[0, 1, 6],
       [0, 5, 1]])

In [100]:
# 생성된 2차원 배열의 shape 속성 출력
print("\n배열 형태 (shape):")
multi_dim_array.shape


배열 형태 (shape):


(2, 3)

In [101]:
# 특정 요소 인덱싱 (예: 첫 번째 행의 두 번째 열)
element = multi_dim_array[0, 1]
print("\n첫 번째 행의 두 번째 열 요소:")
element


첫 번째 행의 두 번째 열 요소:


1

In [102]:
# 특정 행 슬라이싱 (예: 두 번째 행 전체)
row_slice = multi_dim_array[1, :]
print("\n두 번째 행 전체:")
row_slice


두 번째 행 전체:


array([0, 5, 1])

In [103]:
# 특정 열 슬라이싱 (예: 첫 번째 열 전체)
col_slice = multi_dim_array[:, 0]
print("\n첫 번째 열 전체:")
col_slice


첫 번째 열 전체:


array([0, 0])

### 1.2 배열 간 연산 및 브로드캐스팅

NumPy 배열 간의 기본적인 사칙연산(덧셈, 뺄셈, 곱셈, 나눗셈)은 요소별(element-wise)로 수행됩니다. 두 배열의 형태(shape)가 동일할 때 요소별 연산이 가능합니다.

**브로드캐스팅 (Broadcasting):** 서로 다른 형태(shape)를 가진 배열 간에 산술 연산을 수행할 수 있도록 하는 기능입니다. NumPy는 작은 배열을 큰 배열의 형태로 확장하여 요소별 연산이 가능하게 합니다. 가장 흔한 예시는 배열과 스칼라 값 간의 연산입니다.

In [106]:
# 두 개의 동일 형태 배열 생성
array1 = np.array([[1, 2], [3, 4]])
array2 = np.array([[5, 6], [7, 8]])

print("배열 1:")
display(array1)
print("\n배열 2:")
display(array2)

배열 1:


array([[1, 2],
       [3, 4]])


배열 2:


array([[5, 6],
       [7, 8]])

In [107]:
# 요소별 덧셈
array_sum = array1 + array2
print("\n배열 덧셈 (요소별):")
display(array_sum)

# 배열과 스칼라 값 연산 (브로드캐스팅)
scalar_value = 10
broadcast_result = array1 * scalar_value
print("\n배열과 스칼라 곱셈 (브로드캐스팅):")
display(broadcast_result)


배열 덧셈 (요소별):


array([[ 6,  8],
       [10, 12]])


배열과 스칼라 곱셈 (브로드캐스팅):


array([[10, 20],
       [30, 40]])

### 1.3 NumPy 배열 통계

NumPy는 배열의 통계량을 계산하는 다양한 메서드를 제공합니다.

*   `np.mean()`: 배열 요소의 평균 계산
*   `np.sum()`: 배열 요소의 합 계산
*   `np.min()`: 배열 요소의 최소값 계산
*   `np.max()`: 배열 요소의 최대값 계산
*   `np.std()`: 배열 요소의 표준편차 계산

In [105]:
# 통계량 계산 예시
array_stats = np.array([10, 20, 30, 40, 50])

print("통계량 계산 대상 배열:")
display(array_stats)

print("\n배열의 평균:", np.mean(array_stats))
print("배열의 합:", np.sum(array_stats))
print("배열의 최소값:", np.min(array_stats))
print("배열의 최대값:", np.max(array_stats))
print("배열의 표준편차:", np.std(array_stats))

통계량 계산 대상 배열:


array([10, 20, 30, 40, 50])


배열의 평균: 30.0
배열의 합: 150
배열의 최소값: 10
배열의 최대값: 50
배열의 표준편차: 14.142135623730951


#### 연습 문제: NumPy 복습

아래 코드 셀에 주어진 `exercise_array` 배열을 사용하여 다음 작업을 수행하는 코드를 작성하세요.

1.  `exercise_array`의 모든 요소에 2를 더하세요.
2.  결과 배열의 **평균**을 계산하고 출력하세요.

주어진 코드:

In [109]:
exercise_array = np.array([10, 20, 30, 40])

In [110]:
## 1번

# exercise_array = __________________

In [111]:
## 2번


## 2. Pandas 데이터 프레임 (DataFrame) 활용

### 2.1 DataFrame 생성 및 탐색

Pandas DataFrame은 스프레드시트나 데이터베이스 테이블과 유사한 2차원 레이블드(labeled) 데이터 구조입니다. 서로 다른 데이터 타입을 가질 수 있는 열(columns)들의 모음으로 구성됩니다.

*   **열 (Columns):** 각 열은 특정 변수를 나타내며, 열의 이름으로 접근할 수 있습니다.
*   **행 (Rows):** 각 행은 하나의 관측치(observation) 또는 레코드를 나타냅니다.
*   **인덱스 (Index):** 각 행을 고유하게 식별하는 레이블입니다. 기본적으로는 0부터 시작하는 정수 인덱스를 사용하지만, 다른 데이터 타입(문자열, 날짜 등)을 사용할 수도 있습니다.

DataFrame을 생성하는 가장 일반적인 방법은 딕셔너리(dictionary)를 사용하는 것입니다. 딕셔너리의 키(key)는 열 이름이 되고, 값(value)은 각 열의 데이터를 나타내는 리스트나 NumPy 배열이 됩니다.

In [50]:
import pandas as pd

# 딕셔너리를 사용하여 DataFrame 생성
data = {
    '이름': ['김민준', '박서연', '이도윤', '정하은', '최준우'],
    '나이': [25, 30, 35, 40, 45],
    '도시': ['서울', '부산', '대구', '인천', '광주'],
    '점수': [85.5, 90.2, 78.9, 92.1, 88.7]
}

df_explore = pd.DataFrame(data)

print("생성된 DataFrame:")
display(df_explore.head())

생성된 DataFrame:


Unnamed: 0,이름,나이,도시,점수
0,김민준,25,서울,85.5
1,박서연,30,부산,90.2
2,이도윤,35,대구,78.9
3,정하은,40,인천,92.1
4,최준우,45,광주,88.7


In [51]:
print("\nDataFrame 정보:")
display(df_explore.info())


DataFrame 정보:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   이름      5 non-null      object 
 1   나이      5 non-null      int64  
 2   도시      5 non-null      object 
 3   점수      5 non-null      float64
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


None

In [52]:
print("\nDataFrame 열 이름:")
display(df_explore.columns)


DataFrame 열 이름:


Index(['이름', '나이', '도시', '점수'], dtype='object')

In [53]:
print("\nDataFrame 인덱스:")
display(df_explore.index)


DataFrame 인덱스:


RangeIndex(start=0, stop=5, step=1)

### 2.2 DataFrame 인덱싱 및 선택 (`.loc[]` vs `.iloc[]`)

DataFrame에서 특정 행이나 열 또는 특정 값을 선택할 때 `.loc[]`와 `.iloc[]` 두 가지 주요 속성을 사용합니다. 이 둘의 가장 큰 차이점은 인덱싱 방식입니다.

*   **`.loc[]`:** **레이블(label)** 기반 인덱싱을 사용합니다. 행 인덱스의 레이블 값과 열 이름(레이블)을 기준으로 데이터를 선택합니다. 기본 정수 인덱스를 사용하는 경우에도 정수 '레이블'로 인식합니다. 슬라이싱 시에는 시작 레이블과 끝 레이블 **모두** 포함합니다.
    예: `df.loc[행 레이블, 열 레이블]`

*   **`.iloc[]`:** **정수 위치(integer position)** 기반 인덱싱을 사용합니다. NumPy 배열처럼 0부터 시작하는 정수 위치를 기준으로 데이터를 선택합니다. 슬라이싱 시에는 시작 위치는 포함하고 끝 위치는 **포함하지 않습니다** (Python의 기본 슬라이싱 규칙과 동일).
    예: `df.iloc[행 위치, 열 위치]`

DataFrame의 인덱스가 기본 정수 인덱스일 때는 `.loc[]`에 정수를 사용하면 `.iloc[]`와 결과가 같을 수 있지만, 인덱스가 정수가 아닌 레이블(예: 이름, 날짜)일 때는 반드시 `.loc[]`를 사용해야 합니다. `.iloc[]`는 항상 정수 위치만 사용합니다.

In [54]:
print("원본 DataFrame:")
display(df_explore)

# '나이' 열 선택
print("\n'나이' 열 선택:")
display(df_explore['나이'])

원본 DataFrame:


Unnamed: 0,이름,나이,도시,점수
0,김민준,25,서울,85.5
1,박서연,30,부산,90.2
2,이도윤,35,대구,78.9
3,정하은,40,인천,92.1
4,최준우,45,광주,88.7



'나이' 열 선택:


0    25
1    30
2    35
3    40
4    45
Name: 나이, dtype: int64

In [55]:
# 여러 열 선택 ('이름', '도시')
print("\n'이름', '도시' 열 선택:")
display(df_explore[['이름', '도시']])


'이름', '도시' 열 선택:


Unnamed: 0,이름,도시
0,김민준,서울
1,박서연,부산
2,이도윤,대구
3,정하은,인천
4,최준우,광주


In [56]:
# iloc[]를 사용하여 첫 번째 행 (위치 0) 선택
print("\niloc[]로 첫 번째 행 선택 (위치 0):")
display(df_explore.iloc[0])


iloc[]로 첫 번째 행 선택 (위치 0):


이름     김민준
나이      25
도시      서울
점수    85.5
Name: 0, dtype: object

In [57]:
# loc[]를 사용하여 특정 행 (인덱스 레이블 2) 선택 (기본 정수 인덱스)
print("\nloc[]로 인덱스 레이블 2인 행 선택:")
display(df_explore.loc[2])


loc[]로 인덱스 레이블 2인 행 선택:


이름     이도윤
나이      35
도시      대구
점수    78.9
Name: 2, dtype: object

In [58]:
# loc[]를 사용하여 특정 행 (인덱스 레이블 2)의 '점수' 값 선택
print("\nloc[]로 인덱스 레이블 2인 행의 '점수' 값 선택:")
display(df_explore.loc[2, '점수'])


loc[]로 인덱스 레이블 2인 행의 '점수' 값 선택:


78.9

In [59]:
# iloc[]를 사용하여 세 번째 행 (위치 2)의 네 번째 열 (위치 3, '점수') 값 선택
print("\niloc[]로 위치 (2, 3)의 값 선택:")
display(df_explore.iloc[2, 3])


iloc[]로 위치 (2, 3)의 값 선택:


78.9

#### 연습 문제: DataFrame 인덱싱 및 선택

위에서 생성한 `df_explore` DataFrame을 사용하여 다음 작업을 수행하는 코드를 아래 코드 셀에 작성하세요.

1.  `df_explore`에서 '이름' 열만 선택하여 출력하세요.
2.  `df_explore`에서 첫 번째 행(정수 위치 0)만 `.iloc[]`를 사용하여 선택하여 출력하세요.
3.  `df_explore`에서 두 번째 행(정수 위치 1)의 '점수' 값을 `.iloc[]`를 사용하여 선택하여 출력하세요.

주어진 DataFrame (`df_explore`)은 이미 생성되어 있습니다.

여러분의 코드를 아래에 작성하세요:

In [None]:
## 1번

# df_name = __________
# display(df_name)

In [None]:
## 2번

# df_firstrow = df_explore.iloc[___]
# display(df_firstrow)

In [None]:
## 3번

# df_second_score = _df_explore.iloc[___]
# display(df_second_score)

### 2.3 DataFrame 데이터 조작 (추가, 삭제, 수정)

DataFrame은 유연한 데이터 구조로, 필요에 따라 새로운 열이나 행을 추가하고, 기존의 열이나 행을 삭제하며, 특정 위치의 데이터를 수정할 수 있습니다. 이러한 데이터 조작 기능은 데이터 전처리 및 분석 과정에서 매우 중요합니다.

In [60]:
print("원본 DataFrame:")
display(df_explore)

원본 DataFrame:


Unnamed: 0,이름,나이,도시,점수
0,김민준,25,서울,85.5
1,박서연,30,부산,90.2
2,이도윤,35,대구,78.9
3,정하은,40,인천,92.1
4,최준우,45,광주,88.7


In [61]:
# 새로운 열 '성별' 추가
df_explore['성별'] = ['남', '여', '남', '여', '남']
print("\n'성별' 열 추가 후 DataFrame:")
display(df_explore)


'성별' 열 추가 후 DataFrame:


Unnamed: 0,이름,나이,도시,점수,성별
0,김민준,25,서울,85.5,남
1,박서연,30,부산,90.2,여
2,이도윤,35,대구,78.9,남
3,정하은,40,인천,92.1,여
4,최준우,45,광주,88.7,남


In [62]:
# '도시' 열 삭제
df_explore.drop('도시', axis=1, inplace=True) # axis=1은 열, inplace=True는 원본 수정
print("\n'도시' 열 삭제 후 DataFrame:")
display(df_explore)


'도시' 열 삭제 후 DataFrame:


Unnamed: 0,이름,나이,점수,성별
0,김민준,25,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [63]:
# 인덱스 레이블 1인 행 삭제 (원본 수정 안함)
df_explore_row_dropped = df_explore.drop(1, axis=0) # axis=0은 행
print("\n인덱스 레이블 1인 행 삭제 후 DataFrame (원본 유지):")
display(df_explore_row_dropped)


인덱스 레이블 1인 행 삭제 후 DataFrame (원본 유지):


Unnamed: 0,이름,나이,점수,성별
0,김민준,25,85.5,남
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [64]:
print("\n원본 DataFrame (변경 없음 확인):")
display(df_explore)


원본 DataFrame (변경 없음 확인):


Unnamed: 0,이름,나이,점수,성별
0,김민준,25,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [65]:
# 특정 값 수정 (인덱스 레이블 0인 행의 '나이'를 26으로 변경)
df_explore.loc[0, '나이'] = 26
print("\n인덱스 레이블 0인 행의 '나이' 수정 후 DataFrame:")
display(df_explore)


인덱스 레이블 0인 행의 '나이' 수정 후 DataFrame:


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


#### 연습 문제: 데이터 추가, 삭제, 수정

위에서 배운 데이터 조작 방법을 사용하여 아래 코드를 실행한 후 생성되는 `df_exercise` DataFrame에 대해 다음 작업을 수행하는 코드를 아래 코드 셀에 작성하세요.

1.  `df_exercise`에 새로운 열 'Salary'를 추가하세요. 각 행에 대해 임의의 정수 값을 3000에서 6000 사이로 할당하세요.
2.  'City' 열의 모든 값을 'Seoul'로 수정하세요.
3.  첫 번째 행 (인덱스 0)을 삭제하세요.

In [88]:
import pandas as pd
import numpy as np

data_ex = {
    'Name': ['Kim', 'Lee', 'Park', 'Choi'],
    'Age': [22, 28, 31, 25],
    'City': ['Busan', 'Daegu', 'Incheon', 'Gwangju']
}
df_exercise = pd.DataFrame(data_ex)
print("Original DataFrame for exercise:")
display(df_exercise)

Original DataFrame for exercise:


Unnamed: 0,Name,Age,City
0,Kim,22,Busan
1,Lee,28,Daegu
2,Park,31,Incheon
3,Choi,25,Gwangju


In [None]:
## 1번

# df_exercise['Salary'] = ________
# display(df_exercise)

In [None]:
## 2번

# df_exercise['City'] = _______
# display(df_exercise)

In [None]:
## 3번

# df_explore.drop(__________)
# display(df_exercise)

### 2.4 DataFrame 조건부 선택 및 `copy()`의 역할

데이터 분석 시 특정 조건을 만족하는 데이터만 선택하여 분석하거나 시각화해야 하는 경우가 많습니다. Pandas DataFrame에서는 불리언 인덱싱(Boolean Indexing)을 사용하여 이러한 조건부 선택을 효율적으로 수행할 수 있습니다.

불리언 인덱싱은 조건을 평가한 결과가 `True` 또는 `False` 값으로 이루어진 불리언 시리즈(Boolean Series) 또는 불리언 DataFrame을 사용하여, 해당 위치의 값이 `True`인 행 또는 열만 선택하는 방식입니다.

주로 비교 연산자 (`>`, `<`, `==`, `!=`, `>=`, `<=`)를 사용하여 불리언 시리즈를 생성합니다. 여러 조건을 결합할 때는 논리 연산자 (`&` for AND, `|` for OR, `~` for NOT)를 사용합니다. 이 때 각 조건은 괄호로 묶어 우선순위를 명확히 해야 합니다.

In [66]:
print("원본 DataFrame:")
display(df_explore)

원본 DataFrame:


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [67]:
# '나이'가 30보다 큰 행 선택
age_filter = df_explore['나이'] > 30
print("\n'나이'가 30보다 큰 행:")
display(df_explore[age_filter])


'나이'가 30보다 큰 행:


Unnamed: 0,이름,나이,점수,성별
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [68]:
# '점수'가 90 이상이고 '성별'이 '여'인 행 선택
# 각 조건은 괄호로 묶고, AND 조건은 & 사용
score_gender_filter = (df_explore['점수'] >= 90) & (df_explore['성별'] == '여')
print("\n'점수'가 90 이상이고 '성별'이 '여'인 행:")
display(df_explore[score_gender_filter])


'점수'가 90 이상이고 '성별'이 '여'인 행:


Unnamed: 0,이름,나이,점수,성별
1,박서연,30,90.2,여
3,정하은,40,92.1,여


In [72]:
# copy() 사용하여 복사본 생성
high_score_copy = df_explore[:4].copy()
print("\n'copy한 일부 DataFrame")
display(high_score_copy)


'copy한 일부 DataFrame


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여


In [73]:
# 복사본 수정 (원본에 영향 없음 확인)
high_score_copy.loc[:, '점수'] = high_score_copy['점수'] + 5
print("\n복사본의 '점수' 5점 추가 후:")
display(high_score_copy)

print("\n원본 DataFrame (변경 없음 확인):")
display(df_explore)


복사본의 '점수' 5점 추가 후:


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,90.5,남
1,박서연,30,95.2,여
2,이도윤,35,83.9,남
3,정하은,40,97.1,여



원본 DataFrame (변경 없음 확인):


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여
4,최준우,45,88.7,남


In [76]:
# copy() 사용하지 않고 일부 행을 복사
high_score_not_copy = df_explore[:4]
print("\ncopy 미사용한 일부 DataFrame")
display(high_score_not_copy)


copy 미사용한 일부 DataFrame


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,85.5,남
1,박서연,30,90.2,여
2,이도윤,35,78.9,남
3,정하은,40,92.1,여


In [77]:
# 수정
high_score_not_copy.loc[:, '점수'] = high_score_not_copy['점수'] + 5
print("\n'점수' 5점 추가 후:")
display(high_score_not_copy)

print("\n원본 DataFrame (변경 확인):")
display(df_explore)


'점수' 5점 추가 후:


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,90.5,남
1,박서연,30,95.2,여
2,이도윤,35,83.9,남
3,정하은,40,97.1,여



원본 DataFrame (변경 확인):


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,90.5,남
1,박서연,30,95.2,여
2,이도윤,35,83.9,남
3,정하은,40,97.1,여
4,최준우,45,88.7,남


#### 연습 문제: 조건부 선택 및 `copy()`

아래 코드 셀에 주어진 `df_practice` DataFrame을 사용하여 다음 작업을 수행하는 코드를 작성하세요.

1.  'Score'가 90 이상인 행만 선택하여 `high_score_df` 변수에 저장하고 출력하세요. 이 때 **`.copy()` 메서드를 사용하여 원본 DataFrame과는 독립적인 복사본**을 만드세요.
2.  `high_score_df` DataFrame의 'Score' 열에 5점을 더하여 값을 수정하고, 수정된 `high_score_df` DataFrame을 출력하세요.
3.  원본 `df_practice` DataFrame을 출력하여 'Score' 값이 변경되지 않았는지 확인하세요.

In [89]:
import pandas as pd

data_practice = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace'],
    'Age': [25, 30, 35, 40, 45, 28, 33],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'New York', 'Chicago'],
    'Score': [88, 92, 78, 95, 85, 90, 82]
}
df_practice = pd.DataFrame(data_practice)
print("Original DataFrame for exercise:")
display(df_practice)

Original DataFrame for exercise:


Unnamed: 0,Name,Age,City,Score
0,Alice,25,New York,88
1,Bob,30,Los Angeles,92
2,Charlie,35,Chicago,78
3,David,40,Houston,95
4,Eve,45,Phoenix,85
5,Frank,28,New York,90
6,Grace,33,Chicago,82


In [None]:
## 1번

# high_score_df = df_practice[_______________]_____
# display(high_score_df)

In [None]:
## 2번

# high_score_df = high_score_df[_______________] + __
# display(high_score_df)

In [None]:
## 3번

# display(high_score_df)
# display(df_practice)

### 2.5 DataFrame 기본 통계량 계산

데이터 분석의 핵심 단계 중 하나는 데이터셋의 주요 특징을 요약하는 것입니다. Pandas DataFrame은 숫자형 데이터를 위한 다양한 기술 통계량 계산 메서드를 제공합니다. 이를 통해 데이터의 중심 경향성(평균, 중앙값), 산포도(표준편차, 분산), 분포 형태 등을 파악할 수 있습니다.

주요 기술 통계량 계산 메서드는 다음과 같습니다:

*   `.describe()`: 숫자형 열에 대한 개수(count), 평균(mean), 표준편차(std), 최소값(min), 1사분위수(25%), 중앙값(50%), 3사분위수(75%), 최대값(max)을 한 번에 계산하여 보여줍니다.
*   `.mean()`: 열 또는 DataFrame의 평균을 계산합니다.
*   `.median()`: 열 또는 DataFrame의 중앙값을 계산합니다.
*   `.std()`: 열 또는 DataFrame의 표준편차를 계산합니다.
*   `.min()`: 열 또는 DataFrame의 최소값을 계산합니다.
*   `.max()`: 열 또는 DataFrame의 최대값을 계산합니다.
*   `.count()`: 열 또는 DataFrame의 비결측치(non-null) 개수를 계산합니다.

In [78]:
print("통계량 계산 대상 DataFrame:")
display(df_explore)

# 숫자형 열에 대한 기술 통계 요약
print("\n기술 통계 요약 (.describe()):")
display(df_explore.describe())

통계량 계산 대상 DataFrame:


Unnamed: 0,이름,나이,점수,성별
0,김민준,26,90.5,남
1,박서연,30,95.2,여
2,이도윤,35,83.9,남
3,정하은,40,97.1,여
4,최준우,45,88.7,남



기술 통계 요약 (.describe()):


Unnamed: 0,나이,점수
count,5.0,5.0
mean,35.2,91.08
std,7.596052,5.262319
min,26.0,83.9
25%,30.0,88.7
50%,35.0,90.5
75%,40.0,95.2
max,45.0,97.1


In [79]:
# 특정 열의 평균
print("\n'나이' 열 평균:", df_explore['나이'].mean())

# 특정 열의 중앙값
print("\n'점수' 열 중앙값:", df_explore['점수'].median())

# 특정 열의 최대값
print("\n'나이' 열 최대값:", df_explore['나이'].max())

# 특정 열의 표준편차
print("\n'점수' 열 표준편차:", df_explore['점수'].std())


'나이' 열 평균: 35.2

'점수' 열 중앙값: 90.5

'나이' 열 최대값: 45

'점수' 열 표준편차: 5.262318880493652


#### 연습 문제: 기본 통계량 계산

아래 코드 셀에 주어진 `df_practice` DataFrame을 사용하여 다음 작업을 수행하는 코드를 작성하세요.

1.  `df_practice` DataFrame의 'Age' 열에 대한 **평균**을 계산하고 출력하세요.
2.  `df_practice` DataFrame의 'Score' 열에 대한 **최대값**을 계산하고 출력하세요.

In [90]:
import pandas as pd

data_practice = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace'],
    'Age': [25, 30, 35, 40, 45, 28, 33],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix', 'New York', 'Chicago'],
    'Score': [88, 92, 78, 95, 85, 90, 82]
}
df_practice = pd.DataFrame(data_practice)
print("Original DataFrame for exercise:")
display(df_practice)

Original DataFrame for exercise:


Unnamed: 0,Name,Age,City,Score
0,Alice,25,New York,88
1,Bob,30,Los Angeles,92
2,Charlie,35,Chicago,78
3,David,40,Houston,95
4,Eve,45,Phoenix,85
5,Frank,28,New York,90
6,Grace,33,Chicago,82


In [None]:
## 1번

# df_practice______

In [None]:
## 2번

# df_practice______