### **Day 2: Pandas로 데이터 조작하기 해설집**

Pandas를 활용한 데이터 조작 문제집의 해설입니다. 문제의 상세한 설명과 함께 정답 코드를 확인해 보세요.

---

#### **1. 붓꽃 데이터셋 (Iris Dataset)**

**문제 1. 데이터 불러오기 및 탐색**
* **문제 설명:** scikit-learn에서 붓꽃 데이터를 불러와 DataFrame으로 만드세요. `df.shape`와 `df.columns`를 사용하여 데이터의 크기와 열 이름을 확인하세요.
* **HINT:** `load_iris()` 함수로 데이터를 불러온 후, `pd.DataFrame()`으로 DataFrame을 만들고 `columns`에 `iris.feature_names`를 지정해 보세요.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
print("데이터 크기:", df.shape)
print("열 이름:", df.columns)
# 예상 출력: 데이터의 크기 (150, 4)와 열 이름

**문제 2. 특정 조건으로 데이터 선택**
* **문제 설명:** 'species' 열의 값이 'setosa'인 행만 필터링하여 새로운 DataFrame을 만드세요.
* **HINT:** `df['species'] == 'setosa'`라는 불리언 조건으로 DataFrame을 필터링해 보세요.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

setosa_df = df[df['species'] == 'setosa']
print(setosa_df)
# 예상 출력: 'setosa' 종으로만 구성된 DataFrame

**문제 3. 그룹별 평균 계산**
* **문제 설명:** 'species' 열을 기준으로 데이터를 그룹화하고, 각 그룹의 'sepal length (cm)' 평균을 계산하세요.
* **HINT:** `df.groupby()`를 사용하여 'species'로 그룹화한 뒤, `['sepal length (cm)'].mean()`으로 평균을 구하세요.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

avg_sepal_length = df.groupby('species')['sepal length (cm)'].mean()
print(avg_sepal_length)
# 예상 출력: 종별 sepal length의 평균

**문제 4. 행과 열을 인덱스로 선택**
* **문제 설명:** `.loc`를 사용하여 50번째 행의 'petal length (cm)' 값을 선택하세요.
* **HINT:** `.loc`는 라벨을 기반으로 데이터를 선택합니다. `df.loc[행라벨, 열라벨]` 형태로 사용해 보세요.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

petal_length = df.loc[50, 'petal length (cm)']
print(petal_length)
# 예상 출력: 붓꽃 데이터의 특정 값

**문제 5. 데이터 정렬**
* **문제 설명:** 'petal length (cm)' 열을 기준으로 데이터를 내림차순으로 정렬하세요.
* **HINT:** `.sort_values()` 메서드를 사용하고, `by='컬럼명'`과 `ascending=False` 옵션을 지정해 보세요.

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

sorted_df = df.sort_values(by='petal length (cm)', ascending=False)
print(sorted_df)
# 예상 출력: 'petal length (cm)' 값이 큰 순서대로 정렬된 DataFrame

---

#### **2. 당뇨병 데이터셋 (Diabetes Dataset)**

**문제 1. 데이터 불러오기 및 통계 요약**
* **문제 설명:** scikit-learn에서 당뇨병 데이터를 불러와 DataFrame으로 만드세요. `.describe()` 메서드를 사용하여 각 열의 통계량을 요약하세요.
* **HINT:** `load_diabetes()` 함수로 데이터를 불러온 후 `pd.DataFrame()`으로 만드세요. `diabetes.feature_names`를 `columns`로 지정해야 합니다.

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd

diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target
print(df.describe())
# 예상 출력: 각 열의 count, mean, std 등 요약 통계

**문제 2. 여러 조건으로 데이터 필터링**
* **문제 설명:** 'age'가 0.05보다 크고 'bmi'가 0.04보다 작은 행만 필터링하여 DataFrame을 만드세요.
* **HINT:** 두 개의 조건을 `&` 연산자로 연결하고, 각 조건을 괄호로 묶어주세요. (예: `df[(조건1) & (조건2)]`)

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

filtered_df = df[(df['age'] > 0.05) & (df['bmi'] < 0.04)]
print(filtered_df)
# 예상 출력: 두 조건을 모두 만족하는 행들로만 구성된 DataFrame

**문제 3. 새로운 열 생성**
* **문제 설명:** 'bmi' 열과 'bp' 열을 사용하여 'bmi_bp_ratio'라는 새로운 열을 만드세요. (bmi / bp)
* **HINT:** `df['새로운 컬럼명'] = df['기존 컬럼1'] / df['기존 컬럼2']` 형태로 새로운 열을 생성해 보세요.

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

df['bmi_bp_ratio'] = df['bmi'] / df['bp']
print(df.head())
# 예상 출력: 'bmi_bp_ratio' 열이 추가된 DataFrame

**문제 4. 그룹별 평균 BMI 계산**
* **문제 설명:** 'sex' 열을 기준으로 데이터를 그룹화하고, 각 그룹의 'bmi'에 대한 평균(mean)과 표준편차(std)를 한 번에 계산하세요.
* **HINT:** `df.groupby()`를 사용하여 그룹화한 뒤, `['bmi'].agg(['mean', 'std'])` 메서드를 적용해 보세요.

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

avg_bmi_by_sex = df.groupby('sex')['bmi'].agg(['mean', 'std'])
print(avg_bmi_by_sex)
# 예상 출력: 성별 bmi의 평균과 표준편차

**문제 5. 'target' 열의 값 빈도 계산**
* **문제 설명:** 'target' 열의 고유한 값들과 그 빈도를 계산하세요.
* **HINT:** `.value_counts()` 메서드를 사용하면 Series 내의 고유한 값들의 빈도를 계산할 수 있습니다.

In [None]:
from sklearn.datasets import load_diabetes
import pandas as pd
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df['target'] = diabetes.target

target_counts = df['target'].value_counts()
print(target_counts)
# 예상 출력: target 값의 빈도 수

---

#### **3. 캘리포니아 주택 가격 데이터셋 (California Housing Dataset)**

**문제 1. 데이터 불러오기 및 통계 요약**
* **문제 설명:** scikit-learn에서 캘리포니아 주택 데이터를 불러와 DataFrame으로 만드세요. `.describe()` 메서드를 사용하여 각 열의 통계량을 요약하세요.
* **HINT:** `fetch_california_housing()` 함수로 데이터를 불러온 후 `pd.DataFrame()`으로 만드세요. `housing.feature_names`를 `columns`로 지정해야 합니다.

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd

# 코드를 작성하세요
# 예상 출력: 각 열의 count, mean, std 등 요약 통계

**문제 2. 특정 조건으로 데이터 선택**
* **문제 설명:** 'median_income'이 8.0보다 큰 행만 필터링하여 DataFrame을 만드세요.
* **HINT:** `df['median_income'] > 8.0`이라는 불리언 조건으로 DataFrame을 필터링해 보세요.

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
housing = fetch_california_housing()
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['target'] = housing.target

# 코드를 작성하세요
# 예상 출력: 'median_income'이 8.0보다 큰 행들로만 구성된 DataFrame

**문제 3. 새로운 열 생성**
* **문제 설명:** 'households' 열과 'population' 열을 사용하여 'population_per_household'라는 새로운 열을 만드세요. (population / households)
* **HINT:** `df['새로운 컬럼명'] = df['기존 컬럼1'] / df['기존 컬럼2']` 형태로 새로운 열을 생성해 보세요.

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
housing = fetch_california_housing()
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['target'] = housing.target

# 코드를 작성하세요
# 예상 출력: 'population_per_household' 열이 추가된 DataFrame

**문제 4. 'ocean_proximity' 열의 값 빈도 계산**
* **문제 설명:** 'ocean_proximity' 열의 고유한 값들과 그 빈도를 계산하세요.
* **HINT:** `.value_counts()` 메서드를 사용하면 Series 내의 고유한 값들의 빈도를 계산할 수 있습니다.

In [None]:
import pandas as pd
data = {
    'ocean_proximity': ['NEAR BAY', '<1H OCEAN', 'NEAR BAY', 'INLAND', '<1H OCEAN'],
    'median_income': [3.87, 4.21, 5.01, 2.50, 6.15]
}
df = pd.DataFrame(data)

# 코드를 작성하세요
# 예상 출력: ocean_proximity 값의 빈도 수

**문제 5. 데이터 정렬**
* **문제 설명:** 'median_house_value' 열을 기준으로 데이터를 오름차순으로 정렬하세요.
* **HINT:** `.sort_values()` 메서드를 사용하고 `by='컬럼명'`을 지정해 보세요. `ascending=True`가 기본값이므로 생략할 수 있습니다.

In [None]:
from sklearn.datasets import fetch_california_housing
import pandas as pd
housing = fetch_california_housing()
df = pd.DataFrame(housing.data, columns=housing.feature_names)
df['target'] = housing.target
df.rename(columns={'target': 'median_house_value'}, inplace=True)

# 코드를 작성하세요
# 예상 출력: 'median_house_value' 값이 작은 순서대로 정렬된 DataFrame