# 1. 환경 설정 및 데이터 불러오기  

🔹 **핵심 라이브러리**  
- `pandas` : 표 형태의 데이터를 다루는 핵심 라이브러리 (**별칭 → `pd`**)  
- `seaborn` : 데이터 시각화 라이브러리이자, **유명한 예제 데이터 셋** 포함  

🔹 **Colab에서 데이터 로딩 방법**  
- 로컬 파일(`d:/data/iris.csv`) 직접 로드는 **Colab에서 번거로움**  
- ✅ 대신 `seaborn` 내장 데이터 셋 활용 → 어떤 환경에서도 동일 실행 가능  
- → **재현성(Repeatability)** 확보 & **좋은 실습 습관**

In [60]:
# 데이터 분석의 핵심 라이브러리 pandas를 pd라는 별칭으로 불러옵니다.
import pandas as pd
# 데이터 시각화 및 예제 데이터셋 로드를 위한 seaborn 라이브러리를 sns라는 별칭으로 불러옵니다.
import seaborn as sns

In [61]:
# seaborn 라이브러리에 내장된 iris 데이터셋을 DataFrame 형태로 불러옵니다.
# Colab 환경에서는 이 방식이 파일 경로 문제 없이 가장 편리하고 재현성이 높습니다.
df = sns.load_dataset('iris')

In [62]:
# 데이터가 잘 불러와졌는지 첫 5개 행을 확인합니다.
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


# 2. 데이터 훑어보기 (Data Exploration)  

데이터를 분석하기 전, **데이터의 생김새를 파악**하는 것은 매우 중요합니다.  
👉 마치 요리를 시작하기 전, **재료 상태를 확인하는 과정**과 같습니다.  

🔹 **주요 탐색 함수**  
- `df.info()` : 전체적인 요약 정보 (행 개수, non-null 수, 데이터 타입 등)  
- `df.shape` : 데이터프레임의 **형태(행, 열)** 확인  
- `df.dtypes` : 각 컬럼의 **데이터 타입** 확인  
- `df.columns` : **컬럼 이름** 목록 확인  
- `df.head()` / `df.tail()` : 데이터 **앞/뒤 일부 미리보기**  
- `df['컬럼명'].unique()` : 특정 컬럼의 **고윳값(unique values)** 확인 (범주형 데이터 확인 시 유용)  

In [63]:
# df.info(): 데이터프레임의 전반적인 정보를 요약합니다.
# 각 컬럼의 이름, non-null 데이터 개수, 데이터 타입을 한눈에 파악할 수 있습니다.
print("--- df.info() ---\n")
df.info()

--- df.info() ---

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [64]:
# df.shape: 데이터프레임의 (행, 열) 개수를 튜플로 반환합니다.
print("--- df.shape ---")
print(f"데이터 형태: {df.shape}")
print(f"총 행의 개수: {df.shape[0]}")
print(f"총 열(컬럼)의 개수: {df.shape[1]}")

--- df.shape ---
데이터 형태: (150, 5)
총 행의 개수: 150
총 열(컬럼)의 개수: 5


In [65]:
# df.dtypes: 각 컬럼의 데이터 타입을 확인합니다.
# object는 보통 문자열을 의미합니다.
print("--- df.dtypes (변경 전) ---")
print(df.dtypes)

--- df.dtypes (변경 전) ---
sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object


In [66]:
# 'species' 컬럼은 종류를 나타내는 범주형 데이터이므로, 'category' 타입으로 변경해주는 것이
# 메모리 효율 및 분석에 용이 -> .astype() 함수를 사용.
df['species'] = df['species'].astype('category')
print("--- df.dtypes (변경 후) --- \n")
print(df.dtypes)

--- df.dtypes (변경 후) --- 

sepal_length     float64
sepal_width      float64
petal_length     float64
petal_width      float64
species         category
dtype: object


In [67]:
# df.columns: 데이터프레임의 모든 컬럼 이름을 확인합니다.
print("--- df.columns ---")
print(df.columns)

--- df.columns ---
Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')


In [68]:
# df.head(n): 데이터의 첫 n개 행을 보여줍니다. (기본값 n=5)
print("--- df.head() ---")
print(df.head())

--- df.head() ---
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


In [69]:
# df.tail(n): 데이터의 마지막 n개 행을 보여줍니다. (기본값 n=5)
print("--- df.tail() ---")
print(df.tail())

--- df.tail() ---
     sepal_length  sepal_width  petal_length  petal_width    species
145           6.7          3.0           5.2          2.3  virginica
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica


In [70]:
# 'species' 컬럼에 어떤 종류의 붓꽃이 있는지 고윳값을 확인합니다.
print("--- df['species'].unique() ---\n")
print(df['species'].unique())

--- df['species'].unique() ---

['setosa', 'versicolor', 'virginica']
Categories (3, object): ['setosa', 'versicolor', 'virginica']


# 3. 데이터 추출하기 (Indexing & Slicing)  

데이터프레임에서 원하는 **특정 부분만 선택**하거나, **구간을 잘라내는 기술**입니다.  
👉 Pandas에서는 크게 두 가지 방법을 사용합니다.  

🔹 **`iloc[]` (Integer-location based)**  
- **숫자 인덱스** 기반 데이터 추출  
- `df.iloc[행_숫자, 열_숫자]` 형태 사용 (0부터 시작)  
- 예시: 엑셀에서 **"5행 3열"**을 숫자로 지정하는 방식  

🔹 **`loc[]` (Label-based)**  
- **이름(Label)** 기반 데이터 추출  
- `df.loc[행_이름, 열_이름]` 형태 사용  
- 예시: 엑셀에서 **"Petal_Width 열의 3번 행"**처럼 이름으로 접근하는 방식  

In [71]:
# iloc: [행 인덱스 숫자, 열 인덱스 숫자]
# 2번 행, 3번 열에 있는 값을 추출 (0부터 시작)
value_iloc = df.iloc[2, 3]
print(f"iloc[2, 3] 값: {value_iloc}")

iloc[2, 3] 값: 0.2


In [72]:
# loc: [행 인덱스 이름, 열 이름]
# 3번 행의 'petal_width' 컬럼 값을 추출
value_loc = df.loc[3, 'petal_width']
print(f"loc[3, 'petal_width'] 값: {value_loc}")

loc[3, 'petal_width'] 값: 0.2


In [73]:
# 여러 행과 열을 동시에 추출하기
# 0, 2, 4번 행의 'petal_length', 'petal_width' 컬럼을 추출
subset1 = df.loc[[0, 2, 4], ['petal_length', 'petal_width']]
print("--- 여러 행/열 추출 ---\n")
print(subset1)

--- 여러 행/열 추출 ---

   petal_length  petal_width
0           1.4          0.2
2           1.3          0.2
4           1.4          0.2


In [74]:
# 슬라이싱으로 특정 범위 추출하기
# 5번부터 8번 행의 'petal_length' 컬럼 값을 추출 (loc는 끝번호 포함!)
subset2 = df.loc[5:8, 'petal_length']
print("--- loc 슬라이싱 ---")
print(subset2)

--- loc 슬라이싱 ---
5    1.7
6    1.4
7    1.5
8    1.4
Name: petal_length, dtype: float64


In [75]:
# 0번부터 4번 행, 0번부터 3번 열을 추출 (iloc는 끝번호 미포함!)
subset3 = df.iloc[:5, :4]
print("--- iloc 슬라이싱 ---")
print(subset3)

--- iloc 슬라이싱 ---
   sepal_length  sepal_width  petal_length  petal_width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0          3.6           1.4          0.2


In [76]:
# 특정 컬럼 전체를 선택하는 여러 방법
# 세 가지 방법 모두 동일한 결과를 반환합니다.
col1 = df.loc[:, 'petal_length'] # loc 사용
col2 = df['petal_length']       # 딕셔너리 형태 (가장 일반적)
col3 = df.petal_length          # 객체 속성 형태 (컬럼명에 특수문자나 띄어쓰기 없어야 함)

In [77]:
# 특정 행 전체를 선택하는 방법
# 0번부터 4번 행까지의 모든 컬럼을 선택
row1 = df.iloc[:5, :]
row2 = df.iloc[:5] # 모든 컬럼을 선택할 경우 컬럼 부분 생략 가능
print("--- 행 전체 슬라이싱 ---")
print(row2)

--- 행 전체 슬라이싱 ---
   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


# 4. 조건에 맞는 데이터만 골라내기 (Conditional Selection)  

데이터 분석의 꽃 🌸 → **특정 조건을 만족하는 데이터만 필터링**하는 기능  

🔹 **Boolean Indexing**  
- 조건식 예: `df['컬럼명'] >= 6.5`  
- 결과: 각 행마다 `True` / `False` 값을 가지는 **Series** 반환  
- 이 Series를 `df.loc[]` 안에 넣으면 → `True`인 행만 필터링됨  
- 👉 이것이 **Boolean Indexing의 원리**  

🔹 **다중 조건 결합**  
- `&` (AND) : 두 조건이 **모두 True**여야 함  
- `|` (OR) : 두 조건 중 **하나라도 True**면 됨  
- ⚠️ **주의:** 조건식은 반드시 소괄호 `()`로 묶어야 함  
  - ✅ `(df.col1 > 10) & (df.col2 < 5)`  
  - ❌ `df.col1 > 10 & df.col2 < 5` → 에러 발생  

In [78]:
# 꽃잎의 길이(petal_length)가 6.5 이상인 행들의 모든 컬럼을 보이시오
# df.petal_length >= 6.5 가 boolean Series를 생성하고, loc가 True인 행만 선택
condition1 = df.loc[df.petal_length >= 6.5, :]
# 모든 컬럼을 선택할 경우 컬럼 인덱스는 생략 가능
condition2 = df.loc[df.petal_length >= 6.5]
print("--- 꽃잎 길이 >= 6.5 ---")
print(condition2.head())

--- 꽃잎 길이 >= 6.5 ---
     sepal_length  sepal_width  petal_length  petal_width    species
105           7.6          3.0           6.6          2.1  virginica
117           7.7          3.8           6.7          2.2  virginica
118           7.7          2.6           6.9          2.3  virginica
122           7.7          2.8           6.7          2.0  virginica


In [79]:
# 꽃잎의 길이가 6.5 이상인 행들의 인덱스 번호를 보이시오
indices = df.loc[df.petal_length >= 6.5].index
print("--- 해당 조건의 인덱스 ---")
print(indices)

--- 해당 조건의 인덱스 ---
Index([105, 117, 118, 122], dtype='int64')


In [80]:
# 꽃잎의 길이가 3.5 ~ 3.8 사이인 행들의 모든 컬럼을 보이시오
# 각 조건문을 반드시 소괄호 ()로 묶어야 합니다.
between_condition = df.loc[(df.petal_length >= 3.5) & (df.petal_length <= 3.8)]
print("--- 꽃잎 길이 3.5 ~ 3.8 ---")
print(between_condition)

--- 꽃잎 길이 3.5 ~ 3.8 ---
    sepal_length  sepal_width  petal_length  petal_width     species
60           5.0          2.0           3.5          1.0  versicolor
64           5.6          2.9           3.6          1.3  versicolor
79           5.7          2.6           3.5          1.0  versicolor
80           5.5          2.4           3.8          1.1  versicolor
81           5.5          2.4           3.7          1.0  versicolor


In [81]:
# 꽃잎의 길이가 1.3 미만이거나 6.5를 초과하는 행들의 'petal_length'와 'petal_width'를 보이시오
or_condition = df.loc[(df.petal_length < 1.3) | (df.petal_length > 6.5), ['petal_length', 'petal_width']]
print("--- 꽃잎 길이 < 1.3 또는 > 6.5 ---")
print(or_condition)

--- 꽃잎 길이 < 1.3 또는 > 6.5 ---
     petal_length  petal_width
13            1.1          0.1
14            1.2          0.2
22            1.0          0.2
35            1.2          0.2
105           6.6          2.1
117           6.7          2.2
118           6.9          2.3
122           6.7          2.0


In [82]:
# where()를 이용한 조건 검색: 조건에 맞지 않는 값은 NaN(결측치)으로 표시
# dropna()를 붙여주면 결측치 행을 제거하므로 loc와 동일한 결과를 얻을 수 있음
where_condition = df.where(df.petal_length >= 6.5).dropna()
print("--- where() 사용 ---")
print(where_condition.head())

--- where() 사용 ---
     sepal_length  sepal_width  petal_length  petal_width    species
105           7.6          3.0           6.6          2.1  virginica
117           7.7          3.8           6.7          2.2  virginica
118           7.7          2.6           6.9          2.3  virginica
122           7.7          2.8           6.7          2.0  virginica


# 5. 데이터 연산 및 변형 (Operations & Transformation)  

🔹 **Vectorized Operations (벡터화 연산)**  
- Pandas의 가장 큰 장점 중 하나  
- 반복문 없이 **컬럼 전체에 대해 산술 연산** 수행 가능  
- 예시: `df['컬럼명'] + 10` → 해당 컬럼의 모든 값에 **10이 더해진 결과** 반환  
- ✅ 빠르고 효율적인 연산 방식  

🔹 **`apply()` 메소드**  
- 단순 산술 연산을 넘어 **복잡한 로직** 적용 가능  
- **사용자 정의 함수**나 조건부 로직을 컬럼 전체에 적용  
- `lambda` 함수와 함께 사용하면 → **한 줄로 간결하게 구현** 가능  

In [83]:
# 'species' 컬럼을 제외한 모든 숫자형 컬럼 선택하기
# 방법 1: df.columns 비교
numeric_df = df.loc[:, df.columns != 'species']
# 방법 2: isin() 함수 사용 (여러 개 제외 시 유용)
numeric_df2 = df.loc[:, ~df.columns.isin(['species'])]

In [84]:
# 모든 숫자 값에 10을 더하기 (벡터화 연산)
added_df = numeric_df + 10
print("--- 모든 값에 10 더하기 ---")
print(added_df.head())

--- 모든 값에 10 더하기 ---
   sepal_length  sepal_width  petal_length  petal_width
0          15.1         13.5          11.4         10.2
1          14.9         13.0          11.4         10.2
2          14.7         13.2          11.3         10.2
3          14.6         13.1          11.5         10.2
4          15.0         13.6          11.4         10.2


In [85]:
# 두 컬럼의 같은 행 값들끼리 연산
sepal_petal_sum = df['sepal_length'] + df['petal_length']
print("--- 두 컬럼의 합 ---")
print(sepal_petal_sum.head())

--- 두 컬럼의 합 ---
0    6.5
1    6.3
2    6.0
3    6.1
4    6.4
dtype: float64


In [86]:
# apply와 lambda를 이용한 조건부 연산
# 꽃잎의 길이가 5 이상인 경우에는 -1을, 5 미만인 경우에는 1을 곱하는 값을 생성
# tmp 시리즈는 각 행의 petal_length가 5 이상이면 -1, 아니면 1의 값을 가짐
tmp = df['petal_length'].apply(lambda x: -1 if x >= 5 else 1)

In [87]:
# 원본 petal_length에 tmp를 곱하여 조건부로 부호를 변경
conditional_mult = df['petal_length'] * tmp
print("--- 조건부 연산 결과 ---")
print(conditional_mult.head())

--- 조건부 연산 결과 ---
0    1.4
1    1.4
2    1.3
3    1.5
4    1.4
Name: petal_length, dtype: float64


# 6. 데이터 요약하기 (Descriptive Statistics)  

데이터의 특징을 파악하기 위해 **기본적인 통계량**을 계산  

🔹 **주요 통계 함수**  
- `sum()` : 합계  
- `mean()` : 평균  
- `median()` : 중앙값  
- `max()` / `min()` : 최댓값 / 최솟값  
- `std()` / `var()` : 표준편차 / 분산  
- `describe()` : **매우 중요!**  
  - 숫자형 컬럼들의 주요 통계량을 한 번에 요약  
  - (개수, 평균, 표준편차, 최소/최대, 사분위수)

In [88]:
# 숫자형 컬럼만 다시 추출
df2 = df.loc[:, df.columns != 'species']

print("--- 컬럼별 합계 (sum) ---")
print(df2.sum())
print("\n--- 컬럼별 평균 (mean) ---")
print(df2.mean())

--- 컬럼별 합계 (sum) ---
sepal_length    876.5
sepal_width     458.6
petal_length    563.7
petal_width     179.9
dtype: float64

--- 컬럼별 평균 (mean) ---
sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64


In [89]:
# describe(): 숫자형 컬럼들의 핵심 통계 정보를 한눈에 보여주는 가장 유용한 함수
print("--- 기초 통계 정보 요약 (describe) ---")
print(df2.describe())

--- 기초 통계 정보 요약 (describe) ---
       sepal_length  sepal_width  petal_length  petal_width
count    150.000000   150.000000    150.000000   150.000000
mean       5.843333     3.057333      3.758000     1.199333
std        0.828066     0.435866      1.765298     0.762238
min        4.300000     2.000000      1.000000     0.100000
25%        5.100000     2.800000      1.600000     0.300000
50%        5.800000     3.000000      4.350000     1.300000
75%        6.400000     3.300000      5.100000     1.800000
max        7.900000     4.400000      6.900000     2.500000


# 7. 데이터 수정, 추가, 삭제 (Modification, Addition, Deletion)  

데이터프레임의 **구조나 값**을 직접 변경하는 방법  
👉 원본 보존을 위해 `.copy()` 사용 습관 권장  

🔹 **값 수정**  
- `loc` 또는 `iloc`로 위치 지정 후 새로운 값 할당  
- 예: `df.loc[행, 열] = 새로운값`  

🔹 **행/열 추가**  
- **열 추가** : `df['새컬럼명'] = 값`  
- **행 추가** : `.loc[새인덱스]` 로 추가  
  - 또는 `pd.concat` 으로 데이터프레임 합치기  

🔹 **행/열 삭제**  
- `.drop()` 메소드 사용  
- `index=` 또는 `columns=` 인자 지정 후 삭제  

In [90]:
# 원본 데이터 보존을 위해 데이터프레임을 복사해서 사용합니다.
df3 = df.copy()

In [91]:
# 값 수정
# 1번 행, 2번 열의 값을 5.5로 수정
df3.iloc[1, 2] = 5.5
# 1번 행의 'petal_length' 컬럼 값을 1.1로 수정
df3.loc[1, 'petal_length'] = 1.1
print("--- 값 수정 후 1번 행 ---")
print(df3.iloc[1])

--- 값 수정 후 1번 행 ---
sepal_length       4.9
sepal_width        3.0
petal_length       1.1
petal_width        0.2
species         setosa
Name: 1, dtype: object


In [92]:
# 조건에 맞는 여러 값 동시에 수정
# 꽃잎 길이가 6.5보다 큰 행들의 petal_length 값에 100을 곱함
df3.loc[df.petal_length > 6.5, 'petal_length'] *= 100

In [93]:
#--- 행 추가 ---
# 맨 뒤에 새로운 행 추가
new_idx = df3.shape[0] # 현재 행의 개수를 새 인덱스로 사용
df3.loc[new_idx] = [1.1, 4.5, 3.4, 2.2, 'setosa']
print("--- 맨 뒤에 행 추가 후 ---")
print(df3.tail())

--- 맨 뒤에 행 추가 후 ---
     sepal_length  sepal_width  petal_length  petal_width    species
146           6.3          2.5           5.0          1.9  virginica
147           6.5          3.0           5.2          2.0  virginica
148           6.2          3.4           5.4          2.3  virginica
149           5.9          3.0           5.1          1.8  virginica
150           1.1          4.5           3.4          2.2     setosa


In [94]:
# 중간에 새로운 행 추가 (pd.concat 사용)
new_row = pd.DataFrame([[1.1, 2.2, 3.3, 4.4, 'virginica']], columns=df3.columns)
# 10번 행 앞에 새 행을 삽입
df3 = pd.concat([df3.iloc[:10], new_row, df3.iloc[10:]], ignore_index=True)

In [95]:
#--- 열 추가 ---
# 맨 뒤에 새로운 열 추가
df3['petal_area'] = df3['petal_length'] * df3['petal_width']
print("--- 열 추가 후 ---")
print(df3.head())

--- 열 추가 후 ---
   sepal_length  sepal_width  petal_length  petal_width species  petal_area
0           5.1          3.5           1.4          0.2  setosa        0.28
1           4.9          3.0           1.1          0.2  setosa        0.22
2           4.7          3.2           1.3          0.2  setosa        0.26
3           4.6          3.1           1.5          0.2  setosa        0.30
4           5.0          3.6           1.4          0.2  setosa        0.28


In [96]:
# 중간에 새로운 열 추가 (insert 사용)
# 2번 인덱스 위치에 'sepal_area'라는 이름의 새 컬럼을 추가
df3.insert(loc=2, column='sepal_area', value=df3['sepal_length'] * df3['sepal_width'])
print("--- 중간에 열 추가 후 ---")
print(df3.head())

--- 중간에 열 추가 후 ---
   sepal_length  sepal_width  sepal_area  petal_length  petal_width species  \
0           5.1          3.5       17.85           1.4          0.2  setosa   
1           4.9          3.0       14.70           1.1          0.2  setosa   
2           4.7          3.2       15.04           1.3          0.2  setosa   
3           4.6          3.1       14.26           1.5          0.2  setosa   
4           5.0          3.6       18.00           1.4          0.2  setosa   

   petal_area  
0        0.28  
1        0.22  
2        0.26  
3        0.30  
4        0.28  


In [97]:
#--- 행/열 삭제 ---
df5 = df.copy()
# 행 삭제 (1번, 3번 인덱스)
df5 = df5.drop(index=[1, 3])

In [98]:
# 인덱스를 삭제하면 중간이 비게 되므로, 인덱스를 재정렬해주는 것이 좋음
df5 = df5.reset_index(drop=True) # drop=True는 기존 인덱스를 버리라는 의미

In [99]:
# 열 삭제 ('petal_length' 컬럼)
df5 = df5.drop(columns='petal_length')
print("--- 행/열 삭제 후 ---")
print(df5.head())

--- 행/열 삭제 후 ---
   sepal_length  sepal_width  petal_width species
0           5.1          3.5          0.2  setosa
1           4.7          3.2          0.2  setosa
2           5.0          3.6          0.2  setosa
3           5.4          3.9          0.4  setosa
4           4.6          3.4          0.3  setosa


# 생각해 보기

🔹 배운 내용을 바탕으로, 아래 문제들을 직접 코드로 수정/작성해 보세요!

### 🌸 Iris 데이터 변수 설명

| 변수명         | 의미                          | 데이터 유형   |
|----------------|-------------------------------|---------------|
| sepal_length   | 꽃받침의 길이 (cm)            | float (연속형) |
| sepal_width    | 꽃받침의 너비 (cm)            | float (연속형) |
| petal_length   | 꽃잎의 길이 (cm)              | float (연속형) |
| petal_width    | 꽃잎의 너비 (cm)              | float (연속형) |
| species        | 붓꽃의 품종 (setosa 등 3종류) | object (범주형) |

---

### 1. 특정 품종의 '왕' 붓꽃 찾기  
- 기존: 꽃잎 길이(`petal_length`)가 6.5 이상인 데이터 필터링  
- 질문: `'virginica' 품종`이면서 동시에 꽃잎 길이가 6.5 이상인 데이터만 찾으려면?  
- 힌트: `&` 연산자로 조건을 결합해 보세요.

In [108]:
# 1번 답안
data1 = df[(df.petal_length>= 6.5) & (df.species == 'virginica')]
data1

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
105,7.6,3.0,6.6,2.1,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica


### 2. 품종별 능력치 비교하기  
- 기존: `df.describe()` → 전체 붓꽃의 평균, 표준편차 확인  
- 질문: 품종(`species`)별로 통계치를 따로 비교하려면?  
- 힌트: `groupby()` 함수를 활용해 보세요.
- **groupby()** : 특정 열 기준으로 데이터를 묶어 통계 계산 → 예) df.groupby("col").mean()


In [112]:
# 2번 답안
print(df.groupby("species").describe())

           sepal_length                                              \
                  count   mean       std  min    25%  50%  75%  max   
species                                                               
setosa             50.0  5.006  0.352490  4.3  4.800  5.0  5.2  5.8   
versicolor         50.0  5.936  0.516171  4.9  5.600  5.9  6.3  7.0   
virginica          50.0  6.588  0.635880  4.9  6.225  6.5  6.9  7.9   

           sepal_width         ... petal_length      petal_width         \
                 count   mean  ...          75%  max       count   mean   
species                        ...                                        
setosa            50.0  3.428  ...        1.575  1.9        50.0  0.246   
versicolor        50.0  2.770  ...        4.600  5.1        50.0  1.326   
virginica         50.0  2.974  ...        5.875  6.9        50.0  2.026   

                                               
                 std  min  25%  50%  75%  max  
species                   

  print(df.groupby("species").describe())


### 3. 가장 긴 꽃잎의 길이는?  
- 기존: `df['petal_length']` → 모든 꽃잎 길이 확인  
- 질문: 그중에서 가장 큰 값 딱 하나만 보려면 어떤 함수를 붙이면 될까요?

In [113]:
# 3번 답안
df['petal_length'].max()

6.9

### 4. 새로운 특징(Feature) 만들기  
- 기존: 꽃잎 길이 × 너비 → `'petal_area'` 컬럼 생성  
- 질문: 꽃잎 길이 ÷ 꽃잎 너비 → `'petal_ratio'` 컬럼을 만들려면?

In [114]:
# 4번 답안
df['petal_ratio'] = df['petal_length'] / df['petal_width']
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_ratio
0,5.1,3.5,1.4,0.2,setosa,7.000000
1,4.9,3.0,1.4,0.2,setosa,7.000000
2,4.7,3.2,1.3,0.2,setosa,6.500000
3,4.6,3.1,1.5,0.2,setosa,7.500000
4,5.0,3.6,1.4,0.2,setosa,7.000000
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,2.260870
146,6.3,2.5,5.0,1.9,virginica,2.631579
147,6.5,3.0,5.2,2.0,virginica,2.600000
148,6.2,3.4,5.4,2.3,virginica,2.347826


### 5. 최강자 TOP 5 선발하기  
- 기존: `df.head()` → 단순히 위에서 5개 확인  
- 질문: **꽃받침 길이(`sepal_length`)** 기준으로 정렬한 뒤, 상위 5개만 보려면?  
- 힌트: `sort_values()` + `head()` 조합!
- **sort_values()** : 특정 열 기준으로 데이터 정렬 → 예) df.sort_values(by="col", ascending=False)
  - **ascending=True** : 오름차순 정렬 (작은 값 → 큰 값, 기본값)      
  - **ascending=False** : 내림차순 정렬 (큰 값 → 작은 값)

In [116]:
# 5번 답안
top5 = df.sort_values(by = 'sepal_length', ascending = False)
top5.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,petal_ratio
131,7.9,3.8,6.4,2.0,virginica,3.2
122,7.7,2.8,6.7,2.0,virginica,3.35
118,7.7,2.6,6.9,2.3,virginica,3.0
117,7.7,3.8,6.7,2.2,virginica,3.045455
135,7.7,3.0,6.1,2.3,virginica,2.652174
