## 04. pandas

- 파이썬 기반의 강력하고 사용하기 쉬운 데이터 분석 및 조작 라이브러리

In [93]:
import pandas as pd
import numpy as np

print(pd.__version__)

2.3.3


### Pandas의 핵심 자료 구조
- Series
- DataFrame

### Series
- 인덱스(라벨)가 붙은 1차원 배열
- 인덱스 이름은 직접 지정할 수 있음

In [8]:
# 시리즈 생성
# 1. 리스트 생성
data = [10, 20, 30, 40]
s1 = pd.Series(data)
print(s1, "\n")

# 2. 인덱스를 직접 지정
s2 = pd.Series(data, index=["a", "b", "c", "d"])
print(s2, "\n")

# 3. 딕셔너리로 생성
data1 = {"서울":100, "부산":200, "대구":300}
s3 = pd.Series(data1)
print(s3, "\n")

# 4. 하나의 값으로 시리즈 생성
s4 = pd.Series(7, index=["가", "나", "다"])
print(s4, "\n")

0    10
1    20
2    30
3    40
dtype: int64 

a    10
b    20
c    30
d    40
dtype: int64 

서울    100
부산    200
대구    300
dtype: int64 

가    7
나    7
다    7
dtype: int64 



In [None]:
# 시리즈의 주요 속성
data = [10, 20, 30, 40]
s = pd.Series(data, index=["a", "b", "c", "d"], name="test data")

print("values:", s.values) # 실제 데이터 배열
print("index:", s.index) # 인덱스 객체
print("dtype:", s.dtype) # 실제 데이터의 타입
print("size:", s.size) # 데이터 개수
print("shape:", s.shape) # 배열의 형태
print("name:", s.name) # Series 이름

values: [10 20 30 40]
index: Index(['a', 'b', 'c', 'd'], dtype='object')
dtype: int64
size: 4
shape: (4,)
name: test data


In [11]:
# 시리즈의 연산
s1 = pd.Series([10, 20, 30], index = ["a", "b", "c"])
s2 = pd.Series([5, 6, 7], index = ["c", "b", "d"])

result = s1 + s2
print(result, "\n")

a     NaN
b    26.0
c    35.0
d     NaN
dtype: float64 



In [16]:
# 브로드캐스팅

s = pd.Series([5, 10, 15])
print(s + 3, "\n")
print(s * 3, "\n")

0     8
1    13
2    18
dtype: int64 

0    15
1    30
2    45
dtype: int64 



In [15]:
# 불리언 연산 및 인덱싱
s = pd.Series([50, 60, 70, 80, 90, 100])
mask = s > 70
print(mask, "\n")
print(s[mask], "\n")

0    False
1    False
2    False
3     True
4     True
5     True
dtype: bool 

3     80
4     90
5    100
dtype: int64 



In [None]:
# 1. 파이썬 리스트 [5, 10, 15, 20]을 이용해 Series를 생성하세요.
s1 = pd.Series([5, 10, 15, 20], index = ["ㄱ", "ㄴ", "ㄷ", "ㄹ"], name = "test data")
print(f"s1:\n{s1}\n")

# 2. 값 [90, 80, 85, 70]에 대해 인덱스를 각각 "Korean", "English", "Math", "Science"으로 지정한 Series를 만드세요.
s2 = pd.Series([90, 80, 85, 70], index = ["Korean", "English", "Math", "Science"], name = "Report Card")
print(f"s2:\n{s2}\n")

# 3. {"Seoul": 950, "Busan": 340, "incheon": 520} 딕셔너리를 이용해 Series를 만들고, 인천의 값을 출력하세요.
s3 = pd.Series({"Seoul": 950, "Busan": 340, "Incheon": 520})
print(f"s3:\n{s3}\n")
print(f'Incheon: {s3["Incheon"]}')


s1:
ㄱ     5
ㄴ    10
ㄷ    15
ㄹ    20
Name: test data, dtype: int64

s2:
Korean     90
English    80
Math       85
Science    70
Name: Report Card, dtype: int64

s3:
Seoul      950
Busan      340
Incheon    520
dtype: int64

Incheon: 520


In [34]:
# 4. Series [1, 2, 3, 4]를 만들고, 데이터 타입(dtype)을 출력하세요.
s4 = pd.Series([1, 2, 3, 4], index = ["가", "나", "다", "라"], name = "numbers")
print("s4")
print("values:", s4.values) # 실제 데이터 배열
print("index:", s4.index) # 인덱스 객체
print("dtype:", s4.dtype) # 실제 데이터의 타입
print("size:", s4.size) # 데이터 개수
print("shape:", s4.shape) # 배열의 형태
print("name:", s4.name, "\n") # Series 이름

# 5. 아래 두 Series의 합을 구하세요.
s5_1 = pd.Series([3, 5, 7], index = ["a", "b", "c"])
s5_2 = pd.Series([10, 20, 30], index = ["b", "c", "d"])
s5 = s5_1 + s5_2
print(f"s5:\n{s5}\n")

# 6. Series [1, 2, 3, 4, 5]의 각 값에 10일 더한 Series를 만드세요.
s6 = pd.Series([1, 2, 3, 4, 5], index = ["가", "나", "다", "리", "마"], name = "numbers")
print(f"s6:\n{s6 + 10}\n")

s4
values: [1 2 3 4]
index: Index(['가', '나', '다', '라'], dtype='object')
dtype: int64
size: 4
shape: (4,)
name: numbers 

s5:
a     NaN
b    15.0
c    27.0
d     NaN
dtype: float64

s6:
가    11
나    12
다    13
리    14
마    15
Name: numbers, dtype: int64



### DataFrame

- 2차원 라벨 데이터 구조
- 시리즈를 모아놓은 것
- 행과 열이 있고, 행과 열에 대해 라벨을 부여할 수 있음

In [10]:
# DataFrame 생성

# 1. 딕셔너리로 생성
data = {
    "name": ["Kim", "Lee", "Won"],
    "age": [15, 20, 25],
    "city": ["Seoul", "Busan", "Suwon"]
}
df1 = pd.DataFrame(data)
print(df1)

  name  age   city
0  Kim   15  Seoul
1  Lee   20  Busan
2  Won   25  Suwon


In [9]:
# 2. 리스트의 리스트(2차원 리스트)로 생성
data = [[1, "a"], [2, "b"], [3, "c"]]
df2 = pd.DataFrame(data, columns = ["number", "code"])
print(df2)

   number code
0       1    a
1       2    b
2       3    c


In [8]:
# 3. 딕셔너리의 리스트 생성
data = [
     {"name": "Kim", "age": 20, "city":"Busan"},
     {"name": "Lee", "age": 26, "city":"Daegu"},
     {"name": "Won", "age": 22, "city":"Seoul"},
]
df3 = pd.DataFrame(data, index = ["a", "b", "c"])
print(df3)

  name  age   city
a  Kim   20  Busan
b  Lee   26  Daegu
c  Won   22  Seoul


In [4]:
# 4. Series로 딕셔너리 생성
s1 = pd.Series(["Korean", "English", "Math", "Science"], index = ["a", "b", "c", "d"])
s2 = pd.Series([90, 80, 85, 70], index = ["a", "b", "c", "d"])

df4 = pd.DataFrame({"subject": s1, "score": s2})
print(df4)

   subject  score
a   Korean     90
b  English     80
c     Math     85
d  Science     70


In [3]:
# 데이터 프레임 기본 속성
data = [
     {"name": "Kim", "age": 20, "city":"busan"},
     {"name": "Lee", "age": 26, "city":"Daegu"},
     {"name": "Won", "age": 22, "city":"seoul"},
]
df = pd.DataFrame(data, index = ["a", "b", "c"])

print("Shape:", df.shape)
print("Columns:", df.columns)
print("index:", df.index)
print("dtypes:", df.dtypes)
print("values:", df.values)
print("info:", df.info())

Shape: (3, 3)
Columns: Index(['name', 'age', 'city'], dtype='object')
index: Index(['a', 'b', 'c'], dtype='object')
dtypes: name    object
age      int64
city    object
dtype: object
values: [['Kim' 20 'busan']
 ['Lee' 26 'Daegu']
 ['Won' 22 'seoul']]
<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   city    3 non-null      object
dtypes: int64(1), object(2)
memory usage: 96.0+ bytes
info: None


In [12]:
# 실습2

# 1. 다음 데이터로 DataFrame을 생성하고, 컬럼명을 '이름', '나이', '도시'로 지정하세요.
data = [['홍길동', 28, '서울'], ['김철수', 33, '부산'], ['이영희', 25, '대구']]
df1 = pd.DataFrame(data, columns = ["이름", "나이", "지역"], index = ["직원1", "직원2", "직원3"])
df1

Unnamed: 0,이름,나이,지역
직원1,홍길동,28,서울
직원2,김철수,33,부산
직원3,이영희,25,대구


In [14]:
# 2. 아래와 같은 딕셔너리로 DataFrame을 생성하세요.
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df2 = pd.DataFrame(data, index = ["score1", "score2", "score3"])
df2

Unnamed: 0,A,B
score1,1,4
score2,2,5
score3,3,6


In [None]:
# 3. 아래 데이터를 사용해 DataFrame을 만드세요.
data =  [{'과목': '수학', '점수': 90}, {'과목': '영어', '점수': 85}, {'과목': '과학', '점수': 95}]
df3 = pd.DataFrame(data)
df3

Unnamed: 0,과목,점수
0,수학,90
1,영어,85
2,과학,95


In [17]:
# 4. 아래 데이터를 사용해 DataFrame을 생성하되, 인덱스를 ['학생1', '학생2', '학생3']으로 지정하세요.
data = {'이름': ['민수', '영희', '철수'], '점수': [80, 92, 77]}
df4 = pd.DataFrame(data, index = ["학생1", "학생2", "학생3"])
df4

Unnamed: 0,이름,점수
학생1,민수,80
학생2,영희,92
학생3,철수,77


In [19]:
# 5. 아래 Series 객체 2개를 이용해 DataFrame을 만드세요.
kor = pd.Series([90, 85, 80], index = ["a", "b", "c"])
eng = pd.Series([95, 88, 82], index = ["a", "b", "c"])
df5 = pd.DataFrame({"kor": kor, "eng": eng})
df5

Unnamed: 0,kor,eng
a,90,95
b,85,88
c,80,82


In [23]:
# 6. 아래 딕셔너리로 DataFrame을 만들고, 컬럼 순서를 ["B", "A"]로 지정해 출력하세요.
data = {"A":[1, 2], "B":[3, 4]}
df6 = pd.DataFrame(data, columns = ["B", "A"])
df6

Unnamed: 0,B,A
0,3,1
1,4,2


In [24]:
# 7. 데이터를 DataFrame으로 만들고, 컬럼명을 ["product", "price", "stock"]으로 변경하세요.
data = [["pen", 1000, 50], ["note", 2000, 30]]
df7 = pd.DataFrame(data, columns = ["product", "price", "stock"])
df7

Unnamed: 0,product,price,stock
0,pen,1000,50
1,note,2000,30


In [31]:
# 8. 아래 DataFrame을 생성한 뒤 "국가" 컬럼만 추출하세요.
data = {"Country":["Korea", "Japan", "USA"], "Capital":["Seoul", "Dokyo", "Washington, D.C"]}
df8 = pd.DataFrame(data)
print(df8["Country"])

0    Korea
1    Japan
2      USA
Name: Country, dtype: object


In [32]:
# 데이터 탐색과 요약
data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원"],
    "나이": [23, 35, 31, 40, 28, 34],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


In [None]:
# 데이터 앞부분 미리보기 : head(n), 기본값 n = 5
df.head(3)

Unnamed: 0,이름,나이,직업
0,홍길동,23,학생
1,이순신,35,군인
2,김유신,31,장군


In [35]:
# 데이터 뒷부분 미리보기 : tail(n), 기본값 n = 5
df.tail(3)

Unnamed: 0,이름,나이,직업
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


In [36]:
# info() 함수
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   이름      6 non-null      object
 1   나이      6 non-null      int64 
 2   직업      6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


In [39]:
# describe() 함수
df.describe() # 기본적으로 수치형 컬럼만 요약
df.describe(include = "object")
df.describe(include = "all")

Unnamed: 0,이름,나이,직업
count,6,6.0,6
unique,6,,5
top,홍길동,,장군
freq,1,,2
mean,,31.833333,
std,,5.913262,
min,,23.0,
25%,,28.75,
50%,,32.5,
75%,,34.75,


### 인덱싱과 슬라이싱

In [42]:
# 인덱싱: 컬럼에 대해 인덱싱 적용
# 특정 컬럼(시리즈) 선택
df["이름"]

# 여러 컬럼을 리스트로 선택
df[["이름", "직업"]]

# .으로도 조회가 가능함
df.이름

0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [47]:
# 슬라이싱
df[1:4]
df[-3:]

# 슬라이싱은 행 기준으로 작동, 열 기준은 별도의 방법을 사용
# df[:, 0:2] > KeyError 

Unnamed: 0,이름,나이,직업
3,강감찬,40,장군
4,장보고,28,상인
5,이방원,34,왕자


### iloc, loc

In [None]:
# iloc = Integer Location
    # 정수 위치 기반의 인덱싱, 슬라이싱
    # numpy의 슬라이싱과 유사한 역할
# 단일 행 / 열 선택
df.iloc[0] # 첫 번째 행
df.iloc[:, 1] # 두 번째 열

0    23
1    35
2    31
3    40
4    28
5    34
Name: 나이, dtype: int64

In [51]:
# 여러 행 / 열 동시 선택
df.iloc[1:4]
df.iloc[:, 0:2]
df.iloc[1:4, 0:2]

Unnamed: 0,이름,나이
1,이순신,35
2,김유신,31
3,강감찬,40


In [54]:
# Fancy Indexing

df.iloc[[0, 2, 4]]
df.iloc[[0, 2, 4], [1, 2]]

Unnamed: 0,나이,직업
0,23,학생
2,31,장군
4,28,상인


In [56]:
# 음수 인덱스 슬라이싱
df.iloc[-1]
df.iloc[:, -2:]

Unnamed: 0,나이,직업
0,23,학생
1,35,군인
2,31,장군
3,40,장군
4,28,상인
5,34,왕자


In [58]:
# loc = location 
# 라벨의 이름 기준으로 인덱싱 / 슬라이싱
# 단일 행 / 열 선택
# 시작과 끝 모두 포함
# 음수인덱스 불가
df.loc[0]
df.loc[:, "이름"]

0    홍길동
1    이순신
2    김유신
3    강감찬
4    장보고
5    이방원
Name: 이름, dtype: object

In [60]:
# 여러 행 / 열 선택

df.loc[2:4, ["이름", "직업"]]
df.loc[2:4, "이름":"직업"]

Unnamed: 0,이름,나이,직업
2,김유신,31,장군
3,강감찬,40,장군
4,장보고,28,상인


In [61]:
# 조건식
mask = df["나이"] >= 30
df.loc[mask, ["이름", "나이"]]

Unnamed: 0,이름,나이
1,이순신,35
2,김유신,31
3,강감찬,40
5,이방원,34


In [64]:
# 컬럼을 인덱스로 지정
df2 = df.set_index("이름")
df2
df2.loc["이순신"]

나이    35
직업    군인
Name: 이순신, dtype: object

In [66]:
# 실습3

data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원", "최무선", "정도전"],
    "나이": [23, 35, 31, 40, 28, 34, 42, 29],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자", "과학자", "정치가"],
    "점수": [85, 90, 75, 88, 92, 95, 87, 83]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,직업,점수
0,홍길동,23,학생,85
1,이순신,35,군인,90
2,김유신,31,장군,75
3,강감찬,40,장군,88
4,장보고,28,상인,92
5,이방원,34,왕자,95
6,최무선,42,과학자,87
7,정도전,29,정치가,83


In [68]:
# 1. iloc을 사용해 인덱스 2~5(포함 안함) 행, 1~3(포함 안함) 열만 선택해 출력하세요.
df.iloc[2:5, 1:3]

Unnamed: 0,나이,직업
2,31,장군
3,40,장군
4,28,상인


In [70]:
# 2. loc을 사용해 인덱스 3~6(포함!) 행, '이름'과 '점수' 컬럼만 출력하세요.
df.loc[3:6, ["이름", "점수"]]

Unnamed: 0,이름,점수
3,강감찬,88
4,장보고,92
5,이방원,95
6,최무선,87


In [73]:
# 3. iloc을 사용해, 마지막 3개 행의 '직업'과 '점수' 컬럼만 선택해 출력하세요.
df.iloc[-3:, 2:]

Unnamed: 0,직업,점수
5,왕자,95
6,과학자,87
7,정치가,83


In [74]:
# 4. iloc을 사용해, 홀수번째(1, 3, 5, 7번 인덱스) 행, 모든 열을 선택하세요.
df.iloc[1::2, :]

Unnamed: 0,이름,나이,직업,점수
1,이순신,35,군인,90
3,강감찬,40,장군,88
5,이방원,34,왕자,95
7,정도전,29,정치가,83


In [75]:
# 5. loc을 사용해, 인덱스 4~7번 행, '나이', '점수' 컬럼만 출력하세요.
df.loc[4:7, ["나이", "점수"]]

Unnamed: 0,나이,점수
4,28,92
5,34,95
6,42,87
7,29,83


In [76]:
# 6. iloc을 사용해, 짝수번째(0,2,4,6) 행과 짝수번째(0,2) 열만 선택하세요.
df.iloc[::2, [0, 2]]

Unnamed: 0,이름,직업
0,홍길동,학생
2,김유신,장군
4,장보고,상인
6,최무선,과학자


In [77]:
data = {
    "상품명": ["무선 이어폰", "스마트 워치", "텀블러", "노트북", "블루투스 스피커", "무드등"],
    "가격": [129000, 250000, 15000, 1200000, 85000, 22000],
    "재고": [23, 12, 54, 5, 17, 31]
}
df = pd.DataFrame(data)
df

Unnamed: 0,상품명,가격,재고
0,무선 이어폰,129000,23
1,스마트 워치,250000,12
2,텀블러,15000,54
3,노트북,1200000,5
4,블루투스 스피커,85000,17
5,무드등,22000,31


In [79]:
df.describe(include= "all")

Unnamed: 0,상품명,가격,재고
count,6,6.0,6.0
unique,6,,
top,무선 이어폰,,
freq,1,,
mean,,283500.0,23.666667
std,,457130.5,17.339742
min,,15000.0,5.0
25%,,37750.0,13.25
50%,,107000.0,20.0
75%,,219750.0,29.0


In [88]:
# 평균
df["가격"].mean()

# 중앙값
df["재고"].median()

# 표준편차
df["가격"].std()
df["재고"].std()

# 분산
df["재고"].var()

# 값의 개수
df["상품명"].count()

# 최대값
df["가격"].max()

# 최소값
df["재고"].min()

# 합계
df["가격"].sum()

np.int64(1701000)

In [92]:
# 최대값의 위치와 최소값의 위치
df.idxmax()
df.idxmin()

df["가격"].idxmin()

2

### 결측값 처리
- 결측값: 값이 기록되지 않은 상태의 데이터
- NaN: Not a Number

In [94]:
data = {
    "이름": ["서준", "하은", "민준", "서연", "이안", "지민"],
    "나이": [22, 28, np.nan, 31, 27, 24],
    "점수": [89, np.nan, 83, 90, 88, 93]
}
df = pd.DataFrame(data)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [98]:
# 결측값 탐지
# isnull: 결측값이 맞으면 True, 아니면 False
df.isnull()

# 각 컬럼의 결측값의 수 계산
df.isnull().sum()

# 데이터의 전체 결측값 수 계산
df.isnull().sum().sum()

np.int64(2)

In [99]:
# notnull 결측값이 아니면 True, 맞으면 False
df.notnull()

Unnamed: 0,이름,나이,점수
0,True,True,True
1,True,True,False
2,True,False,True
3,True,True,True
4,True,True,True
5,True,True,True


In [102]:
# dropna 결측값이 있는 행을 삭제
df2 = df.dropna()
df2

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [None]:
# 결측값이 있는 열 삭제

df3 = df.dropna(axis = 1)
df3

Unnamed: 0,이름
0,서준
1,하은
2,민준
3,서연
4,이안
5,지민


In [108]:
# fillna: 결측값을 특정 값으로 대체
df4 = df.fillna(0)
df4

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,0.0
2,민준,0.0,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [114]:
avg_age = df["나이"].mean()
df["나이"] =df["나이"].fillna(avg_age)
df

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [116]:
# 이전 값으로 결측값 채우기
df5 = df.ffill()
df5

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,89.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [117]:
# 위의 값으로 결측값 채우기 (backward fill)
df6 = df.bfill()
df6

Unnamed: 0,이름,나이,점수
0,서준,22.0,89.0
1,하은,28.0,83.0
2,민준,26.4,83.0
3,서연,31.0,90.0
4,이안,27.0,88.0
5,지민,24.0,93.0


In [119]:
# 실습4
data = {
    "도시":["서울", "부산", "광주", "대구", np.nan, "춘천"],
    "미세먼지":[45, 51, np.nan, 38, 49, np.nan],
    "초미세먼지":[20, np.nan, 17, 18, 22, 19],
    "강수량":[0.0, 2.5, 1.0, np.nan, 3.1, 0.0]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,미세먼지,초미세먼지,강수량
0,서울,45.0,20.0,0.0
1,부산,51.0,,2.5
2,광주,,17.0,1.0
3,대구,38.0,18.0,
4,,49.0,22.0,3.1
5,춘천,,19.0,0.0


In [136]:
# 1. "미세먼지" 컬럼의 평균과 중앙값을 구하세요.
df1_1 = df["미세먼지"].mean()
df1_2 = df["미세먼지"].median()
print(f"미세먼지 - 평균값: {df1_1}, 중앙값: {df1_2}")

미세먼지 - 평균값: 45.75, 중앙값: 47.0


In [137]:
# 2. "초미세먼지" 컬럼의 최대값과 최소값을 구하세요.
df2_1 = df["초미세먼지"].max()
df2_2 = df["초미세먼지"].min()
print(f"초미세먼지 - 최대값: {df2_1}, 최소값: {df2_2}")

초미세먼지 - 최대값: 22.0, 최소값: 17.0


In [138]:
# 3. 각 컬럼별 결측값 개수를 구하세요.
df3 = df.isnull().sum()
df3

도시       1
미세먼지     2
초미세먼지    1
강수량      1
dtype: int64

In [139]:
# 4. 결측값이 하나라도 있는 행을 모두 삭제한 뒤, 남은 데이터의 "초미세먼지" 평균을 구하세요.
df4 = df.dropna()
df4["초미세먼지"].mean()

np.float64(20.0)

In [140]:
# 5. 결측값을 모두 0으로 채운 뒤, "미세먼지"와 "초미세먼지" 합계를 각각 구하세요.
df5 = df.fillna(0)
df5_1 = df5["미세먼지"].sum()
df5_2 = df5["초미세먼지"].sum()
print(f"합계 - 미세먼지: {df5_1}, 초미세먼지: {df5_2}")

합계 - 미세먼지: 183.0, 초미세먼지: 96.0


In [142]:
# 6. "미세먼지"컬럼의 결측값을 평균값으로 채운 뒤, 그 표준편차를 구하세요.
avg_number = df["미세먼지"].mean()
df["미세먼지"]= df["미세먼지"].fillna(avg_number)
df6 = df["미세먼지"].std()
print(f"미세먼지의 표준편차: {df6:.2f}")

미세먼지의 표준편차: 4.44
