## 04. Pandas
- 파이썬 기반의 강력하고 사용하기 쉬운 데이터 분석 및 조작 라이브러리

In [1]:
import pandas as pd
import numpy as np
print(pd.__version__)

2.3.1


### Pandas의 핵심 자료구조
- Series
- DataFrame

### Series
- 인덱스(라벨)이 붙은 1차원 배열
- 인덱스 이름을 직접 지정할 수 있음

In [None]:
# 시리즈 생성
# 1. 리스트로 생성
data = [10,20,30,40]
s = pd.Series(data)
print(s)
# 0    10
# 1    20
# 2    30
# 3    40
# dtype: int64

In [None]:
# 2. 인덱스를 직접 지정
data = [10,20,30,40]
s = pd.Series(data, index=["a", "b", "c", "d"])
print(s)
# a    10
# b    20
# c    30
# d    40
# dtype: int64

In [None]:
# 3. 딕셔너리로 시리즈 생성
data = {"서울":100, "부산":200, "대구":300}
s = pd.Series(data)
print(s)
# 서울    100
# 부산    200
# 대구    300
# dtype: int64

In [None]:
# 4. 하나의 값으로 시리즈 생성
s = pd.Series(7, index=["가", "나", "다"])
print(s)
# 가    7
# 나    7
# 다    7
# dtype: int64

In [None]:
# 시리즈의 주요 속성
data = [10,20,30,40]
s = pd.Series(data, index=["a", "b", "c", "d"])

print("values :", s.values) # 실제 데이터 배열
# values : [10 20 30 40]
print("index :", s.index) # 인덱스 객체
# index : Index(['a', 'b', 'c', 'd'], dtype='object')
print("dtype :", s.dtype) # 실제 데이터의 타입
# dtype : int64
print("size :", s.size) # 데이터의 개수
# size : 4
print("shape :", s.shape) # 데이터 배열의 형태
# shape : (4,)
print("name :", s.name) # 시리즈의 이름
# name : None

In [None]:
# 시리즈의 연산
s1 = pd.Series([10,20,30], index=["a", "b", "c"])
s2 = pd.Series([5,6,7], index=["b", "c", "d"])

result = s1 + s2
print(result)
# a     NaN # Not a Number
# b    25.0
# c    36.0
# d     NaN
# dtype: float64

In [None]:
# 정렬되지 않은 인덱스 간 연산
# 인덱스 기준으로 연산후 정렬
s1 = pd.Series([10,20,30], index=["b", "a", "c"])
s2 = pd.Series([5,6,7], index=["c", "b", "a"])

result = s1 + s2
print(result)
# a    27
# b    16
# c    35
# dtype: int64

In [None]:
# 브로드캐스팅
s = pd.Series([5,10,15], index=["a", "b", "c"])

print(s + 3)
# a     8
# b    13
# c    18
# dtype: int64
print(s * 2)
# a    10
# b    20
# c    30
# dtype: int64

In [None]:
# boolean 연산 및 인덱싱
s = pd.Series([50,60,70,80,90,100], index=["a", "b", "c", "d", "e", "f"])

# boolean 연산(조건식)
mask = s > 70
print(mask)
# a    False
# b    False
# c    False
# d     True
# e     True
# f     True
# dtype: bool
print(s[mask])
# d     80
# e     90
# f    100
# dtype: int64

In [None]:
# 시리즈와 NumPy 배열 연산 / 파이썬 리스트 연산
s = pd.Series([10,20,30], index=["a", "b", "c"])
a = np.array([1,2,3])
l = [100,200,300]

print(s + a)
# a    11
# b    22
# c    33
# dtype: int64
print(s + l)
# a    110
# b    220
# c    330
# dtype: int64

In [None]:
# 실습 1. Series 연습
# 1.
l = [5,10,15,20]
s1 = pd.Series(l)
print(s1)

In [None]:
# 2.
s2 = pd.Series([90,80,85,70], index=["국어", "영어", "수학", "과학"])
print(s2)

In [None]:
# 3.
d3 = {"서울":950, "부산":340, "인천":520}
s3 = pd.Series(d3)
print(s3["인천"])

In [None]:
# 4.
s4 = pd.Series([1,2,3,4])
print(s4.dtype)

In [None]:
# 5.
s1 = pd.Series([3, 5, 7], index=['a', 'b', 'c'])
s2 = pd.Series([10, 20, 30], index=['b', 'c', 'd'])

print(s1 + s2)

In [None]:
# 6.
s = pd.Series([1,2,3,4,5])
s6 = s + 10
print(s6)

### DataFrame
- 2 차원 라벨 데이터 구조
- 시리즈를 모아놓은 것
- 행과 열이 있고, 행과 열에 대해 라벨을 부여할 수 있음

In [None]:
# DataFrame 생성
# 1. 딕셔너리로 생성
data = {
    "이름" : ["name1", "name2", "name3"],
    "나이" : [10, 20, 30],
    "도시" : ["city1", "city2", "city3"]
}

df = pd.DataFrame(data)
print(df)
#     이름	나이	도시
# 0	name1	10	city1
# 1	name2	20	city2
# 2	name3	30	city3

In [None]:
# 2. 리스트의 리스트(2 차원 리스트)로 생성
# columns= 로 라벨 지정 가능
# index= 로 인덱스 지정 가능
data = [[1, "a"], [2, "b"], [3, "c"]]
df = pd.DataFrame(data, columns=["번호", "코드"], index=["A", "B", "C"])
print(df)
#    번호 코드
# A   1  a
# B   2  b
# C   3  c

In [None]:
# 3. 딕셔너리의 리스트로 생성
data = [
    {"이름":"name1", "나이":20, "도시":"city1"},
    {"이름":"name2", "나이":21, "도시":"city2"},
    {"이름":"name3", "나이":25, "도시":"city3"}
]
df = pd.DataFrame(data)
print(df)
#       이름  나이   도시
# 0  name1  20  city1
# 1  name2  21  city2
# 2  name3  25  city3

In [None]:
# 4. 시리즈의 딕셔너리로 생성
s1 = pd.Series(["국어", "수학", "영어"], index=["a", "b", "c"])
s2 = pd.Series([100,90,85], index=["a", "b", "c"])
df = pd.DataFrame({"과목":s1, "점수":s2})
print(df)
#    과목   점수
# a  국어  100
# b  수학   90
# c  영어   85

In [None]:
# 데이터 프레임 기본 속성
data = [
    {"이름":"name1", "나이":20, "도시":"city1"},
    {"이름":"name2", "나이":21, "도시":"city2"},
    {"이름":"name3", "나이":25, "도시":"city3"},
    {"이름":"name4", "나이":35, "도시":"city4"},
]
df = pd.DataFrame(data)

print("shape", df.shape)
# shape (4, 3)
print("columns", df.columns)
# columns Index(['이름', '나이', '도시'], dtype='object')
print("index", df.index)
# index RangeIndex(start=0, stop=4, step=1)
print("dtypes", df.dtypes)
# dtypes 이름    object
# 나이     int64
# 도시    object
# dtype: object
print("values", df.values)
# values [['name1' 20 'city1']
#  ['name2' 21 'city2']
#  ['name3' 25 'city3']
#  ['name4' 35 'city4']]
print("info", df.info)
# info <bound method DataFrame.info of       이름  나이     도시
# 0  name1  20  city1
# 1  name2  21  city2
# 2  name3  25  city3
# 3  name4  35  city4>

In [None]:
# 실습 2. DataFrame 연습
# 1.
data = [['홍길동', 28, '서울'], ['김철수', 33, '부산'], ['이영희', 25, '대구']]
df = pd.DataFrame(data, columns=["이름", "나이", "도시"])
df

In [None]:
# 2.
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
df

In [None]:
# 3.
data = [{'과목': '수학', '점수': 90}, {'과목': '영어', '점수': 85}, {'과목': '과학', '점수': 95}]
df = pd.DataFrame(data)
df

In [None]:
# 4.
data = {'이름': ['민수', '영희', '철수'], '점수': [80, 92, 77]}
df = pd.DataFrame(data, index=["학생1", "학생2", "학생3"])
df

In [None]:
# 5.
kor = pd.Series([90, 85, 80], index=['a', 'b', 'c'])
eng = pd.Series([95, 88, 82], index=['a', 'b', 'c'])

df = pd.DataFrame({"KOR":kor, "ENG":eng})
df

In [None]:
# 6.
data = {'A': [1, 2], 'B': [3, 4]}
df = pd.DataFrame(data, columns=["B", "A"])
df

In [None]:
# 7.
data = [['펜', 1000, 50], ['노트', 2000, 30]]
df = pd.DataFrame(data, columns=["product", "price", "stock"])
df

In [None]:
# 8.
data = {'국가': ['한국', '일본', '미국'], '수도': ['서울', '도쿄', '워싱턴']}
df = pd.DataFrame(data)
print(df["국가"])

### 데이터 탐색과 요약


In [None]:
# 데이터 탐색과 요약
data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원"],
    "나이": [23, 35, 31, 40, 28, 34],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자"]
}
df = pd.DataFrame(data)

In [None]:
# 데이터 앞부분 미리 보기 : head(n)
# 기본값 n = 5
print(df.head())
#     이름  나이  직업
# 0  홍길동  23  학생
# 1  이순신  35  군인
# 2  김유신  31  장군
# 3  강감찬  40  장군
# 4  장보고  28  상인
print(df.head(3))
#     이름  나이  직업
# 0  홍길동  23  학생
# 1  이순신  35  군인
# 2  김유신  31  장군

In [None]:
# 데이터 뒷부분 미리 보기 : tail(n)
# 기본값 n = 5
print(df.tail())
#     이름  나이  직업
# 1  이순신  35  군인
# 2  김유신  31  장군
# 3  강감찬  40  장군
# 4  장보고  28  상인
# 5  이방원  34  왕자
print(df.tail(2))
#     이름  나이  직업
# 4  장보고  28  상인
# 5  이방원  34  왕자

In [None]:
# info() 함수
df.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 6 entries, 0 to 5
# Data columns (total 3 columns):
#  #   Column  Non-Null Count  Dtype 
# ---  ------  --------------  ----- 
#  0   이름      6 non-null      object
#  1   나이      6 non-null      int64 
#  2   직업      6 non-null      object
# dtypes: int64(1), object(2)
# memory usage: 276.0+ bytes

In [None]:
# describe() 함수
df.describe() # 기본적으로 수치형 컬럼만 요약
#            나이
# count   6.000000
# mean   31.833333
# std     5.913262
# min    23.000000
# 25%    28.750000
# 50%    32.500000
# 75%    34.750000
# max    40.000000

df.describe(include="object") # 문자열 컬럼만 요약
#          이름  직업
# count     6   6
# unique    6   5
# top     홍길동  장군
# freq      1   2

df.describe(include="all") # 모든 컬럼만 요약
#          이름         나이   직업
# count     6   6.000000    6
# unique    6        NaN    5
# top     홍길동        NaN   장군
# freq      1        NaN    2
# mean    NaN  31.833333  NaN
# std     NaN   5.913262  NaN
# min     NaN  23.000000  NaN
# 25%     NaN  28.750000  NaN
# 50%     NaN  32.500000  NaN
# 75%     NaN  34.750000  NaN
# max     NaN  40.000000  NaN

### 인덱싱과 슬라이싱

In [27]:
data = {
    "이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원"],
    "나이": [23, 35, 31, 40, 28, 34],
    "직업": ["학생", "군인", "장군", "장군", "상인", "왕자"]
}
df = pd.DataFrame(data)

In [29]:
# 인덱싱

# 특정 컬럼(시리즈) 선택
df["이름"]
# 0    홍길동
# 1    이순신
# 2    김유신
# 3    강감찬
# 4    장보고
# 5    이방원
# Name: 이름, dtype: object

# 여러 컬럼을 리스트로 선택
df[["이름", "나이"]]
#   이름   나이
# 0	홍길동	23
# 1	이순신	35
# 2	김유신	31
# 3	강감찬	40
# 4	장보고	28
# 5	이방원	34

Unnamed: 0,이름,나이
0,홍길동,23
1,이순신,35
2,김유신,31
3,강감찬,40
4,장보고,28
5,이방원,34


In [None]:
# 컬럼명이 영어일 때 . 으로도 조회 가능

df = pd.DataFrame({
    'name': ['Tom', 'Jane', 'Mike'],
    'age': [20, 25, 30]
})

df.name
# 0     Tom
# 1    Jane
# 2    Mike
# Name: name, dtype: object

0     Tom
1    Jane
2    Mike
Name: name, dtype: object

In [None]:
# 슬라이싱

df[1:4]
#   이름   나이  직업
# 1	이순신	35	군인
# 2	김유신	31	장군
# 3	강감찬	40	장군

# 음수 슬라이싱 가능
df[-3:]
#   이름   나이	 직업
# 3	강감찬	40	장군
# 4	장보고	28	상인
# 5	이방원	34	왕자

# 슬라이싱 후 인덱싱
df[1:4]["이름"]
# 1    이순신
# 2    김유신
# 3    강감찬
# Name: 이름, dtype: object

In [None]:
# 슬라이싱은 행 기준으로 작동, 열 기준은 별도의 방법을 사용하도록 강제
df[:, :2] # 에러 발생

### iloc, loc

In [None]:
# iloc
# Integer Location
# 정수 위치 기반의 인덱싱, 슬라이싱
# NumPy의 슬라이싱과 유사

# 단일 행/열 선택
df.iloc[0]
# 이름    홍길동
# 나이     23
# 직업     학생
# Name: 0, dtype: object

df.iloc[:, 1]
# 0    23
# 1    35
# 2    31
# 3    40
# 4    28
# 5    34
# Name: 나이, dtype: int64


In [None]:
# 여러 행/열 선택
df.iloc[1:4]
#   이름   나이  직업
# 1	이순신	35	군인
# 2	김유신	31	장군
# 3	강감찬	40	장군

df.iloc[:, :2]
#   이름   나이
# 0	홍길동	23
# 1	이순신	35
# 2	김유신	31
# 3	강감찬	40
# 4	장보고	28
# 5	이방원	34

df.iloc[1:4, :2]
#   이름   나이
# 1	이순신	35
# 2	김유신	31
# 3	강감찬	40

In [None]:
# Fancy Indexing

df.iloc[[0,2,4]]
#   이름   나이	 직업
# 0	홍길동	23	학생
# 2	김유신	31	장군
# 4	장보고	28	상인

df.iloc[:, [1,2]]
#   나이 직업
# 0	23	학생
# 1	35	군인
# 2	31	장군
# 3	40	장군
# 4	28	상인
# 5	34	왕자

df.iloc[[0,2,4], [1,2]]
#   나이 직업
# 0	23	학생
# 2	31	장군
# 4	28	상인

In [None]:
# 음수 인덱스 슬라이싱

df.iloc[-1]
# 이름    이방원
# 나이     34
# 직업     왕자
# Name: 5, dtype: object

df.iloc[:, -2:]
# 나이	 직업
# 0	23	학생
# 1	35	군인
# 2	31	장군
# 3	40	장군
# 4	28	상인
# 5	34	왕자

In [None]:
# loc
# location
# 라벨의 이름 기준으로 인덱싱 / 슬라이싱
# 시작과 끝을 모두 포함
# 음수 인덱스 사용 불가

# 단일 행/열 선택

df.loc[0]
# 이름    홍길동
# 나이     23
# 직업     학생
# Name: 0, dtype: object

df.loc[:, "이름"]
# 0    홍길동
# 1    이순신
# 2    김유신
# 3    강감찬
# 4    장보고
# 5    이방원
# Name: 이름, dtype: object

In [None]:
# 여러 행/열 선택

df.loc[2:4, ["이름", "직업"]]
#   이름	직업
# 2	김유신	장군
# 3	강감찬	장군
# 4	장보고	상인

In [None]:
# 조건식

mask = df["나이"] >= 30
df.loc[mask, ["이름", "나이"]]
#   이름   나이
# 1	이순신	35
# 2	김유신	31
# 3	강감찬	40
# 5	이방원	34


In [None]:
# 컬럼을 인덱스로 지정

df2 = df.set_index("이름")
print(df2)
#         나이  직업   점수
# 이름			
# 홍길동	23	학생	85
# 이순신	35	군인	90
# 김유신	31	장군	75
# 강감찬	40	장군	88
# 장보고	28	상인	92
# 이방원	34	왕자	95
# 최무선	42	과학자	87
# 정도전	29	정치가	83

df2.loc["이순신"]
# 나이    35
# 직업    군인
# 점수    90
# Name: 이순신, dtype: object

df2.loc[["이순신", "강감찬", "장보고"]]
#         나이	직업   점수
# 이름			
# 이순신	35	군인	90
# 강감찬	40	장군	88
# 장보고	28	상인	92

In [None]:
# 행에 라벨이 있을 경우 라벨을 이용해서 인덱싱 / 슬라이싱 가능

s1 = pd.Series(["국어", "수학", "영어"], index=["a", "b", "c"])
s2 = pd.Series([100,90,85], index=["a", "b", "c"])
df = pd.DataFrame({"과목":s1, "점수":s2})

df.loc[["a", "c"], ["과목"]]
#   과목
# a	국어
# c	영어

In [None]:
# 실습 3. DataFrame 연습
data = {
"이름": ["홍길동", "이순신", "김유신", "강감찬", "장보고", "이방원", "최무선", "정도전"],
"나이": [23, 35, 31, 40, 28, 34, 42, 29],
"직업": ["학생", "군인", "장군", "장군", "상인", "왕자", "과학자", "정치가"],
"점수": [85, 90, 75, 88, 92, 95, 87, 83]
}
df = pd.DataFrame(data)
df

In [None]:
# 1.
df.iloc[2:5, 1:3]

In [None]:
# 2.
df.loc[3:6, ["이름", "점수"]]

In [None]:
# 3.
df.iloc[-3:, 2:]

In [None]:
# 4.
df.iloc[1::2]

In [None]:
# 5.
df.loc[4:7, ["나이", "점수"]]

In [None]:
# 6.
df.iloc[::2, ::2]

### 통계함수

In [None]:
data = {
    "상품명": ["무선 이어폰", "스마트 워치", "텀블러", "노트북", "블루투스 스피커", "무드등"],
    "가격": [129000, 250000, 15000, 1200000, 85000, 22000],
    "재고": [23, 12, 54, 5, 17, 31]
}
df = pd.DataFrame(data)

Unnamed: 0,상품명,가격,재고
0,무선 이어폰,129000,23
1,스마트 워치,250000,12
2,텀블러,15000,54
3,노트북,1200000,5
4,블루투스 스피커,85000,17
5,무드등,22000,31


In [None]:
df["가격"].describe()
# count    6.000000e+00
# mean     2.835000e+05
# std      4.571305e+05
# min      1.500000e+04
# 25%      3.775000e+04
# 50%      1.070000e+05
# 75%      2.197500e+05
# max      1.200000e+06
# Name: 가격, dtype: float64

In [None]:
# 평균
df["가격"].mean()
# np.float64(283500.0)

# 중앙값
df["재고"].median()
# 20.0

# 표준편차
df["가격"].std()
# 457130.5065295905

# 분산
df["재고"].var()
# 300.6666666666667

# 값의 개수
df["상품명"].count()
# np.int64(6)

# 최대값
df["가격"].max()
# 1200000

# 최소값
df["재고"].min()
# 5

# 합계
df["가격"].sum()
# np.int64(1701000)

In [None]:
# 최대값의 위치와 최소값의 위치

df.idxmax()
# 상품명    2
# 가격     3
# 재고     2
# dtype: int64

df["재고"].idxmax()
# 2

df.idxmin()
# 상품명    3
# 가격     2
# 재고     3
# dtype: int64

df["가격"].idxmin()
# 2

### 결측값 처리
- 결측값 : 값이 기록되지 않은 상태의 데이터
- NaN : Not a Number

In [None]:
data = {
    "이름": ["서준", "하은", "민준", "서연", np.nan, "지민"],
    "나이": [22, 28, np.nan, 31, 27, 24],
    "점수": [89, np.nan, 83, 90, 88, 93]
}
df = pd.DataFrame(data)
df
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 1	하은	28.0	NaN
# 2	민준	NaN	    83.0
# 3	서연	31.0	90.0
# 4	NaN	   27.0	   88.0
# 5	지민	24.0	93.0

In [None]:
# 결측값 탐지
# isnull : 결측값이 맞으면 True 아니면 False를 반환

df.isnull()
#   이름	 나이	  점수
# 0	False	False	False
# 1	False	False	True
# 2	False	True	False
# 3	False	False	False
# 4	True	False	False
# 5	False	False	False

# 각 컬럼의 결측값의 수
df.isnull().sum()
# 이름    1
# 나이    1
# 점수    1
# dtype: int64

# 데이터의 전체 결측값 수 계산
df.isnull().sum().sum()
# np.int64(3)

In [None]:
# notnull : 결측값이면 True 아니면 False를 반환

df.notnull()
#   이름	 나이	  점수
# 0	True	True	True
# 1	True	True	False
# 2	True	False	True
# 3	True	True	True
# 4	False	True	True
# 5	True	True	True

In [None]:
# dropna : 결측값이 있는 행 삭제

df2 = df.dropna()
df2
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 3	서연	31.0	90.0
# 5	지민	24.0	93.0

In [None]:
# 결측값이 있는 열 삭제
data = {
    "이름": ["서준", "하은", "민준", "서연", "태현", "지민"],
    "나이": [22, 28, np.nan, 31, 27, 24],
    "점수": [89, np.nan, 83, 90, 88, 93]
}
df = pd.DataFrame(data)

df3 = df.dropna(axis=1)
df3
#   이름
# 0	서준
# 1	하은
# 2	민준
# 3	서연
# 4	태현
# 5	지민

In [None]:
# fillna(n) : 결측값을 n으로 대체

df4 = df.fillna(0)
df4
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 1	하은	28.0	0.0
# 2	민준	0.0	    83.0
# 3	서연	31.0	90.0
# 4	태현	27.0	88.0
# 5	지민	24.0	93.0

In [None]:
avg_age = df["나이"].mean()
df["나이"] = df["나이"].fillna(avg_age)
df
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 1	하은	28.0	NaN
# 2	민준	26.4	83.0
# 3	서연	31.0	90.0
# 4	태현	27.0	88.0
# 5	지민	24.0	93.0

In [None]:
# 이전 값으로 결측값 채우기
# ffill = forward fill

df5 = df.fillna(method="ffill")
df5
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 1	하은	28.0	89.0
# 2	민준	26.4	83.0
# 3	서연	31.0	90.0
# 4	태현	27.0	88.0
# 5	지민	24.0	93.0

In [None]:
# 뒤의 값으로 결측값 채우기
# bfill = backward fill

df6 = df.fillna(method="bfill")
df6
#   이름	나이	 점수
# 0	서준	22.0	89.0
# 1	하은	28.0	83.0
# 2	민준	26.4	83.0
# 3	서연	31.0	90.0
# 4	태현	27.0	88.0
# 5	지민	24.0	93.0


In [3]:
# 실습4. 통계함수, 결측값 처리 연습
data = {
"도시": ["서울", "부산", "광주", "대구", np.nan, "춘천"],
"미세먼지": [45, 51, np.nan, 38, 49, np.nan],
"초미세먼지": [20, np.nan, 17, 18, 22, 19],
"강수량": [0.0, 2.5, 1.0, np.nan, 3.1, 0.0]
}
df = pd.DataFrame(data)
df

Unnamed: 0,도시,미세먼지,초미세먼지,강수량
0,서울,45.0,20.0,0.0
1,부산,51.0,,2.5
2,광주,,17.0,1.0
3,대구,38.0,18.0,
4,,49.0,22.0,3.1
5,춘천,,19.0,0.0


In [12]:
# 1.
print("미세먼지 평균값 :", df["미세먼지"].mean())
print("미세먼지 중앙값 :", df["미세먼지"].median())

미세먼지 평균값 : 45.75
미세먼지 중앙값 : 47.0


In [13]:
# 2.
print("초미세먼지 최소값 :", df["초미세먼지"].min())
print("초미세먼지 최대값 :", df["초미세먼지"].max())

초미세먼지 최소값 : 17.0
초미세먼지 최대값 : 22.0


In [6]:
# 3.
df.isnull().sum()

도시       1
미세먼지     2
초미세먼지    1
강수량      1
dtype: int64

In [14]:
# 4.
df2 = df.dropna()
print(df2)
print("초미세먼지 평균 :", df2["초미세먼지"].mean())

   도시  미세먼지  초미세먼지  강수량
0  서울  45.0   20.0  0.0
초미세먼지 평균 : 20.0


In [16]:
# 5.
df3 = df.fillna(0)
print(df3)
print("미세먼지 합계 :", df3["미세먼지"].sum())
print("초미세먼지 합계 :", df3["초미세먼지"].sum())

   도시  미세먼지  초미세먼지  강수량
0  서울  45.0   20.0  0.0
1  부산  51.0    0.0  2.5
2  광주   0.0   17.0  1.0
3  대구  38.0   18.0  0.0
4   0  49.0   22.0  3.1
5  춘천   0.0   19.0  0.0
미세먼지 합계 : 183.0
초미세먼지 합계 : 96.0


In [20]:
# 6.
avg = df["미세먼지"].mean()
df4 = df.copy()
df4["미세먼지"] = df["미세먼지"].fillna(avg)
print(df4)
print("미세먼지 표준편차 :", df4["미세먼지"].std())

    도시   미세먼지  초미세먼지  강수량
0   서울  45.00   20.0  0.0
1   부산  51.00    NaN  2.5
2   광주  45.75   17.0  1.0
3   대구  38.00   18.0  NaN
4  NaN  49.00   22.0  3.1
5   춘천  45.75   19.0  0.0
미세먼지 표준편차 : 4.444097208657794
