### <b>누락된 데이터 처리하기</b>

* 현실 세계의 다양한 데이터 세트는 누락된 데이터를 포함하는 경우가 많다.
* 누락된 데이터를 처리하는 코드를 작성해 보자.
* 누락된 데이터를 다루는 방법은 다양하며, 대표적인 사례는 다음과 같다.

1. <b>값을 0으로</b> 대입하는 방법
  * <b>df.fillna(0)</b>: 누락된 데이터를 0으로 채우기 
2. 해당 특징(feature)의 <b>평균 값</b>을 대입하는 방법
  * <b>df.fillna(df.mean())</b>: 누락된 데이터를 해당 열(column)의 평균으로 채우기

In [None]:
import random
import pandas as pd
import os
import numpy as np
import time
import pandas as pd

#### <b>Pandas로 누락된 데이터 처리하기</b>

* <b>dropna()</b>: NaN 값이 하나라도 포함된 행(row)을 삭제한다.
* <b>dropna(how="all")</b>: 모든 열의 값이 NaN인 행(row)을 삭제한다.
* <b>dropna(how="any")</b>: dropna()과 동일하다.
* <b>dropna(thresh=5)</b>: 누락된 데이터를 제외한 열이 5개 이상이면 해당 행(row)을 남긴다.
* <b>fillna()</b>: 누락된 데이터를 원하는 값으로 채운다.

In [None]:
df = pd.DataFrame([
    [98, np.nan, 88],
    [73, np.nan, np.nan],
    [92, 71, 82],
    [np.nan, np.nan, np.nan],
    [72, 91, 78]
], columns=["Math", "Science", "English"])

print(df)

   Math  Science  English
0  98.0      NaN     88.0
1  73.0      NaN      NaN
2  92.0     71.0     82.0
3   NaN      NaN      NaN
4  72.0     91.0     78.0


In [None]:
# NaN 값이 하나라도 포함된 행(row)을 삭제
processed = df.dropna()
print(processed)

   Math  Science  English
2  92.0     71.0     82.0
4  72.0     91.0     78.0


In [None]:
# 모든 열의 값이 NaN인 행(row)을 삭제
processed = df.dropna(how="all")
print(processed)

   Math  Science  English
0  98.0      NaN     88.0
1  73.0      NaN      NaN
2  92.0     71.0     82.0
4  72.0     91.0     78.0


In [None]:
# 누락된 데이터를 제외한 열이 2개 이상이면 해당 행(row)을 남김
processed = df.dropna(thresh=2)
print(processed)

   Math  Science  English
0  98.0      NaN     88.0
2  92.0     71.0     82.0
4  72.0     91.0     78.0


In [None]:
# 누락된 데이터를 0으로 채우기
processed = df.fillna(0)
print(processed)

   Math  Science  English
0  98.0      0.0     88.0
1  73.0      0.0      0.0
2  92.0     71.0     82.0
3   0.0      0.0      0.0
4  72.0     91.0     78.0


In [None]:
# 누락된 데이터를 해당 열(column)의 평균으로 채우기
processed = df.fillna(df.mean())
print(processed)

    Math  Science    English
0  98.00     81.0  88.000000
1  73.00     81.0  82.666667
2  92.00     71.0  82.000000
3  83.75     81.0  82.666667
4  72.00     91.0  78.000000


In [None]:
# 누락된 데이터를 처리한 뒤에도 원본 df의 값은 유지
print(df)

   Math  Science  English
0  98.0      NaN     88.0
1  73.0      NaN      NaN
2  92.0     71.0     82.0
3   NaN      NaN      NaN
4  72.0     91.0     78.0


#### <b>학생 정보 데이터 세트 다루기</b>

* 학교에서는 학생 정보 관리 프로그램을 사용될 수 있다.
* <b>누락된</b> 데이터를 포함하는 <b>가상의 학생 정보</b>를 생성하여, 파일 형태로 저장해 보자.

#### <b>1. 랜덤 데이터 생성 함수 (누락된 데이터 포함)</b>

* 랜덤 데이터 생성 함수를 작성한다.
* 파이썬(python)의 <b>random 라이브러리</b>를 사용할 수 있다.
* 가상 데이터 세트를 생성하여, <b>누락된 데이터</b> 세트를 다루어 보자.

In [None]:
last_names = [
    "Smith", "Johnson", "Williams", "Jones", "Brown",
    "Davis", "Miller", "Wilson", "Moore", "Taylor",
    "Anderson", "Thomas", "Jackson", "White", "Harris",
    "Martin", "Thompson", "Garcia", "Martinez", "Robinson",
    "Clark", "Rodriguez", "Lewis", "Lee", "Walker",
    "Hall", "Allen", "Young", "Hernandez", "King"
]

first_names = [
    "James", "Mary", "Robert", "Patricia"	, "John",
    "Jennifer", "Michael", "Linda", "David", "Elizabeth",
    "William", "Barbara", "Richard", "Susan", "Joseph",
    "Jessica", "Thomas", "Sarah", "Charles", "Karen",
    "Christopher", "Lisa", "Daniel", "Nancy", "Matthew",
    "Betty", "Anthony", "Margaret", "Mark", "Sandra"
]

departments = [
    "Computer Science",
    "Mechanical Engineering",
    "Biomedical Engineering",
    "Radiology",
    "Psychology",
    None
]

mu = 50
sigma = 10

grades = [1, 2, 3, None]

def generate_name():
    # 랜덤으로 하나의 성(last name) 추출
    last_name = random.choice(last_names)
    # 랜덤으로 하나의 이름(first name) 추출
    first_name = random.choice(first_names)
    return first_name + " " + last_name

def genearte_department():
    # 랜덤으로 하나의 학과(department) 추출
    return random.choice(departments)

def generate_score():
    # 랜덤으로 하나의 성적(score) 추출
    return np.random.normal(mu, sigma, 1)[0]

def generate_grades():
    # 랜덤으로 하나의 학년(grade) 추출
    return random.choice(grades)

#### <b>2. 랜덤 학생 정보 생성하기</b>

* 실질적으로 학생 정보를 100건 포함한 데이터 세트를 생성해 보자.
* 테이블(table) 형태의 데이터에 해당하므로, <b>판다스(Pandas)</b>의 <b>데이터프레임(dataframe)</b> 형태로 저장할 수 있다.

In [None]:
# 학생 정보 생성 함수
def generate_student():
    name = generate_name()
    department = genearte_department()
    score = generate_score()
    grade = generate_grades()

    return name, department, score, grade

def generate_dataset(cnt, path):
    students = []

    # 다수의 학생 데이터 생성 (학번, 이름, 학과, 성적, 학년)
    for id in range(1, cnt + 1):
        name, department, score, grade = generate_student()
        students.append((id, name, department, score, grade))

    df = pd.DataFrame(students, columns=["id", "name", "department", "score", "grade"])
    df.to_csv(path) # 학생 데이터를 엑셀 파일(.csv) 형태로 저장
    df.head()

generate_dataset(100, "students_100.csv")

In [None]:
path = "students_100.csv"

print(f"[File: {path}]")
n = os.path.getsize(path)
print(f"Total size: {n:.2f} bytes.")
print(f"Total size: {n / 1024:.2f} KB.")
print(f"Total size: {n / 1024 / 1024:.2f} MB.")

[File: students_100.csv]
Total size: 5730.00 bytes.
Total size: 5.60 KB.
Total size: 0.01 MB.


#### <b>3. 파일 입력을 통해 데이터 불러오기</b>

* <b>엑셀 파일(.csv)</b>의 경우 <b>판다스(Pandas) 라이브러리</b>를 이용해 <b>데이터프레임(dataframe)</b> 형태로 불러올 수 있다.
  * NaN 값이 하나라도 포함된 행(row)을 삭제한다.

In [None]:
def csv_reader(path, option="any"):
    start_time = time.time()

    students = []
    df = pd.read_csv(path)
    if option == "any":
        # NaN 값이 하나라도 포함된 행(row)을 삭제
        df = df.dropna()
    elif option == "all":
        # 모든 열의 값이 NaN인 행(row)을 삭제
        df = df.dropna(how="all")
    for index, row in df.iterrows():
        id = row["id"]
        name = row["name"]
        department = row["department"]
        score = row["score"]
        grade = row["grade"]
        student = (id, name, department, score, grade)
        students.append(student)

    print(f"Data inserted ({time.time() - start_time:.4f} seconds.)")
    return students

students = csv_reader("students_100.csv", "any")
print(f"데이터 개수: {len(students)}")
print(students[0])
print(students[1])
print(students[2])
print(students[3])
print(students[4])

Data inserted (0.0276 seconds.)
데이터 개수: 73
(1, 'Lisa Young', 'Biomedical Engineering', 54.57530630860605, 2.0)
(3, 'Thomas White', 'Psychology', 65.52733045650996, 2.0)
(5, 'Christopher Hernandez', 'Biomedical Engineering', 44.046702557976616, 3.0)
(6, 'Michael Williams', 'Computer Science', 37.64270972018466, 3.0)
(7, 'Karen Thompson', 'Radiology', 61.41871606581611, 3.0)
