##### 1. 결측치 처리(NaN)

    - isnull() : DataFrame내의 결측치를 확인. Boolean값(True 또는 False)를 반환. True는 결측치. 
    - dropna() : 결측치를 포함하는 행 또는 열을 제거하는데 사용. 기본적으로 행을 제거하지만, 매개변수를 조정하여 열을 제거하도록 설정할 수도 있다. 
    - fillna() : 결측치를 다른 값으로 대체하는데 사용

 

    > 코드는 A, B, C라는 세 개의 열을 가진 DataFame을 생성합니다.          
    > np.nan은 결측치를 의미하므로, A열의 두 번째 값과 B열의 첫 번째 값은 결측치입니다.          
    > 먼저 isnull()함수를 사용하여 각 값이 결측치인지 확인합니다.       
    > 그리고 dropna()함수를 사용하여 결측치를 포함하는 모든 행을 제거합니다.        
    > 이 경우 ,A열의 두 번째 행과 B열의 첫 번째 행에 결측치가 있으므로,        
    > 해당 행들이 제거됩니다.       
    > 마지막으로 fillna(0) 함수를 사용하여 결측치를 0으로 대체합니다.           

In [1]:
import pandas as pd
import numpy as np

# DataFrame 생성
df = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [np.nan, 5, 6],
    'C': [7, 8, 9]
})

# 결측치 확인
print(df.isnull())

# 결측치 제거
df_dropna = df.dropna()
print(df_dropna)


# 결측치를 0으로 채우기
df_fillna = df.fillna(0)
print(df_fillna)


       A      B      C
0  False   True  False
1   True  False  False
2  False  False  False
     A    B  C
2  3.0  6.0  9
     A    B  C
0  1.0  0.0  7
1  0.0  5.0  8
2  3.0  6.0  9


##### 2. 중복된 데이터 처리
 
1) <b> duplicated() </b>
- 각 행이 중복인지 아닌지를 판단. 
- 중복된 행은 True로 표시되고, 중복되지 않은 행은 False로 표시. 

2) <b> drop_duplicates는() </b>
- 중복된 행을 제거. 
- 기본적으로 첫 번째 등장하는 행을 유지하고 그 후에 나타나는 중복 행을 제거합니다. 
- 이 함수는 원본 DataFrame을 수정하지 않고 새로운 DataFrame을 반환합니다.

In [None]:
import pandas as pd
 
# DataFrame 생성
df = pd.DataFrame({
   'A': [1, 2, 2],
   'B': [3, 4, 4],
   'C': [5, 6, 6]
})
 
# 중복 데이터 확인
print(df.duplicated())
 
#0    False
#1    False
#2     True
 
# 중복 데이터 제거
df_dropped = df.drop_duplicates()
print(df_dropped)
 
#   A  B  C
#0  1  3  5
#1  2  4  6

##### 3. 데이터 타입 변환
- astype() : 지정된 데이터 타입으로 변환
- to_datetime() : 문자열을 datetime객체로 변환
- to_numeric() : 숫자로 변환할 수 있는 문자열을 숫자로 변환 
- to_timedelta() : 문자열, 숫자, 또는 timedelta 값을 표현하는 다른 시퀀스를 Timedelta 객체로 변환

In [None]:
# astype()은 Pandas 객체를 지정된 데이터 타입으로 변환합니다. 
# 예를 들어 아래 코드 처럼 DataFrame의 특정 열이 숫자로 되어 있을 때 이를 문자열로 바꾸고 싶을 때 사용할 수 있습니다.

df['column_name'] = df['column_name'].astype(str)

# to_datetime()은 문자열을 datetime객체로 변환하는데 사용됩니다. 
# 이 함수는 다양한 날짜/시간 형식의 문자열을 처리할 수 있습니다. 
# 예를 들어 아래 코드처럼 날짜를 나타내는 문자열이 있고 이를 datetime객체로 변환할 때 사용할 수 있습니다.

df['date_column'] = pd.to_datetime(df['date_column'])


# to_numeric()는 숫자로 변환할 수 있는 문자열을 숫자로 변환합니다. 
# errors 매개변수를 'coerce'로 설정하면 변환할 수 없는 값은 NaN으로 처리됩니다.

df['numeric_column'] = pd.to_numeric(df['numeric_column'], errors='coerce')


# to_timedelta()는 문자열, 숫자, 또는 timedelta 값을 표현하는 다른 시퀀스를 Timedelta 객체로 변환합니다.

df['timedelta_column'] = pd.to_timedelta(df['timedelta_column'])