#### 결측치 처리
##### 데이터가 누락되었거나, 또는 데이터의 자료형(숫자 -> 문자 포함)이 다른 경우
##### 결측치 삭제, 결측치 대체

In [26]:
# 결측치 삭제 - 행, 열 삭제

import pandas as pd

df = pd.DataFrame({
    'A': [1, None, 3],
    'B': [4, 5, 6],
    'C': [7, 8, None],
})

# NaN(Not a Number)
print(df)

# 데이터 탐색 - 정보, 결측치 정보
print(df.info())

print(df.isnull())  # bool - True(1) / False(0)
print(df.isnull().sum())

# 결측치가 포함된 모든 행 삭제 - dropna()
# df.dropna(axis=0, inplace=True)
# print(df)

# 특정 칼럼에서 결측치가 포함된 행만 삭제 - dropna(subset=[칼럼명], axis=0)
# df.dropna(axis=0, subset=['C'], inplace=True)
# print(df)

# 특정 열을 삭제 - drop()
# df.drop?
new_df = df.drop('C', axis=1)
print(new_df)

     A  B    C
0  1.0  4  7.0
1  NaN  5  8.0
2  3.0  6  NaN
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       2 non-null      float64
 1   B       3 non-null      int64  
 2   C       2 non-null      float64
dtypes: float64(2), int64(1)
memory usage: 204.0 bytes
None
       A      B      C
0  False  False  False
1   True  False  False
2  False  False   True
A    1
B    0
C    1
dtype: int64
     A  B
0  1.0  4
1  NaN  5
2  3.0  6


In [54]:
# 결측치 대체 - 숫자: 평균, 중앙값으로 대체, 문자: 최빈값으로 대체
import pandas as pd


df = pd.DataFrame({
    'A': [1, None, 3, 4, 5, 6],
    'B': [4, 5, 6, 7, 8, 9],
    'C': [7, 8, None, 9, 10, 11],
    'D': ["sky", "river", "river", None, "river", "sky"]
})
print(df)

# 숫자형 - 평균값
# 'A' 칼럼의 결측치 대체 - fillna()
mean_a = df['A'].mean()
print(mean_a)

# 'C' 칼럼의 결측치 대체 - fillna()
mean_c = df['C'].mean()
print(mean_c)

# df.fillna?
df['A'] = df['A'].fillna(mean_a)
df['C'] = df['C'].fillna(mean_c)
# print(df)

# 문자형 - 최빈값 : mode()
mode_d = df['D'].mode()[0]
print(mode_d)

df['D'] = df['D'].fillna(mode_d)
print(df)

     A  B     C      D
0  1.0  4   7.0    sky
1  NaN  5   8.0  river
2  3.0  6   NaN  river
3  4.0  7   9.0   None
4  5.0  8  10.0  river
5  6.0  9  11.0    sky
3.8
9.0
river
     A  B     C      D
0  1.0  4   7.0    sky
1  3.8  5   8.0  river
2  3.0  6   9.0  river
3  4.0  7   9.0  river
4  5.0  8  10.0  river
5  6.0  9  11.0    sky


In [78]:
# 판다스 내장 함수 - 통계함수, 정렬함수
import pandas as pd

# 통계함수 - max(), min(), mean(), median(), sum(), std()
df = pd.read_csv("cafe.csv")
print(df)

print("평균 :", df['가격'].mean())
print("최대값 :", df['가격'].max())
print("최소값 :", df['가격'].min())
print("중앙값 :", df['가격'].median())

print("최대값의 위치 :", df['가격'].idxmax())

# 사분위수 - quantile(.25)
print("1사분위수 :", df['칼로리'].quantile(.25))
print("3사분위수 :", df['칼로리'].quantile(.75))

# 1사분위수 보다 작은 칼로리 데이터
df[df['칼로리'].quantile(.25) > df['칼로리']]

      메뉴    가격  칼로리     할인가
0  아메리카노  4500   10  3600.0
1   카페라떼  5000  110  4000.0
2   카페모카  5500  250  4400.0
3   카푸치노  5000  110  4000.0
4  에스프레소  4000   20  3200.0
5    허브차  6000  110  4800.0
6     녹차  5000    0  4000.0
평균 : 5000.0
최대값 : 6000
최소값 : 4000
중앙값 : 5000.0
최대값의 위치 : 5
1사분위수 : 15.0
3사분위수 : 110.0


Unnamed: 0,메뉴,가격,칼로리,할인가
0,아메리카노,4500,10,3600.0
6,녹차,5000,0,4000.0


In [88]:
# 정렬 - sort_values() - 매개변수: ascending=True(오름차순), ascending=False (내림차순)
import pandas as pd

df = pd.read_csv("cafe.csv")
print(df)

# '가격'을 기준으로 정렬
df.sort_values("가격", ascending=True)
df.sort_values("가격", ascending=False)

# '가격'을 기준으로 1차 정렬하고(내림차순), 메뉴로 2차 정렬(오름차순)
df.sort_values(["가격", "메뉴"], ascending=[False, True])

      메뉴    가격  칼로리     할인가
0  아메리카노  4500   10  3600.0
1   카페라떼  5000  110  4000.0
2   카페모카  5500  250  4400.0
3   카푸치노  5000  110  4000.0
4  에스프레소  4000   20  3200.0
5    허브차  6000  110  4800.0
6     녹차  5000    0  4000.0


Unnamed: 0,메뉴,가격,칼로리,할인가
5,허브차,6000,110,4800.0
2,카페모카,5500,250,4400.0
6,녹차,5000,0,4000.0
1,카페라떼,5000,110,4000.0
3,카푸치노,5000,110,4000.0
0,아메리카노,4500,10,3600.0
4,에스프레소,4000,20,3200.0


In [102]:
import pandas as pd

df = pd.read_csv("cafe.csv")
print(df)

# groupby()
# df.groupby?
# '원산지' 칼럼 추가
df["원산지"] = ["베트남", "과테말라", "베네수엘라", "베트남", "베트남", "과테말라", "과테말라"]
print(df)

# '원산지'별 데이터 개수 - value_counts()
print(df['원산지'].value_counts())

# '원산지'별 데이터 평균 출력 - 수치형 데이터 : numeric_only=True
df.groupby(['원산지']).mean(numeric_only=True)

      메뉴    가격  칼로리     할인가
0  아메리카노  4500   10  3600.0
1   카페라떼  5000  110  4000.0
2   카페모카  5500  250  4400.0
3   카푸치노  5000  110  4000.0
4  에스프레소  4000   20  3200.0
5    허브차  6000  110  4800.0
6     녹차  5000    0  4000.0
      메뉴    가격  칼로리     할인가    원산지
0  아메리카노  4500   10  3600.0    베트남
1   카페라떼  5000  110  4000.0   과테말라
2   카페모카  5500  250  4400.0  베네수엘라
3   카푸치노  5000  110  4000.0    베트남
4  에스프레소  4000   20  3200.0    베트남
5    허브차  6000  110  4800.0   과테말라
6     녹차  5000    0  4000.0   과테말라
원산지
베트남      3
과테말라     3
베네수엘라    1
Name: count, dtype: int64


Unnamed: 0_level_0,가격,칼로리,할인가
원산지,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
과테말라,5333.333333,73.333333,4266.666667
베네수엘라,5500.0,250.0,4400.0
베트남,4500.0,46.666667,3600.0


In [122]:
# 문자열 함수 - str 속성 사용 : replace(), split(), contains()
import pandas as pd

df = pd.DataFrame({
    'A': ["데이터 분석", "기본 학습서", "퇴근 후 열공"],
    'B': [10, 20, 30],
    'C': ['ab cd', 'AB CD', 'ab cd ']
})
print(df)
print(df.info())

# 문자열 변경 
df['A'] = df['A'].str.replace("분석", "시각화")
print(df)

# df['A'].str.split()[0]
df['D'] = df['A'].str.split().str[0]
print(df)

# 특정 문자열 검색
df['학습서 포함 유무'] = df['A'].str.contains('학습서')
print(df)

         A   B       C
0   데이터 분석  10   ab cd
1   기본 학습서  20   AB CD
2  퇴근 후 열공  30  ab cd 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   A       3 non-null      object
 1   B       3 non-null      int64 
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes
None
         A   B       C
0  데이터 시각화  10   ab cd
1   기본 학습서  20   AB CD
2  퇴근 후 열공  30  ab cd 
         A   B       C    D
0  데이터 시각화  10   ab cd  데이터
1   기본 학습서  20   AB CD   기본
2  퇴근 후 열공  30  ab cd    퇴근
         A   B       C    D  학습서 포함 유무
0  데이터 시각화  10   ab cd  데이터      False
1   기본 학습서  20   AB CD   기본       True
2  퇴근 후 열공  30  ab cd    퇴근      False


In [23]:
# 시계열 데이터 - 시간과 날짜
# object -> datetime 자료형

import pandas as pd

data = {
    'Date1': ["2024-11-10", "2024-11-11", "2024-11-12", "2024-11-13"],
    'Date2': ["2024/11/10", "2024/11/11", "2024/11/12", "2024/11/13"],
    'DateTime1': ["2024-11-10 10:10:10", "2024-11-11 10:20:20", 
                  "2024-11-12 11:30:30", "2024-11-13 11:40:40"],
    'DateTime2': ["2024-11-10 10-10-10", "2024-11-11 10-20-20", 
                  "2024-11-12 11-30-30", "2024-11-13 11-40-40"]
}

df = pd.DataFrame(data)
df

# print(df.info())

# 자료형 변환 - to_datetime(문자형)
df['Date1'] = pd.to_datetime(df['Date1'])
df['Date2'] = pd.to_datetime(df['Date2'])
df['DateTime1'] = pd.to_datetime(df['DateTime1'])
df['DateTime2'] = pd.to_datetime(df['DateTime2'], format="%Y-%m-%d %H-%M-%S")

# print(df.info())

# 'DateTime1' -> 파생 칼럼 생성 - dt속성
df['Year'] = df['DateTime1'].dt.year
df['Month'] = df['DateTime1'].dt.month
df['Day'] = df['DateTime1'].dt.day
df['Hour'] = df['DateTime1'].dt.hour
df['Minute'] = df['DateTime1'].dt.minute
df['Second'] = df['DateTime1'].dt.second
df

# 요일(0-월, 1-화.... 5-토, 6-일)
week = df['DateTime1'].dt.dayofweek
print(week)

# csv 파일 저장
df.to_csv("datetime_data.csv", index=False)

# csv 파일 일기
pd.read_csv("datetime_data.csv")

0    6
1    0
2    1
3    2
Name: DateTime1, dtype: int32


Unnamed: 0,Date1,Date2,DateTime1,DateTime2,Year,Month,Day,Hour,Minute,Second
0,2024-11-10,2024-11-10,2024-11-10 10:10:10,2024-11-10 10:10:10,2024,11,10,10,10,10
1,2024-11-11,2024-11-11,2024-11-11 10:20:20,2024-11-11 10:20:20,2024,11,11,10,20,20
2,2024-11-12,2024-11-12,2024-11-12 11:30:30,2024-11-12 11:30:30,2024,11,12,11,30,30
3,2024-11-13,2024-11-13,2024-11-13 11:40:40,2024-11-13 11:40:40,2024,11,13,11,40,40
