In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

df = pd.read_csv('../data/nyc_taxi_2020-01.csv',
                usecols=['passenger_count',
                         'total_amount' , 
                         'payment_type'],
                dtype={'passenger_count': np.float32, 
                       'total_amount': np.float32, 
                       'payment_type': np.float32})
df
#데이터를 float32로 읽어온 이유는 ?
#메모리 절약을 위해서라는건 이해함, 하지만 정수형을 float형으로 읽어온 이유는 ?
#결론부터 말하면, 결측치(NaN) 처리를 위해서임.
#정수형 컬럼에 결측치가 있으면, pandas는 해당 컬럼을 float64형으로 자동 변환함.
#따라서, 결측치가 있을 가능성이 있는 정수형 컬럼은 처음부터 float형으로 읽어오는 것이 좋음.
#이 데이터프레임에서는 수가 크지 않기에 float32를 미리 지정하는게 메모리 절약에 도움이 됨.


# float32 사용: NaN 표현 + 메모리 절약 + dtype 일관성.
# 정수 의미 유지 원하면 pandas nullable 정수(Int8/Int16)와 category 활용.

Unnamed: 0,passenger_count,payment_type,total_amount
0,1.0,1.0,11.270000
1,1.0,1.0,12.300000
2,1.0,1.0,10.800000
3,1.0,1.0,8.160000
4,1.0,2.0,4.800000
...,...,...,...
6405003,,,21.139999
6405004,,,62.459999
6405005,,,51.900002
6405006,,,30.219999


In [38]:
df.shape

(6405008, 3)

In [39]:
df.count() #결측치가 있는지 확인함
#결측치가 있는 컬럼은 passenger_count, payment_type

passenger_count    6339567
payment_type       6339567
total_amount       6405008
dtype: int64

In [40]:
df = df.dropna().copy()
#결측치 제거
#아예 결측치가 있는 행을 통째로 제거함.
df

# .copy()의 의미

# Pandas에서 dropna() 같은 연산을 하면 기본적으로 뷰(view)를 반환할 수 있음
# 즉, 원본 DataFrame의 일부를 참조하게 되고, 원본에 영향을 줄 수 있음
# .copy()를 붙이면 원본과 완전히 독립된 새로운 DataFrame을 생성
# 이후 df2나 df를 수정해도 원본에는 영향 없음

########## 예시 #########
# df = pd.DataFrame({'A':[1,2,np.nan], 'B':[4,5,6]})

# # 1) 그냥 dropna()
# df_view = df.dropna()
# df_view['A'] = 0  # 경고가 뜨거나 원본에 영향 가능

# # 2) dropna() + copy()
# df_copy = df.dropna().copy()
# df_copy['A'] = 0  # 원본 df에는 영향 없음

Unnamed: 0,passenger_count,payment_type,total_amount
0,1.0,1.0,11.270000
1,1.0,1.0,12.300000
2,1.0,1.0,10.800000
3,1.0,1.0,8.160000
4,1.0,2.0,4.800000
...,...,...,...
6339562,1.0,1.0,17.760000
6339563,1.0,1.0,20.160000
6339564,1.0,1.0,19.559999
6339565,1.0,2.0,12.300000


In [41]:
df2 = df.dropna()
#결측치를 제거한 데이터프레임의 결측치를 다시 제거함?
#위 코드와의 차이는 copy()만 다름
#copy()를 사용하지 않으면, df2에서 결측치를 제거한 후 df2에 대한 어떤 작업이 df에 영향을 미칠 수 있음.
#따라서, 결측치를 제거한 새로운 데이터프레임을 만들 때는 copy()를 사용하는 것이 좋음.
df2

Unnamed: 0,passenger_count,payment_type,total_amount
0,1.0,1.0,11.270000
1,1.0,1.0,12.300000
2,1.0,1.0,10.800000
3,1.0,1.0,8.160000
4,1.0,2.0,4.800000
...,...,...,...
6339562,1.0,1.0,17.760000
6339563,1.0,1.0,20.160000
6339564,1.0,1.0,19.559999
6339565,1.0,2.0,12.300000


In [42]:
df.count()

passenger_count    6339567
payment_type       6339567
total_amount       6339567
dtype: int64

In [43]:
df['passenger_count'] = df['passenger_count'].astype(np.int8)

In [44]:
df['payment_type'] = df['payment_type'].astype(np.int8)

In [45]:
df

#결측치 때문에 float형으로 읽어온 컬럼을 결측치를 제거한 후 int형으로 변환함.


Unnamed: 0,passenger_count,payment_type,total_amount
0,1,1,11.270000
1,1,1,12.300000
2,1,1,10.800000
3,1,1,8.160000
4,1,2,4.800000
...,...,...,...
6339562,1,1,17.760000
6339563,1,1,20.160000
6339564,1,1,19.559999
6339565,1,2,12.300000
