# 데이터 전처리 연습

In [1]:
import pandas as pd
import numpy as np

csData = pd.read_csv("../../stddev/dataset/customerdata.csv", encoding = "ms949")
csData

Unnamed: 0,CUSTID,AVGPRICE,EMI,DEVICECOUNT,PRODUCTAGE,CUSTTYPE
0,A13566,4273.900000,3,6,1.679181,Big-Screen-lover
1,A14219,3642.441950,2,4,2.682023,Sleeping-dog
2,A15312,3653.884565,2,5,3.208202,Sleeping-dog
3,A16605,3713.211107,2,6,0.900000,Early-bird
4,B10634,3391.074215,2,4,2.453656,Sleeping-dog
...,...,...,...,...,...,...
145,Z13253,3678.800000,2,5,2.463670,Big-Screen-lover
146,Z13534,3662.437527,3,6,0.900000,Early-bird
147,Z16428,3516.500000,2,5,2.371301,Big-Screen-lover
148,Z16735,3300.100000,2,5,1.704942,Big-Screen-lover


In [2]:
# 컬럼별로 데이터에 대한 기본적인 정보를 알려줌
csData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   CUSTID       150 non-null    object 
 1   AVGPRICE     150 non-null    float64
 2   EMI          150 non-null    int64  
 3   DEVICECOUNT  150 non-null    int64  
 4   PRODUCTAGE   150 non-null    float64
 5   CUSTTYPE     150 non-null    object 
dtypes: float64(2), int64(2), object(2)
memory usage: 7.2+ KB


In [3]:
productList = ["aProduct","bProduct","cProduct","dProduct"]
priceList = [1000,2000,3000,4000]

zipList = zip(productList,priceList)
result = pd.DataFrame(zipList, columns=["productName","price"])
result

In [6]:
pd.DataFrame(result.dtypes)

Unnamed: 0,0
productName,object
price,int64


In [4]:
# csData에서 EMI가 3이상인 데이터만 보여준다.
# loc에 [0:3]처럼 인덱스를 쓸 수 있다. 0부터 3까지 나온다.
csDataEmi3 = csData.loc[ (csData.EMI >= 3) & (csData.AVGPRICE > 3500) ]
csDataEmi3

In [4]:
# 행이 몇개고 열이 몇개인지 알려주는 함수
csDataEmi3.shape

In [4]:
# 컬럼과 조건을 줄 값 모두를 같게 변환을 해주면 개발자의 실수가 줄어든다.
csData.loc[csData.CUSTID.str.upper() == "a13566".upper()]

In [4]:
# copy()를 사용해야 연결되지 않고 각각 독립적이게 된다.
customerData = csData.copy()

In [4]:
# customerData의 EMI컬럼의 타입을 string으로 변경해서 맵핑한다.
# customerData["New_EMI"] = customerData["EMI"].astype(str) # 존재하지 않는 컬럼일 경우
customerData.EMI = customerData.EMI.astype(str) # 존재하는 컬럼일 경우

In [4]:
# 여러개의 컬럼 데이터 타입을 한번에 변경하는 방법
csDataTypeStr = customerData.astype( { "CUSTID":str,
                    "AVGPRICE":str,
                    "EMI":str,
                    "DEVICECOUNT":str,
                    "PRODUCTAGE":str,                 
                    "CUSTTYPE":str
                    } )

In [4]:
emiCondition = "3"
# loc조건안에서 사용되는 astype은 실질적인 형변환을 하지 않는다.
csData.loc[csData.EMI.astype(int) >= int(emiCondition)]

In [4]:
# 제외하고자 하는 범위를 리스트로 만들어서 그 리스트와 값이 같지 않은것만 출력한다.
angryCustomer = pd.DataFrame(list(csData.CUSTID[0:3]),columns = ["CSID"])
angryList = list(angryCustomer)
angryList

In [4]:
csData.loc[ ~ csData.CUSTID.isin(angryList)]

# 데이터 전처리 프로젝트

In [1]:
import pandas as pd
import numpy as np

# 저리할 데이터를 불러옴
sellottData = \
pd.read_csv("../../stddev/dataset/kopo_channel_seasonality_new.csv", encoding = "ms949")

# 초기 데이터 컬럼들의 타입들을 확인함
sellottData.info()
print() # 한줄 띄우기

# 여러개의 컬럼 데이터 타입을 한번에 문자형으로 변환함
sellottData = sellottData.astype( { "REGIONID":str,
                    "PRODUCT":str,
                    "YEARWEEK":str,
                    "QTY":str
                    } )

# QTY만 float으로 변환
sellottData.QTY = sellottData.QTY.astype(float)

# 결과 확인
sellottData.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 124658 entries, 0 to 124657
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype  
---  ------    --------------   -----  
 0   REGIONID  124658 non-null  object 
 1   PRODUCT   124658 non-null  object 
 2   YEARWEEK  124658 non-null  int64  
 3   QTY       124658 non-null  float64
dtypes: float64(1), int64(1), object(2)
memory usage: 3.8+ MB



REGIONID     object
PRODUCT      object
YEARWEEK     object
QTY         float64
dtype: object

In [2]:
# 숫자형 데이터의 통계를 볼 수 있다.
sellottData.describe()

Unnamed: 0,QTY
count,124658.0
mean,8949.287
std,42949.73
min,-364.0
25%,32.0
50%,282.0
75%,2223.0
max,1663206.0
