# 제 1유형_데이터 다루기

## ✅ 데이터 다루기 유형
1. 데이터 타입(object, int, float, bool 등)
2. 기초 통계량 (평균, 중앙값, 사분위수, IQR, 표준편차 등)
3. 데이터 인덱싱, 필터링, 정렬, 변경 등
4. 결측치, 이상치, 중복값 처리(제거 or 대체)
5. 데이터 Scaling(데이터 표준화(z), 데이터 정규화(min-max))
6. 데이터 합치기
7. 날짜/시간 데이터, index 다루기

#### 데이터 불러오기

In [1]:
import numpy as np
import pandas as pd

In [10]:
df = pd.read_csv("/Users/jinyeonglee/BigData_Certification/Data/mtcars.csv")
df.head()

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### ✅ 1. 데이터 타입 (object, int, float 등)

In [12]:
# 데이터 타입 확인
df.dtypes

car      object
mpg     float64
cyl       int64
disp    float64
hp        int64
drat    float64
wt      float64
qsec    float64
vs        int64
am        int64
gear      int64
carb      int64
dtype: object

In [13]:
# 데이터 타입 변경 (1개)
df1 = df.copy()
df1 = df1.astype({'cyl' : 'object'})
print(df1.dtypes)

car      object
mpg     float64
cyl       int64
disp    float64
hp        int64
drat    float64
wt      float64
qsec    float64
vs        int64
am        int64
gear      int64
carb      int64
dtype: object


In [14]:
# 데이터 타입 변경 (2개 이상)
df1 = df1.astype({'cyl' : 'int', 'gear' : 'int'})
print(df1.dtypes)

car      object
mpg     float64
cyl       int64
disp    float64
hp        int64
drat    float64
wt      float64
qsec    float64
vs        int64
am        int64
gear      int64
carb      int64
dtype: object


In [15]:
# 컬럼의 고유 값들 확인
df1['cyl'].value_counts()

cyl
8    14
4    11
6     7
Name: count, dtype: int64

### ✅ 2. 기초 통계량 (평균, 중앙값, IQR, 표준편차 등)

#### 1) 중심측도를 나타내는 값 (평균, 중앙값, 최빈값)

In [16]:
df = pd.read_csv("/Users/jinyeonglee/BigData_Certification/Data/mtcars.csv")
df.head()

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [17]:
df.shape    # return : (행, 열)

(32, 12)

In [18]:
# 평균값
mpg_mean = df['mpg'].mean()
print(mpg_mean)

20.090625000000003


In [21]:
# 중앙값
mpg_median = df['mpg'].median()
print(df['mpg'].median())

19.2


In [27]:
# 최빈값
cyl_mode = df['cyl'].mode()
print("cyl 컬럼 최빈값 : ", cyl_mode[0])
print('-'*30)

# 빈도수 확인
print("cyl 컬럼 데이터별 빈도수 : ", df['cyl'].value_counts())

cyl 컬럼 최빈값 :  8
------------------------------
cyl 컬럼 데이터별 빈도수 :  cyl
8    14
4    11
6     7
Name: count, dtype: int64


#### 2. 산포도를 나타내는 값 (분산, 표준편차, IQR, 범위(최대-최소) 등)

In [28]:
# 분산
mpg_var = df['mpg'].var()
print(mpg_var)

36.32410282258064


In [29]:
# 표준편차
mpg_std = df['mpg'].std()
print(mpg_std)

6.026948052089104


In [34]:
# IQR : Q3 - Q1
mpg_Q1 = df['mpg'].quantile(0.25)
mpg_Q3 = df['mpg'].quantile(0.75)
mpg_IQR = mpg_Q3 - mpg_Q1
print("mpg Q1 : ", mpg_Q1)
print("mpg Q3 : ", mpg_Q3)
print("mpg IQR :" , mpg_IQR)

mpg Q1 :  15.425
mpg Q3 :  22.8
mpg IQR : 7.375


In [33]:
# 2 사분위수 (Q2) == median
print(df['mpg'].quantile(.5) == df['mpg'].median())

True


In [35]:
# 범위(range) = 최대값 - 최소값
mpg_max = df['mpg'].max()
mpg_min = df['mpg'].min()
mpg_range = mpg_max - mpg_min
print("mpg Max : ", mpg_max)
print("mpg Min : ", mpg_min)
print("mpg Range : ", mpg_range)

mpg Max :  33.9
mpg Min :  10.4
mpg Range :  23.5


#### (3) 분포의 비대칭도 (왜도, 첨도)

In [36]:
# 왜도 (좌우 비대칭 정도)
mpg_skew = df['mpg'].skew()
print(mpg_skew)

0.6723771376290805


In [37]:
# 첨도 (상하 뾰족함 정도)
mpg_kurt = df['mpg'].kurt()
print(mpg_kurt)

-0.0220062914240855


#### (4) 기타 (합계, 절대값, 데이터 수)

In [38]:
# 합계
mpg_sum = df['mpg'].sum()
print(mpg_sum)

642.9000000000001


In [43]:
# 절대값
print("- mpg IQR : ", mpg_Q1 - mpg_Q3)
print("abs of mpg IQR : ", abs(mpg_Q1 - mpg_Q3))

- mpg IQR :  -7.375
abs of mpg IQR :  7.375


In [42]:
# 데이터의 수
len(df['mpg'])

32

#### (5) 그룹화하여 계산하기 (groupby 활용)

In [44]:
# Iris 데이터셋을 이용하여 종별 평균값 구해보기
import seaborn as sns
df = sns.load_dataset('iris')
print(df.head())
df.groupby('species').mean()

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa


Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


In [45]:
# Iris 종별 중앙값
df.groupby('species').median()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.0,3.4,1.5,0.2
versicolor,5.9,2.8,4.35,1.3
virginica,6.5,3.0,5.55,2.0


### ✅ 3. 데이터 인덱싱, 필터링, 정렬, 변경 등

In [46]:
df = pd.read_csv("/Users/jinyeonglee/BigData_Certification/Data/mtcars.csv")
df.head()

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


#### (1) 데이터 인덱싱

In [48]:
# 행 or 열 인덱싱 : df.loc['행', '열]
df.loc[3, 'mpg']

21.4

In [49]:
# 열만 인덱싱
df.loc[:, 'mpg'].head()

0    21.0
1    21.0
2    22.8
3    21.4
4    18.7
Name: mpg, dtype: float64

In [50]:
# mpg, cyl, disp 컬럼의 0 ~ 3번 인덱스 출력
df.loc[:3, ['mpg', 'cyl', 'disp']]

Unnamed: 0,mpg,cyl,disp
0,21.0,6,160.0
1,21.0,6,160.0
2,22.8,4,108.0
3,21.4,6,258.0


In [51]:
# 앞에서 n행 인덱싱 : df.head(n)
df.head(3)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1


In [52]:
# 뒤에서 n행 인덱싱 : df.tail(n)
df.tail(7)

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
25,Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
26,Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
27,Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
29,Ferrari Dino,19.7,6,145.0,175,3.62,2.77,15.5,0,1,5,6
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8
31,Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2


#### (2) 열 (Columns) 추가 / 제거

#### (3) 데이터 필터링

#### (4) 데이터 정렬

#### (5) 데이터 변경 (조건문)

### ✅ 4. 결측치, 이상치, 중복값 처리(제거 or 대체)

### ✅ 5. 데이터 Scaling(데이터 표준화(z), 데이터 정규화 (min-max))

### ✅ 6. 데이터 합치기

### ✅ 7. 날짜 / 시간 데이터, index 다루기