In [1]:
import pandas as pd
import numpy as np

In [2]:
sample = pd.read_csv('data/csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [3]:
# 결측치가 하나라도 있는 레코드를 모두 제거해보세요
sample.dropna()

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [4]:
# 모든값이 결측치인 레코드만 제거해보세요
sample.dropna(how = 'all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [5]:
# 결측치가 하나라도 있는 데이터만 선택
#  
sample[sample.isnull().any(axis = 1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [6]:
# 결측치는 몇개 일까요?
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

In [7]:
# 결측치 NaN을 0으로 채워보세요
sample.fillna(0)

Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [8]:
# 0이 포함된 컬럼의 평균을 구하고
# 해당 평균으로 결측치를 채워보세요
# 조금 순서가 복잡하니 한단계씩잘 보세요

# 1. 먼저 sample의 결측치에 0을 기입합니다.
sample0 = sample.fillna(0)
sample0

# 2. 이후 0이 채워졌으면 0을 포함한 평균을 구합니다.
sample0 = sample0.mean()
sample0


# 3. 지금 sample0에는 결측치가 없습니다. (NaN값이 0으로 대체됨)
# 3. 그렇다면 원래 결측치가 있던 sample를 다시 불러줍니다.
sample

# 4.sample에 sample0를 적용해줍니다.
sample.fillna(sample0)


Unnamed: 0,math,english,science
0,70.0,58.166667,42.0
1,75.0,65.0,80.0
2,63.333333,58.166667,42.0
3,56.0,89.0,42.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [9]:
# 0값을 포함한 과목평균을 구하고
# 그 평균값을 결측치로 채웁니다.

# 과정을 잘 보고 한줄 코딩으로 나타낼 수 있습니다.
sample.fillna(0)

Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [10]:
sample.fillna(0).values

array([[ 70.,   0.,   0.],
       [ 75.,  65.,  80.],
       [  0.,   0.,   0.],
       [ 56.,  89.,   0.],
       [ 89.,  95.,  83.],
       [ 90., 100.,  89.]])

In [11]:
sample.fillna(0).values.mean()

54.5

In [12]:
tot_avg = sample.fillna(0).values.mean()
sample.fillna(tot_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [13]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [14]:
# 과목별 평균을 구한것으로 결측치를 채워보세요
print(sample.mean()[0])
print(sample.mean()[1])
print(sample.mean()[2])

sample['math'] = sample['math'].fillna(sample.mean()[0])
sample['english'] = sample['english'].fillna(sample.mean()[1])
sample['science'] = sample['science'].fillna(sample.mean()[2])
sample

76.0
87.25
84.0


Unnamed: 0,math,english,science
0,70.0,87.25,84.0
1,75.0,65.0,80.0
2,76.0,87.25,84.0
3,56.0,89.0,84.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [15]:
# 더 쉽게 푸는 예제
sample_avg = sample.mean()
sample.fillna(sample_avg)

Unnamed: 0,math,english,science
0,70.0,87.25,84.0
1,75.0,65.0,80.0
2,76.0,87.25,84.0
3,56.0,89.0,84.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [16]:
sample = pd.read_csv('data/csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [17]:
# 이렇게 중간값을 잡으면 각 컬럼별로 중간값이 나오게 됩니다.
sample.median()

math       75.0
english    92.0
science    83.0
dtype: float64

In [18]:
# 전체의 중간값을 구하는 코드
# Series나 DataFrame은 벡터함수 연산시 자동으로 NaN을 배제합니다.
# 따라서 전체 데이터의 중위값을 구하기 위해 먼저 시리즈로 변환합니다.
# sample.size를 .reshape()에 넣어주면 자동으로 1차원 배열로 크기 맞춰 바꿔줍니다.
# 한마디로 한줄로 늘어놓은다음 중간값을 골라낸다고 생가시면 됩니다.
tot_median = pd.Series(sample.values.reshape(sample.size)).median()
tot_median 

86.0

In [19]:
tot_med = pd.Series(sample.values.reshape(sample.size)).median()
tot_med

86.0

In [20]:
sample.fillna(tot_med)

Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [34]:
# 전체의 최빈값을 구하는 코드

# 1) df 생성
df = pd.DataFrame({'label_01' : ['A', 'B', 'A','C', 'A', 'A', 'D'],
                   'label_02' : ['B', 'B', 'C','D', 'B', 'B', 'B']})

# df = pd.DataFrame({'label_01' : ['A', 'B', 'A','C', 'A', 'A', 'D']})
df

Unnamed: 0,label_01,label_02
0,A,B
1,B,B
2,A,C
3,C,D
4,A,B
5,A,B
6,D,B


In [36]:
# 2) df요약
print(df.describe())

print('-' * 50)

# decribe의 top만 출력
print(df.describe().loc['top'])
# decribe의 unique만 출력
print(df.describe().loc['unique'])

print('-' * 50)

print(df.label_01.value_counts())
print(df.label_02.value_counts())

       label_01 label_02
count         7        7
unique        4        3
top           A        B
freq          4        5
--------------------------------------------------
label_01    A
label_02    B
Name: top, dtype: object
label_01    4
label_02    3
Name: unique, dtype: object
--------------------------------------------------
A    4
B    1
C    1
D    1
Name: label_01, dtype: int64
B    5
C    1
D    1
Name: label_02, dtype: int64


In [40]:
# 데이터프레임을 해체하여 한줄로 세워서 가장 많은 값을 구할 수도 있습니다만
# 보통은 median()정도에만 사용합니다.
df_mode = pd.Series(df.values.reshape(df.size)).mode()
df_mode

0    B
dtype: object

In [44]:
df.describe().loc['freq']

label_01    4
label_02    5
Name: freq, dtype: object

In [58]:
# Counter을 이용한 가장 많은 순서대로 나열하기
from collections import Counter
# 리스트는 물론 데이터프레임에도 사용가능합니다.
# 근데 컬럼명을 꼭 입력해주세요

Counter(df['label_01'])
Counter(df['label_02'])

print(Counter(df['label_01']).most_common())
print(Counter(df['label_02']).most_common())

[('A', 4), ('B', 1), ('C', 1), ('D', 1)]
[('B', 5), ('C', 1), ('D', 1)]


##### 데이터 표준화

In [68]:
# -2이상 8이하의 정수를 값으로 가지는 9행 1열 배열 생성
x = (np.arange(11)-2).reshape(-1,1)
print(x)
print(type(x))

[[-2]
 [-1]
 [ 0]
 [ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]]
<class 'numpy.ndarray'>


In [70]:
from sklearn.preprocessing import scale, minmax_scale

scale(x)

array([[-1.58113883],
       [-1.26491106],
       [-0.9486833 ],
       [-0.63245553],
       [-0.31622777],
       [ 0.        ],
       [ 0.31622777],
       [ 0.63245553],
       [ 0.9486833 ],
       [ 1.26491106],
       [ 1.58113883]])

In [77]:
scale_df = pd.DataFrame(np.hstack([x, scale(x), minmax_scale(x)]),
                        columns = ['x', 'scale(x)', 'min_max(x)'])

scale_df

Unnamed: 0,x,scale(x),min_max(x)
0,-2.0,-1.581139,0.0
1,-1.0,-1.264911,0.1
2,0.0,-0.948683,0.2
3,1.0,-0.632456,0.3
4,2.0,-0.316228,0.4
5,3.0,0.0,0.5
6,4.0,0.316228,0.6
7,5.0,0.632456,0.7
8,6.0,0.948683,0.8
9,7.0,1.264911,0.9
