# 4.1 데이터 전처리 라이브러리(Pandas, Numpy)

## 4.1.2 Pandas

In [1]:
# Pandas 라이브러리 설치
!pip install pandas



## Pandas의 기본 자료구조(Series, DataFrame)

#### Series

In [35]:
import pandas as pd

# Series 생성
series = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 결과 출력
series

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [36]:
# Series 값 확인
print(series.values)

# Series 인덱스 확인
series.index

[1 2 3 4 5]


Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

#### DataFrame

In [5]:
import pandas as pd

# 예제 데이터 생성
columns = ['col1', 'col2', 'col3']
index = ['index1', 'index2', 'index3']
values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]

# DataFrame 생성
df = pd.DataFrame(values, index=index, columns=columns)

# 결과 출력
df

Unnamed: 0,col1,col2,col3
index1,1,2,3
index2,4,5,6
index3,7,8,9


In [6]:
# DataFrame 칼럼 확인
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [7]:
# DataFrame 인덱스 확인
df.index

Index(['index1', 'index2', 'index3'], dtype='object')

In [8]:
# DataFrame 값 확인
df.values

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## 4.1.3 Numpy

In [9]:
# Numpy 라이브러리 설치
!pip install numpy



### Numpy의 핵심 객체(ndarray)

In [10]:
import numpy as np

# 1차원 배열인 벡터 생성
a = np.array([1, 2, 3, 4, 5])

# 2차원 배열인 행렬 생성
b = np.array([[11, 12, 13], [14, 15, 16]])

# 3차원 배열인 텐서 생성
c = np.array([[[21, 22], [23, 24]], [[25, 26], [27, 28]]])

# 결과 출력
print('1차원 배열')
print(a, '\n')

print('2차원 배열')
print(b, '\n')

print('3차원 배열')
print(c)

1차원 배열
[1 2 3 4 5] 

2차원 배열
[[11 12 13]
 [14 15 16]] 

3차원 배열
[[[21 22]
  [23 24]]

 [[25 26]
  [27 28]]]


In [11]:
print(type(a))
print(type(b))
print(type(c))

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
<class 'numpy.ndarray'>


In [None]:
# 배열의 차원 확인
print(c.ndim)

# 배열의 데이터 타입 확인
print(c.dtype)

# 배열 내 각 요소가 소비한 바이트 수 확인
print(c.itemsize)

# 배열 내 요소가 소비한 총 바이트 수 확인
print(c.nbytes)

3
int32
4
32


***

# 4.2 데이터 정제 및 가공

## 4.2.1 데이터 타입 변환하기

### dtypes()

In [12]:
import pandas as pd

# 예시 데이터 생성
A = [1, 2, 3, 4, 5]
B = [1.5, 2.5, 3.5, 4.5, 5.5]
C = ['1', '2', '3', '4', '5']
D = [True, True, True, False, False]

#  DataFrame생성
df = pd.DataFrame(data={'A':A, 'B':B, 'C':C, 'D':D})

# 데이터 타입 확인
df.dtypes

A      int64
B    float64
C     object
D       bool
dtype: object

### astype()

In [13]:
# 데이터 타입 변경
df1 = df.astype({'C':'int64'})

# 데이터 타입 변경 확인
df1.dtypes

A      int64
B    float64
C      int64
D       bool
dtype: object

## 4.2.2 데이터 결합하기

### concat()

In [1]:
import pandas as pd

# 첫번째 DataFrame 생성
df1 = pd.DataFrame({'a':[1, 2, 3, 4, 5],
                    'b':[6, 7, 8, 9, 10],
                    'c':[11, 12, 13, 14, 15]})

# 두번째 DataFrame 생성
df2 = pd.DataFrame({'a':[10, 20, 30, 40, 50],
                    'b':[60, 70, 80, 90, 100],
                    'c':[110, 120, 130, 140, 150],
                    'd':[160, 170, 180, 190, 200]})

# df1과 df2 DataFrame 결합
result = pd.concat([df1, df2])

# 결과 출력
result

Unnamed: 0,a,b,c,d
0,1,6,11,
1,2,7,12,
2,3,8,13,
3,4,9,14,
4,5,10,15,
0,10,60,110,160.0
1,20,70,120,170.0
2,30,80,130,180.0
3,40,90,140,190.0
4,50,100,150,200.0


In [15]:
# 새롭게 인덱스 번호를 매겨 df1과 df2 DataFrame 결합
result = pd.concat([df1, df2], ignore_index=True)

# 결과 출력
result

Unnamed: 0,a,b,c,d
0,1,6,11,
1,2,7,12,
2,3,8,13,
3,4,9,14,
4,5,10,15,
5,10,60,110,160.0
6,20,70,120,170.0
7,30,80,130,180.0
8,40,90,140,190.0
9,50,100,150,200.0


In [16]:
# 열방향으로 df1과 df2 DataFrame 결합
result = pd.concat([df1, df2], axis=1, ignore_index=True)

# 결과 출력
result

Unnamed: 0,0,1,2,3,4,5,6
0,1,6,11,10,60,110,160
1,2,7,12,20,70,120,170
2,3,8,13,30,80,130,180
3,4,9,14,40,90,140,190
4,5,10,15,50,100,150,200


### merge()

In [17]:
import pandas as pd

# 첫번째 예시 데이터 생성
data1 = {'col1' : ['용산구', '동작구', '서초구', '강남구'],
         'col2' : [1, 2, 3, 4],
         'col3' : ['a', 'b', 'c', 'd'],
         'col4' : [1.5, 2.5, 3.5, 4.5]}

# 두번째 예시 데이터 생성
data2 = {'col1' : ['동작구', '용산구', '강남구', '서초구'],
         'col5' : ['aaa', 'bbb', 'ccc', 'ddd']}

# 각각의 DataFrame 생성
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 두 데이터의 공통 Column 이름(col1)을 기준으로 df1과 df2 DataFrame 병합
result = pd.merge(df1, df2, on='col1')

# 결과 출력
result

Unnamed: 0,col1,col2,col3,col4,col5
0,용산구,1,a,1.5,bbb
1,동작구,2,b,2.5,aaa
2,서초구,3,c,3.5,ddd
3,강남구,4,d,4.5,ccc


## 4.2.3 데이터 중복 처리하기

### Pandas로 중복 데이터 처리하기

In [18]:
import pandas as pd

# 중복 데이터가 포함된 DataFrame 생성
data = {
    'id': [1, 2, 3, 2, 2],
    'name': ['John', 'Alice', 'Bob', 'Alice', 'Alice'],
    'age': [25, 30, 35, 30, 30]
}

df = pd.DataFrame(data)

# 중복 데이터 제거
df = df.drop_duplicates()

# 결과 출력
df

Unnamed: 0,id,name,age
0,1,John,25
1,2,Alice,30
2,3,Bob,35


### Numpy로 중복 데이터 처리하기

In [38]:
import numpy as np

# 중복 데이터가 포함된 배열 생성
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [1, 2, 3],
                [7, 8, 9]])

# 중복 행 제거
arr = np.unique(arr, axis=0)

# 결과 출력
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


## 4.2.4 결측치 처리하기

### 결측치 확인하기 | isna(), isnull(), notna(), notnull()

In [21]:
import pandas as pd
import numpy as np

# DataFrame 생성
columns=['A', 'B', 'C', 'D', 'E']

data = [[1, 2, 3, None, 5],
        ['가', '나', np.nan, '라', '마'],
        [pd.NA, 'b', 'c', 'd', 'e']
]

df = pd.DataFrame(data, columns=columns)

# 결과 출력
df

Unnamed: 0,A,B,C,D,E
0,1,2,3,,5
1,가,나,,라,마
2,,b,c,d,e


#### isna(), isnull()

In [22]:
# 결측치 확인
df.isnull()

Unnamed: 0,A,B,C,D,E
0,False,False,False,True,False
1,False,False,True,False,False
2,True,False,False,False,False


#### notna(), notnull()

In [23]:
# 결측치가 아닌 값 확인
df.notnull()

Unnamed: 0,A,B,C,D,E
0,True,True,True,False,True
1,True,True,False,True,True
2,False,True,True,True,True


### 결측치 제거하기 | dropna()

In [25]:
import pandas as pd
import numpy as np

# DataFrame 생성
columns = ['A', 'B', 'C', 'D', 'E']

data = [[1, 2, 3, 4, 5],
        ['가', '나', np.nan, '라', '마'],
        ['a', 'b', 'c', 'd', 'e'],
        [None, None, 13, 'apple', 'cider']
]

df = pd.DataFrame(data, columns=columns)

# 결측치를 포함한 행 제거(사본 반환)
df.dropna()

Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
2,a,b,c,d,e


In [26]:
# 원본 DataFrame(변환 없음)
print("원본 데이터프레임")
df

원본 데이터프레임


Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
1,가,나,,라,마
2,a,b,c,d,e
3,,,13,apple,cider


In [2]:
import pandas as pd
import numpy as np

# DataFrame 생성
columns = ['A', 'B', 'C', 'D', 'E']

data = [[1, 2, 3, 4, 5],
        ['가', '나', np.nan, '라', '마'],
        ['a', 'b', 'c', 'd', 'e'],
        [None, None, 13, 'apple', 'cider']
]

df = pd.DataFrame(data, columns=columns)

# 결측치를 포함한 Column 제거
df.dropna(axis=1)

Unnamed: 0,D,E
0,4,5
1,라,마
2,d,e
3,apple,cider


In [28]:
# 원본 데이터 확인
df

Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
1,가,나,,라,마
2,a,b,c,d,e
3,,,13,apple,cider


In [29]:
import pandas as pd
import numpy as np

# DataFrame 생성
columns=['A', 'B', 'C', 'D', 'E']

data = [[1, 2, 3, 4, 5],
        ['가', '나', np.nan, '라', '마'],
        ['a', 'b', 'c', 'd', 'e'],
        [None, None, 13, 'apple', 'cider']
]

df = pd.DataFrame(data, columns=columns)

# 원본 데이터에 적용되어 변경
df.dropna(inplace=True)

# 원본 데이터 확인
df

Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
2,a,b,c,d,e


### 결측치 대체하기 | fillna()

In [30]:
import pandas as pd
import numpy as np

# 예시 데이터 생성
columns=['A', 'B', 'C', 'D', 'E']

data = [[1, 2, 3, 4, 5],
        ['가', '나', np.nan, '라', '마'],
        ['a', 'b', 'c', 'd', 'e'],
        [None, None, 13, 'apple', 'cider']
]

# DataFrame 생성
df = pd.DataFrame(data, columns=columns)

# 결과 출력
df.fillna('HI')

Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
1,가,나,HI,라,마
2,a,b,c,d,e
3,HI,HI,13,apple,cider


In [31]:
# 각 칼럼값을 key로, 변경하고자 하는 값을 value로 하는 딕셔너리 생성
dict = {'A': 'Hello', 'B': 'Hi', 'C': 100, 'D': 200, 'E': 300}

#  Dictionary를 통해 결측치 대체
df.fillna(dict)

Unnamed: 0,A,B,C,D,E
0,1,2,3,4,5
1,가,나,100,라,마
2,a,b,c,d,e
3,Hello,Hi,13,apple,cider


## 4.2.5 이상치 처리하기

### 이상치 제거하기

In [32]:
import pandas as pd

# 예시 데이터 생성
data = pd.Series([1, 2, 3, 4, 100])

# IQR 계산
Q1 = data.quantile(0.25)  # 1사분위수
Q3 = data.quantile(0.75)  # 3사분위수
IQR = Q3 - Q1

# 이상치 제거
data = data[(data >= Q1 - 1.5 * IQR) & (data <= Q3 + 1.5 * IQR)]

# 결과 출력
data

0    1
1    2
2    3
3    4
dtype: int64

### 이상치 대체하기

In [33]:
import pandas as pd
import numpy as np

# 예시 데이터 생성
data = pd.Series([1, 2, 3, 4, 100])

# IQR 계산
Q1 = data.quantile(0.25)  # 1사분위수
Q3 = data.quantile(0.75)  # 3사분위수
IQR = Q3 - Q1

# 이상치 대체를 위한 상하한값 계산
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 이상치 대체
data[(data < lower_bound) | (data > upper_bound)] = data.median()

# 결과 출력
data

0    1
1    2
2    3
3    4
4    3
dtype: int64

## 4.2.6 정규표현식을 사용한 URL 제거

In [34]:
import re # 정규표현식을 불러오는 모듈

def remove_urls(text):
    pattern = re.compile(r'https?://\S+|www\.\S+')
    return re.sub(pattern, '', text)

# url이 들어있는 텍스트
text = "이 문장은 www.example.com과 https://www.test.com 같은 URL을 포함합니다."
clean_text = remove_urls(text)

# 결과출력
clean_text

'이 문장은   같은 URL을 포함합니다.'