# 데이터 선택하기
* 데이터 중 일부를 선택하고, 조정하는 방법을 알아보자
* 이는 데이터 전처리에서 중요한 역할을 한다. 

In [2]:
import numpy as np
import pandas as pd

In [3]:
# 넘파이: 데이터 만들기
arr1 = np.arange(0, 9); arr1
arr2 = arr1.reshape(3,3)
arr3 = np.array([0, 5, 4, 2, 3, 12, 11, -1, 6]).reshape(3,3)
arr4 = np.arange(1, 11).reshape(2, 5)

In [4]:
print(f"arr1[[1,3,4]] : {arr1[[1,3,4]]}")
print(f"arr3[0, 1] : {arr3[0, 1]}")
print(f"arr4[1, 2] : {arr4[1, 2]}")
print(f"arr4[:3, 1:] : {arr4[:3, 1:]}")
print(f"arr4.sum(axis = 0)) : {arr4.sum(axis = 0)}")

arr1[[1,3,4]] : [1 3 4]
arr3[0, 1] : 5
arr4[1, 2] : 8
arr4[:3, 1:] : [[ 2  3  4  5]
 [ 7  8  9 10]]
arr4.sum(axis = 0)) : [ 7  9 11 13 15]


# 데이터 조작하기

* 데이터에서 빈값을 채워보기
* 검색, 인덱싱, 슬라이싱

## 빈값 채워보기

In [5]:
# 데이터프레임 생성
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [np.nan, 2, 3, 4, np.nan],
    'C': [1, 2, 3, 4, 5]
}
df = pd.DataFrame(data)
print("원본 데이터프레임:")
print(df)

원본 데이터프레임:
     A    B  C
0  1.0  NaN  1
1  2.0  2.0  2
2  NaN  3.0  3
3  4.0  4.0  4
4  5.0  NaN  5


In [6]:
# 평균값으로 채우기
df_filled_mean = df.fillna(df.mean())
print("\n평균값으로 채운 데이터프레임:")
print(df_filled_mean)


평균값으로 채운 데이터프레임:
     A    B  C
0  1.0  3.0  1
1  2.0  2.0  2
2  3.0  3.0  3
3  4.0  4.0  4
4  5.0  3.0  5


In [7]:
# 중간값으로 채우기
df_filled_median = df.fillna(df.median())
print("\n중간값으로 채운 데이터프레임:")
print(df_filled_median)


중간값으로 채운 데이터프레임:
     A    B  C
0  1.0  3.0  1
1  2.0  2.0  2
2  3.0  3.0  3
3  4.0  4.0  4
4  5.0  3.0  5


In [8]:
# 특정 값으로 채우기
df_filled_value = df.fillna(0)
print("\n특정 값으로 채운 데이터프레임:")
print(df_filled_value)


특정 값으로 채운 데이터프레임:
     A    B  C
0  1.0  0.0  1
1  2.0  2.0  2
2  0.0  3.0  3
3  4.0  4.0  4
4  5.0  0.0  5


In [9]:
# 앞의 값으로 채우기
# 최신 버전에서는 ffill()을 사용

df_filled_ffill = df.ffill()
print("\n앞의 값으로 채운 데이터프레임 (forward fill):")
print(df_filled_ffill)


앞의 값으로 채운 데이터프레임 (forward fill):
     A    B  C
0  1.0  NaN  1
1  2.0  2.0  2
2  2.0  3.0  3
3  4.0  4.0  4
4  5.0  4.0  5


In [10]:
# 뒤의 값으로 채우기
# 최신 버전에서는 bfill()을 사용

df_filled_bfill = df.bfill()
print("\n뒤의 값으로 채운 데이터프레임 (backward fill):")
print(df_filled_bfill)


뒤의 값으로 채운 데이터프레임 (backward fill):
     A    B  C
0  1.0  2.0  1
1  2.0  2.0  2
2  4.0  3.0  3
3  4.0  4.0  4
4  5.0  NaN  5


## 검색, 인덱싱, 슬라이싱

In [11]:
# 배열 생성
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([3, 1, 2, 5, 4])
arr3 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [12]:
# 데이터 검색
index_arr1 = np.where(arr1 == 2)
index_arr2 = np.where(arr2 == 3)
print("arr1에서 값이 2인 인덱스:", index_arr1)
print("arr2에서 값이 3인 인덱스:", index_arr2)

arr1에서 값이 2인 인덱스: (array([1]),)
arr2에서 값이 3인 인덱스: (array([0]),)


In [13]:
# 인덱싱
selected_elements_arr1 = arr1[[1, 3, 4]]
selected_elements_arr3 = arr3[0, 1]
print("arr1에서 선택된 요소들:", selected_elements_arr1)
print("arr3에서 선택된 요소들:", selected_elements_arr3)

arr1에서 선택된 요소들: [2 4 5]
arr3에서 선택된 요소들: 2


In [14]:
# 2차원 배열 생성
arr4 = np.arange(1, 11).reshape(2, 5)
print("2차원 배열 arr4:\n", arr4)

2차원 배열 arr4:
 [[ 1  2  3  4  5]
 [ 6  7  8  9 10]]


In [15]:
# 인덱싱 및 슬라이싱
element_arr4 = arr4[1, 2]
subarray_arr4 = arr4[:3, 1:]
sum_axis0_arr4 = arr4.sum(axis=0)
print("arr4에서 [1, 2] 위치의 요소:", element_arr4)
print("\narr4에서 [:3, 1:] 슬라이싱:\n", subarray_arr4)
print("\narr4의 axis=0에 대한 합계:", sum_axis0_arr4)

arr4에서 [1, 2] 위치의 요소: 8

arr4에서 [:3, 1:] 슬라이싱:
 [[ 2  3  4  5]
 [ 7  8  9 10]]

arr4의 axis=0에 대한 합계: [ 7  9 11 13 15]


# 데이터 통합하기
* 데이터를 한 쪽 방향으로 통합하기
* 특정 열을 기준으로 통합하기

In [16]:
# 데이터프레임 생성
df1 = pd.DataFrame({
    'key1': ['A', 'B', 'C', 'D'],
    'value1': [1, 2, 3, 4]
})

df2 = pd.DataFrame({
    'key1': ['A', 'B', 'E', 'F'],
    'value2': [5, 6, 7, 8]
})

df3 = pd.DataFrame({
    'key2': ['A', 'C', 'E', 'G'],
    'value3': [9, 10, 11, 12]
})

## 데이터 통합하기 (1)
1.	df1과 df2를 key1을 기준으로 inner join.
2.	df1과 df2를 key1을 기준으로 outer join.
3.	df1과 df2를 key1을 기준으로 left join.
4.	df1과 df2를 key1을 기준으로 right join.

In [17]:
# 1. Inner join on 'key1'
merged_inner = pd.merge(df1, df2, on='key1', how='inner')
print("Inner join on 'key1':")
print(merged_inner)

Inner join on 'key1':
  key1  value1  value2
0    A       1       5
1    B       2       6


In [18]:
# 2. Outer join on 'key1'
merged_outer = pd.merge(df1, df2, on='key1', how='outer')
print("\nOuter join on 'key1':")
print(merged_outer)


Outer join on 'key1':
  key1  value1  value2
0    A     1.0     5.0
1    B     2.0     6.0
2    C     3.0     NaN
3    D     4.0     NaN
4    E     NaN     7.0
5    F     NaN     8.0


In [19]:
# 3. Left join on 'key1'
merged_left = pd.merge(df1, df2, on='key1', how='left')
print("\nLeft join on 'key1':")
print(merged_left)


Left join on 'key1':
  key1  value1  value2
0    A       1     5.0
1    B       2     6.0
2    C       3     NaN
3    D       4     NaN


In [20]:
# 4. Right join on 'key1'
merged_right = pd.merge(df1, df2, on='key1', how='right')
print("\nRight join on 'key1':")
print(merged_right)


Right join on 'key1':
  key1  value1  value2
0    A     1.0       5
1    B     2.0       6
2    E     NaN       7
3    F     NaN       8


## 데이터 통합하기 (2)
5.	df1과 df3를 각각 key1과 key2를 기준으로 inner join.
6.	df1과 df2를 행(row) 방향으로 결합.
7.	df1과 df3를 열(column) 방향으로 결합.

In [22]:
# 5. Join on different keys ('key1' and 'key2')
merged_diff_keys = pd.merge(df1, df3, left_on='key1', right_on='key2', how='inner')
print("\nJoin on different keys ('key1' and 'key2'):")
print(merged_diff_keys)


Join on different keys ('key1' and 'key2'):
  key1  value1 key2  value3
0    A       1    A       9
1    C       3    C      10


In [23]:
# 6. Concatenate dataframes along rows
concat_rows = pd.concat([df1, df2], axis=0, ignore_index=True)
print("\nConcatenate dataframes along rows:")
print(concat_rows)


Concatenate dataframes along rows:
  key1  value1  value2
0    A     1.0     NaN
1    B     2.0     NaN
2    C     3.0     NaN
3    D     4.0     NaN
4    A     NaN     5.0
5    B     NaN     6.0
6    E     NaN     7.0
7    F     NaN     8.0


In [24]:
# 7. Concatenate dataframes along columns
concat_cols = pd.concat([df1, df3], axis=1)
print("\nConcatenate dataframes along columns:")
print(concat_cols)


Concatenate dataframes along columns:
  key1  value1 key2  value3
0    A       1    A       9
1    B       2    C      10
2    C       3    E      11
3    D       4    G      12
