<a href="https://www.kaggle.com/code/scottxchoo/cactus-1-eda-for-beginner?scriptVersionId=145051435" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

## EDA (Exploratory Data Analysis) for beginner

We're going to take a look at the data, get a feel for the distribution of the target values, and finish by printing a few sample images. This is to get a feel for the overall behavior of the data and to see what the actual images look like.

데이터를 둘러보고, 타깃값 분포를 알아본 뒤, 이미지 몇 개를 샘플로 출력해보고 끝내려고 합니다. 데이터의 전반적인 양상을 살펴보고 실제 이미지가 어떻게 생겼는지 알아보기 위해서입니다.


## 1. Load the data (데이터 불러오기)

In [None]:
import pandas as pd

data_path = '/kaggle/input/aerial-cactus-identification/'

labels = pd.read_csv(data_path + 'train.csv')
submission = pd.read_csv(data_path + 'sample_submission.csv')

In [None]:
labels.head()

The id feature is the image filename of the training data. You can even see the jpg extension. has_cactus is the target value. It indicates whether an image with that filename contains a cactus. A value of 0 means it doesn't have a cactus, and a value of 1 means it does.

id 피처는 훈련 데이터의 이미지 파일명입니다. 확장자인 jpg까지 표시되어 있네요. has_cactus는 타깃값입니다. 해당 파일명을 가진 이미지가 선인장을 포함하는지 여부를 나타냅니다. 0이면 선인장이 없고, 1이면 있다는 의미입니다.

.

Next, let's take a look at the submission sample file.

다음으로 제출 샘플 파일을 살펴봅시다.

In [None]:
submission.head()

id is the image filename of the test data. Since this is a sample for submission, the current target value (has_cactus) is meaningless; we just need to predict the probability of having a cactus in our test image data and update the target value.

id는 테스트 데이터의 이미지 파일명입니다. 제출용 샘플이라서 현재의 타깃값(has_cactus)은 의미가 없습니다. 우리가 테스트 이미지 데이터에 선인장이 있을 확률을 예측해서 타깃값을 갱신해 주면 됩니다.

## 2. Data Visualization (데이터 시각화)

Let's visualize the data. We've got a CSV file and an image file. The CSV file only has the image filename and the target value, so we're going to plot a graph using just the target value. Next, we'll actually output some images.

데이터를 시각화해보겠습니다. 주어진 데이터는 csv 파일과 이미지 파일이죠. csv 파일에는 이미지 파일명과 타깃값밖에 없어서 타깃값만 활용해 그래프를 그려볼 예정입니다. 이어서 몇 가지 이미지를 실제로 출력해보겠습니다.

### [1] Distribution of target value (타깃값 분포)

First, let's look at the distribution of the target values. Let's draw a pie graph.

가장 먼저 타깃값 분표를 보죠. 파이 그래프를 그려보겠습니다.

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

mpl.rc('font', size = 12)
plt.figure(figsize = (5, 5))
label = ['Has cactus', 'Hasn\'t cactus']
plt.pie(labels['has_cactus'].value_counts(), labels = label, autopct = '%.1f%%')

The ratio of target values 0 (Hasn't cactus) to 1 (Has cactus) is approximately 1:3.

타깃값 0(Hasn't cactus)과 1(Has cactus)의 비율이 약 1:3입니다.

### [2] Image Output (이미지 출력)

Next, let's see what images are used. You can download the provided archive, unzip it, and open it. But we're data scientists, right? So let's implement it in code.

다음으로 어떤 이미지가 사용되는지 보겠습니다. 제공된 압축 파일을 다운로드해 압축을 푼 뒤 열어봐도 됩니다. 그런데 우리는 데이터 과학자잖아요? 그러니 코드로 구현해보겠습니다.

.

First, let's unzip the archive. We can use the Zipfile class in the zipfile module to unpack zip files. Unzip train.zip and test.zip with the following code.

먼저 압축 파일을 풀어봅시다. zipfile 모듈의 Zipfile 클래스를 사용하면 zip 파일을 풀 수 있습니다. 다음 코드로 train.zip과 test.zip을 풉니다.

In [None]:
from zipfile import ZipFile

# 훈련 이미지 데이터 압축 풀기
with ZipFile(data_path + 'train.zip') as zipper:
    zipper.extractall()
    
# 테스트 이미지 데이터 압축 풀기
with ZipFile(data_path + 'test.zip') as zipper:
    zipper.extractall()

You pass the path to the zip file as a parameter to ZipFile(). Calling the extractall() method on the zipper object assigned by the with statement will extract the zip file.

ZipFile()의 파라미터로 zip 파일 경로를 전달합니다. with문으로 할당한 zipper 객체에 extractall() 메서드를 호출하면 zip 파일의 압축을 풉니다.

.

Let's find out how many image files are in the train and test directories respectively. Let's use the os module. Calling os.listdir() returns the full names of the files in the path passed as an argument. If we count the total number of files, we'll know how many image files we have, right?

train 디렉터리와 test 디렉터리에 각각 이미지 파일이 몇 개 있는지 알아봅시다. os 모듈을 사용해보겠습니다. os.listdir()을 호출하면 인수로 전달한 경로에 들어 있는 파일들의 이름 전체를 반환합니다. 전체 파일의 개수를 세면 이미지 파일이 몇 개인지 알 수 있겠죠?

In [None]:
import os

num_train = len(os.listdir('train'))
num_test = len(os.listdir('test'))

print(f'훈련 데이터 개수: {num_train}')
print(f'테스트 데이터 개수: {num_test}')

Now let's output some training image data. We'll use the OpenCV library to read the image files. OpenCV is an open-source computer vision library that is often used for image processing. First, let's output 12 images containing cactus.

이제 훈련 이미지 데이터를 몇 개 출력해보겠습니다. 이미지 파일을 읽기 위해 OpenCV 라이브러리를 사용하겠습니다. OpenCV는 오픈소스 컴퓨터 비전 라이브러리로, 영상 처리에 자주 사용됩니다. 먼저 선인장을 포함하는 이미지 12장을 출력해보겠습니다.

In [None]:
import matplotlib.gridspec as gridspec
import cv2 # OpenCV 라이브러리 임포트

mpl.rc('font', size = 7)
plt.figure(figsize = (15, 6))  # 전체 Figure 크기 설정
grid = gridspec.GridSpec(2, 6) # 서브플롯 배치 (2행 6열로 출력)

# 1. 선인장을 포함하는 이미지 파일명 (마지막 12개)
last_has_cactus_img_name = labels[labels['has_cactus'] == 1]['id'][-12:]

# 2. 이미지 출력
for idx, img_name in enumerate(last_has_cactus_img_name):
    img_path = 'train/' + img_name                 # 3. 이미지 파일 경로
    image = cv2.imread(img_path)                   # 4. 이미지 파일 읽기
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 5. 이미지 색상 보정
    ax = plt.subplot(grid[idx])
    ax.imshow(image)                               # 6. 이미지 출력

It's hard to tell if it's a cactus with the naked eye, but the elongated object is a cactus.

1. Assign the last 12 ID values from the labels data with a target value of 1 (has_cactus) to the last_has_cactus_img_name variable. A target value of 1 means that the image contains a cactus. The id feature represents the image filename, so this is code that eventually assigns the filenames of the last 12 images that contain a cactus.

2. traverse last_has_cactus_img_name and output the images with that filename.

3. get the path to the image file by combining the training data directory and the filename

4. read the image

5. but when we read the image with cv2.imread(), it fetches the color channels in BGR (Blue, Green, Red) order, but we need to reverse the channel order because RGB order is correct for real colors.

6. Finally, output the image.

해상도가 많이 떨어지네요. 육안으로는 선인장인지 명확히 판별하기 어렵지만, 길쭉한 물체가 선인장이라고 보면 됩니다.

1. 타깃값(has_cactus)이 1인 labels 데이터의 마지막 12개 id 값을 last_has_cactus_img_name 변수에 할당합니다. 타깃값 1은 이미지가 선인장을 포함한다는 뜻입니다. id 피처는 이미지 파일명을 나타냅니다. 따라서 결국 선인장을 포함하는 마지막 12개 이미지의 파일명을 할당하는 코드입니다.

2. last_has_cactus_img_name을 순회하면서 해당 파일명을 가진 이미지를 출력합니다.

3. 훈련 데이터 디렉터리와 파일명을 합쳐서 이미지 파일의 경로를 구하고

4. 이미지를 읽어옵니다.

5. 그런데 cv2.imread()로 이미지를 읽으면 색상 채널을 BGR(파랑, 초록, 빨강) 순서로 불러옵니다. 하지만 RGB 순서이어야 실제 색상과 맞으므로 채널 순서를 바꿔줘야 합니다.

6. 마지막으로 이미지를 출력합니다.

Now let's output an image that doesn't contain a cactus. We'll want to extract images with a has_cactus feature of 0. Except for that, it's exactly the same as the previous code.

이제는 선인장을 포함하지 않는 이미지를 출력해볼까요? has_cactus 피처가 0인 이미지를 추출해야겠죠. 이 점만 제외하면 앞 코드와 똑같습니다.

In [None]:
plt.figure(figsize = (15, 6))  # 전체 Figure 크기 설정
grid = gridspec.GridSpec(2, 6) # 서브플롯 배치

# 1. 선인장을 포함하는 이미지 파일명 (마지막 12개)
last_has_cactus_img_name = labels[labels['has_cactus'] == 0]['id'][-12:]

# 2. 이미지 출력
for idx, img_name in enumerate(last_has_cactus_img_name):
    img_path = 'train/' + img_name                 # 3. 이미지 파일 경로
    image = cv2.imread(img_path)                   # 4. 이미지 파일 읽기
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) # 5. 이미지 색상 보정
    ax = plt.subplot(grid[idx])
    ax.imshow(image)                               # 6. 이미지 출력

Again, the resolution is lower, but unlike the previous image, we don't see any elongated objects, which means no cactus.

역시나 해상도가 떨어집니다. 그래도 앞에서 본 이미지와 다르게 길쭉한 물체가 보이진 않네요. 선인장이 없다는 말입니다.

.

Finally, let's print out the image geometry.

마지막으로 이미지 형상을 출력해볼까요?

In [None]:
image.shape

The number of horizontal pixels, vertical pixels, and number of channels in the image will be output. We see that the horizontal and vertical dimensions are 32 x 32, and there are 3 channels. Note that the reason there are 3 channels is because the data provided is a color image with red (R), green (G), and blue (B).

이미지의 가로 픽셀 수, 세로 픽셀 수, 채널 수가 출력됩니다. 가로, 세로 크기는 32 x 32이며, 채널은 3개임을 알았습니다. 참고로 채널이 3개인 이유는 제공된 데이터가 빨강(R), 초록(G), 파랑(B)으로 이루어진 컬러 이미지이기 때문입니다.

## 3. Analysis Summary & Modeling Strategy
### Analysis Summary (분석 정리)

1. The ID feature of the CSV file is the image filename. You can get the location of the file by simply adding the file's pathname.
2. The image files provided are low resolution color images (32 x 32 x 3).

1. csv 파일의 id 피처는 이미지 파일명입니다. 파일의 경로명만 추가하면 파일의 위치를 바로 얻어올 수 있습니다.
2. 제공된 이미지 파일들은 낮은 해상도의 컬러 이미지(32 x 32 x 3)입니다.

### Modeling Strategy (모델링 전략)

In this contest, we'll focus on how to work with deep learning models (CNNs). In Baseline, we'll create a shallow CNN with basic settings to get the hang of it, and in Performance Improvement, we'll add some optimizations to a deeper CNN.

- Baseline model: Shallow CNN
  - Neural Network Structure: Convolutional x 2, Pooled, Flattened, Pre-combined
  - Optimizer: SGD


- Performance improvement: slightly deeper CNN
  - Data augmentation: Using various transformers
  - Neural network structure: convolutional x 5, batch normalization, pooling, flattening, pre-combining x 2
  - Optimizer: Adamax
  - Other: Increased number of training epochs

이번 경연대회에서는 딥러닝 모델(CNN)을 다루는 방법에 집중합니다. 베이스라인에서는 얕은 CNN을 기본적인 설정만으로 만들어보면서 전체적인 흐름을 익히고, 성능 개선에서는 더 깊은 CNN에 몇 가지 최적화 요소를 추가해보겠습니다.

- 베이스라인 모델 : 얕은 CNN
  - 신경망 구조 : 합성곱 x 2, 풀링, 평탄화, 전결합
  - 옵티마이저 : SGD


- 성능 개선 : 살짝 깊은 CNN
  - 데이터 증강 : 다양한 변환기 사용
  - 신경망 구조 : 합성곱 x 5, 배치 정규화, 풀링, 평탄화, 전결합 x 2
  - 옵티마이저 : Adamax
  - 기타 : 훈련 에폭 수 증가