# 데이터 가져오기 및 처리

데이터 세트는 모든 데이터 과학 프로젝트에 필수적입니다! 데이터가 많을수록 기능 간의 관계를 더 쉽게 식별할 수 있습니다. 그러나 데이터 분석을 수행하기 전에 컴퓨터에서 데이터 세트를 이해하는 것도 필수적입니다. 따라서 이 연습의 주요 목적은 데이터 분석 또는 기계 학습을 수행하기 전에 데이터 세트를 가져오고 처리하는 데 필요한 기술을 배우는 것입니다.

## 1. 데이터 가져오기

무료로 데이터를 얻을 수 있는 웹사이트가 많이 있습니다. Kaggle(https://www.kaggle.com/) 및 University of California, Irvine(https://archive.ics.uci.edu/ml/index.php) (UCI)가 대표적인 사이트 있습니다. 데이터 세트를 수동으로 다운로드하여 컴퓨터의 새 폴더에 저장할 수 있습니다. 그러나 그렇게 하려면 시간이 많이 걸릴 수 있습니다. 따라서 이 프로세스를 자동화하는 간단한 방법이 있습니다! 
magic.py가 이 기능을 제공합니다. 한번 해보세요!

스크립트가 작동하려면 python 가상 환경에 os, wget, pandas 및 matplotlib 라이브러리가 설치되어 있는지 확인하십시오.

아래 셀을 실행하는 동안 오류가 발생하면 첫 번째 줄을 주석 처리하십시오. #%matplotlib qt

In [1]:
%matplotlib qt

# 다운로드 자동화 프로그램 / 파일 있음
%run "magic.py"

Current working directory: C:\Users\IOT\Documents\vision_AI\0423
Downloading file..........


File has been downloaded!
Performing super difficult data analysis..........


만세! 수동 작업 없이 데이터를 다운로드하고 그래프를 그렸습니다. magic.py 파일을 열지 않고도 데이터가 다운로드된 위치를 알 수 있습니까? 위에 출련된 문장에서 힌트를 얻을 수 있습니다!

In [2]:
#your answer here

# 이 스크립트는 http://futures-plus.com/ai4y/co2-mm-mlo.csv에서 월별 평균 이산화탄소 값을 다운로드하고 표시합니다.

import os
import urllib.request
import pandas as pd
import matplotlib.pyplot as plt

# 현재 디렉토리 확인 및 새 디렉토리 생성
cwd = os.getcwd()
print("Current working directory: %s" % cwd)
path = os.path.join(cwd,"Magic_Data")
if not os.path.isdir(path):
    os.mkdir(path)
    print("Newly created directory to store files: %s" % path)

# 다운로드를 위한 파일 경로를 제공합니다. 파일 경로에는 폴더 경로와 파일 이름이 모두 포함됩니다.
full_path = os.path.join(path,"co2-mm-mlo.csv")


# 파일 다운로드
print("Downloading file..........")

urllib.request.urlretrieve("http://sl2files.sustainablelivinglab.org/co2-mm-mlo.csv", full_path)


print("\n")
print("File has been downloaded!")

# 기본 표시
print("Performing super difficult data analysis..........")
fn = "co2-mm-mlo.csv"
carbon_dioxide = pd.read_csv(os.path.join(path,fn))
plt.plot(carbon_dioxide['Date'],carbon_dioxide['Average'])
plt.xlabel('Time')
plt.ylabel('CO2 concentration in ppm')
plt.show()

Current working directory: C:\Users\IOT\Documents\vision_AI\0423
Downloading file..........


File has been downloaded!
Performing super difficult data analysis..........


<font color=blue>보너스: 그래프가 제대로 보이나요? 음수 값과 x축의 검은색 선을 설명할 수 있습니까?</font>

data가 너무 많아서 겹쳐지는 형상으로 보입니다. 

## 1.1 iris 데이터 세트 다운로드

이제 데이터 세트를 직접 가져올 차례입니다. 사용할 데이터셋은 유명한 Iris Flower 데이터셋입니다. 데이터 세트는 http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data 에서 다운로드할 수 있습니다. 다운로드할 파일은 iris.data입니다. 데이터 세트에 대한 자세한 정보는 https://en.wikipedia.org/wiki/Iris_flower_data_set 에서 얻을 수 있습니다. 다음 코드를 실행하기 전에 데이터 세트 설명을 살펴보세요.

데이터 세트를 저장할 새 폴더를 만듭니다. urlib.request.urletrieve 함수를 사용하여 데이터 세트를 자동으로 다운로드 받을 수 있는 코드를 아래에 작성하세요. magic.py 내의 코드를 참조로 사용할 수 있습니다.

magic.py 파일의 코드를 참조하려면 폴더에서 magic.py 파일을 찾습니다. 마우스 오른쪽 버튼을 클릭하고 워드패드를 이용하여 엽니다.

<font color=blue>보너스: 코드 2줄만 사용하여 데이터를 다운로드하세요!</font>

In [3]:
#your answer here
import urllib.request

urllib.request.urlretrieve("https://archive.ics.uci.edu/ml/index.php", "./Magic_Data/iris.data")

('./Magic_Data/iris.data', <http.client.HTTPMessage at 0x266a189d1e0>)

In [4]:
!type iris.data

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.4,3.7,1.5,0.2,Iris-setosa
4.8,3.4,1.6,0.2,Iris-setosa
4.8,3.0,1.4,0.1,Iris-setosa
4.3,3.0,1.1,0.1,Iris-setosa
5.8,4.0,1.2,0.2,Iris-setosa
5.7,4.4,1.5,0.4,Iris-setosa
5.4,3.9,1.3,0.4,Iris-setosa
5.1,3.5,1.4,0.3,Iris-setosa
5.7,3.8,1.7,0.3,Iris-setosa
5.1,3.8,1.5,0.3,Iris-setosa
5.4,3.4,1.7,0.2,Iris-setosa
5.1,3.7,1.5,0.4,Iris-setosa
4.6,3.6,1.0,0.2,Iris-setosa
5.1,3.3,1.7,0.5,Iris-setosa
4.8,3.4,1.9,0.2,Iris-setosa
5.0,3.0,1.6,0.2,Iris-setosa
5.0,3.4,1.6,0.4,Iris-setosa
5.2,3.5,1.5,0.2,Iris-setosa
5.2,3.4,1.4,0.2,Iris-setosa
4.7,3.2,1.6,0.2,Iris-setosa
4.8,3.1,1.6,0.2,Iris-setosa
5.4,3.4,1.5,0.4,Iris-setosa
5.2,4.1,1.5,0.1,Iris-setosa
5.5,4.2,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa
5.0,3.2,1.2,0.2,Iris

`pd.read_csv("iris.data")`의 경우, 실행 같은 폴더에 있어야지만 실행이 됨

## 1.2 Image 다운로드 - Bing Image Downloader 사용

이미지 크롤링

In [5]:
# Bing Image Downloader 패키기 설치하기
!pip install bing_image_downloader



In [6]:
# 다운로드할 이미지 키워드와 개수 지정하여 다운로드하기
from bing_image_downloader import downloader
import os

keywords = input("검색할 이미지 키워드를 입력하세요 (예: 노란바나나) => ")
limit = int(input("다운로드할 이미지의 개수를 입력하세요 =>  "))

# 현재 디렉토리의 절대 경로 가져오기
current_directory = os.path.abspath('.')

# 다운로드 정보 기록
record = {
    "keywords": keywords,
    "limit": limit
}

# 이미지 다운로드 실행
downloader.download(
    record['keywords'], 
    limit=record['limit'],
    output_dir=current_directory,  # 현재 디렉토리를 다운로드 경로로 설정
    adult_filter_off=True,
    force_replace=False,
    timeout=60
)

검색할 이미지 키워드를 입력하세요 (예: 노란바나나) => 파인애플
다운로드할 이미지의 개수를 입력하세요 =>  5
[%] Downloading Images to C:\Users\IOT\Documents\vision_AI\0423\파인애플


[!!]Indexing page: 1

[%] Indexed 5 Images on Page 1.


[%] Downloading Image #1 from https://png.pngtree.com/png-clipart/20201209/original/pngtree-a-pineapple-png-image_5629047.jpg
[%] File Downloaded !

[%] Downloading Image #2 from https://upload.wikimedia.org/wikipedia/commons/7/7a/Ananas~May_2008-1.jpg
[%] File Downloaded !

[%] Downloading Image #3 from https://imgnn.seoul.co.kr/img/upload/2014/06/09/SSI_20140609135902.jpg
[%] File Downloaded !

[%] Downloading Image #4 from http://cfile215.uf.daum.net/image/998B863B5DB2E3DA350DFA
[%] File Downloaded !

[%] Downloading Image #5 from https://static.wikia.nocookie.net/nutri/images/8/86/파인애플.jpg/revision/latest?cb=20170505054308&amp;path-prefix=ko
[!] Issue getting: https://static.wikia.nocookie.net/nutri/images/8/86/파인애플.jpg/revision/latest?cb=20170505054308&amp;path-prefix=ko
[!] Error:: 'ascii' c

## < 연습문제>
- 여러개의 이미지를 다운로드 하는 코드를 작성해 보세요
    - 입력 : 몇세트를 다운로드할지, 검색이미지 키워드, 다운로드할 이미지 개수

In [5]:
# code here

image_type = int(input("이미지를 몇 종류나 다운로드할까요 =>  "))

# 다운로드할 이미지 키워드와 개수 지정하여 다운로드하기
from bing_image_downloader import downloader
import os

for _ in range(image_type):
    keywords = input("검색할 이미지 키워드를 입력하세요 (예: 노란바나나) => ")
    limit = int(input("다운로드할 이미지의 개수를 입력하세요 =>  "))

    # 현재 디렉토리의 절대 경로 가져오기
    current_directory = os.path.abspath('.')

    # 다운로드 정보 기록
    record = {
        "keywords": keywords,
        "limit": limit
    }

    # 이미지 다운로드 실행
    downloader.download(
        record['keywords'], 
        limit=record['limit'],
        output_dir=current_directory,  # 현재 디렉토리를 다운로드 경로로 설정
        adult_filter_off=True,
        force_replace=False,
        timeout=60
    )

이미지를 몇 종류나 다운로드할까요 =>  2
검색할 이미지 키워드를 입력하세요 (예: 노란바나나) => 바나나
다운로드할 이미지의 개수를 입력하세요 =>  3
[%] Downloading Images to C:\Users\IOT\Documents\vision_AI\0423\바나나


[!!]Indexing page: 1

[%] Indexed 3 Images on Page 1.


[%] Downloading Image #1 from http://pds.joins.com/news/component/htmlphoto_mmdata/201506/01/htm_2015060181910a010a012.jpg
[%] File Downloaded !

[%] Downloading Image #2 from https://dolesunshine.com/kr/wp-content/uploads/sites/4/2022/06/teuksun-Banana.png
[%] File Downloaded !

[%] Downloading Image #3 from https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg
[Error]Invalid image, not saving https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg

[!] Issue getting: https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg
[!] Error:: Invalid image, not saving https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg



[!!]Indexing page: 2

[%] Indexed 35 Images on Page 2.


[%] Downloading Image #

In [7]:
# 강사님 코드
from bing_image_downloader import downloader
import os
records = []

# 키워드와 다운로드 받을 개수를 입력받기 위한 함수 정의
def get_user_record():
    keywords = input("검색할 이미지 키워드를 입력하세요 (예: 노란 바나나) => ")
    limit = int(input("다운로드할 이미지의 개수를 입력하세요 =>  "))
    record = { "keywords" : keywords ,
               "limit" : limit }
    
    return record

# 현재 디렉토리의 절대 경로 가져오기
current_directory = os.path.abspath('.')

num_records = int(input("몇 개의 이미지 세트를 다운로드 하시겠습니까? "))

for _ in range(num_records):
    record = get_user_record()
    records.append(record)
    
# 각 레코드에 대한 이미지 다운로드하기
for record in records:
    downloader.download(record['keywords'], 
                        limit=record['limit'],
                        output_dir=current_directory,
                        adult_filter_off=True,
                        force_replace=False,
                        timeout=60)

몇 개의 이미지 세트를 다운로드 하시겠습니까? 3
검색할 이미지 키워드를 입력하세요 (예: 노란 바나나) => 바나나
다운로드할 이미지의 개수를 입력하세요 =>  3
검색할 이미지 키워드를 입력하세요 (예: 노란 바나나) => 파프리카
다운로드할 이미지의 개수를 입력하세요 =>  5
검색할 이미지 키워드를 입력하세요 (예: 노란 바나나) => 사과
다운로드할 이미지의 개수를 입력하세요 =>  4
[%] Downloading Images to C:\Users\IOT\Documents\vision_AI\0423\바나나


[!!]Indexing page: 1

[%] Indexed 3 Images on Page 1.


[%] Downloading Image #1 from http://pds.joins.com/news/component/htmlphoto_mmdata/201506/01/htm_2015060181910a010a012.jpg
[%] File Downloaded !

[%] Downloading Image #2 from https://dolesunshine.com/kr/wp-content/uploads/sites/4/2022/06/teuksun-Banana.png
[%] File Downloaded !

[%] Downloading Image #3 from https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg
[Error]Invalid image, not saving https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg

[!] Issue getting: https://health.chosun.com/site/data/img_dir/2022/02/23/2022022301615_0.jpg
[!] Error:: Invalid image, not saving https://health.chosun.co