# 📰 어린이 뉴스 Summarization

## import

In [1]:
import os
import numpy as np
import pandas as pd
import re
import io
import boto3
import json
from datetime import datetime, timedelta

## Amazon S3 to pd

In [9]:
today = datetime.strftime(datetime.now() + timedelta(hours=9), "%Y-%m-%d")

In [10]:
prefix = 'kid_news/'
bucket_name = 'nft-newsdb'

In [17]:
s3_resource = boto3.resource('s3')
bucket = s3_resource.Bucket(name=bucket_name)

In [12]:
file_object = bucket.Object(f'{prefix}{today}-items-0000000.json').get()['Body'].read()
json_file = json.loads(file_object)

In [13]:
df = pd.DataFrame()
for file in json_file:
    data = pd.DataFrame(json_file)
    df = pd.concat([df, data])
df = df.reset_index(drop=True)

In [15]:
df.head(3)

Unnamed: 0,news_url,news_title,news_subtitle,news_writer,news_date,news_article,news_img,news_source
0,http://kid.chosun.com/site/data/html_dir/2022/...,[뉴스탐험대] “여기로 건너렴” 最大<최대> 야생동물 육교 만든다,,진현경 기자,2022-04-26 00:01,세상의 모든 야생(野生)동물은 미국 캘리포니아주(州) 로스앤젤레스로 거처를 옮겨야 ...,http://kid.chosun.com/site/data/img_dir/2022/0...,어린이조선일보
1,http://kid.chosun.com/site/data/html_dir/2022/...,영국엔 70년 재위한 여왕이 존재한다고요?,영국 왕실 이야기,신자영 기자,2022-04-26 00:01,플래티넘 주빌리(Platinum Jubilee). 다소 생소한 용어죠. 플래티넘은 ...,http://kid.chosun.com/site/data/img_dir/2022/0...,어린이조선일보
2,http://kid.chosun.com/site/data/html_dir/2022/...,[뉴스탐험대] 이번엔 ‘포켓몬폰’… 컬래버 상품 ‘5분 完販<완판>’,,신현주 기자,2022-04-26 00:01,'포켓몬' 사랑은 뜨거웠다. 25일 처음 출시된 삼성전자 '갤럭시 Z플립3 포켓몬 ...,http://kid.chosun.com/site/data/img_dir/2022/0...,어린이조선일보


---

## Data Preprocessing

In [18]:
df['news_len'] = df['news_article'].apply(lambda x: len(x))

In [19]:
# 기사의 길이가 300개 아래인 경우 버림
# 문장 요약을 위해 세 문장보다 많은 기사를 확보하기 위함
df = df[df['news_len'] > 300].reset_index(drop=True)
df.head(2)

Unnamed: 0,news_url,news_title,news_subtitle,news_writer,news_date,news_article,news_img,news_source,news_len
0,http://kid.chosun.com/site/data/html_dir/2022/...,[뉴스탐험대] “여기로 건너렴” 最大<최대> 야생동물 육교 만든다,,진현경 기자,2022-04-26 00:01,세상의 모든 야생(野生)동물은 미국 캘리포니아주(州) 로스앤젤레스로 거처를 옮겨야 ...,http://kid.chosun.com/site/data/img_dir/2022/0...,어린이조선일보,435
1,http://kid.chosun.com/site/data/html_dir/2022/...,영국엔 70년 재위한 여왕이 존재한다고요?,영국 왕실 이야기,신자영 기자,2022-04-26 00:01,플래티넘 주빌리(Platinum Jubilee). 다소 생소한 용어죠. 플래티넘은 ...,http://kid.chosun.com/site/data/img_dir/2022/0...,어린이조선일보,2112


In [20]:
def clean_text(text): 
    text = re.sub(r'(\[)(.*?)(\])','',str(text)) # remove [title]
    text = re.sub(r'(\()(.*?)(\))', '', text)  # 소괄호 (세부 설명
    text = re.sub(r'[?!]', '.', text)          # ?! => 마침표 처리
    text = re.sub(r'[\,\·\:\-\_]', ' ', text)  # 문장부호 구분자 => 공백 처리
    text = text.lower() #lower case 
    text = re.sub(r'\s+', ' ', text) #remove extra space
    # text = re.sub(r'<[^>]+>','',text) #remove Html tags 
    text = re.sub(r'<[^가-힣]+>','',text)# 홑화살괄호 => 한글만 빼고 제거
    text = re.sub(r'^\s+', '', text) #remove space from start
    text = re.sub(r'\s+$', '', text) #remove space from the end
    text = re.sub('[^가-힣\w. ]', '', text)    # 한글, 문자, 숫자, 마침표, 공백 제외 제거
    text = re.sub(r'[一-龥]', '', text) #remove Chinese character
    text = re.sub('\s{2,}', ' ', text)        # 2번 이상의 space 제거
    text = text.strip()
    return text

In [21]:
df["news_title"] = df["news_title"].apply(clean_text)
df["news_article"] = df["news_article"].apply(clean_text)

In [22]:
news_df = df[['news_source', 'news_date','news_url','news_title','news_img','news_article']]

```
+--------------+--------------+------+-----+---------+----------------+
| Field        | Type         | Null | Key | Default | Extra          |
+--------------+--------------+------+-----+---------+----------------+
| id           | bigint       | NO   | PRI | NULL    | auto_increment |
| news_source  | varchar(20)  | NO   |     | NULL    |                |
| news_date    | datetime(6)  | NO   |     | NULL    |                |
| news_url     | varchar(500) | NO   |     | NULL    |                |
| news_title   | varchar(200) | NO   |     | NULL    |                |
| news_image   | varchar(500) | YES  |     | NULL    |                |
| news_article | longtext     | YES  |     | NULL    |                |
+--------------+--------------+------+-----+---------+----------------+
```

In [23]:
news_df.head(1)

Unnamed: 0,news_source,news_date,news_url,news_title,news_img,news_article
0,어린이조선일보,2022-04-26 00:01,http://kid.chosun.com/site/data/html_dir/2022/...,여기로 건너렴 최대 야생동물 육교 만든다,http://kid.chosun.com/site/data/img_dir/2022/0...,세상의 모든 야생동물은 미국 캘리포니아주 로스앤젤레스로 거처를 옮겨야 할 것 같다....


## Summarization

In [24]:
from modeling import summary

In [None]:
news_df['sum_article'] = news_df.news_article.apply(summary)

## import to Amazon RDS

In [None]:
news_df_rds = news_df[['news_source','news_date','news_url','news_title','news_img','sum_article']]
news_df_rds.columns = ['news_source','news_date','news_url','news_title','news_image','news_article']

In [19]:
news_df_rds.head(1)

Unnamed: 0,news_source,news_date,news_url,news_title,news_image,news_article
0,어린이조선일보,2022-04-19 00:01,http://kid.chosun.com/site/data/html_dir/2022/...,아메리카 인디언의 벌새 전설 기생충과 박테리아,http://kid.chosun.com/site/data/img_dir/2022/0...,기겁한 동물들이 사방으로 흩어져 달아났다\n\n그런데 유독 한 동물만은 자리를 지켰...


In [20]:
news_df_rds.to_csv('/notebooks/news_df_rds.csv')

In [21]:
news_df = pd.read_csv('/notebooks/news_df_rds.csv',sep=',').drop('Unnamed: 0', axis=1)

In [23]:
news_df.head(1)

Unnamed: 0,news_source,news_date,news_url,news_title,news_image,news_article
0,어린이조선일보,2022-04-19 00:01,http://kid.chosun.com/site/data/html_dir/2022/...,아메리카 인디언의 벌새 전설 기생충과 박테리아,http://kid.chosun.com/site/data/img_dir/2022/0...,기겁한 동물들이 사방으로 흩어져 달아났다\n\n그런데 유독 한 동물만은 자리를 지켰...


In [24]:
from sqlalchemy import create_engine
import pymysql
import pandas as pd
db_connection_str = 'mysql+pymysql://root:1234@172.19.0.2:3306/news-kids'
db_connection = create_engine(db_connection_str)
conn = db_connection.connect()

In [401]:
news_df_rds.to_sql(name='news', con=db_connection, if_exists='append',index=False) 