# Word Document Automation (Python)

This jupyter notebook discuss how to convert necessary data of an excel file to word docx for better reading experience.

It is recommended to use when we need to display certain data information to the upper management instead of reading an excel file.

The excel files include information about the video description, video creator, etc. of short clips targeting male skincare from China TikTok.

## 1.1 Concept/ Scratch

In [2]:
from docx import Document
from docx.shared import Inches

document = Document()

document.add_heading('Document Title', 0)

p = document.add_paragraph('A plain paragraph having some ')
p.add_run('bold').bold = True
p.add_run(' and some ')
p.add_run('italic.').italic = True

document.add_heading('Heading, level 1', level=1)
document.add_paragraph('Intense quote', style='Intense Quote')

document.save('demo.docx')

## 1.2 Desired output

In [6]:
from docx import Document
document = Document() #creating an empty document

document.add_heading('罗杰夫', level = 1)
document.add_heading('答应我，不做臭男人 #糟糕是心动的感觉 #恋爱的感觉 @小奈奈✈️ #男神必备 #颜值爆表', level = 2)
document.add_paragraph('好香的所有风云一次大步往前走')

document.save('demo.docx')

## 1.3 Improve

## 1.3.1 Basic version (ver 1)

duplicate 品牌 and no format

In [37]:
import pandas as pd

In [38]:
video_list = pd.read_excel('video_list.xlsx')
speech_text = pd.read_excel('speech_text.xlsx')

In [39]:
video_list['AwemeId'] = video_list['AwemeId'].astype(str)
speech_text['VideoId'] = speech_text['VideoId'].astype(str)

In [40]:
speech_text.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73 entries, 0 to 72
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   视频标题     73 non-null     object
 1   视频时长     73 non-null     int64 
 2   VideoId  73 non-null     object
 3   视频文案     73 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.4+ KB


In [41]:
df = pd.merge(video_list,
              speech_text,
              how = 'inner', 
              left_on = 'AwemeId',
              right_on = 'VideoId'
             )
            
df

Unnamed: 0,品牌,AwemeId,AwemeDesc,AwemePubTime,BloggerName,BloggerPlatform_Fans,LikeCount,CommentCount,ShareCount,视频标题,视频时长,VideoId,视频文案
0,罗杰夫,7146446193428565280,答应我，不做臭男人\n#糟糕是心动的感觉 #恋爱的感觉 \n@小奈奈✈️ #男神必备 #颜值爆表,2022-09-23 13:41:16,小奈奈✈️,2.2w,109,14,3,答应我，不做臭男人#糟糕是心动的感觉 #恋爱的感觉 @小奈奈✈️ #男神必备 #颜值爆表 _...,8540,7146446193428565280,好香的所有风云一次大步往前走
1,罗杰夫,7146452469000719627,好闻的古龙香水沐浴露！确定不来一支试一下！#持久留香 #香水沐浴露,2022-09-23 14:05:36,小奈奈✈️,2.2w,109,8,2,好闻的古龙香水沐浴露！确定不来一支试一下！#持久留香 #香水沐浴露 _71464524690...,8010,7146452469000719627,下乡呀，微风悄悄吹动发笑，吹动取角，吹动她的睫毛
2,Lanseral /蓝系,7124204774748065038,我的女朋友还是很爱我的#蓝系大螺钉礼盒#情侣日常,2022-07-26 12:00:25,金轩闪闪,15.8w,2689,129,775,我的女朋友还是很爱我的#蓝系大螺钉礼盒#情侣日常_7124204774748065038,30970,7124204774748065038,什么是女朋友，她说宝宝我回来了，有个快递到了，你去拿一下，她说拿回来顺手拆一下不行吗，她说拆...
3,朗仕,7124255946536127781,有幸遇见，刚好合拍#朗仕青春肌能三部曲 #朗仕蓝宝瓶 @洋珂,2022-07-25 19:00:12,糖一,1362.2w,37.9w,1.7w,6909,有幸遇见，刚好合拍#朗仕青春肌能三部曲 #朗仕蓝宝瓶 @洋珂_712425594653612...,211370,7124255946536127781,是吧，你和杨珂在一起这么久都没见过她妈妈吗，对，所以这次见面我一定要猴子，来人呐抓小偷站住，...
4,朗仕,7125651331951381774,每个人都有隐藏属性#朗仕蓝宝瓶 #朗仕青春肌能三部曲,2022-07-29 20:30:12,Caro赖赖_,384.6w,12.0w,1.1w,9574,每个人都有隐藏属性#朗仕蓝宝瓶 #朗仕青春肌能三部曲_7125651331951381774,84730,7125651331951381774,哇宝贝辛苦啦，大家真好，今晚带你去洗脚，哼哈笑死搞了没有，快点陪我玩，马上来，你看这块视频好...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,DREAM TIMES,7122372605344107807,清爽男孩必备的护肤套装，七夕礼物就选它啦~#送男生礼物 #情人节礼物 #男生护肤,2022-07-20 16:43:24,摩卡不加糖,52.1w,2348,63,78,清爽男孩必备的护肤套装，七夕礼物就选它啦~#送男生礼物 #情人节礼物 #男生护肤_71223...,86310,7122372605344107807,谁说男孩子们不会护肤的，很多时候他们只是缺少一个让他们精致护肤的契机，所以这次情人节我给他买...
69,DREAM TIMES,7121320705978846478,七夕还不知道送男朋友什么礼物的姐妹，这期视频可要认真看了！#送男生礼物 #七夕礼物#男生护肤...,2022-07-17 20:41:28,杨泽威Wily,127.3w,2.5w,154,206,七夕还不知道送男朋友什么礼物的姐妹，这期视频可要认真看了！#送男生礼物 #七夕礼物#男生护肤...,99010,7121320705978846478,七一情人节，还不知道送男朋友什么礼物的，送他绝对靠谱，但是每到了女生送男生礼物的时候，简直头...
70,DREAM TIMES,7125000638664084736,这次送男生的七夕礼物真的太宝藏了！帮油皮男票保持清爽少年感！#送男生的礼物#七夕礼物#七夕送...,2022-07-27 18:41:30,小王子333乐乐,25.6w,5101,44,138,这次送男生的七夕礼物真的太宝藏了！帮油皮男票保持清爽少年感！#送男生的礼物#七夕礼物#七夕送...,101000,7125000638664084736,非常的实用，七夕节送给男朋友的礼物推荐首选，这不是马上就七夕了吗，很多小姐妹就在私信问我说有...
71,DREAM TIMES,7125390905665735940,男生也要有七夕礼物 这个K2礼盒做七夕礼物太合适啦!爱意满满！#七夕礼物它#送男友礼物 #...,2022-07-28 19:55:56,小黑妞,11.6w,1189,1,1,男生也要有七夕礼物 这个K2礼盒做七夕礼物太合适啦!爱意满满！#七夕礼物它#送男友礼物 #...,18740,7125390905665735940,性情人节送男友礼物小 tips 快收下不获男友的芳心，这个 grandpans k2 男是户...


In [56]:
document = Document() #create new document to avoid continue editing

for i in range(len(df)):
    
    #print (df.iloc[i]['品牌'])
    document.add_heading(df.iloc[i]['品牌'], level = 1)
    
    document.add_heading(df.iloc[i]['AwemeDesc'], level = 2)
    
    document.add_paragraph(df.iloc[i]['视频文案'])

document.save('demo.docx')

## 1.3.2 Improve: Using if statement (no duplicate 品牌)

use if else statement

arrange table according to 品牌 so same brands display row to row


cond1: current 品牌 is not same with the previous data

cond2: index = 0

then create a 品牌

In [6]:
df.sort_values(by = ['品牌'])
df

Unnamed: 0,品牌,AwemeId,AwemeDesc,AwemePubTime,BloggerName,BloggerPlatform_Fans,LikeCount,CommentCount,ShareCount,视频标题,视频时长,VideoId,视频文案
0,罗杰夫,7146446193428565280,答应我，不做臭男人\n#糟糕是心动的感觉 #恋爱的感觉 \n@小奈奈✈️ #男神必备 #颜值爆表,2022-09-23 13:41:16,小奈奈✈️,2.2w,109,14,3,答应我，不做臭男人#糟糕是心动的感觉 #恋爱的感觉 @小奈奈✈️ #男神必备 #颜值爆表 _...,8540,7146446193428565280,好香的所有风云一次大步往前走
1,罗杰夫,7146452469000719627,好闻的古龙香水沐浴露！确定不来一支试一下！#持久留香 #香水沐浴露,2022-09-23 14:05:36,小奈奈✈️,2.2w,109,8,2,好闻的古龙香水沐浴露！确定不来一支试一下！#持久留香 #香水沐浴露 _71464524690...,8010,7146452469000719627,下乡呀，微风悄悄吹动发笑，吹动取角，吹动她的睫毛
2,Lanseral /蓝系,7124204774748065038,我的女朋友还是很爱我的#蓝系大螺钉礼盒#情侣日常,2022-07-26 12:00:25,金轩闪闪,15.8w,2689,129,775,我的女朋友还是很爱我的#蓝系大螺钉礼盒#情侣日常_7124204774748065038,30970,7124204774748065038,什么是女朋友，她说宝宝我回来了，有个快递到了，你去拿一下，她说拿回来顺手拆一下不行吗，她说拆...
3,朗仕,7124255946536127781,有幸遇见，刚好合拍#朗仕青春肌能三部曲 #朗仕蓝宝瓶 @洋珂,2022-07-25 19:00:12,糖一,1362.2w,37.9w,1.7w,6909,有幸遇见，刚好合拍#朗仕青春肌能三部曲 #朗仕蓝宝瓶 @洋珂_712425594653612...,211370,7124255946536127781,是吧，你和杨珂在一起这么久都没见过她妈妈吗，对，所以这次见面我一定要猴子，来人呐抓小偷站住，...
4,朗仕,7125651331951381774,每个人都有隐藏属性#朗仕蓝宝瓶 #朗仕青春肌能三部曲,2022-07-29 20:30:12,Caro赖赖_,384.6w,12.0w,1.1w,9574,每个人都有隐藏属性#朗仕蓝宝瓶 #朗仕青春肌能三部曲_7125651331951381774,84730,7125651331951381774,哇宝贝辛苦啦，大家真好，今晚带你去洗脚，哼哈笑死搞了没有，快点陪我玩，马上来，你看这块视频好...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
68,DREAM TIMES,7122372605344107807,清爽男孩必备的护肤套装，七夕礼物就选它啦~#送男生礼物 #情人节礼物 #男生护肤,2022-07-20 16:43:24,摩卡不加糖,52.1w,2348,63,78,清爽男孩必备的护肤套装，七夕礼物就选它啦~#送男生礼物 #情人节礼物 #男生护肤_71223...,86310,7122372605344107807,谁说男孩子们不会护肤的，很多时候他们只是缺少一个让他们精致护肤的契机，所以这次情人节我给他买...
69,DREAM TIMES,7121320705978846478,七夕还不知道送男朋友什么礼物的姐妹，这期视频可要认真看了！#送男生礼物 #七夕礼物#男生护肤...,2022-07-17 20:41:28,杨泽威Wily,127.3w,2.5w,154,206,七夕还不知道送男朋友什么礼物的姐妹，这期视频可要认真看了！#送男生礼物 #七夕礼物#男生护肤...,99010,7121320705978846478,七一情人节，还不知道送男朋友什么礼物的，送他绝对靠谱，但是每到了女生送男生礼物的时候，简直头...
70,DREAM TIMES,7125000638664084736,这次送男生的七夕礼物真的太宝藏了！帮油皮男票保持清爽少年感！#送男生的礼物#七夕礼物#七夕送...,2022-07-27 18:41:30,小王子333乐乐,25.6w,5101,44,138,这次送男生的七夕礼物真的太宝藏了！帮油皮男票保持清爽少年感！#送男生的礼物#七夕礼物#七夕送...,101000,7125000638664084736,非常的实用，七夕节送给男朋友的礼物推荐首选，这不是马上就七夕了吗，很多小姐妹就在私信问我说有...
71,DREAM TIMES,7125390905665735940,男生也要有七夕礼物 这个K2礼盒做七夕礼物太合适啦!爱意满满！#七夕礼物它#送男友礼物 #...,2022-07-28 19:55:56,小黑妞,11.6w,1189,1,1,男生也要有七夕礼物 这个K2礼盒做七夕礼物太合适啦!爱意满满！#七夕礼物它#送男友礼物 #...,18740,7125390905665735940,性情人节送男友礼物小 tips 快收下不获男友的芳心，这个 grandpans k2 男是户...


In [78]:
document = Document() #create new document to avoid continue editing

for i in range(len(df)):
    
    '''
        if current 品牌 is different with 品牌 of previous row
        OR
        it is the first row
        then create new heading 1 
    '''
    if df.iloc[i]['品牌']  != df.iloc[i-1]['品牌']  or i == 0:
        document.add_heading(df.iloc[i]['品牌'], level = 1)
        
    document.add_heading(df.iloc[i]['AwemeDesc'], level = 2)
    
    #add on video info
    document.add_paragraph(f'creator: {df.iloc[i]["BloggerName"]}')
    
    document.add_paragraph(f'URL: douyin.com/video/{df.iloc[i]["AwemeId_x"]}')
    
    document.add_paragraph(df.iloc[i]['视频文案'])

document.save('demo.docx')

## 1.3.3 Improve: Using Groupby (no duplicate 品牌)

use groupby to group by 品牌 then add to word docx 

In [159]:
df_dict = df.groupby('品牌')[['AwemeDesc', 'BloggerName', 'AwemeId']].apply(lambda grp: list(grp.value_counts().index)).to_dict()
#The value_counts function implicitly groups the Name field by count and returns descending order by default.

for x in df_dict:
    print(x)
    for y in df_dict[x]:
        print (y, '\n')

A.H.C/爱和纯
('可以让男朋友用空瓶的#水乳 分享给你们#情侣#护肤#男士', '原来是小辣椒', '7143878072473849118') 

('谁说男生护肤就是娘了！干净清爽才是男生的加分项！#男士护肤品#清爽保湿#男士水乳三件套 #护肤套装 ', '不差钱男孩', '7146513306939952399') 

DREAM TIMES
('七夕还不知道送男朋友什么礼物的姐妹，这期视频可要认真看了！#送男生礼物 #七夕礼物#男生护肤#K2男士护肤套装', '杨泽威Wily', '7121320705978846478') 

('七夕送男友真的巨有心意!这样的礼物哪个男生不想要~#七夕礼物#送男生礼物#礼物清单#七夕', '🌙月牙妹妹', '7122751243939810574') 

('清爽男孩必备的护肤套装，七夕礼物就选它啦~#送男生礼物 #情人节礼物 #男生护肤', '摩卡不加糖', '7122372605344107807') 

('男生也要有七夕礼物  这个K2礼盒做七夕礼物太合适啦!爱意满满！#七夕礼物它#送男友礼物 #男生礼物 #男生护肤#小众礼物 ', '小黑妞', '7125390905665735940') 

('还不知道七夕送什么给男票的快进来抄作业啦！！#七夕礼物推荐#男士护肤套装#七夕礼物#送男朋友的礼物#送礼清单', 'NIANAN.', '7123508859888471330') 

('这次送男生的七夕礼物真的太宝藏了！帮油皮男票保持清爽少年感！#送男生的礼物#七夕礼物#七夕送男朋友什么礼物#男生护肤套装#dreamtimes三部曲', '小王子333乐乐', '7125000638664084736') 

Kiehl's/科颜氏
('七夕女生送男生什么礼物击中他的心巴？#科颜氏 #科颜氏男士 #护肤 #七夕 #礼物', '万人迷楠姐', '7123090703911013672') 

('七夕高段位情侣礼物来了！不看完证明你不够爱！#情侣 #送男朋友礼物 #科颜氏男士', '微辣阿弯', '7123552495615495463') 

('别光看呀！你家那位也可以啊！快动起来~#七夕送礼 #科颜氏男士 #男士护肤 #护肤 #礼盒', '就是叫大宝！', '7125383044499787015') 

In [163]:
document = Document()

for x in df_dict:
    document.add_heading(x, level = 1)
    for y in df_dict[x]:
        for i in range(len(y)):
            if i == 0:
                document.add_heading(y[i], level = 2)
                #print(y[i])
            elif i == 1:
                document.add_paragraph(f'creator: {y[i]}')
                #print(f'Creator: {y[i]}')
            elif i == 2:
                document.add_paragraph(f'URL: douyin.com/video/{y[i]}')
                print("\n")
            i + 1
document.save('demo2.docx')     



















































































































































