In [1]:
import polars as pl
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
content = pl.read_ipc("data/articles_content.arrow")
articles = pl.read_ipc("data/vtv_articles.feather")

In [3]:
whole = content.join(articles,on="link").select([
    "link",
    "title",
    pl.col("datetime").str.strptime(pl.Datetime, "%d/%m/%Y %H:%M"),
    "author",
    "tags",
    "description",
    "contents",
    "whole_website"
]
)

In [8]:
insight1 = whole.groupby(["author"]).agg(pl.count()
).sort(by="author", descending=True).to_pandas()

Unnamed: 0,author,count
0,Ảnh và bài: Tiến Dũng,1
1,"Đức Đệ, Hữu Phương (VTV9)",1
2,Đức Đệ - Uyên Phương (VTV9),1
3,"Đức Vân,",1
4,Đức Triệt (Tuổi trẻ Online),1
...,...,...
95,Đào Huyền - Trương Thủy,1
96,"Đào Hiền, Đăng Dũng",1
97,"Đào Hiền,",2
98,Đài PT-TH Tuyên Quang,1


In [9]:
insight1["count_authors"] = insight1["author"].apply(lambda x: x.count(" - ") + x.count(","))

In [12]:
insight1.sort_values(by="count_authors")

Unnamed: 0,author,count,count_authors
0,Ảnh và bài: Tiến Dũng,1,0
1337,Nguyễn Văn Vinh (Đài THVN),1,0
1336,Nguyễn Điền,5,0
1330,Nguyệt Mai,2,0
1329,Nguyệt Mai (t/h),2,0
...,...,...,...
1938,"Hoài Thương, Gia Long, Tiến Tú, Nguyên Thảo, D...",1,4
1373,"Nguyễn Mai, Đình Nguyên (Tham khảo: Forbes, AA...",1,5
770,"Thanh Hiệp (Tổng hợp từ Reuters, Bangkok Post,...",1,5
227,"Việt Linh (Tổng hợp Guardian, Euronews, Vox, C...",1,5


In [None]:
insight1 = insight1.set_index(["author","month"],drop=True)

In [None]:
insight1.groupby(['author','month']).sum()

In [None]:
# create a sample dataframe
data = {'count': [10, 20, 30, 15, 25, 35],
        'month': ['Jan', 'Feb', 'Mar', 'Jan', 'Feb', 'Mar'],
        'author': ['Alice', 'Alice', 'Alice', 'Bob', 'Bob', 'Bob']}
df = pd.DataFrame(data)

# group the data by author and month
grouped = df.groupby(['author', 'month']).sum()
grouped

In [None]:
# create a plot with multiple lines for each author
fig, ax = plt.subplots()
for author, data in insight1.groupby(level=0):
    data.plot(y='count', ax=ax, label=author)

# set the x-axis label and title
ax.set_xlabel('Month')
ax.set_title('Count by Author and Month')

# show the legend
ax.legend()

# show the plot
plt.show()
