CORD-19 Data Analysis and Streamlit App

This project analyzes the CORD-19 metadata dataset and presents findings through a Streamlit web application.

Overview

The CORD-19 dataset contains information about COVID-19 research papers. This analysis focuses on:

Publication trends over time
Top publishing journals
Word frequency in paper titles
Distribution by data source

Dataset

The metadata.csv file from the CORD-19 dataset includes:

Paper titles and abstracts
Publication dates
Authors and journals
Source information

Download from: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

Installation

Clone this repository
Create a virtual environment: python -m venv .venv
Activate the environment: .venv\Scripts\activate (Windows)
Install dependencies: pip install -r requirements.txt

Usage

Jupyter Notebook

Run the cord19_analysis.ipynb notebook for data exploration and analysis.

Streamlit App

Run the Streamlit app: streamlit run app.py

The app allows interactive filtering by year range and data source.

Findings

Most COVID-19 papers were published in 2020
Top journals include various medical and scientific publications
Common words in titles: covid, coronavirus, sars, etc.
Sources are primarily from PMC, bioRxiv, etc.

Challenges

Handling large dataset size
Dealing with missing values in abstracts
Parsing dates in various formats

Technologies Used

Python
Pandas
Matplotlib
Seaborn
Streamlit
WordCloud

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.gitignore		.gitignore
README.md		README.md
app.py		app.py
cord19_analysis.ipynb		cord19_analysis.ipynb
metadata.csv		metadata.csv
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CORD-19 Data Analysis and Streamlit App

Overview

Dataset

Installation

Usage

Jupyter Notebook

Streamlit App

Findings

Challenges

Technologies Used

About

Uh oh!

Releases

Packages

Languages

JethroKimande/PLP-Python-WK-8

Folders and files

Latest commit

History

Repository files navigation

CORD-19 Data Analysis and Streamlit App

Overview

Dataset

Installation

Usage

Jupyter Notebook

Streamlit App

Findings

Challenges

Technologies Used

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages