Landmark_Recognition

Question: Given a photo, can we recognize the correct landmarks it contains?

One-shot learning

An object categorization problem in computer vision. Whereas most machine learning based object categorization algorithms require training on hundreds or thousands of images and very large datasets, one-shot learning aims to learn information about object categories from one, or only a few, training images.

Characteristics:

A few training images for each object/class
Potentially large amount of objects/classes

Application

Face/Item Recognition/Verification
Street-to-Shop Systems
Landmark Recognition

Landmark Recognition

Datasets

Google Landmark Recognition Dataset
- 1,225,029 training images with 14,951 landmarks
- 117,703 test images
- Image aren't evenly distributed

Subset Dataset for this work
- 113,783 training images with 14,943 different landmarks
- 22,255 validation images with 7675 different landmarks
- 22,391 test images with 14436 different landmarks

Metric Learning

Triplet Network

Fine-tuning with pre-trained models
- VGG16, InceptionV3, and ResNet have been well trained
- Lower layers usually encode more generic, reusable features
- Higher layers encode more specialized features
- Freeze lower layers and only train the top several layers

Prediction

Results

With fine-tuned InceptionV3 Triplet Network, top 1 accuracy is 47%

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
images		images
models		models
other		other
result		result
.gitignore		.gitignore
1. Raw Image Download and Image Resize.ipynb		1. Raw Image Download and Image Resize.ipynb
2. Triplet Training and Test Subset Split.ipynb		2. Triplet Training and Test Subset Split.ipynb
3-1. VGG16 Naive KNN Model.ipynb		3-1. VGG16 Naive KNN Model.ipynb
3-2. VGG16 Triplet Network (margin 0.1).ipynb		3-2. VGG16 Triplet Network (margin 0.1).ipynb
3-2. VGG16 Triplet Network (margin 0.2).ipynb		3-2. VGG16 Triplet Network (margin 0.2).ipynb
3-2. VGG16 Triplet Network (margin 0.3).ipynb		3-2. VGG16 Triplet Network (margin 0.3).ipynb
3-2. VGG16 Triplet Network (margin 0.4).ipynb		3-2. VGG16 Triplet Network (margin 0.4).ipynb
3-2. VGG16 Triplet Network (margin 0.5).ipynb		3-2. VGG16 Triplet Network (margin 0.5).ipynb
4-1. InceptionV3 Naive KNN Model.ipynb		4-1. InceptionV3 Naive KNN Model.ipynb
4-2. InceptionV3 Triplet Network (margin 0.1).ipynb		4-2. InceptionV3 Triplet Network (margin 0.1).ipynb
4-2. InceptionV3 Triplet Network (margin 0.2).ipynb		4-2. InceptionV3 Triplet Network (margin 0.2).ipynb
4-2. InceptionV3 Triplet Network (margin 0.3).ipynb		4-2. InceptionV3 Triplet Network (margin 0.3).ipynb
4-2. InceptionV3 Triplet Network (margin 0.4).ipynb		4-2. InceptionV3 Triplet Network (margin 0.4).ipynb
4-2. InceptionV3 Triplet Network (margin 0.5).ipynb		4-2. InceptionV3 Triplet Network (margin 0.5).ipynb
5-1. ResNet50 Naive KNN Model.ipynb		5-1. ResNet50 Naive KNN Model.ipynb
6. Summary.ipynb		6. Summary.ipynb
7. Inception Feature Extraction.ipynb		7. Inception Feature Extraction.ipynb
8. All Data KNN Submission.ipynb		8. All Data KNN Submission.ipynb
LICENSE		LICENSE
README.md		README.md

License

JifuZhao/Landmark-Recognition

Folders and files

Latest commit

History

Repository files navigation

Landmark_Recognition

One-shot learning

Characteristics:

Application

Landmark Recognition

Datasets

Metric Learning

Triplet Network

Prediction

Results

About

Topics

Resources

License

Stars

Watchers

Forks

Languages