# Считаем данные об изображениях

In [5]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [112]:
data = pd.read_csv("dataset/data/feathers_data.csv")

data

# Построим распределение видов по количеству изображений

In [113]:
counts = data['species'].value_counts()

result_df = pd.DataFrame({'species': counts.index, 'number_of_images': counts.values})

result_df

In [115]:
plt.figure(figsize=(16, 7))
plt.hist(result_df['number_of_images'], bins=620)
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.title('Распределение видов по количеству изображений')
plt.savefig("p4.png")
plt.show()

In [23]:
plt.figure(figsize=(16, 7))
plt.hist(result_df['number_of_images'], bins=100)
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.show()

In [18]:
print(result_df['number_of_images'].mean())
print(result_df['number_of_images'].median())

In [41]:
d = result_df.head(50)
plt.figure(figsize=(16, 20))
plt.bar(d['species'], d['number_of_images'])
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.show()

In [44]:
data_norm = pd.read_csv("dataset/data/feathers_data_normalized.csv")

In [45]:
counts = data_norm['species'].value_counts()

result_df = pd.DataFrame({'species': counts.index, 'number_of_images': counts.values})

result_df

In [47]:
plt.figure(figsize=(16, 7))
plt.hist(result_df['number_of_images'], bins=295)
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.show()

In [49]:
data_top_100 = pd.read_csv("dataset/data/train_top_100_species.csv")
counts = data_top_100['species'].value_counts()
result_df = pd.DataFrame({'species': counts.index, 'number_of_images': counts.values})
result_df

In [53]:
plt.figure(figsize=(16, 7))
plt.hist(result_df['number_of_images'], bins=400)
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.show()

# Построим распределение семейств по количеству изображений

In [117]:
data = pd.read_csv("dataset/data/feathers_data.csv")

counts = data['order'].value_counts()

result_df = pd.DataFrame({'order': counts.index, 'number_of_images': counts.values})

plt.figure(figsize=(16, 7))
plt.hist(result_df['number_of_images'], bins=100)
plt.xlabel("Количество изображений")
plt.ylabel("Количество видов")
plt.show()

In [118]:
result_df

In [119]:
plt.figure(figsize=(16, 7))
plt.barh(result_df['order'], result_df['number_of_images'])
plt.xlabel("Количество изображений")
plt.title("Количество изображений в виде")
plt.savefig("p3.png")
plt.show()

# Построим распределние изображений по размерам

In [27]:
import os
import seaborn as sns
from PIL import Image

data = pd.read_csv("dataset/data/feathers_data.csv")

sizes = pd.DataFrame(columns=["width", "height"])

for index, row in data.iterrows():
    filename = row['filename'].split("_")
    path_to = os.path.join("dataset", "images", filename[0], "_".join(filename[1:-1]), row['filename'])
    
    width, height = Image.open(path_to).size
    sizes.loc[len(sizes)] = {"width": width, "height": height}


In [86]:
sizes.values

In [29]:
# plt.hist2d(sizes['width'], sizes['height'], bins=(100, 100), cmap="YlGnBu")
plt.figure(figsize=(16, 8))

plt.subplot(121)
plt.scatter(sizes['width'], sizes['height'], s=2)
plt.xlabel("Ширина")
plt.ylabel("Высота")
plt.title("График распределения записей по ширине и высоте")

plt.subplot(122)
plt.hist2d(sizes['width'], sizes['height'], bins=(200, 200), cmap="YlGnBu")
plt.xlabel("Ширина")
plt.ylabel("Высота")
plt.title("2D гистограмма количества записей по ширине и высоте")
plt.colorbar(label="Количество записей")

plt.savefig("p1.png")
plt.show()

In [30]:
plt.figure(figsize=(16, 8))

plt.subplot(121)
plt.hist(sizes['width'], bins=100)
plt.xlabel("Ширина")
plt.ylabel("Кол-во записей")
plt.title("Распределение по ширине")

plt.subplot(122)
plt.hist(sizes['height'], bins=100)
plt.xlabel("Высота")
plt.ylabel("Кол-во записей")
plt.title("Распределение по высоте")
plt.savefig("p2.png")
plt.show()

In [22]:
import os
import seaborn as sns
from PIL import Image

data = pd.read_csv("dataset/data/feathers_data_normalized.csv")

sizes = pd.DataFrame(columns=["width", "height"])

for index, row in data.iterrows():
    filename = row['filename'].split("_")
    path_to = os.path.join("dataset", "images", filename[0], "_".join(filename[1:-1]), row['filename'])
    
    width, height = Image.open(path_to).size
    sizes.loc[len(sizes)] = {"width": width, "height": height}


In [25]:
# plt.hist2d(sizes['width'], sizes['height'], bins=(100, 100), cmap="YlGnBu")
plt.figure(figsize=(16, 8))

plt.subplot(121)
plt.scatter(sizes['width'], sizes['height'], s=2)
plt.xlabel("Ширина")
plt.ylabel("Высота")
plt.title("График распределения записей по ширине и высоте")

plt.subplot(122)
plt.hist2d(sizes['width'], sizes['height'], bins=(200, 200), cmap="YlGnBu")
plt.xlabel("Ширина")
plt.ylabel("Высота")
plt.title("2D гистограмма количества записей по ширине и высоте")
plt.colorbar(label="Количество записей")

plt.savefig("p5.png")
plt.show()

In [26]:
plt.figure(figsize=(16, 8))

plt.subplot(121)
plt.hist(sizes['width'], bins=100)
plt.xlabel("Ширина")
plt.ylabel("Кол-во записей")
plt.title("Распределение по ширине")

plt.subplot(122)
plt.hist(sizes['height'], bins=100)
plt.xlabel("Высота")
plt.ylabel("Кол-во записей")
plt.title("Распределение по высоте")
plt.savefig("p6.png")
plt.show()