![logo](../img/logo.png)

# Data
Let's get to know how to load a dataset and data
## Introduction

In [2]:
from zoopy import data

## DataLoader class
The DataLoader class is designed to load and manage datasets. It implements the Singleton design pattern, ensuring that only one instance of the class is created and reused throughout the program

***
### Methods
```python
load_animals_dataset(self, lang: str = 'ru') -> pd.DataFrame
```
Loads the animal dataset for the specified language

#### Parameters
```lang (str)```: The language code for the dataset.

#### Examples

In [None]:
data_loader = data.DataLoader()
dataset = data_loader.load_animals_dataset('ru')
dataset.head()

Unnamed: 0,name,domain,kingdom,subkingdom,phylum,subphylum,infraphylum,superclass,class,order,...,superfamily,family,subfamily,genus,species,ITIS,NCBI,EOL,FW,name_en
0,Аардоникс,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,,,,† Аардоникс,,,,47459155.0,157362.0,Aardonyx
1,Абботины,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,,Лучепёрые рыбы,Карпообразные,...,Карпоподобные,Карповые,Пескарёвые,Абботины,,203367.0,75331.0,26183.0,,Abbottina
2,Абелизавр,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,† Abelisauroidea,† Абелизавриды,,† Абелизавр,,,,4532776.0,53946.0,Abelisaurus
3,Абелизавриды,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,† Abelisauroidea,† Абелизавриды,,,,,,4532774.0,53942.0,Abelisauridae
4,Абидозавр,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,,† Брахиозавриды,,† Абидозавр,,,,13871595.0,163941.0,Abydosaurus


***
```python
def get_all_by(
    self,
    column: str,
    value: str,
    lang: str
) -> pd.DataFrame
```
Filters the dataset based on a specified column and value. The comparison is case-insensitive
#### Parameters
```column (str)```: The column to filter by \
```value (str)```: The value to match in the specified column \
```lang (str)```: The language of the dataset to be filtered \

#### Examples

In [12]:
chordates = data_loader.get_all_by('phylum', 'Хордовые', 'ru')
chordates.head()

Unnamed: 0,name,domain,kingdom,subkingdom,phylum,subphylum,infraphylum,superclass,class,order,...,family,subfamily,genus,species,ITIS,NCBI,EOL,FW,name_en,similarity
0,Аардоникс,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,,,† Аардоникс,,,,47459155.0,157362.0,Aardonyx,0.25
1,Абботины,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,,Лучепёрые рыбы,Карпообразные,...,Карповые,Пескарёвые,Абботины,,203367.0,75331.0,26183.0,,Abbottina,0.133333
2,Абелизавр,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,† Абелизавриды,,† Абелизавр,,,,4532776.0,53946.0,Abelisaurus,0.25
3,Абелизавриды,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,† Абелизавриды,,,,,,4532774.0,53942.0,Abelisauridae,0.315789
4,Абидозавр,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,† Брахиозавриды,,† Абидозавр,,,,13871595.0,163941.0,Abydosaurus,0.25


***
```python
def get_animal(
    self,
    animal_name: str,
    lang: str,
    accurate: bool = False
) -> pd.Series
```
Retrieves an animal's data from the dataset using the Levenshtein distance for fuzzy matching. If accurate is set to True, it performs an exact match instead.
#### Parameters
```animal_name (str)```: The name of the animal to search for \
```lang (str)```: The language of the dataset \
```accurate (bool)```: If True, performs an exact match; otherwise, uses the Levenshtein distance for fuzzy matching \

#### Examples

In [9]:
camel = data_loader.get_animal('верблюд', 'ru')
print(camel)

name                    Верблюды
domain                 Эукариоты
kingdom                 Животные
subkingdom             Эуметазои
phylum                  Хордовые
subphylum            Позвоночные
infraphylum        Челюстноротые
superclass          Четвероногие
class              Млекопитающие
order          Китопарнокопытные
suborder             Мозоленогие
superfamily                  NaN
family               Верблюдовые
subfamily                    NaN
genus                   Верблюды
species                      NaN
ITIS                      624942
NCBI                        9836
EOL                      38902.0
FW                         42521
name_en                    Camel
similarity                   0.8
Name: 3177, dtype: object


## Functions

```python
def sort_dataframe_by_levenshtein(
        data: pd.DataFrame,
        column: str,
        string: str,
    ) -> pd.DataFrame:
```
Calculates the Levenshtein distance (similarity ratio) between a given string and the values in a specified column of a DataFrame. It adds a new column named similarity to the DataFrame, which contains the similarity scores, and then sorts the DataFrame in descending order based on these scores.

### Parameters
```
data (pandas.DataFrame): The original dataset.
column (str): The column in the DataFrame to be used for calculating the Levenshtein distance.
string (str): The string to compare against the values in the specified column.
```
### Examples

In [10]:
dataset_with_similarity = data.sort_dataframe_by_levenshtein(dataset, 'name', 'воробей')
dataset_with_similarity.head()

Unnamed: 0,name,domain,kingdom,subkingdom,phylum,subphylum,infraphylum,superclass,class,order,...,family,subfamily,genus,species,ITIS,NCBI,EOL,FW,name_en,similarity
15344,Рыжий воробей,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,Птицы,Воробьинообразные,...,Воробьиные,,Настоящие воробьи,Рыжий воробей,561889.0,150918.0,1052119.0,,,0.7
9380,Кулик-воробей,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,Птицы,Ржанкообразные,...,Бекасовые,,Песочники,Кулик-воробей,176670.0,670340.0,,370402.0,Little stint,0.7
20677,Эодромей,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,,,...,,,† Эодромей,,,,,174878.0,Eodromaeus,0.666667
5851,Жёлтый воробей,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,Птицы,Воробьинообразные,...,Воробьиные,,Настоящие воробьи,Жёлтый воробей,561883.0,58821.0,,,Sudan golden sparrow,0.666667
13983,Полевой воробей,Эукариоты,Животные,Эуметазои,Хордовые,Позвоночные,Челюстноротые,Четвероногие,Птицы,Воробьинообразные,...,Воробьиные,,Настоящие воробьи,Полевой воробей,179630.0,9160.0,17000047.0,,Eurasian tree sparrow,0.636364
