# Domácí úkol č. 1 - 🕵️‍♀️ Explorační analýza dat

## 📚 Data
V souborech `intakes.csv` a `outcomes.csv` naleznete data z útulku ve městě Austin, Texas USA. Data pocházejí z oficiálního [zdroje otevřených dat města Austin](https://data.austintexas.gov/).

Dataset [intakes](https://data.austintexas.gov/Health-and-Community-Services/Austin-Animal-Center-Intakes/wter-evkm) obsahuje data o přijatých zvířatech od 1. 10. 2013 do 6. 10. 2024. Dataset [outcomes](https://data.austintexas.gov/Health-and-Community-Services/Austin-Animal-Center-Outcomes/9t4d-g238) obsahuje údaje o zvířatech, která útulek opustila (např. byla adoptována, vrácena majiteli a podobně) za tentýž časový interval. Může se stát, že zvířata přijatá do 1. 10. 2013 se nevyskytují v `intakes.csv` (data se ještě neshromažďovala), ale budou mít záznam v `outcomes.csv`, pokud útulek po tomto datu opustila.

☝️ Každý dataset může **stejné zvíře obsahovat víckrát** (1. některá zvířata se do útulku vracela - to je trochu komplikace, pokud byste datasety chtěli spojit - pro řešení úkolu spojování ale není nutné, 2. některé záznamy jsou duplicitní - ty můžete odstranit, jedná se o chybu). 

## Zadání
> ☝️ Používejte markdown buňky! Zdůvodňujte všechny důležité kroky, popisujte vizualizace a co je z nich možné pozorovat. Za nepřehledný domácí úkol nebudou uděleny body.

> ❌ Zkopírovaný kód ze cvičení (především ze cvičení 2) nebude uznán!

> ‼️ Akceptovatelný je úkol pouze v češtině, slovenštině nebo angličtině.

Za řádné průběžné komentování a vizuální prezentaci postupu a výsledků lze získat až 3 body.

**✨ Příprava dat** (celkem 4 body)
* Importujte potřebné balíčky.
* Načtěte si datasety intakes a outcomes z příslušných csv souborů.
* Seznamte se s oběma datasety a svá zjištění komentujte:
  * Příklad informací, které lze zjistit: počet řádků datasetu, počet a význam příznaků, datový typ příznaků a počet jejich unikátních hodnot, ...
* Vyčistěte a zkonvertujte data:
  * Zjistěte jakým způsobem jsou v datasetu uváděny chybějící hodnoty a v případě potřeby je přepište na NaN.
  * Zkonvertujte kategorické příznaky na typ category.
  * Převeďte příznak Age upon Intake/Outcome na numerický příznak.
  * Převeďte příznak DateTime na typ datetime64.
  * Proveďte všechny další úpravy, které vám dávají smysl (konverze dalších příznaků, odstranění duplicitních údajů, přidání nových příznaků, ...).
  
**🖊️ Deskriptivní statistiky** (celkem 6 bodů)

Volbu vhodných statistik pro daný typ dat komentujte a pokud je to možné, využívejte co nejvíce vizualizace.
* Popište příznaky Age upon Intake a DateTime (původně z datasetu intakes) pomocí univariačních deskriptivních statistik.
* Vyberte si tři další příznaky a popište je pomocí univariačních deskriptivních statistik, které jsou pro ně vhodné.
* Vyberte si dva příznaky, mezi kterými by mohl být nějaký vztah (např. korelace) a popište tento vztah pomocí bivariačních deskriptivních statistik. Dvojice typu Age upon Intake a Age upon Outcome neuznáváme.

**❓ Zadané otázky** (2 body za každou otázku, celkem max. 6 bodů)

Pomocí vhodných vizualizací odpovídejte na následující otázky:
* Závisí typ odchodu zvířete z útulku (Outcome Type) na typu příchodu (Intake Type)? Pokud chcete, uvažujte pro zjednodušení pouze zvířata, která se v každém datasetu vyskytují právě jednou.
* Hraje věk zvířete roli při adopci?
* Je příjem zvířat v rámci roku konstantní nebo existují období s větší/nižší zátěží?

K jedné otázce můžete v případě potřeby vytvořit více vizualizací. Výsledek vizualizace a všechny mezikroky komentujte.

**❓ Vlastní otázky** (2 body za každou otázku, celkem max. 6 bodů)

Vymyslete **minimálně tři** vlastní otázky a odpovídejte na ně vhodnými vizualizacemi. Otázky můžete postavit na již zmíněných datasetech. Také je možné využít třetí dataset [locations](https://data.austintexas.gov/Health-and-Community-Services/Austin-Animal-Center-Found-Pets-Map/hye6-gvq2), který naleznete v souboru locations.csv, nebo si můžete stáhnout nějaká další zajímavá data, která souvisí s tímto tématem.

Dataset locations poskytuje informace o všech toulavých kočkách a psech, které jsou v databázi útulku **méně než týden**. Většina se nachází v útulku, ale část z nich je u dobrovolníků – tato informace je uvedena ve sloupci At AAC (AAC – Austin Animal Center).

### Bodové hodnocení
Shrnutí bodů, které můžete nejvýše získat:
- 3 body za komentáře a vizuální prezentaci postupu a výsledků,
- 4 body za přípravu dat,
- 6 bodů za deskriptivní statistiku,
- 6 bodů za zodpovězení všech zadaných otázek,
- 6 bodů za definici a zodpovězení minimálně tří vlastních otázek.

Celkem lze za domácí úkol č. 1 získat maximálně 25 bodů.

## Homework

### Data preprocessing

Firstly we will import libraries and read files.

In [1]:
import numpy as np
import pandas as pd

import matplotlib as mpl
import matplotlib.pyplot as plt

In [2]:
intakes_raw  = pd.read_csv('intakes.csv');
outcomes_raw = pd.read_csv('outcomes.csv');

display(intakes_raw.head())
display(outcomes_raw.head())

Unnamed: 0,Animal ID,Name,DateTime,MonthYear,Found Location,Intake Type,Intake Condition,Animal Type,Sex upon Intake,Age upon Intake,Breed,Color
0,A786884,*Brock,01/03/2019 04:19:00 PM,January 2019,2501 Magin Meadow Dr in Austin (TX),Stray,Normal,Dog,Neutered Male,2 years,Beagle Mix,Tricolor
1,A706918,Belle,07/05/2015 12:59:00 PM,July 2015,9409 Bluegrass Dr in Austin (TX),Stray,Normal,Dog,Spayed Female,8 years,English Springer Spaniel,White/Liver
2,A724273,Runster,04/14/2016 06:43:00 PM,April 2016,2818 Palomino Trail in Austin (TX),Stray,Normal,Dog,Intact Male,11 months,Basenji Mix,Sable/White
3,A665644,,10/21/2013 07:59:00 AM,October 2013,Austin (TX),Stray,Sick,Cat,Intact Female,4 weeks,Domestic Shorthair Mix,Calico
4,A857105,Johnny Ringo,05/12/2022 12:23:00 AM,May 2022,4404 Sarasota Drive in Austin (TX),Public Assist,Normal,Cat,Neutered Male,2 years,Domestic Shorthair,Orange Tabby


Unnamed: 0,Animal ID,Name,DateTime,MonthYear,Date of Birth,Outcome Type,Outcome Subtype,Animal Type,Sex upon Outcome,Age upon Outcome,Breed,Color
0,A882831,*Hamilton,07/01/2023 06:12:00 PM,Jul 2023,03/25/2023,Adoption,,Cat,Neutered Male,3 months,Domestic Shorthair Mix,Black/White
1,A794011,Chunk,05/08/2019 06:20:00 PM,May 2019,05/02/2017,Rto-Adopt,,Cat,Neutered Male,2 years,Domestic Shorthair Mix,Brown Tabby/White
2,A776359,Gizmo,07/18/2018 04:02:00 PM,Jul 2018,07/12/2017,Adoption,,Dog,Neutered Male,1 year,Chihuahua Shorthair Mix,White/Brown
3,A821648,,08/16/2020 11:38:00 AM,Aug 2020,08/16/2019,Euthanasia,,Other,Unknown,1 year,Raccoon,Gray
4,A720371,Moose,02/13/2016 05:59:00 PM,Feb 2016,10/08/2015,Adoption,,Dog,Neutered Male,4 months,Anatol Shepherd/Labrador Retriever,Buff


We will delete duplicated rows, so all further EDA will be correct.

In [3]:
print(f"Duplicated intakes:  {intakes_raw.duplicated().sum()}")
intakes = intakes_raw.drop_duplicates()

print(f"Duplicated outcomes:  {outcomes_raw.duplicated().sum()}")
outcomes = outcomes_raw.drop_duplicates()

Duplicated intakes:  32
Duplicated outcomes:  24


Now we will analyze intakes

In [72]:
def better_info(df):
    return pd.DataFrame({'NUnique' : df.nunique() * 100, 'Dtype' : df.dtypes})

print('Intakes',f"Number of features: {intakes.shape[1]}", f"Number of samples: {intakes.shape[0]}", '', sep='\n')
display(better_info(intakes))

print('Outcomes', f"Number of features: {outcomes.shape[1]}", f"Number of samples: {outcomes.shape[0]}", '', sep='\n')
display(better_info(outcomes))

Intakes
Number of features: 12
Number of samples: 167524



Unnamed: 0,NUnique,Dtype
Animal ID,15056100,object
Name,2904200,object
DateTime,11554900,object
MonthYear,13300,object
Found Location,6799400,object
Intake Type,600,object
Intake Condition,2000,object
Animal Type,500,object
Sex upon Intake,500,object
Age upon Intake,5500,object


Outcomes
Number of features: 12
Number of samples: 167535



Unnamed: 0,NUnique,Dtype
Animal ID,15055800,object
Name,2897900,object
DateTime,13979200,object
MonthYear,13300,object
Date of Birth,848600,object
Outcome Type,1100,object
Outcome Subtype,2600,object
Animal Type,500,object
Sex upon Outcome,500,object
Age upon Outcome,5500,object


### Extracting features

We will expand features like Age and Sex upon Income/Outcome for ease of analysis.

In [None]:
def 

#### Removing missing values

We will look at the short and rare strings and determine if some of them represent missing values.

In [61]:
def get_short_strings(df : pd.DataFrame, thr = 8):
    result = {'Column' : [], 'Short strings' : []}
    for col in df.columns:
        tmp = df.loc[df[col].str.len() < thr, col].value_counts().tail(10).index.to_list()
        if len(tmp):
            result['Column'].append(col)
            result['Short strings'].append(tmp)
    result = pd.DataFrame(result)
    return pd.concat([result['Column'], result['Short strings'].apply(pd. Series)], axis=1).fillna('')

display('Intakes', get_short_strings(intakes))
display('Outcomes', get_short_strings(outcomes))

'Intakes'

Unnamed: 0,Column,0,1,2,3,4,5,6,7,8,9
0,Animal ID,A859743,A825200,A803856,A807302,A705627,A674345,A767807,A832347,A871379,A773915
1,Name,*Lass,True,*Missi,Doodles,*Queeni,Wiwi,*Tacoma,*Toetoe,*Gumbi,Jannet
2,Intake Type,Stray,,,,,,,,,
3,Intake Condition,Nursing,Aged,Medical,Other,Feral,Unknown,Parvo,Space,Agonal,Panleuk
4,Animal Type,Dog,Cat,Other,Bird,,,,,,
5,Sex upon Intake,Unknown,,,,,,,,,
6,Age upon Intake,1 week,1 weeks,0 years,1 day,3 days,2 days,6 days,4 days,5 weeks,5 days
7,Breed,Canary,Borzoi,Catbird,Black,Pygmy,Falcon,Frog,Deer,Leghorn,Tosa
8,Color,Silver,Tan/Tan,Green,Pink,Agouti,Tan/Red,Red/Red,Liver,Unknown,Ruddy


'Outcomes'

Unnamed: 0,Column,0,1,2,3,4,5,6,7,8,9
0,Animal ID,A902552,A801213,A850799,A846266,A755758,A743138,A799678,A804253,A748629,A702391
1,Name,Yinny,A885840,Jacki,*Kody,*Bolin,Sanai,Spotem,A835145,A911726,*Slicer
2,Outcome Type,Died,Missing,Stolen,Lost,,,,,,
3,Outcome Subtype,Snr,SCRP,Offsite,At Vet,Medical,Field,Enroute,Prc,Barn,Emer
4,Animal Type,Dog,Cat,Other,Bird,,,,,,
5,Sex upon Outcome,Unknown,,,,,,,,,
6,Age upon Outcome,1 weeks,1 week,3 days,2 days,1 day,4 days,6 days,0 years,5 days,5 weeks
7,Breed,Borzoi,Bunting,Vulture,Akbash,Warbler,Goat,Otter,Black,Catbird,Frog
8,Color,Silver,Tan/Tan,Green,Pink,Agouti,Tan/Red,Red/Red,Liver,Unknown,Ruddy


intakes.info()