# Proyecto del Día 18 - Analizar una Base de Datos de Perros

Hoy vamos a realizar un proyecto muy entretenido, que consiste en conseguir un dataset sobre razas de perros, que se encuentra alojada en el sitio [The Dog Api](https://thedogapi.com/).

Tu misión consiste en lograr obtener un dataset que contiene información sobre razas de perro ("breeds"), y crear visualizaciones que permitan responder algunas preguntas sobre la **expectativa de vida**, y el **temperamento** más frecuente entre todas las **razas**.


### Preguntas a responder
1. ¿Cuál es la esperanza de vida (en años) más frecuente entre todas las razas de perro?
2. ¿Cuál es el temperamento más frecuente entre todas las razas de perros?


### Pasos sugeridos para llegar hasta la respuesta
1. Descarga las **librerías** necesarias.
2. Explora el sitio [https://thedogapi.com/](https://thedogapi.com/) para identificar dónde y cómo se describe el funcionamiento de su API. Identifica la **API específica** con información sobre **razas** ("breeds"). Una vez que lo hagas, implementa la API y guarda esos datos en un **DataFrame** de Pandas.
*Nota: como todo sitio nuevo al que enfrentes, deberás resolver desafíos particulares. En este caso presta atención a las instrucciones que mencionan algo sobre cómo usar los mismos protocolos que se utilizan en la API de gatos de la misma organización*.
3. Realiza un **análisis exploratorio** para conocer la estrucutra y calidad de tus datos.
4. Implementa la **limpieza de datos** que consideres necesaria.
5. Crea los **gráficos** que creas necesarios para poder visualizar con claridad la respuesta a las preguntas.

Te deseo mucho aprendizaje, pero sobre todo, mucha diversión.
¡Adelante!

## Primeras acciones exploratorias

In [1]:
import os
import requests
from typing import Any

import pandas as pd
import matplotlib.pyplot as plt

from dotenv import load_dotenv

In [2]:
load_dotenv('.env')

True

In [3]:
API_KEY: str = os.environ['API_KEY']

In [4]:
api_reference: str = 'api.thedogapi.com'
base_url: str = f'https://{api_reference}/v1/breeds'
params: dict[str, str] = {'api_key': API_KEY}

In [11]:
response: requests.Response = requests.get(base_url, params=params)
data: list[dict[str, Any]] = response.json()
df: pd.DataFrame = pd.DataFrame(data)
df.head()

Unnamed: 0,weight,height,id,name,bred_for,breed_group,life_span,temperament,origin,reference_image_id,image,country_code,description,history
0,"{'imperial': '6 - 13', 'metric': '3 - 6'}","{'imperial': '9 - 11.5', 'metric': '23 - 29'}",1,Affenpinscher,"Small rodent hunting, lapdog",Toy,10 - 12 years,"Stubborn, Curious, Playful, Adventurous, Activ...","Germany, France",BJa4kxc4X,"{'id': 'BJa4kxc4X', 'width': 1600, 'height': 1...",,,
1,"{'imperial': '50 - 60', 'metric': '23 - 27'}","{'imperial': '25 - 27', 'metric': '64 - 69'}",2,Afghan Hound,Coursing and hunting,Hound,10 - 13 years,"Aloof, Clownish, Dignified, Independent, Happy","Afghanistan, Iran, Pakistan",hMyT4CDXR,"{'id': 'hMyT4CDXR', 'width': 606, 'height': 38...",AG,,
2,"{'imperial': '44 - 66', 'metric': '20 - 30'}","{'imperial': '30', 'metric': '76'}",3,African Hunting Dog,A wild pack animal,,11 years,"Wild, Hardworking, Dutiful",,rkiByec47,"{'id': 'rkiByec47', 'width': 500, 'height': 33...",,,
3,"{'imperial': '40 - 65', 'metric': '18 - 29'}","{'imperial': '21 - 23', 'metric': '53 - 58'}",4,Airedale Terrier,"Badger, otter hunting",Terrier,10 - 13 years,"Outgoing, Friendly, Alert, Confident, Intellig...","United Kingdom, England",1-7cgoZSh,"{'id': '1-7cgoZSh', 'width': 645, 'height': 43...",,,
4,"{'imperial': '90 - 120', 'metric': '41 - 54'}","{'imperial': '28 - 34', 'metric': '71 - 86'}",5,Akbash Dog,Sheep guarding,Working,10 - 12 years,"Loyal, Independent, Intelligent, Brave",,26pHT3Qk7,"{'id': '26pHT3Qk7', 'width': 600, 'height': 47...",,,


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172 entries, 0 to 171
Data columns (total 14 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   weight              172 non-null    object
 1   height              172 non-null    object
 2   id                  172 non-null    int64 
 3   name                172 non-null    object
 4   bred_for            151 non-null    object
 5   breed_group         156 non-null    object
 6   life_span           172 non-null    object
 7   temperament         168 non-null    object
 8   origin              5 non-null      object
 9   reference_image_id  172 non-null    object
 10  image               172 non-null    object
 11  country_code        12 non-null     object
 12  description         1 non-null      object
 13  history             2 non-null      object
dtypes: int64(1), object(13)
memory usage: 18.9+ KB


## Limpieza de datos

Evidentemente, **una limpieza de los datos es necesaria**. Sólo las columnas `weight`, `height`, `id`, `name`, `life_span`, `reference_image_id`, e `image` están completas. Las demás poseen una cantidad variable de nulos, siendo peor en `description`, `history`, y `origin`. En particular, la necesaria columna `temperament` posee 4 nulos.

Desgraciadamente, al contener estas columnas problemáticas valores de tipo `object`, que son _no numéricos_, no hay forma sencilla de otorgarles valores de reemplazo que sean razonables. Por esto, con el fin de responder a las dos preguntas que guían este proyecto, intentaremos lo siguiente:

1. Crear un nuevo `DataFrame` que contenga sólo las columnas necesarias para responder a las preguntas de investigación.

2. Obviar los 4 registros cuyos valores en la columna `temperament` son nulos.

3. Eliminar posibles registros duplicados con `drop_duplicates()`.

In [None]:
# Paso 1
pesky_columns: list[str] = [
    'weight',
    'height',
    'bred_for',
    'breed_group',
    'origin',
    'reference_image_id',
    'image',
    'country_code',
    'description',
    'history'
]

clean_df: pd.DataFrame = pd.DataFrame(
    df.drop(pesky_columns, axis=1)
)
clean_df.head()

Unnamed: 0,id,name,life_span,temperament
0,1,Affenpinscher,10 - 12 years,"Stubborn, Curious, Playful, Adventurous, Activ..."
1,2,Afghan Hound,10 - 13 years,"Aloof, Clownish, Dignified, Independent, Happy"
2,3,African Hunting Dog,11 years,"Wild, Hardworking, Dutiful"
3,4,Airedale Terrier,10 - 13 years,"Outgoing, Friendly, Alert, Confident, Intellig..."
4,5,Akbash Dog,10 - 12 years,"Loyal, Independent, Intelligent, Brave"


In [14]:
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 172 entries, 0 to 171
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           172 non-null    int64 
 1   name         172 non-null    object
 2   life_span    172 non-null    object
 3   temperament  168 non-null    object
dtypes: int64(1), object(3)
memory usage: 5.5+ KB


In [15]:
# Paso 2
clean_df = clean_df.dropna()
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 168 entries, 0 to 171
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           168 non-null    int64 
 1   name         168 non-null    object
 2   life_span    168 non-null    object
 3   temperament  168 non-null    object
dtypes: int64(1), object(3)
memory usage: 6.6+ KB


Posterior a esta sanitización urgente, debemos resolver el problema de tipado y contenido de la columna `life_span`, la cual es de tipo texto y parece mostrar la esperanza de vida mayormente en rangos, no en números exactos. Hay dos opciones:

1. Hemos de transformarla al tipo correcto (numérico) y transformar los rangos en promedios, para que sean posibles de computar en la generación de gráficos.

2. Generar una columna aparte _ad hoc_ con los promedios de esperanza de vida, conservando `life_span` como fuente de etiquetas para los gráficos.

In [17]:
clean_df['life_span'].value_counts()

life_span
10 - 12 years          28
12 - 15 years          28
12 - 14 years          26
10 - 13 years          12
10 - 14 years           7
8 - 10 years            6
12 - 16 years           5
15 years                5
7 - 10 years            3
11 - 13 years           3
13 - 15 years           3
6 - 8 years             2
12 years                2
10 years                2
10 - 11 years           2
14 - 15 years           2
13 - 16 years           2
14 - 16 years           2
12 – 14 years           2
10 - 15 years           2
13 – 15 years           2
12 - 13 years           2
9 – 14 years            2
15 - 18 years           1
12 - 18 years           1
10 - 18 years           1
12 - 16 Years years     1
14 - 18 years           1
13 - 17 years           1
15 - 20 years           1
8 - 12 years            1
12 – 15 years           1
10 – 16 years           1
10 – 15 years           1
9 - 11 years            1
11 - 15 years           1
11 – 14 years           1
8 - 15 years            1
8 

Tras pensarlo, optaré por la segunda opción, conservando la columna original `life_span`:

In [34]:
life_span_mean: pd.Series = df['life_span'].str.replace('years', '').str.strip()
life_span_mean = life_span_mean.str.replace('Years', '').str.strip()
life_span_mean.value_counts()

life_span
10 - 12    29
12 - 15    28
12 - 14    27
10 - 13    12
10 - 14     7
12 - 16     6
8 - 10      6
15          5
7 - 10      3
11 - 13     3
13 - 15     3
10          2
14 - 15     2
12          2
6 - 8       2
9 – 14      2
10 - 11     2
13 - 16     2
14 - 16     2
12 – 14     2
10 - 15     2
13 – 15     2
12 - 13     2
12 – 15     2
15 - 18     1
12 - 18     1
10 - 18     1
18          1
14 - 18     1
13 - 17     1
15 - 20     1
8 - 12      1
10 – 16     1
10 – 15     1
9 - 11      1
11 - 15     1
11 – 14     1
8 - 15      1
8 – 15      1
11          1
13 – 14     1
Name: count, dtype: int64

Hay una mezcla de rangos y de números solitarios, por lo que no podremos pasarlos directamente a formato numérico. Hagamos una función para tratar los rangos y transformarlos a su promedio.

In [35]:
def process_life_span_data(value: str) -> float:
    signs: list[str] = ['-', '–']
    for sign in signs:
        if sign in value:
            low, high = map(float, value.split(sign))
            return (low + high) / 2
    else:
        return float(value)

In [36]:
life_span_mean = life_span_mean.apply(process_life_span_data)
life_span_mean.value_counts()

life_span
13.5    31
13.0    31
11.0    30
11.5    16
12.0    12
14.0    12
15.0     9
12.5     6
9.0      6
10.0     4
14.5     4
8.5      3
10.5     2
7.0      2
16.5     1
16.0     1
18.0     1
17.5     1
Name: count, dtype: int64

In [37]:
clean_df['life_span_mean'] = life_span_mean.astype('float64')
clean_df.head()

Unnamed: 0,id,name,life_span,temperament,life_span_mean
0,1,Affenpinscher,10 - 12 years,"Stubborn, Curious, Playful, Adventurous, Activ...",11.0
1,2,Afghan Hound,10 - 13 years,"Aloof, Clownish, Dignified, Independent, Happy",11.5
2,3,African Hunting Dog,11 years,"Wild, Hardworking, Dutiful",11.0
3,4,Airedale Terrier,10 - 13 years,"Outgoing, Friendly, Alert, Confident, Intellig...",11.5
4,5,Akbash Dog,10 - 12 years,"Loyal, Independent, Intelligent, Brave",11.0


In [38]:
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 168 entries, 0 to 171
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              168 non-null    int64  
 1   name            168 non-null    object 
 2   life_span       168 non-null    object 
 3   temperament     168 non-null    object 
 4   life_span_mean  168 non-null    float64
dtypes: float64(1), int64(1), object(3)
memory usage: 7.9+ KB


In [39]:
clean_df.reset_index(drop=True, inplace=True)
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 168 entries, 0 to 167
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              168 non-null    int64  
 1   name            168 non-null    object 
 2   life_span       168 non-null    object 
 3   temperament     168 non-null    object 
 4   life_span_mean  168 non-null    float64
dtypes: float64(1), int64(1), object(3)
memory usage: 6.7+ KB
