# <img style="float: left; padding-right: 20px; width: 200px" src="https://raw.githubusercontent.com/raxlab/imt2200-data/main/media/logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2025-S2**<br>
**Profesor:** Rodrigo A. Carrasco <br>

# <h1><center>Actividad 02: Extracción y Revisión de Datos</center></h1>

Esta actividad busca aplicar lo que acabamos de ver en clases sobre extracción de datos y conectarlo con la materia de "Tipos de Datos" que hemos visto en las clases pasadas.

## Instrucciones

Esto Notebook contiene las instrucciones a realizar para la actividad. 

<b>Al finalizarla, deben subir el Notebook y los archivos generados en un único archivo .zip, al módulo de la Actividad 02 en Canvas.</b>

Para esta actividad deben hacer lo siguiente:
<ol>
<li>Extraer datos</li>

Para esta actividad usaremos [**PokeAPI**](https://pokeapi.co/about), una interfaz de código abierto con información detallada relacionada a los videojuegos de Pokémon.
    
En esta actividad nos concentraremos en comparar las características básicas de los 151 pokémon originales. Para obtener la información de un pokémon, utilizaremos el siguiente URL:

```
https://pokeapi.co/api/v2/pokemon/{id_pokemon}
```

Donde `{id_pokemon}` es el identificador del pokémon (un número entero). 
    
<br>

<li>Formato</li>

¿En qué formato están los datos descargados? Identifique si son datos estructurados, semi-estructurados o no estructurados, explicando claramente por qué los categoriza así.

<br>
    
<li>DataFrame de análisis</li>

Construya un DataFrame con al menos las siguientes columnas: `name, type1, type2, hp, attack, defense, special-attack, special-defense, speed`. En caso de que un pokémon tenga solo un tipo, puede dejar su atributo `type2 = None`. Guarde este nuevo set de datos en un archivo CSV.

**Hint:** Inspeccione el atributo `stats` y `types` de las respuestas obtenidas. El valor que debe almacenar en el DataFrame estará bajó el nombre `base_stat`.
    
<br>
    
<li>Preguntas</li>

A partir de su nuevo dataset, responda las siguientes preguntas:

4.1 ¿Cuál son los 3 tipos (fuego, agua, tierra, etc.) más comunes en los pokémones de la primera generación?
    
4.2 ¿Cuál es el pokémon más rápido? ¿Y el más lento?

4.3 Genere una nueva columna en el DataFrame llamada `total-stats` que consista en la suma de todos los stats de un pokémon (`hp, attack, defense, special-attack, special-defense, speed`) y grafique un histograma de esta nueva variable. ¿Cuál es el rango de valores

## Rúbrica

- Si han hecho todo y sólo hay errores menores: 7.0
- Si sólo llegaron hasta la parte 3: 5.0
- Menos que eso: 1.0

## 1. Extraer datos

Utilizando el URL indicado en el enunciado, obtenga la información de los primeros 151 pokémones y guárdelos en una lista llamada `pokemones`. 

Para ello debe usar un `for` que itere sobre los diferentes IDs de pokemon y rescate la información de cada uno de ellos, concatenándola en una lista. Antes de iterar sobre los 151 pokemones, pruebe con 1 o 2 y una vez que verifique que su código está funcionando, aplique a los 151 primeros pokemones.

In [111]:
import requests
import pandas as pd
from pathlib import Path


In [112]:
out_dir = Path("data")
out_dir.mkdir(exist_ok=True)
path = out_dir / "pokemones.json"

In [113]:
todos_pokemon = []
for i in range(1, 152):
    id_pokemon = i
    url = f"https://pokeapi.co/api/v2/pokemon/{id_pokemon}"
    r = requests.get(url, timeout=30)
    if r.status_code == 200:
        todos_pokemon.append(r.content)
    else:
        print(f"Error con Pokémon {id_pokemon}: {r.status_code}")

In [114]:
with open(path, "wb") as f:
    f.write(b"[") 
    for i, content in enumerate(todos_pokemon):
        f.write(content)
        if i != len(todos_pokemon) - 1:
            f.write(b",\n")  
    f.write(b"]") 

## 2. Formato de datos

Revise la lista que almacenó en `pokemones` y coméntenos en qué formato están los datos y qué tipos de datos serían estos (estructurados, semi-estructurados, no estructurados).

Respuesta:

estan en formato json, y son datos semiestructurados

## 3. DataFrame de análisis

Construya ahor un DataFrame para poder analizar los datos posteriormente. Revise las columnas mínimas que debe tener según el enunciado inicial.

In [None]:
import pandas as pd
import json


In [133]:
with open("data/pokemones.json", "r", encoding="utf-8") as f:
    todos_pokemon = json.load(f) 


Index(['abilities', 'base_experience', 'cries', 'forms', 'game_indices',
       'height', 'held_items', 'id', 'is_default', 'location_area_encounters',
       'moves', 'name', 'order', 'past_abilities', 'past_types', 'species',
       'sprites', 'stats', 'types', 'weight'],
      dtype='object')


0      [{'slot': 1, 'type': {'name': 'grass', 'url': ...
1      [{'slot': 1, 'type': {'name': 'grass', 'url': ...
2      [{'slot': 1, 'type': {'name': 'grass', 'url': ...
3      [{'slot': 1, 'type': {'name': 'fire', 'url': '...
4      [{'slot': 1, 'type': {'name': 'fire', 'url': '...
                             ...                        
146    [{'slot': 1, 'type': {'name': 'dragon', 'url':...
147    [{'slot': 1, 'type': {'name': 'dragon', 'url':...
148    [{'slot': 1, 'type': {'name': 'dragon', 'url':...
149    [{'slot': 1, 'type': {'name': 'psychic', 'url'...
150    [{'slot': 1, 'type': {'name': 'psychic', 'url'...
Name: types, Length: 151, dtype: object

In [139]:
df = pd.DataFrame(todos_pokemon)
print(df.keys())
print(df.head())
#print(df["abilities"])
#print(df["types"])
#print(df.columns)
print(df["stats"])


Index(['abilities', 'base_experience', 'cries', 'forms', 'game_indices',
       'height', 'held_items', 'id', 'is_default', 'location_area_encounters',
       'moves', 'name', 'order', 'past_abilities', 'past_types', 'species',
       'sprites', 'stats', 'types', 'weight'],
      dtype='object')
                                           abilities  base_experience  \
0  [{'ability': {'name': 'overgrow', 'url': 'http...               64   
1  [{'ability': {'name': 'overgrow', 'url': 'http...              142   
2  [{'ability': {'name': 'overgrow', 'url': 'http...              236   
3  [{'ability': {'name': 'blaze', 'url': 'https:/...               62   
4  [{'ability': {'name': 'blaze', 'url': 'https:/...              142   

                                               cries  \
0  {'latest': 'https://raw.githubusercontent.com/...   
1  {'latest': 'https://raw.githubusercontent.com/...   
2  {'latest': 'https://raw.githubusercontent.com/...   
3  {'latest': 'https://raw.githubusercon

## 4. Preguntas

#### 4.1 ¿Cuál son los 3 tipos (*water, fire, ground,* etc.) más comunes en los pokémones de la primera generación?

In [135]:
from collections import Counter
all_types = []
for t in df['types']:
    all_types.extend([d['type']['name'] for d in t])
type_counts = Counter(all_types)

print(type_counts.most_common(3))

[('poison', 33), ('water', 32), ('normal', 22)]


Los tipos mas comunes son poison, water y normal


El tipo más común es: poison

#### 4.2 ¿Cuál es el pokémon más rápido? ¿Y el más lento?

In [None]:
from collections import Counter
all_types = []
for t in df['types']:
    all_types.extend([d['type']['name'] for d in t])
type_counts = Counter(all_types)

print(type_counts.most_common(3))

El pokémon más rápido es:

#### 4.3 Genere una nueva columna en el DataFrame llamada `total-stats` que consista en la suma de todos los stats de un pokémon (`hp, attack, defense, special-attack, special-defense, speed`) ¿Cuáles son los valores mínimo y máximo de esta nueva variable?

El valor máximo lo tiene:

y el mínimo lo tiene:

#### 4.4 Grafique un histograma de `total-stats` y comente brevemente lo que observa de la distribución de este atributo.

In [None]:
import matplotlib.pyplot as plt


Descripción: