# Pegando tabela de sites

Esse pequeno código, usando somente a biblioteca **Pandas**, tem por objetivo raspar uma tabela com todos os pokémons do jogo Sword and Shield, arrumá-la e filtrá-la somente por um tipo desejado.

In [71]:
import pandas as pd

Agora, vamos criar um objeto que leia as tabelas contidas num determinado site (no nosso caso, do site [IGN](https://www.ign.com/wikis/pokemon-sword-shield/List_of_Pokemon_(Pokedex))):

In [72]:
pokemon = pd.read_html("http://www.ign.com/wikis/pokemon-sword-shield/List_of_Pokemon_(Pokedex)")

Agora, vendo como ficou a tabela:

In [73]:
pokemon

[       #    Pokemon          Type                 Location(s) Found
 0      1    Grookey         Grass                   Starter Pokemon
 1      2   Thwackey         Grass                    Evolve Grookey
 2      3  Rillaboom         Grass                   Evolve Thwackey
 3      4  Scorbunny          Fire                   Starter Pokemon
 4      5     Raboot          Fire                  Evolve Scorbunny
 ..   ...        ...           ...                               ...
 397  396   Drakloak   DragonGhost  Lake of Outrage Max Raid Battles
 398  397  Dragapult   DragonGhost                  Max Raid Battles
 399  398     Zacian         Fairy                   Post Game Story
 400  399  Zamazenta      Fighting                   Post Game Story
 401  400  Eternatus  PosionDragon              Story - Energy Plant
 
 [402 rows x 4 columns]]

Ao ler a tabela, o **pandas** a coloca como um único objeto (*tuple*) dentro de uma lista. Precisamos fazer essa separação. Nesse caso específico, a URL que investigamos nos dá apenas uma única tabela, então nós desejamos o índice 0 da lista **pokemon**:

In [74]:
tabela_pokemon = pokemon[0]

In [75]:
tabela_pokemon

Unnamed: 0,#,Pokemon,Type,Location(s) Found
0,1,Grookey,Grass,Starter Pokemon
1,2,Thwackey,Grass,Evolve Grookey
2,3,Rillaboom,Grass,Evolve Thwackey
3,4,Scorbunny,Fire,Starter Pokemon
4,5,Raboot,Fire,Evolve Scorbunny
...,...,...,...,...
397,396,Drakloak,DragonGhost,Lake of Outrage Max Raid Battles
398,397,Dragapult,DragonGhost,Max Raid Battles
399,398,Zacian,Fairy,Post Game Story
400,399,Zamazenta,Fighting,Post Game Story


Vamos cortar a última coluna, nesse caso, pois ela não nos interessa. É claro que essa etapa é opcional e só foi feita para deixar a base de dados mais 'limpa'. Assim:

In [76]:
tabela_pokemon.drop('Location(s) Found', axis=1, inplace=True)

In [77]:
tabela_pokemon

Unnamed: 0,#,Pokemon,Type
0,1,Grookey,Grass
1,2,Thwackey,Grass
2,3,Rillaboom,Grass
3,4,Scorbunny,Fire
4,5,Raboot,Fire
...,...,...,...
397,396,Drakloak,DragonGhost
398,397,Dragapult,DragonGhost
399,398,Zacian,Fairy
400,399,Zamazenta,Fighting


Vamos, agora, fazer um filtro para Pokémons de água do jogo (meu estilo favorito). Para isso, vamos criar uma nova tabela, que chamaremos de **water_pokemon**, que cortará a tabela original **pokemon** para *filtrar* somente as entradas cujos valores da coluna **Type** sejam **Water**

In [83]:
water_pokemon = tabela_pokemon[tabela_pokemon['Type'].str.contains("Water")]

In [84]:
water_pokemon

Unnamed: 0,#,Pokemon,Type
6,7,Sobble,Water
7,8,Drizzile,Water
8,9,Inteleon,Water
35,36,Lotad,WaterGrass
36,37,Lombre,WaterGrass
37,38,Ludicolo,WaterGrass
41,42,Chewtle,Water
42,43,Drednaw,WaterRock
61,62,Wingull,WaterFlying
62,63,Pelipper,WaterFlying


Agora, podemos salvar nossa tabela num arquivo .csv:

In [85]:
water_pokemon.to_csv('water_pokemon.csv')