# Tutorial Basico Pandas

Nesse tutorial vamos aprender funções basicas do pandas trabalhando com um conjunto de dados sobre os pokemons disponivel no site Kaggle (https://www.kaggle.com/abcsds/pokemon)

Conteudo :
- Leitura de arquivos
- Descrição Estatística 
- Indexação dos elementos
- Reorganizando Dados
- Filtrando dados
- Reagrupando dados
- Salvando dataframe

Material auxiliar:
- https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html
- https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1

#### Import pandas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### Criação de dados

In [None]:
s = pd.Series([1, 3, 5, None, 6, 8]) # Cria uma serie de dados
print(s)

dates = pd.date_range('20200401', periods=6)
dataframe = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(dataframe)

## Leitura de arquivos

A biblioteca pandas permite a criação da estrutura de dados utilizando diferentes formartos dentre eles:

Formatos:
- CSV : Comma-separated values (Arquivo separado por virgulas)
- txt : Arquivo de texto (Precisa definir um separador)
- xlsx : Formato utilizado pelo excel

Neste arquivo vamos nos concentrar no formato mais utilizado csv.
A seguir trabalharemos com o conjuntos de dados dos pokemons

In [None]:
df = pd.read_csv('pokemon_data.csv',index_col=False) # Leitura do arquivo formato csv
#df = pd.read_excel('pokemon_data.xlsx') # leitura arquivo em formato xlsx
#df = pd.read_csv('pokemon_data.txt', delimiter='\t') # leitura arquivo txt
df

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


###### Visualizar os dados

In [None]:
df.head(3) # Apresenta apenas os 3 primeiros itens

In [None]:
df.tail(3) # Apresenta apenas os 3 ultimos itens

###### Apresentando intervalos 

In [None]:
df[5:10]

## Descrição Estatística 

Podemos gerar um relatorio estatístico basico apartir da função describe.

In [None]:
df.describe()

Unnamed: 0,#,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


Podemos gerar um histograma sobre qualquer coluna do conjunto de dados

In [None]:
df['HP'].hist()

## Indexação dos elementos

Existem diversos formas de realizar a leitura da estrutura de dados aconselhamos verificar a documentação para maiores informações

###### Selecionando uma ou mais colunas

In [None]:
df['Name'] 
#df.Name

In [None]:
df[['Name','HP']]

###### Leitura apartir de uma posição específica (Linha, Coluna)

In [None]:
df.iloc[2,1]

In [None]:
df.loc[df['Type 1'] == 'Fire'][:10] # Selecionando os 10 primeiros pokemons do elemento fogo

###### Iterando o dataframe

In [None]:
for index, row in df.iterrows():
  print(index, row['Name'])

## Reorganizando Dados

In [None]:
# Apresentar em ordem decrecente os pokemons com base no seu ataque

df.sort_values('Attack',ascending=False)

Podemos Criar novas colunas por atribuição

In [None]:
df['Total'] = df['HP'] + df['Attack'] + df['Defense'] + df['Sp. Atk'] + df['Sp. Def'] + df['Speed']

df

Para deletar colunas de forma analoga é preciso reatribuir

In [None]:
df = df.drop(columns=['Total'])
df

## Filtrando dados

In [None]:
#Apresentar Os pokemons Lendarios
df.loc[df['Legendary'] == True]

In [None]:
#Apresentar os pokemons com HP superior a 100
df[df['HP'] > 100]

In [None]:
# Selecionar pokemons do tipo Grass e Poison com Hp maior que 70
df.loc[(df['Type 1'] == 'Grass') & (df['Type 2'] == 'Poison') & (df['HP'] > 70)] # & operador and | operador or

In [None]:
#Encontrar os pokemons que contem forma Mega
df.loc[df['Name'].str.contains('Mega')] # ~ simbolo para negação

## Reagrupando dados

In [None]:
#Reagrupar os pokemons pelo seu tipo realizando a media entre cada elemento

df.groupby(['Type 1']).mean()

In [None]:
# Quantos pokemonks de cada tipo 
df.groupby(['Type 1']).count()['#']

## Salvando dataframe

In [None]:
df.to_csv('modified.csv', index=False)
#df.to_excel('modified.xlsx', index=False)


1. Todos os pokemons com ataque inferior 120
```
Saida esperada : (691 rows × 12 columns)
```

2. Apresentar o pokemon mais rapido do tipo agua
```
 ID	#	Name	Type 1	Type 2	HP	Attack	Defense	Sp. Atk	Sp. Def	Speed	Generation	Legendary
726  658	Greninja	Water	Dark	72	95	67	103	71	122	6	False
```


3. Reagrupar apresentando o maior ataque de cada tipo pokemon
```
Type 1
Bug         185
Dark        150
Dragon      180
Electric    123
Fairy       131
Fighting    145
Fire        160
Flying      115
Ghost       165
Grass       132
Ground      180
Ice         130
Normal      160
Poison      106
Psychic     190
Rock        165
Steel       150
Water       155
Name: Attack, dtype: int64
```



# Proximos Passos

Curso do Kaggle da biblioteca Pandas é bastante completo e uma boa forma de aprofundar o que foi apresentado nesta introdução.

 - [Kaggle - Curso Pandas ](https://www.kaggle.com/learn/pandas)

Cheat Sheet sintetizando o kit basico do Pandas 
 - [Datacamp CheatSheet](http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3)
 - [PyData CheatSheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)


 