***
# **Pandas - Tutorial com os principais comandos**
https://pandas.pydata.org/docs/user_guide/index.html
***

In [1]:
import pandas as pd

# **1) Estruturas de Dados**
- Series 
- Data frame

##  **→ Series**
São estruturas de dados 1D e podem ser criadas a partir de ``dicionários, arrays, entre outros``. É muito parecido com os arrays em termos de propriedades e métodos.

 Uma Series é como um ``array unidimensional``, uma lista de valores. Toda Series possui um índice,<font color=red>o index</font>, que dá rótulos a cada elemento da lista. 

#### **Exemplo 1)**

In [2]:
notas = pd.Series([2,7,5,10,6], index=["Pedro", "Luke", "Rey", "Julia", "Anakin"])
print(notas)

Pedro      2
Luke       7
Rey        5
Julia     10
Anakin     6
dtype: int64


O index nos ajuda para referenciar um determinado valor, ele nos permite acessar os valores pelo seu rótulo:

In [3]:
print(notas["Anakin"])

6


### **OBS: Podemos criar uma serie a partir de um dicionario também**

In [4]:
dic = {'Pedro': 2, 
        'Luke':7, 
        'Rey': 5,
        'Julia': 10,
        'Anakin': 8 }
notas_serie = pd.Series(dic)
notas_serie

Pedro      2
Luke       7
Rey        5
Julia     10
Anakin     8
dtype: int64

In [5]:
print('As notas tem tamanho:', notas_serie.shape)
print('As notas tem dimensão:', notas_serie.ndim)
print('As notas tem um total de ', notas_serie.size, 'elementos')
print('O valor das notas tem' , notas_serie.values)
print('O indice (index) das notas tem', notas_serie.index)

As notas tem tamanho: (5,)
As notas tem dimensão: 1
As notas tem um total de  5 elementos
O valor das notas tem [ 2  7  5 10  8]
O indice (index) das notas tem Index(['Pedro', 'Luke', 'Rey', 'Julia', 'Anakin'], dtype='object')


→ Métodos que fornecem informações estatísticas sobre os valores, como média ```.mean()``` e desvio padrão ```.std()```.

Geralmente para resumir brevemente as estatísticas dos dados se usa o ```.describe()```

In [6]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())
notas.describe()

Média: 6.0
Desvio padrão: 2.9154759474226504


count     5.000000
mean      6.000000
std       2.915476
min       2.000000
25%       5.000000
50%       6.000000
75%       7.000000
max      10.000000
dtype: float64

## **→ Criando um DataFrame**

### Criando um Dataframe a partir de um dicionário 
 - Dataframe é uma tabela no Python

#### **Exemplo 1)**

In [7]:
df = pd.DataFrame({'Aluno' : ["Pedro", "Anakin", "Luke", "Mariah", "Rey"],
                   'Faltas' : [3,4,2,1,4],
                   'Prova' : [2,7,5,10,6],
                   'Seminário': [8.5,7.5,9.0,7.5,8.0]})
display(df)

Unnamed: 0,Aluno,Faltas,Prova,Seminário
0,Pedro,3,2,8.5
1,Anakin,4,7,7.5
2,Luke,2,5,9.0
3,Mariah,1,10,7.5
4,Rey,4,6,8.0


```.columns ``` → Acessar todas as colunas facilmente

In [8]:
df.columns

Index(['Aluno', 'Faltas', 'Prova', 'Seminário'], dtype='object')

```.sort_values``` → Colocar os valores em ordem crescente

In [9]:
df.sort_values(by="Seminário")

Unnamed: 0,Aluno,Faltas,Prova,Seminário
1,Anakin,4,7,7.5
3,Mariah,1,10,7.5
4,Rey,4,6,8.0
0,Pedro,3,2,8.5
2,Luke,2,5,9.0


#### **Exemplo 2)**

In [10]:
 #! Criação de um Data Frame(vai estar vazio)
#! dataframe = pd.DataFrame()

#! Criação de um Data Frame(Preenchido)
venda = {'data': ['15/02/2021', '16/02/2021'],
         'valor': [500, 300],
         'produto': ['Teclado', 'Monitor'],
         'qtde': [50, 70],
        }
vendas_df0 = pd.DataFrame(venda) 
display(vendas_df0)
print("------------------------------")
print(vendas_df0.dtypes)

Unnamed: 0,data,valor,produto,qtde
0,15/02/2021,500,Teclado,50
1,16/02/2021,300,Monitor,70


------------------------------
data       object
valor       int64
produto    object
qtde        int64
dtype: object


# **2) Importando arquivos e bases de dados**
```pd.read_csv ``` = para ler arquivos .csv, formato comum de armazenar dados de tabelas

```pd.read_xlsx``` = para ler arquivos Excel .xlsx, é necessário instalar uma biblioteca adicional pra esta funcionalidade.

```pd.read_html``` = para ler tabelas diretamente de um website

In [11]:
 # -- Serve para CSV, Excel e txt
poke_df = pd.read_csv('assets/pokemon_data.csv')
display(poke_df)

#* display(poke_df.head(5)) → Mostra apenas os 4 primeiras linhas

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


# **3) Lendo os DataFrame**
- Ler titulos

- Selecionar Coluna

- Selecionar Linha

- Pegar um item em especifico 

### **→ Ler os títulos**

In [12]:
display(poke_df.columns)
display(poke_df)

Index(['#', 'Name', 'Type 1', 'Type 2', 'HP', 'Attack', 'Defense', 'Sp. Atk',
       'Sp. Def', 'Speed', 'Generation', 'Legendary'],
      dtype='object')

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...
795,719,Diancie,Rock,Fairy,50,100,150,100,150,50,6,True
796,719,DiancieMega Diancie,Rock,Fairy,50,160,110,160,110,110,6,True
797,720,HoopaHoopa Confined,Psychic,Ghost,80,110,60,150,130,70,6,True
798,720,HoopaHoopa Unbound,Psychic,Dark,80,160,60,170,130,80,6,True


### **→ Selecionar coluna**

In [13]:
poke_df['Name'] #* Pegando apenas os valores da coluna NAME

0                  Bulbasaur
1                    Ivysaur
2                   Venusaur
3      VenusaurMega Venusaur
4                 Charmander
               ...          
795                  Diancie
796      DiancieMega Diancie
797      HoopaHoopa Confined
798       HoopaHoopa Unbound
799                Volcanion
Name: Name, Length: 800, dtype: object

In [14]:
poke_df[['Name']][0:5]

Unnamed: 0,Name
0,Bulbasaur
1,Ivysaur
2,Venusaur
3,VenusaurMega Venusaur
4,Charmander


In [15]:
poke_df[['Name','Type 1','HP']] #*Pegando colunas especificas

Unnamed: 0,Name,Type 1,HP
0,Bulbasaur,Grass,45
1,Ivysaur,Grass,60
2,Venusaur,Grass,80
3,VenusaurMega Venusaur,Grass,80
4,Charmander,Fire,39
...,...,...,...
795,Diancie,Rock,50
796,DiancieMega Diancie,Rock,50
797,HoopaHoopa Confined,Psychic,80
798,HoopaHoopa Unbound,Psychic,80


### **→ Selecionar Linha**

In [16]:
display(poke_df.head(8))

#*Pegando a 6 linha
print()
print('Pegando a linha do Charizard')
poke_df.iloc[6]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False



Pegando a linha do Charizard


#                     6
Name          Charizard
Type 1             Fire
Type 2           Flying
HP                   78
Attack               84
Defense              78
Sp. Atk             109
Sp. Def              85
Speed               100
Generation            1
Legendary         False
Name: 6, dtype: object

### **→ Pegar algo especifico na tabela (linha,Coluna)**

#### Pegar Linhas e Colunas
- Colocar o nome da coluna em [ 'x' , 'y' ]

In [17]:
poke_df.head()

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False


In [18]:
poke_rapidos = poke_df[['Name','Speed']]
poke_rapidos

Unnamed: 0,Name,Speed
0,Bulbasaur,45
1,Ivysaur,60
2,Venusaur,80
3,VenusaurMega Venusaur,80
4,Charmander,65
...,...,...
795,Diancie,50
796,DiancieMega Diancie,110
797,HoopaHoopa Confined,70
798,HoopaHoopa Unbound,80


In [19]:
 #- Pegando os pokemons que tem os maiores ataques
poke_df[poke_df["Attack"] > 160].sort_values('Attack', ascending = False) #*Ordenando a ordem com `sort_values` 

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
163,150,MewtwoMega Mewtwo X,Psychic,Fighting,106,190,100,154,100,130,1,True
232,214,HeracrossMega Heracross,Bug,Fighting,80,185,115,40,105,75,2,False
424,383,GroudonPrimal Groudon,Ground,Fire,100,180,160,150,90,90,3,True
426,384,RayquazaMega Rayquaza,Dragon,Flying,105,180,100,180,100,115,3,True
429,386,DeoxysAttack Forme,Psychic,,50,180,20,180,20,150,3,True
494,445,GarchompMega Garchomp,Dragon,Ground,108,170,115,120,95,92,4,False
711,646,KyuremBlack Kyurem,Dragon,Ice,125,170,100,120,90,95,5,True
387,354,BanetteMega Banette,Ghost,,64,165,75,93,83,75,3,False
454,409,Rampardos,Rock,,97,165,60,65,50,58,4,False
527,475,GalladeMega Gallade,Psychic,Fighting,68,165,95,65,115,110,4,False


In [20]:
poke_df[(poke_df["Attack"] > 160) & (poke_df["HP"] > 100)]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
163,150,MewtwoMega Mewtwo X,Psychic,Fighting,106,190,100,154,100,130,1,True
426,384,RayquazaMega Rayquaza,Dragon,Flying,105,180,100,180,100,115,3,True
494,445,GarchompMega Garchomp,Dragon,Ground,108,170,115,120,95,92,4,False
711,646,KyuremBlack Kyurem,Dragon,Ice,125,170,100,120,90,95,5,True


# **4) Filtrando Linhas, Colunas e elementos dentro do DF**
## Métodos `.loc` e `.iloc`

In [21]:
poke_df.head(7)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


In [22]:
poke_df.iloc[6,1] #!Pegando o charizard em especifico!

#*(linha,coluna) lembrando que sempre começa pelo 0.

'Charizard'

In [23]:
poke_df.iloc[4:9] #*Pegando apenas a familia do Charmarnder

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False


In [24]:

#*pegando Cada valor especifico(tipo FOGO) no dataframe
poke_df.loc[poke_df['Type 1'] == 'Fire']

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False
42,37,Vulpix,Fire,,38,41,40,50,65,65,1,False
43,38,Ninetales,Fire,,73,76,75,81,100,100,1,False
63,58,Growlithe,Fire,,55,70,45,70,50,60,1,False
64,59,Arcanine,Fire,,90,110,80,100,80,95,1,False
83,77,Ponyta,Fire,,50,85,55,65,65,90,1,False


In [25]:
 #! Pegando todos os pokemons do tipo FOGO e mostrando alguns atributos
poke_tipo_fogo = poke_df.loc[poke_df['Type 1'] == 'FOGO', ['Type 1',"Name", "Type 2",'HP','Attack']]
display(poke_tipo_fogo)

Unnamed: 0,Type 1,Name,Type 2,HP,Attack


# **5) Diferenças entre `df.loc` e `df.iloc`**
 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html
- `df.loc[]` = Series 
-  `df.loc[[]]` = DataFrame (lista dentro do loc)
- ``df.loc[i,j]``, onde i e j são os ``nomes`` dos índices
- ``df.iloc[i,j]``, onde i e j são os ``números`` dos índices

In [26]:
poke_df.head(7)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


### Usando o `df.loc`
Acessa um grupo de linhas e colunas por rótulo(s) ou uma lista(array).

``.loc[]`` é baseado principalmente em rótulos, mas também pode ser usado com um array(lista) booleana.

In [27]:
poke_df.loc[6] #! Vai retornar uma Series

#                     6
Name          Charizard
Type 1             Fire
Type 2           Flying
HP                   78
Attack               84
Defense              78
Sp. Atk             109
Sp. Def              85
Speed               100
Generation            1
Legendary         False
Name: 6, dtype: object

In [28]:
poke_df.loc[[6]] #!Retorna o Dataframe

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


In [29]:
poke_df.loc[4:7] #* Funciona como uma lista

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False


In [30]:
poke_df.loc[4:7,['Name','Attack','Defense','HP']] #*Pegando valores específicos [i,j] 

#! i → Fatiamento e j → Nome das colunas
#- Fatiamento do Numpy Também vale!!!!!! ate pras colunas

Unnamed: 0,Name,Attack,Defense,HP
4,Charmander,52,43,39
5,Charmeleon,64,58,58
6,Charizard,84,78,78
7,CharizardMega Charizard X,130,111,78


### Usando o `df.iloc`
Indexação puramente baseada em localização inteira(numérico) para seleção por posição.

``.iloc[]`` é principalmente baseado em posição inteira (de 0 até o tamanho do eixo), mas também pode ser usado como uma lista.

In [31]:
poke_df.iloc[[6]] #!Retorna Um dataframe 

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


In [32]:
poke_df.iloc[4:7]

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


In [33]:
poke_df.iloc[4:7, 1:6:1]

Unnamed: 0,Name,Type 1,Type 2,HP,Attack
4,Charmander,Fire,,39,52
5,Charmeleon,Fire,,58,64
6,Charizard,Fire,Flying,78,84


# **6) Namorando os Dados**
- ``describe``: Um resumo de toda tabela com dados estatísticos
- ``.min(axis), .max(axis), .cumsum(),mean()`` → Similar aos métodos do Numpy

- ``.value_counts()`` → Este método faz uma contagem de aparições de determinado valor (aplicar para Series)

- ``.sort_values(by=column)`` → Ordena valores.

In [34]:
poke_df.describe()

Unnamed: 0,#,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation
count,800.0,800.0,800.0,800.0,800.0,800.0,800.0,800.0
mean,362.81375,69.25875,79.00125,73.8425,72.82,71.9025,68.2775,3.32375
std,208.343798,25.534669,32.457366,31.183501,32.722294,27.828916,29.060474,1.66129
min,1.0,1.0,5.0,5.0,10.0,20.0,5.0,1.0
25%,184.75,50.0,55.0,50.0,49.75,50.0,45.0,2.0
50%,364.5,65.0,75.0,70.0,65.0,70.0,65.0,3.0
75%,539.25,80.0,100.0,90.0,95.0,90.0,90.0,5.0
max,721.0,255.0,190.0,230.0,194.0,230.0,180.0,6.0


In [35]:
poke_df.sort_values('Name', ascending=True) #*Pegando os valores em ordem alfabética pelo [Name]
#Ascending = qual a ordem, crescente ou decrescente, padrão = True

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
510,460,Abomasnow,Grass,Ice,90,92,75,92,85,60,4,False
511,460,AbomasnowMega Abomasnow,Grass,Ice,90,132,105,132,105,30,4,False
68,63,Abra,Psychic,,25,20,15,105,55,90,1,False
392,359,Absol,Dark,,65,130,60,75,60,75,3,False
393,359,AbsolMega Absol,Dark,,65,150,60,115,60,115,3,False
...,...,...,...,...,...,...,...,...,...,...,...,...
632,571,Zoroark,Dark,,60,105,60,120,60,105,5,False
631,570,Zorua,Dark,,40,65,40,80,40,65,5,False
46,41,Zubat,Poison,Flying,40,45,35,30,40,55,1,False
695,634,Zweilous,Dark,Dragon,72,85,70,65,70,58,5,False


In [36]:
poke_df.sort_values(['Type 1','HP'], ascending = False) #*pegando de Z ate A | Pegando do Maior HP pro menor

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
351,321,Wailord,Water,,170,90,45,90,45,60,3,False
655,594,Alomomola,Water,,165,75,80,40,45,65,5,False
142,131,Lapras,Water,Ice,130,85,80,85,95,60,1,False
145,134,Vaporeon,Water,,130,65,60,110,95,65,1,False
350,320,Wailmer,Water,,130,70,35,70,35,60,3,False
...,...,...,...,...,...,...,...,...,...,...,...,...
314,290,Nincada,Bug,Ground,31,45,90,30,30,40,3,False
462,415,Combee,Bug,Flying,30,30,42,30,42,70,4,False
603,543,Venipede,Bug,Poison,30,45,59,30,39,57,5,False
230,213,Shuckle,Bug,Rock,20,10,230,10,230,5,2,False


In [37]:
poke_df.sort_values(['Type 1','HP'], ascending = (1,0)) #*pegando de A ate Z | Pegando do Maior HP pro menor HP

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
520,469,Yanmega,Bug,Flying,86,76,86,116,56,95,4,False
698,637,Volcarona,Bug,Fire,85,60,65,135,105,100,5,False
231,214,Heracross,Bug,Fighting,80,125,75,40,95,85,2,False
232,214,HeracrossMega Heracross,Bug,Fighting,80,185,115,40,105,75,2,False
678,617,Accelgor,Bug,,80,70,40,100,60,145,5,False
...,...,...,...,...,...,...,...,...,...,...,...,...
106,98,Krabby,Water,,30,105,90,25,25,50,1,False
125,116,Horsea,Water,,30,40,70,70,25,60,1,False
129,120,Staryu,Water,,30,45,55,70,55,85,1,False
139,129,Magikarp,Water,,20,10,55,15,20,80,1,False


# **7) Modificando os Dados**
- Buscas especificas
- Reagrupando a ordem das colunas
- Adicionar Linhas e Colunas
- Excluir linhas e colunas

In [38]:
poke_df.head(7)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False


### **→ Busca Especifica: Vamos tentar buscar o pokemon Inicial que tem os melhores Status**
#### Adicionando uma nova Coluna [Total]

In [39]:
poke_df['Total'] = poke_df['HP'] + poke_df['Attack'] + poke_df['Defense'] + poke_df['Sp. Atk'] + poke_df['Sp. Def'] + poke_df['Speed']

display(poke_df.head(13))
print('Mega Charizard Ganhou!!!!')

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,318
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,405
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,525
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False,625
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False,309
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False,405
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False,534
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False,634
8,6,CharizardMega Charizard Y,Fire,Flying,78,104,78,159,115,100,1,False,634
9,7,Squirtle,Water,,44,48,65,50,64,43,1,False,314


Mega Charizard Ganhou!!!!


### **OBS! Excluir linhas e colunas**
 `.drop`
 
 axis = 0 → Deleta linha 

 axis = 1 → Deleta coluna
 
 https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html#

In [40]:
 #* poke_df = poke_df.drop(columns = ['Total'])
# -Forma mais rápida de fazer
#! Precisei retirar a coluna [Total] Já que ela ja estava no sistema.

poke_df['Total'] = poke_df.iloc[:, 4:10].sum(axis=1)
    #[ [todas as linhas] , [4(HP) coluna ate a 9(speed)] ] 
    # axis = 1 → Horizontal 

poke_df.head(8)

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,318
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,405
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,525
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False,625
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False,309
5,5,Charmeleon,Fire,,58,64,58,80,65,80,1,False,405
6,6,Charizard,Fire,Flying,78,84,78,109,85,100,1,False,534
7,6,CharizardMega Charizard X,Fire,Dragon,78,130,111,130,85,100,1,False,634


### **OBS: Criar uma coluna com valor padrão**
 - `poke_df.loc[ linha, coluna ] = 0`
 
 : → todas as colunas

In [41]:
poke_df.loc[:, "Capturado?"] = 'Não'
poke_df.head()

Unnamed: 0,#,Name,Type 1,Type 2,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary,Total,Capturado?
0,1,Bulbasaur,Grass,Poison,45,49,49,65,65,45,1,False,318,Não
1,2,Ivysaur,Grass,Poison,60,62,63,80,80,60,1,False,405,Não
2,3,Venusaur,Grass,Poison,80,82,83,100,100,80,1,False,525,Não
3,3,VenusaurMega Venusaur,Grass,Poison,80,100,123,122,120,80,1,False,625,Não
4,4,Charmander,Fire,,39,52,43,60,50,65,1,False,309,Não


### Adicionando uma linha
 - tomar cuidado ao executar, pois ele pode duplicar varias vezes(repetir o mesmo arquivo varias vezes)

In [42]:
 #! digimon_df = pd.read_excel("Digimon.xlsx")

 #! poke_df2 = poke_df2.append(digimon_df)


### **→ Reagrupando a ordem das colunas**


In [43]:
cols = list(poke_df.columns.values)

poke_df = poke_df[cols[0:4] + [cols[-1]] + cols[4:12]]

poke_df.head(8)

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,Não,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,Não,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,Não,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,Não,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,Não,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,Não,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,Não,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,Não,78,130,111,130,85,100,1,False


# **8) Valores Vazios** 
 - Deletar Linhas/colunas vazias
 - Deletar linhas que possuem valores vazios
 - Preencher valores vazios (media e ultimo valor)

 ### Deletar linhas/colunas vazias (`.dropna`)

In [44]:
poke_df = poke_df.dropna(how='all', axis=1)

### Deletar linhas que possuem pelo menos 1 valor vazio

In [45]:
poke_df = poke_df.dropna()

### Preencher valores vazios (média e último valor)
- Preencher com a média da coluna → `.fillna`

 Executar o código que cria a coluna  antes para funcionar

In [46]:
poke_df['Attack'] = poke_df['Attack'].fillna(poke_df['Attack'].mean())
# display(poke_df)

### → Preencher com o último valor (`.ffill`)

In [47]:
poke_df = poke_df.ffill()
poke_df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,Não,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,Não,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,Não,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,Não,80,100,123,122,120,80,1,False
6,6,Charizard,Fire,Flying,Não,78,84,78,109,85,100,1,False


# **9) Filtrando os dados**

In [48]:
 #* Buscando apenas pokemons de FOGO e VOADOR
fogo_voador = poke_df.loc[(poke_df['Type 1'] == 'Fire') & (poke_df['Type 2'] == 'Flying')]

#-Arrumando os indices
fogo_voador.reset_index(drop = True, inplace = True)
fogo_voador

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,6,Charizard,Fire,Flying,Não,78,84,78,109,85,100,1,False
1,6,CharizardMega Charizard Y,Fire,Flying,Não,78,104,78,159,115,100,1,False
2,146,Moltres,Fire,Flying,Não,90,100,90,125,85,90,1,True
3,250,Ho-oh,Fire,Flying,Não,106,130,90,110,154,90,2,True
4,662,Fletchinder,Fire,Flying,Não,62,73,55,56,52,84,6,False
5,663,Talonflame,Fire,Flying,Não,78,81,71,74,69,126,6,False


In [49]:
 #* Buscando apenas os pokemons MEGA
poke_mega = poke_df.loc[poke_df['Name'].str.contains('Mega')]
poke_mega.head(6)

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
3,3,VenusaurMega Venusaur,Grass,Poison,Não,80,100,123,122,120,80,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,Não,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,Não,78,104,78,159,115,100,1,False
19,15,BeedrillMega Beedrill,Bug,Poison,Não,65,150,40,15,80,145,1,False
23,18,PidgeotMega Pidgeot,Normal,Flying,Não,83,80,80,135,80,121,1,False
87,80,SlowbroMega Slowbro,Water,Psychic,Não,95,75,180,130,80,30,1,False


In [50]:
poke_maiorHP = poke_df['HP'] > 125
display(poke_df[poke_maiorHP])  

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
45,40,Wigglytuff,Normal,Fairy,Não,140,70,45,85,50,45,1,False
142,131,Lapras,Water,Ice,Não,130,85,80,85,95,60,1,False
473,426,Drifblim,Ghost,Flying,Não,150,80,44,90,54,80,4,False
544,487,GiratinaAltered Forme,Ghost,Dragon,Não,150,100,120,100,120,90,4,True
545,487,GiratinaOrigin Forme,Ghost,Dragon,Não,150,120,100,120,100,90,4,True
793,717,Yveltal,Dark,Flying,Não,126,131,95,131,98,99,6,True


In [51]:
 #* Retirando os pokemons MEGA

 #!Observe o → ~  em [~poke_df['Name'] para pegar os nomes que começam com o 'MEGA' na tabela ['Name']
poke_nao_mega = poke_df.loc[~poke_df['Name'].str.contains('Mega')]
poke_nao_mega.head(10)

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,Não,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,Não,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,Não,80,82,83,100,100,80,1,False
6,6,Charizard,Fire,Flying,Não,78,84,78,109,85,100,1,False
15,12,Butterfree,Bug,Flying,Não,60,45,50,90,80,70,1,False
16,13,Weedle,Bug,Poison,Não,40,35,30,20,20,50,1,False
17,14,Kakuna,Bug,Poison,Não,45,25,50,25,25,35,1,False
18,15,Beedrill,Bug,Poison,Não,65,90,40,45,80,75,1,False
20,16,Pidgey,Normal,Flying,Não,40,45,40,35,35,56,1,False
21,17,Pidgeotto,Normal,Flying,Não,63,60,55,50,50,71,1,False


In [52]:
import re
#*Pegando pokemons de fogo e planta

poke_df.loc[poke_df['Type 1'].str.contains('Fire|Grass', regex = True)]


Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,Não,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,Não,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,Não,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,Não,80,100,123,122,120,80,1,False
6,6,Charizard,Fire,Flying,Não,78,84,78,109,85,100,1,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
730,662,Fletchinder,Fire,Flying,Não,62,73,55,56,52,84,6,False
731,663,Talonflame,Fire,Flying,Não,78,81,71,74,69,126,6,False
735,667,Litleo,Fire,Normal,Não,62,50,58,73,54,72,6,False
736,668,Pyroar,Fire,Normal,Não,86,68,72,109,66,106,6,False


In [53]:
 #* Pegando os pokemons que começam com "PI"
import re
poke_df.loc[poke_df['Name'].str.contains('^pi[a-z]',flags = re.I, regex = True)]

#! repare o ^ no inicio em '^pi[a-z]'. 
#* ^ → Indica que COMEÇA com PI, sem o ^ ele vai pegar todos que tem PI

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
20,16,Pidgey,Normal,Flying,Não,40,45,40,35,35,56,1,False
21,17,Pidgeotto,Normal,Flying,Não,63,60,55,50,50,71,1,False
22,18,Pidgeot,Normal,Flying,Não,83,80,75,70,70,101,1,False
23,18,PidgeotMega Pidgeot,Normal,Flying,Não,83,80,80,135,80,121,1,False
137,127,PinsirMega Pinsir,Bug,Flying,Não,65,155,120,65,90,105,1,False
239,221,Piloswine,Ice,Ground,Não,100,100,80,60,60,50,2,False
558,499,Pignite,Fire,Fighting,Não,90,93,55,70,55,55,5,False
578,519,Pidove,Normal,Flying,Não,50,55,50,36,30,43,5,False


# **10) Mudando dados com condicionais**

### Mudando o Tipo FIRE em tipo FOGO

In [54]:
poke_df.loc[poke_df['Type 1'] == 'Fire', 'Type 1'] = 'FOGO'
poke_df.head(8)

Unnamed: 0,#,Name,Type 1,Type 2,Capturado?,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,Não,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,Não,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,Não,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,Não,80,100,123,122,120,80,1,False
6,6,Charizard,FOGO,Flying,Não,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,FOGO,Dragon,Não,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,FOGO,Flying,Não,78,104,78,159,115,100,1,False
15,12,Butterfree,Bug,Flying,Não,60,45,50,90,80,70,1,False


In [55]:
poke_nao_mega.loc[poke_nao_mega['Total'] > 500, ['Generation','Legendary']] = ['Top da região', 'QUASE LENDARIO']
poke_nao_mega.head(12)

KeyError: 'Total'

# **11) Usando estatística**

`GroupBY`

In [None]:
poke_df.groupby(['Type 1']).mean().sort_values('Attack', ascending = False)

In [None]:
poke_df.groupby(['Type 1']).sum()

In [None]:
qnt_tipos = poke_df.groupby(['Type 1']).count()
display(qnt_tipos['#'])

In [None]:
tipos_diferentes = poke_df.groupby(['Type 1','Type 2']).count()
tipos_diferentes['#']

# **12) Juntando Dataframes**
https://pandas.pydata.org/docs/user_guide/merging.html

De forma resumida, a função concat nos auxilia em combinar, concatenar os DataFrames. A função merge nos ajuda a fundir os DataFrames, tendo uma funcionalidade parecida com o procv do Excel.

- ``Concat`` → Junta(soma) os Dataframes
<BR>
<br>
- ``Merge`` → Funde(mistura) os Dataframes. É usado quando tem uma ``coluna em COMUM`` (id, chave, ...)
<br>
<br>

- ``Join`` → Unir os Dataframes. É usado para unir ``índice com índice``
<br>
<br>
- `GroupBY` → Agrupar colunas

### ``Concat`` → Junta(soma) os Dataframes

#### **Exemplo 1)**

In [None]:
import numpy as np

df_a = pd.DataFrame(np.arange(15).reshape(5,3),
index = ['Linha 1','Linha 2','Linha 3','Linha 4','Linha 5'])
df_a.columns = ['Coluna 1','Coluna 2','Coluna 3']

print('Data Frame A')
display(df_a)


df_b = pd.DataFrame((np.arange(9)**2).reshape(3,3),index = ['Linha 1.1','Linha 2.2','Linha 3.3'])
df_b.columns = ['Coluna 1','Coluna 2','Coluna 3']

print('Data Frame B')
display(df_b)

In [None]:
pd.concat([df_a,df_b])

In [None]:
pd.concat([df_a,df_b],ignore_index=True)

### `Merge` → Funde(mistura) os Dataframes
#### **Exemplo 1)**

In [None]:
df_1 =pd.DataFrame({'id':[1,2,3],
                    'cor':['Branco','Preto','Azul']})
df_2 =pd.DataFrame({'Times':['Fluminense','Real Madrid','Manchester United','Chelsea','PSG'],
                    'id':[1,1,2,3,2]})
display(df_1)
df_2

In [None]:
pd.merge(df_1,df_2) #*So funciona porque ambos os dataframas possuem um Indice igual → `ID`

#### **Exemplo 2)**
#### Outra forma... Sem ser indices iguais

In [None]:
df_1 =pd.DataFrame({'id':[1,2,3],
                    'cor':['Branco','Preto','Azul']})
df_2 =pd.DataFrame({'Times':['Fluminense','Real Madrid','Manchester United','Chelsea','PSG'],
                    'id COR':[1,1,2,3,2]})
display(df_1)
df_2

In [None]:
pd.merge(df_1,df_2,left_on='id',right_on='id COR')
#* AS tabelas se juntam

### ``Join`` → Unir os Dataframes

#### **Exemplo 1)**

In [None]:
print('Data Frame A')
display(df_a)

print('Data Frame B')
df_b

In [None]:
join_esq = df_a.join(df_b,lsuffix='_X',rsuffix='_Y')
join_esq

#### **Exemplo 2)** 
Unindo com Colunas (id) iguais.

In [None]:
dicionario = {'NOME':['Mario','Joana','Claudia','Lucas','Gabriel'],
              'CIDADE':['SÃO PAULO','RIO DE JANEIRO','SÃO PAULO','CAMPINAS','PORTO ALEGRE']}
dicionario2 = {'Experiência':['Junior','Senior','Pleno','Estagiário','Analista']}

df4 = pd.DataFrame(data=dicionario)
df5 = pd.DataFrame(data=dicionario2)

display(df4)
display(df5)
print('Possuem o mesmo indice!!!')

In [None]:
join_nomes = df4.join(df5)
join_nomes
#!Use sempre para juntar com dataframes com indices iguais e COERENTES

### `GroupBY` → Agrupar Colunas

**Exemplo 1)**

In [None]:
vendas_df = pd.read_excel('assets/Vendas.xlsx')
vendas_df

In [None]:
faturamento_produto = vendas_df[['Produto', 'Valor Final']].groupby('Produto').sum()
display(faturamento_produto)

**Exemplo 2)**

In [None]:
data = {'Sede':['SP','SP','MG','MG','RJ','RJ','ES','ES'],
       'Vendedor':['Jorge','Ana','Tiago','Pedro','Raphaela','Guto','Maria','Carolina'],
       'Vendas':[2000,2500,3100,1200,1500,3900,2900,3900]}
vendedores_df = pd.DataFrame(data)
vendedores_df

In [None]:
by_sede = vendedores_df.groupby('Sede')

by_sede.describe()

In [None]:
by_sede.describe().transpose()['SP']

#### **Exemplo 3) Dataframe MultiIndex**

In [None]:
arrays = [['São Paulo', 'São Paulo', 'Rio de Janeiro', 'Rio de Janeiro','Minas Gerais','Minas Gerais'],
['Garrafas','Copos','Garrafas','Copos','Garrafas','Copos' ]]
index = pd.MultiIndex.from_arrays(arrays, names=('Estado', 'Produto'))
df1 = pd.DataFrame({'Total Vendido R$': [10000, 35000, 22400, 12890,10880,13900]},index=index)
df1

In [None]:
mult_byEstado = df1.groupby('Estado',level=0)
mult_byEstado.mean()

# **13) Tabela Dinâmica** 

https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html
- Também usado no VBA

- ``pivot_table()``

- Vem por padrão como:
<br>
    - pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False)

In [None]:
acoes_df = pd.read_csv('assets\Acoes_ficticias.csv',delimiter = ';')
acoes_df  

In [None]:
acoes_df.columns

In [None]:
pd.pivot_table(acoes_df,index='Papel',values='preco_compra')
#* Ele faz a media dos valores.

In [None]:
pd.pivot_table(acoes_df,index='Papel',values='Quantidade',aggfunc='sum')


In [None]:
acoes_df['Valor_total'] = acoes_df.preco_compra * acoes_df.Quantidade
acoes_df 

In [None]:
soma_qtd_valor = pd.pivot_table(acoes_df,index='Papel',values=['Quantidade','Valor_total'],aggfunc='sum')
soma_qtd_valor 

In [None]:
soma_qtd_valor['preco_medio'] = soma_qtd_valor.Valor_total / soma_qtd_valor.Quantidade
soma_qtd_valor

In [None]:
pd.pivot_table(acoes_df,columns='Papel',values='preco_compra')


# **Salvar o Dataframe**

In [None]:
poke_df.to_csv('assets/pokemon modificado.csv', index = False)
poke_df.to_excel('assets/pokemon modificado.xlsx', index = False)