# Numpy e Pandas
  
  
## Numpy
Numpy é um biblioteca do Python que nos permite trabalhar com vetores, matrizes e tensores de forma geral (_arrays_) de forma mais eficiente que as ferramentas nativas da linguagem que usa listas.

In [1]:
#importando biblioteca
import numpy as np

Criando um array usando a biblioteca Numpy

In [2]:
#Criando lista e a convertendo para o formato "Numpy array"
x=np.array([1,2])
print(x)
type(x)

[1 2]


numpy.ndarray

Quando trabalhamos com vetores e matrizes no Python com funções nativas, usamos o conceito de listas e isso significa que o processo por trás é diferente do caso em usamos o conceito de _array_ do pacote Numpy, por exemplo. Geralmente, quando optamos por trabalhar com _arrays_ ao invés de listas, os processos ficam mais rápidos:

In [3]:
#comparando 
lista =[1,2,3,4,5,6,7,8,9]
array=np.arange(10) # função arange(Limite_inferior,Limite_Superior,passo), 
                    # funciona igual o range normal do python

print("Lista: ",lista)
#tempo de execução do comando
quadradoL=None
%timeit quadradoL = [el**2 for el in lista] #elevar todos elementos ao quadrado

Lista:  [1, 2, 3, 4, 5, 6, 7, 8, 9]
3.84 µs ± 109 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [4]:
print("Array: ",array)
#tempo de execução do comando
quadradoA=None
%timeit quadradoA = array**2  #elevar todos elementos ao quadrado

Array:  [0 1 2 3 4 5 6 7 8 9]
794 ns ± 71.5 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


A diferença pode parecer pequena, mas quando passamos a trabalhar com processos mais complexos, essa diferença passa a crescer exponencialmente. Por conta comodidade (tempo de execução e funções) de se trabalhar com o pacote Numpy, vamos usá-lo daqui para frente. Agora iremos conhecer alguns métodos do pacote para podermos utilizá-lo da melhor maneira.

Primeiramente, vamos aprender a inicializar um _array_ de diversas maneiras com as funções do Numpy:

In [5]:
#inicializando um array

#array unidimensional (vetor)
arrayU=np.array([1,2,3])
print("Array unidimensional: ")
print(arrayU,'\n')

#array bidimensional(matriz)
arrayB=np.array([[1,2,3],[4,5,6],[7,8,9]])
print("Array Bidimensional(matriz): ")
print(arrayB,'\n')

Array unidimensional: 
[1 2 3] 

Array Bidimensional(matriz): 
[[1 2 3]
 [4 5 6]
 [7 8 9]] 



Podemos criar _arrays_ apenas com zeros com o método np.zeros(). No argumento do método colocamos o formato que o _array_ assumirá:

In [6]:
#podemos criar um array apenas com zeros
arrayZeros = np.zeros(3)
print("Array de zeros: ",arrayZeros)

#Automaticamente, a função faz com que os números sejam do tipo float
type(arrayZeros[0])

Array de zeros:  [0. 0. 0.]


numpy.float64

In [7]:
#basta fazer o seguinte para mudar o tipo da variável
arrayZeros = np.zeros(3,dtype=int)
print("Array de zeros Inteiros: ",arrayZeros)

Array de zeros Inteiros:  [0 0 0]


Podemos criar também _arrays_ de números 1 com o método np.ones() e _arrays_ vazios com o método np.empty():

In [8]:
#Array de 1s
arrayOne = np.ones([3,2])
print("array de 1: ")
print(arrayOne)

array de 1: 
[[1. 1.]
 [1. 1.]
 [1. 1.]]


In [9]:
#Array vazio
arrayEmpty= np.empty(3) #inicializa com o endereço de memória da variável
print("array vazio: ")
print(arrayEmpty)

array vazio: 
[0. 0. 0.]


Podemos criar uma matriz identidade facilmente com np.identity() ou np.eye():

In [10]:
#Matriz identidade
MatrizIdentidade = np.eye(2) # argumento vai quantidade de 1 que queremos
print(MatrizIdentidade)

[[1. 0.]
 [0. 1.]]


Podemos também criar uma matriz diagonal com o método np.diag:

In [11]:
MatrizDiag= np.diag([1,2,3,4])
print("Matriz Diagonal:")
print(MatrizDiag)

Matriz Diagonal:
[[1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]
 [0 0 0 4]]


Outro comando interessante é o np.linspace(). Com ele nós podemos definir pontos de corte equidistantes em um intervalo númerico, podendo escolher em quantas vezes queremos dividí-lo. O Numpy retorna um _array_ com os pontos de corte:

In [12]:
#criando intervalo (dividino [0,1] em 5 pontos)
arrayIntervalo = np.linspace(0,1,5)
print("Array Intervalo: ",arrayIntervalo)

Array Intervalo:  [0.   0.25 0.5  0.75 1.  ]


Podemos também modificar um _array_ já criado mudando seu formato (shape)  como for necessário. Usar método np.shape():

In [13]:
#criando um array normal
arrayShape = np.array([1,2,3,4])
print("Array com formato inicial: ",arrayShape)
print("Dimensões do array: ",arrayShape.shape)

Array com formato inicial:  [1 2 3 4]
Dimensões do array:  (4,)


In [14]:
#modificando
arrayShape.shape =(2,2)
print("Array modificado: ")
print(arrayShape)
print("Dimensões do array: ",arrayShape.shape)

Array modificado: 
[[1 2]
 [3 4]]
Dimensões do array:  (2, 2)


In [15]:
#modificando
arrayShape.shape =(4,1)
print("Array modificado: ")
print(arrayShape)
print("Dimensões do array: ",arrayShape.shape)

Array modificado: 
[[1]
 [2]
 [3]
 [4]]
Dimensões do array:  (4, 1)


É possível também realizar cortes de diversas maneiras no _array_ unidimensional. Agora estudaremos como fazer isso:

In [16]:
#vamos criar array
arrayCortes = np.arange(1,10)

#podemos printar o array inteiro com [:]
print("Array inicial: ",arrayCortes[:])

#podemos printar o array ao contrário com [::-1]
print("Array ao contrário: ",arrayCortes[::-1])

#podemos cortar do meio pra frente
print("Array do meio pra frente: ",arrayCortes[5:])

#podemos criar um espaço pra cortar e o intervalo de cada corte
print("Array cortado compassado ",arrayCortes[2:7:2]) # no espaço entre os index 2 e 7, 
                                                      #pegamos de 2 em 2 números


Array inicial:  [1 2 3 4 5 6 7 8 9]
Array ao contrário:  [9 8 7 6 5 4 3 2 1]
Array do meio pra frente:  [6 7 8 9]
Array cortado compassado  [3 5 7]


O mesmo vale para matrizes:

In [17]:
#criando matriz bidimensional
arrayCortes.shape= (3,3)
print("Matriz inicial: ")
print(arrayCortes)

Matriz inicial: 
[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [18]:
#podemos imprimir só uma coluna específica
print("Matriz Coluna: ")
print(arrayCortes[:,1]) 

Matriz Coluna: 
[2 5 8]


In [19]:
#ou uma linha específica
print("Matriz Linha: ")
print(arrayCortes[1,:])

Matriz Linha: 
[4 5 6]


In [20]:
#até mesmo um pedaço da matriz
print("Matriz pedaço: ")
print(arrayCortes[1:,1:])

Matriz pedaço: 
[[5 6]
 [8 9]]


Podemos usar esses comandos para substituir valores em um _array_ com mais facilidade:


In [21]:
#mudando valores da matriz
arrayCortes[1:,1:]=99
print("Matriz Novos valores: ")
print(arrayCortes)

Matriz Novos valores: 
[[ 1  2  3]
 [ 4 99 99]
 [ 7 99 99]]


Agora vamos ver alguns métodos matemáticos do Numpy:


In [34]:
#Criando array
A = np.array([1,0,3,6,2,1,7,5,2])
print("Array Inicial: ",A)

Array Inicial:  [1 0 3 6 2 1 7 5 2]


In [35]:
#Ordenando o array
A.sort()
print("Array ordenado: ",A)

Array ordenado:  [0 1 1 2 2 3 5 6 7]


In [36]:
#Soma elementos do array
print("Array somado: ",A.sum())

Array somado:  27


In [37]:
#Média dos elementos do array
print("Array somado: ",A.mean())

Array somado:  3.0


In [38]:
#Maior elemento
print("Array maior elemento: ",A.max())

Array maior elemento:  7


In [39]:
#Variância 
print("Variância: ",A.var())

Variância:  5.333333333333333


In [28]:
#Desvio-Padrão
print("Desvio-Padrão: ",A.std())

Desvio-Padrão:  2.581988897471611


In [40]:
#Transposta de um matriz
A.shape =(3,3)
print("Transposta: ")
print(A.T)

Transposta: 
[[0 2 5]
 [1 2 6]
 [1 3 7]]


In [41]:
#Determinante
print("Determinante: ")
print(np.linalg.det(A) )

Determinante: 
3.0000000000000004


In [42]:
#Matriz Inversa
print("Inversa: ")
print(np.linalg.inv(A))

Inversa: 
[[-1.33333333 -0.33333333  0.33333333]
 [ 0.33333333 -1.66666667  0.66666667]
 [ 0.66666667  1.66666667 -0.66666667]]


Podemos realizar operações algébricas de maneira muito simples:

In [43]:
#Vamos criar arrays
a = np.array([1,2,3,4])
b=np.array([5,6,7,8])

print("Array A: ",a)
print("Array B: ",b)

#Soma
print("Array A - soma: ",a+10)

#Multiplicação
print("Array B - multiplicação: ",b*10)

#Inclusive entre eles
print("Divisao Array A pelo B: ",a/b) #elemento por elemento

Array A:  [1 2 3 4]
Array B:  [5 6 7 8]
Array A - soma:  [11 12 13 14]
Array B - multiplicação:  [50 60 70 80]
Divisao Array A pelo B:  [0.2        0.33333333 0.42857143 0.5       ]


Com matrizes (_array_ bidimensional) é a mesma coisa, com exceção da multiplicação - a veremos agora. Primeiramente, lembremos que para multiplicar duas matrizes (A e B) o número de colunas da matriz A tem que ser iqual ao número de linhas da Coluna B:

In [44]:
A = np.array([1,2,3,4])
B=np.array([5,6,7,8])

A.shape=(2,2)
B.shape=(2,2)

print("Matriz A: ")
print(A, "\n")

print("Matriz B: ")
print(B, "\n")

#Matriz A X B
print("Matriz A X B : ")
print(A @ B, "\n")

#Array X matriz
print("Array [2,3] x A : ")
print( [2,3] @ A)

#Na aula de Álgebra Linear apresentaremos outra maneira de se realizar
#a multiplicação de matrizes.

Matriz A: 
[[1 2]
 [3 4]] 

Matriz B: 
[[5 6]
 [7 8]] 

Matriz A X B : 
[[19 22]
 [43 50]] 

Array [2,3] x A : 
[11 16]


Podemos copiar um array com a função np.copyto():

In [45]:
#Criando array original
Original = np.array ([1,2,3])
print( "Array Original: ",Original)

#Fazendo copiar
Copia = np.empty_like(Original) # cria array vazio na mesma forma do Original
np.copyto(Copia,Original)

print( "Array Copia: ", Copia)

Array Original:  [1 2 3]
Array Copia:  [1 2 3]


Também podemos realizar comparações entre elementos dos _arrays_:

In [46]:
a = np.array([1,2,3,4])
b=np.array([5,2,7,8])

print("Array A: ",a)
print("Array B: ",b)

#entre os proprios array
print("Comparação entre A e B: ", a==b)

# do array entre algum numero
print("Elemento do array B > 6: ",b>6 )

Array A:  [1 2 3 4]
Array B:  [5 2 7 8]
Comparação entre A e B:  [False  True False False]
Elemento do array B > 6:  [False False  True  True]


# Exercícios

1- Refaça alguns exercícios feito anteriormente com lista usando o Numpy e compare o tempo de execução.

2- Crie uma array com 9 entradas, transforme-o em uma matriz 3x3 e faça os exercícios abaixo com ela.

3- Faça a Multiplicação de uma matriz 3x3 sem utilizar a função de multiplicações de matrizes da Numpy.

4- Faça a transposta de uma matriz sem utilizar a função de transposta da Numpy.

5- Ache a inversa de uma Matriz 3x3 sem utilizar a função da inversa da Numpy.


# Pandas

Conheceremos agora uma das bibliotecas mais importantes e mais usadas para fazer a análise de dados no Python - o Pandas. O Pandas oferece diversas funções que facilitam a manipulação e visualização dos dados.

In [47]:
#Importando a biblioteca
import pandas as pd

Como dito anteriormente, o Pandas facilita a visualização de dados por causa da estrutura que ele é capaz de comportar as bases de daods - essa estrutura é chamada de DataFrame. Vamos criar um dicionário e depois transformá-lo em DataFrame para vermos sua estrutura:

In [48]:
dicionario =  {"País": ["Brasil", "Rússia", "Índia", "China", "África do Sul"],
       "Capital": ["Brasília", "Moscou", "Nova Deli", "Pequim", "Pretória"],
       "Área": [8.516, 17.10, 3.286, 9.597, 1.221],
       "População": [200.4, 143.5, 1252, 1357, 52.9]}
               
Brics = pd.DataFrame(dicionario)
print(Brics)

     Capital           País  População    Área
0   Brasília         Brasil      200.4   8.516
1     Moscou         Rússia      143.5  17.100
2  Nova Deli          Índia     1252.0   3.286
3     Pequim          China     1357.0   9.597
4   Pretória  África do Sul       52.9   1.221


Devido a um _bug_ do Pandas, ele pode mudar a ordem das colunas. Vamos consertar isso agora:

In [49]:
Brics = Brics[['País','Capital','Área','População']] 
print(Brics)

            País    Capital    Área  População
0         Brasil   Brasília   8.516      200.4
1         Rússia     Moscou  17.100      143.5
2          Índia  Nova Deli   3.286     1252.0
3          China     Pequim   9.597     1357.0
4  África do Sul   Pretória   1.221       52.9


Podemos ver que temos uma estrutura feita em tabela, o que torna a visualização dos dados muito mais fácil. Agora vamos supor que usaremos uma base de dados grande. Nesse caso, não podemos colocar toda base de dados no próprio código usando um dicionário, então usamos um arquivo externo do tipo **.csv**. Os arquivos _csv_ são arquivos com informações separadas por vírgulas dispostas em colunas. A biblioteca Pandas entende automaticamente esses dados e os converte em Data Frame.

...

_Formato de um .csv:_

descrição1,descrição2,...,descriçãoN

dado da descrição1, dado da descrição2,...,dado da descriçãoN

dado da descrição1, dado da descrição2,...,dado da descriçãoN

dado da descrição1, dado da descrição2,...,dado da descriçãoN


_Exemplo:_

País,Capital,Área,População

Brasil,Brasília,8.516,200.4

Rússia,Moscou,143.5,17.100

...


Podemos criar um arquivo _.csv_ de diversar maneiras e as mais fáceis são editar um bloco de notas e salvá-lo como _.csv_ ou podemos ir no Google Planilhas/Excel e colocar cada dado em uma coluna e na hora de baixar ou salvar, escolher a opção "_csv_ separado por vírgulas". No entanto, geralmente trabalharemos com arquivos _csv_ já prontos, criados por terceiros. Por favor baixe o arquivo "Pokemon.csv" da nossa pasta para trabalharmos agora:

In [50]:
#Abrindo dataset
dataset = pd.read_csv("Pokemon.csv") #Colocamos o caminho do arquivo entre (),
                                     #Não há a necessidade de colocar o caminho
                                     #caso o arquivo já esteja na pasta do Jupyter Notebook.

#Vamos dar um display no nosso dataset
dataset.head()

Unnamed: 0,#,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
0,1,Bulbasaur,Grama,Veneno,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,False
3,4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False
4,5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False


O metodo _.head()_ mostra apenas as 5 primeiras observações de nosso dataset. Para vermos todos os nomes de variáveis, usamos o comando _.columns_. Ademais, podemos contar as linhas e colunas de nosso dataset com o metodo _.count()_:

In [51]:
#Variáveis
dataset.columns

Index(['#', 'Nome', 'Tipo_1', 'Tipo_2', 'Total', 'HP', 'Ataque', 'Defesa',
       'Vel.Ataque', 'Sp.Def', 'Velocidade', 'Geração', 'Lendario'],
      dtype='object')

In [52]:
#contando dados diferentes de vazio por variável
dataset.count()

#             9
Nome          9
Tipo_1        9
Tipo_2        4
Total         9
HP            9
Ataque        9
Defesa        9
Vel.Ataque    9
Sp.Def        9
Velocidade    9
Geração       9
Lendario      9
dtype: int64

Observamos que existem dois contadores no canto esquerdo e isso ocorre pois o dataset usado já contém um contador e o Pandas gera outro automaticamente. Para tiramos o contador do Pandas basta fazer o seguinte:

In [53]:
#Basta adicionar index_col =0 na hora de pegar o csv
dataset = pd.read_csv("Pokemon.csv",index_col =0)
dataset.tail(3) #mostra os ultimos itens do csv

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7,Squirtle,Agua,,314,44,48,65,50,64,43,1,False
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,False
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,False


Podemos também fazer os cortes que desejarmos no _csv_:

In [54]:
#Dando display em um intervalo do dataset
dataset[3:6]

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False


Podemos também escolher determinadas colunas (variáveis) da seguinte forma:


In [55]:
dataset['Nome']

#
1     Bulbasaur
2       Ivysaur
3      Venusaur
4    Charmander
5    Charmeleon
6     Charizard
7      Squirtle
8     Wartortle
9     Blastoise
Name: Nome, dtype: object

In [56]:
#Também é possível agrupar as colunas pelo método value_counts()
pd.value_counts(dataset["Tipo_1"])

Agua     3
Fogo     3
Grama    3
Name: Tipo_1, dtype: int64

In [57]:
#A função "loc" mostra os dados da linha desejada 
dataset.loc[dataset['Nome'] == 'Charmander']

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False


In [58]:
#Podemos também fazer isso para selecionar subconjuntos específicos do dataset
dataset.loc[dataset['Ataque'] > 50]

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,False
3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,False
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,False
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,False


Podemos ordenar os dados de acordo com valores de uma variável com o método ".sort_values":

In [59]:
dataset.sort_values(by='Ataque') #Para inverter a ordem,
                                 #basta adicionar no argumento ascending=False

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
7,Squirtle,Agua,,314,44,48,65,50,64,43,1,False
1,Bulbasaur,Grama,Veneno,318,45,49,49,65,65,45,1,False
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False
2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,False
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,False
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False
3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,False
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,False
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False


Um outro método muito importante é o .describe(). O método faz uma análise descritiva básica da base de dados com as principais estatísticas:

In [60]:
dataset.describe()

Unnamed: 0,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração
count,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0
mean,416.111111,60.222222,65.222222,68.777778,77.111111,77.111111,67.666667,1.0
std,93.955368,15.857,14.584048,18.053932,19.173187,17.961378,18.5,0.0
min,309.0,39.0,48.0,43.0,50.0,50.0,43.0,1.0
25%,318.0,45.0,52.0,58.0,65.0,65.0,58.0,1.0
50%,405.0,59.0,63.0,65.0,80.0,80.0,65.0,1.0
75%,525.0,78.0,82.0,80.0,85.0,85.0,80.0,1.0
max,534.0,80.0,84.0,100.0,109.0,105.0,100.0,1.0


In [61]:
#Também é possível focar em uma estatística por vez
dataset.mean()

Total         416.111111
HP             60.222222
Ataque         65.222222
Defesa         68.777778
Vel.Ataque     77.111111
Sp.Def         77.111111
Velocidade     67.666667
Geração         1.000000
Lendario        0.000000
dtype: float64

In [62]:
#É possível também focar em uma só coluna (variável):
dataset["Defesa"].describe()

count      9.000000
mean      68.777778
std       18.053932
min       43.000000
25%       58.000000
50%       65.000000
75%       80.000000
max      100.000000
Name: Defesa, dtype: float64

Se quisermos ver o máximo de uma variável específica, é possível fazer da seguinte forma:

In [63]:
dataset["Ataque"].max()

84

In [64]:
#É possível dar display em uma linha específica com uma qualidade qualquer.
#No exemplo abaixo queríamos a que tinha maior ataque
dataset.loc[dataset['Ataque'] == dataset["Ataque"].max()]

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False


Podemos também adicionar dados na tabela da seguinte forma:

In [65]:
dataset['Evolução'] = (1,2,3,1,2,3,1,2,3)
dataset

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario,Evolução
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,Bulbasaur,Grama,Veneno,318,45,49,49,65,65,45,1,False,1
2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,False,2
3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,False,3
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False,1
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False,2
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False,3
7,Squirtle,Agua,,314,44,48,65,50,64,43,1,False,1
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,False,2
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,False,3


É possível aplicar funções com dados da tabela para preencher dados na propria tabela:

In [66]:
def evolucao(x):
    if x == 1:
        return "Forma incial"
    elif x == 2:
        return "Primeira evolução"
    elif x == 3:
        return "Segunda Evolução"
    
dataset['Evolução'] = dataset['Evolução'].apply(evolucao)
dataset

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Lendario,Evolução
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,Bulbasaur,Grama,Veneno,318,45,49,49,65,65,45,1,False,Forma incial
2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,False,Primeira evolução
3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,False,Segunda Evolução
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,False,Forma incial
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,False,Primeira evolução
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,False,Segunda Evolução
7,Squirtle,Agua,,314,44,48,65,50,64,43,1,False,Forma incial
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,False,Primeira evolução
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,False,Segunda Evolução


Por fim, podemos excluir dados com método ".drop":

In [67]:
#vamos excluir a coluna "Lendario"
dataset.drop(["Lendario"],axis=1,inplace= True)
dataset

Unnamed: 0_level_0,Nome,Tipo_1,Tipo_2,Total,HP,Ataque,Defesa,Vel.Ataque,Sp.Def,Velocidade,Geração,Evolução
#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,Bulbasaur,Grama,Veneno,318,45,49,49,65,65,45,1,Forma incial
2,Ivysaur,Grama,Veneno,405,60,62,63,80,80,60,1,Primeira evolução
3,Venusaur,Grama,Veneno,525,80,82,83,100,100,80,1,Segunda Evolução
4,Charmander,Fogo,,309,39,52,43,60,50,65,1,Forma incial
5,Charmeleon,Fogo,,405,58,64,58,80,65,80,1,Primeira evolução
6,Charizard,Fogo,Voador,534,78,84,78,109,85,100,1,Segunda Evolução
7,Squirtle,Agua,,314,44,48,65,50,64,43,1,Forma incial
8,Wartortle,Agua,,405,59,63,80,65,80,58,1,Primeira evolução
9,Blastoise,Agua,,530,79,83,100,85,105,78,1,Segunda Evolução


# Exercícios

1-Crie um arquivo.csv com área, país, capital, população e IDH de coluna usando os países do Mercosul como base faça as seguintes manipulações com o csv:
   
   a) Organize os países por ordem alfabética e depois por IDH;
   
   b) Descubra a média do IDH do mercosul e selecione todos os países que estiverem acima da média mostrando todos os seus dados;
   
   c) Adicione uma coluna que classifique um país como de Desenvolvido ou Subdesenvolvido levando em conta o IDH depois tire a tabela de IDH - defina um ponto de corte;
    
2- Faça o mesmo com os países da União Europeia;