# Semana 2: Biblioteca NumPy e Pandas

**Video-aula:** <a href="https://www.youtube.com/watch?v=ZC8bfSZLl80" target="_blank">Numpy</a> | 
<a href="https://www.youtube.com/watch?v=zHlJY0xuu8M" target="_blank">Pandas</a>

## Numpy (NUMerical PYthon)
Refers: https://numpy.org/doc/stable/reference/

- Utilizada para processamento númerico;
- Muito utilizada para array e também para array multidimensional, adequada para dados homogêneos em arrays;
- Faz operações matemáticas rápidas, sem uso de laços

In [5]:
import numpy as np

### Gerar dados aleatórios

Gerar um NDArray de 2x3 (duas lista com 3 elementos)

In [6]:
dados = np.random.rand(2,3)
dados

In [8]:
#tipo de array
dados.dtype

dtype('float64')

In [9]:
#tamanho e quantidade de dimensões
dados.shape

(2, 3)

In [10]:
dados.ndim

2

Gerar um NDArray a partir de uma lista com a função array

In [11]:
lista = [1,2,3,4,7,9.8,2.25]

In [14]:
dados2 = np.array(lista)
dados2

array([1.  , 2.  , 3.  , 4.  , 7.  , 9.8 , 2.25])

### Outras Maneiras de criar arrays

In [15]:
#dodos zerados
dadoszero = np.zeros(10)
dadoszero

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [16]:
#dados zeros com duas dimeñsões
dadoszero2 = np.zeros((2,3))
dadoszero2

array([[0., 0., 0.],
       [0., 0., 0.]])

In [18]:
#array com dados unitários
dadosum = np.ones(5)
dadosum

array([1., 1., 1., 1., 1.])

In [20]:
#array sequencial
dadosseq = np.arange(10)
dadosseq

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [24]:
#array sequencial com dados com passo
dadosseq2 = np.arange(0,20,2)
print(dadosseq2)
dadosseq2.dtype

[ 0  2  4  6  8 10 12 14 16 18]


dtype('int32')

In [27]:
#converter os dados de um array
dadosseqf = dadosseq2.astype(np.float64)
print(dadosseqf)
dadosseqf.dtype

[ 0.  2.  4.  6.  8. 10. 12. 14. 16. 18.]


dtype('float64')

### Aritméticas com arrays

In [38]:
dados4 = np.array([[1,2,3],[4,5,6]])
dados4

array([[1, 2, 3],
       [4, 5, 6]])

In [30]:
#subtração
dados4 - dados4

array([[0, 0, 0],
       [0, 0, 0]])

In [31]:
#divisão
1/dados4

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

In [34]:
#adição
dados5 = dados4 + dados4
dados5

array([[ 2,  4,  6],
       [ 8, 10, 12]])

### Operações lógicas

In [35]:
dados5 > dados4

array([[ True,  True,  True],
       [ True,  True,  True]])

In [36]:
dados4 < dados5

array([[ True,  True,  True],
       [ True,  True,  True]])

In [39]:
dados4 == dados5

array([[False, False, False],
       [False, False, False]])

In [40]:
dados5 != dados4

array([[ True,  True,  True],
       [ True,  True,  True]])

### Indexação

In [44]:
#recuperar os dados
print(dadosseq)
dadosseq[5]

[0 1 2 3 4 5 6 7 8 9]


5

In [45]:
#recuperar os dados em sequência
dadosseq[3:6]

array([3, 4, 5])

#### Diferente de uma lista python, um recorte (fatia) de um NDArray sofrerá boadcast - é como se fosse uma view de banco de dados

In [46]:
fatiadados = dadosseq[2:4]
fatiadados

array([2, 3])

In [47]:
fatiadados[1] = 2000
fatiadados

array([   2, 2000])

In [49]:
#observe que os dados seq foi alterado
dadosseq

array([   0,    1,    2, 2000,    4,    5,    6,    7,    8,    9])

### Copiar dados

In [50]:
#para evitar broadcast devemos copiar os dados
fatiadados2 = dadosseq[2:4].copy()
fatiadados2

array([   2, 2000])

In [53]:
fatiadados2[1] = 111
fatiadados2

array([  2, 111])

In [54]:
#observe que os dados seq não foi alterado
dadosseq

array([   0,    1,    2, 2000,    4,    5,    6,    7,    8,    9])

### Array com mais de uma dimensão

In [56]:
dados6 = np.array([[1,2,3],[4,5,6],[7,8,9]])
dados6

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [57]:
#recuperar a informação de arrays de arrays
dados6[1,2]

6

### Máscaras

In [58]:
dadosseq

array([   0,    1,    2, 2000,    4,    5,    6,    7,    8,    9])

In [59]:
#cria um array com a minha atribuiçõa
mascara = (dadosseq < 100)
mascara

array([ True,  True,  True, False,  True,  True,  True,  True,  True,
        True])

In [60]:
#substituir valores no meu array
dadosseq[dadosseq < 2 ] = 8
dadosseq

array([   8,    8,    2, 2000,    4,    5,    6,    7,    8,    9])

### Transposição

In [61]:
dados7 = np.arange(15).reshape((3,5))
dados7

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [62]:
#função T faz a transposição do array
dados7.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

### Multiplicação de matrizes com dot

In [63]:
np.dot(dados7.T,dados7)

array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

In [64]:
# Outras funçoes sin, cos, power, mod, sqrt,

## Pandas (PANel DAta Science)
Refers: https://numpy.org/doc/stable/reference/

- Utilizada para limpeza e análise de dados;
- Muito utilizada para trabalhar com dados tabulares e heterogêneos;
- As estruturas fundamentais de trabalho no pandas são as "Series" e o "Dataframe"

**1. Series:**
- Array unidimensional;
- Sequência de valores e um array ssociado de rótulos(labels) de dados chamado de índice;
- Diferente do NumPy, podemos ter rótulos nos índices;

**2. Dataframe:**
- Array multidimensional (Tabela de dados);
- Coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente;
- Tem índice tanto para linha quanto para coluna, como um dicionário de Series compartilhando o mesmo índice;
- Diferende do NumPy, podemos trabalhar com vários tipos de dados, como se fosse uma tabela de BD;

In [2]:
import pandas as pd
import numpy as np

### Series (Observe o índice do lado esquerdo)

In [7]:
#Criadno uma series
s1 = pd.Series([1,2,-5,0])
s1

0    1
1    2
2   -5
3    0
dtype: int64

In [8]:
#Recuperar apenas os valores
s1.values

array([ 1,  2, -5,  0], dtype=int64)

In [9]:
#Recuperar indices
s1.index

RangeIndex(start=0, stop=4, step=1)

In [10]:
#Criar uma series com indice str
s2 = pd.Series([1,2,-5,0], index=['a','b','c','d'])
s2

a    1
b    2
c   -5
d    0
dtype: int64

In [13]:
#Recupera os valores
s2.values

array([ 1,  2, -5,  0], dtype=int64)

In [14]:
#Recupera os índices
s2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

#### Comparação

Podemos utilizar todos os operadores de comparação do Python para filtro os dados

In [17]:
s2[s2>0]

a    1
b    2
dtype: int64

In [18]:
s1[s1<5]

0    1
1    2
2   -5
3    0
dtype: int64

#### Algebra

Podemos utilizar todas as operações aritméticas

In [19]:
s2*2

a     2
b     4
c   -10
d     0
dtype: int64

In [20]:
s1/2

0    0.5
1    1.0
2   -2.5
3    0.0
dtype: float64

In [21]:
#Verificar valores nulos
s2.isnull()

a    False
b    False
c    False
d    False
dtype: bool

In [22]:
s1.isnull()

0    False
1    False
2    False
3    False
dtype: bool

### Dataframe

In [27]:
# Criar um dataframe
dados = {'estado':['SP','MG','PR','SP','MG','PR'],'ano':[2019,2019,2019,2020,2020,2020],'pop':[45.9,21.2,16.9,46.6,21.4,17.3]}
df1 = pd.DataFrame(dados)
df1

Unnamed: 0,estado,ano,pop
0,SP,2019,45.9
1,MG,2019,21.2
2,PR,2019,16.9
3,SP,2020,46.6
4,MG,2020,21.4
5,PR,2020,17.3


In [29]:
#Recuperar 5 primeiros dados
df1.head()

Unnamed: 0,estado,ano,pop
0,SP,2019,45.9
1,MG,2019,21.2
2,PR,2019,16.9
3,SP,2020,46.6
4,MG,2020,21.4


In [30]:
#Recuperar 5 últimos dados do dataframe
df1.tail()

Unnamed: 0,estado,ano,pop
1,MG,2019,21.2
2,PR,2019,16.9
3,SP,2020,46.6
4,MG,2020,21.4
5,PR,2020,17.3


In [31]:
#Recuperar dados aleatórios
df1.sample(2)

Unnamed: 0,estado,ano,pop
3,SP,2020,46.6
0,SP,2019,45.9


#### Criar um novo dataframe a partir de outro

In [35]:
#Cria um novo dataframe com os dados anteriores mas com colunas especificas
df2 = pd.DataFrame(dados,columns=['ano','estado','pop'])
df2

Unnamed: 0,ano,estado,pop
0,2019,SP,45.9
1,2019,MG,21.2
2,2019,PR,16.9
3,2020,SP,46.6
4,2020,MG,21.4
5,2020,PR,17.3


#### Observar os dados DF

In [36]:
#Recuperar os dados de uma coluna especifica
df2['estado']

0    SP
1    MG
2    PR
3    SP
4    MG
5    PR
Name: estado, dtype: object

In [37]:
df2.ano

0    2019
1    2019
2    2019
3    2020
4    2020
5    2020
Name: ano, dtype: int64

In [38]:
df2.estado

0    SP
1    MG
2    PR
3    SP
4    MG
5    PR
Name: estado, dtype: object

In [40]:
#Verifcar os tipos de dados
df2.dtypes

ano         int64
estado     object
pop       float64
dtype: object

#### Atribuição de valores

In [42]:
#Cria uma nova coluna
df2['estimativa']=50
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,50
1,2019,MG,21.2,50
2,2019,PR,16.9,50
3,2020,SP,46.6,50
4,2020,MG,21.4,50
5,2020,PR,17.3,50


In [43]:
#Alterando os dados de uma coluna
df2['estimativa']=np.arange(6)
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [45]:
#Cria um dataframe igual
df3=df2
df3

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [46]:
#Criar uma nova coluna com comparação
df2['Não Paraná'] = df2.estado!='PR'
df2

Unnamed: 0,ano,estado,pop,estimativa,Não Paraná
0,2019,SP,45.9,0,True
1,2019,MG,21.2,1,True
2,2019,PR,16.9,2,False
3,2020,SP,46.6,3,True
4,2020,MG,21.4,4,True
5,2020,PR,17.3,5,False


#### Excluir uma coluna

In [47]:
del df2['Não Paraná']
df2

Unnamed: 0,ano,estado,pop,estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [59]:
#Excluir uma coluna
df4 = df2
df4.drop('Ano',axis='columns')

Unnamed: 0,Estado,População,Estimativa
0,SP,45.9,0
1,MG,21.2,1
2,PR,16.9,2
3,SP,46.6,3
4,MG,21.4,4
5,PR,17.3,5


#### Excluir uma linha

In [60]:
df2.drop([0,1])

Unnamed: 0,Ano,Estado,População,Estimativa
2,2021,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


#### Analisar o dataframe

In [56]:
#Analisar os dados por coluna
df2.describe(include='all')

Unnamed: 0,Ano,Estado,População,Estimativa
count,6.0,6,6.0,6.0
unique,,3,,
top,,MG,,
freq,,2,,
mean,2019.5,,28.216667,2.5
std,0.547723,,14.096725,1.870829
min,2019.0,,16.9,0.0
25%,2019.0,,18.275,1.25
50%,2019.5,,21.3,2.5
75%,2020.0,,39.775,3.75


In [57]:
#Analisar os dados por coluna
df2.describe()

Unnamed: 0,Ano,População,Estimativa
count,6.0,6.0,6.0
mean,2019.5,28.216667,2.5
std,0.547723,14.096725,1.870829
min,2019.0,16.9,0.0
25%,2019.0,18.275,1.25
50%,2019.5,21.3,2.5
75%,2020.0,39.775,3.75
max,2020.0,46.6,5.0


In [48]:
#Mostra as dimensões do dataframe
df2.shape

(6, 4)

In [49]:
#Mostrar os indices
df2.index

RangeIndex(start=0, stop=6, step=1)

In [50]:
#Mostrar as colunas do dataframe
df2.columns

Index(['ano', 'estado', 'pop', 'estimativa'], dtype='object')

In [52]:
#Constagem de valores por coluna, apenas não nulo
df2.count()

ano           6
estado        6
pop           6
estimativa    6
dtype: int64

#### Alterar as informações das colunas

In [54]:
#Renomedando as colunas
df2.columns=['Ano','Estado','População','Estimativa']
df2

Unnamed: 0,Ano,Estado,População,Estimativa
0,2019,SP,45.9,0
1,2019,MG,21.2,1
2,2019,PR,16.9,2
3,2020,SP,46.6,3
4,2020,MG,21.4,4
5,2020,PR,17.3,5


In [58]:
#Alterar a coluna ano +2
df2['Ano']=df2['Ano']+2
df2

Unnamed: 0,Ano,Estado,População,Estimativa
0,2021,SP,45.9,0
1,2021,MG,21.2,1
2,2021,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


#### Observe a propagação de exclusão definitiva, evitar fazer a cópia do dataframe

In [61]:
dflinhas = df2
dflinhas.drop([0,1],inplace=True)
dflinhas

Unnamed: 0,Ano,Estado,População,Estimativa
2,2021,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


In [62]:
df2

Unnamed: 0,Ano,Estado,População,Estimativa
2,2021,PR,16.9,2
3,2022,SP,46.6,3
4,2022,MG,21.4,4
5,2022,PR,17.3,5


#### Verificar dados de linha


In [63]:
df2.iloc[0]

Ano           2021
Estado          PR
População     16.9
Estimativa       2
Name: 2, dtype: object

In [64]:
df2.iloc[1:3]

Unnamed: 0,Ano,Estado,População,Estimativa
3,2022,SP,46.6,3
4,2022,MG,21.4,4


In [65]:
df2.iloc[1:3,[1,3]]

Unnamed: 0,Estado,Estimativa
3,SP,3
4,MG,4


# Quiz

2. Qual é o nome de uma das estruturas fundamentais da biblioteca Pandas, que representa uma tabela de dados retangular e contém uma coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente (booleano, string, numérico, entre outros)? 

- Correta DataFrame.
- Lista.
- Matriz.
- Series.
- NDArray.

**Comentário da resposta:** Você acertou! Essa é a alternativa correta. O DataFrame é a estrutura da biblioteca Pandas que representa uma tabela de dados retangular. 