# Numpy

É uma biblioteca para trabalhar com grandes matrizes e vetores multidimensionais. Também fornece funções para operar sobre essas estruturas.

In [2]:
import numpy as np

### Criar uma matriz unidimensional

In [2]:
mt = np.array([12, 34, 26, 18, 10])
print(mt)
print(type(mt))

[12 34 26 18 10]
<class 'numpy.ndarray'>


### Criar o vetor com um tipo específico

Nesse caso, um vetor float de 64 bits

In [4]:
mtfloat = np.array([1.5,2.3,3.7], dtype = np.float64)
print(mtfloat)
print(type(mtfloat))

[1.5 2.3 3.7]
<class 'numpy.ndarray'>


### Mudar o tipo do vetor

Podemos transformar o tipo do vetor. De float para int (valores truncados) e de int para float.

In [7]:
mtnew = mtfloat[::]
print(mtnew)

mtnewint = mtnew.astype(np.int32)
print(mtnewint)

mtnewfloat = mtnewint.astype(np.float64)
print(mtnewfloat)

[1.5 2.3 3.7]
[1 2 3]
[1. 2. 3.]


### Matriz Multidimensional

Podemos criar uma matriz multidimensional ao instanciar um array.

In [15]:
mt7 = np.array([[7,2,23], [12,27,4], [5,34,23]])
print(mt7)
print(mt7[0][1]) # mostra um elemento naquela posição
print(mt7.shape) # mostra as dimensões da matriz
print(mt7.max()) # mostra o maior valor da matriz
print(mt7.min()) # mostra o menor valor da matriz
print(mt7.sum()) # mostra a soma dos valores da matriz 
print(mt7.mean()) # mostra o valor da média dos valores da matriz
print(mt7.std()) # mostra o valor do desvio padrão

[[ 7  2 23]
 [12 27  4]
 [ 5 34 23]]
2
(3, 3)


Também podemos criar arrays vazios tipificados. Eles são inicializados, mas são vazios.
É possível fazer o mesmo para matrizes de valor zero, um e matrizes identidade.

In [8]:
vazio = np.empty([3,2], dtype = int) # crio uma matriz 3x2 vazia
print(vazio)

zeros = np.zeros([4,3]) # crio uma matriz 4x3 com zeros
print(zeros)

uns = np.ones([3,7]) # crio matriz 3 x 7 com uns
print(uns)

identidade = np.eye(5)
print(identidade)

[[136040524393824        33044336]
 [              0               0]
 [              0               0]]
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]]
[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


Podemos gerar *valores aleatórios* usando o método random.

In [10]:
# valores aleatórios entre zero e um
ale = np.random.random((5))
print(ale, '\n')

# valores aleatórios seguindo uma distribuição normal contendo negativos
ale2 = np.random.randn((5))
print(ale2, '\n')

# valores aleatórios 3x4
ale3 = (10*np.random.random((3,4))) # multiplico por 10 para ficar decimal
print(ale3, '\n')

[0.38436354 0.99248154 0.7571945  0.43891299 0.36404582] 

[-0.94784511 -0.67953922  0.00589095 -0.67081226  0.95577288] 

[[3.50083483 4.38653664 2.47598401 7.90023683]
 [2.64354657 4.93703601 3.3423945  9.38791084]
 [7.54480671 0.45157323 6.65620488 6.63659646]] 



In [13]:
# uso de semente
gnr = np.random.default_rng(1) # crio um objeto gerador de números aleatórios usando a semente 1
ale5 = gnr.random(3) # crio uma matriz unidimensional de 3 colunas que variam de 0 a 1
print(ale5, '\n')

# gerar inteiros
ale6 = gnr.integers(10, size=(3,4)) # é usado para criar uma matriz de numeros inteiros aleatorios 3x4, cujos valores variam de 0 a 9
print(ale6)

[0.51182162 0.9504637  0.14415961] 

[[8 9 2 3]
 [8 4 2 8]
 [2 4 6 5]]


Podemos *remover repetições* com o método unique.

In [14]:
j = np.array([11,12,13,14,11,15,17,12,12,13,14,22,23,11])
k = np.unique(j)
print(k)

[11 12 13 14 15 17 22 23]


In [17]:
k1 = k[::]
print(np.sqrt(k1), '\n') # mostro a raiz quadrada de todos os valores
print(np.exp(k1)) # mostro a exponencial de todos os valores
print(m[-3:]) # mostro o array a partir da antipenultima posição

[3.31662479 3.46410162 3.60555128 3.74165739 3.87298335 4.12310563
 4.69041576 4.79583152] 

[5.98741417e+04 1.62754791e+05 4.42413392e+05 1.20260428e+06
 3.26901737e+06 2.41549528e+07 3.58491285e+09 9.74480345e+09]


Podemos trabalhar com a *extração de linhas e colunas*. Vamos usar novamente mt7.

In [18]:
l1 = mt7[0, :] # primeira linha, todas as colunas

l2 = mt7[1, :] # segunda linha

l3 = mt7[2, :] # terceira linha 

c1 = mt7[:, 0] # primeira coluna

c2 = mt7[:, 1] # segunda coluna

c3 = mt7[:, 2] # terceira coluna

print(l1)
print(l2)
print(l3)
print(c1)
print(c2)
print(c3)

[ 7  2 23]
[12 27  4]
[ 5 34 23]
[ 7 12  5]
[ 2 27 34]
[23  4 23]


Podemos fazer *transposição de matrizes* também.

In [6]:
f = np.arange(15).reshape((3,5))
print(f)
s = f.T
print(s, '\n')

# ou então
l = f.transpose((1,0))
print(l)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]] 

[[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [7]:
# criando matriz com valores aleatórios positivos e negativos

v = np.random.randn(4, 4)
print(v)

# criando matriz com valores booleanos baseado no array v
x = (v > 0)
print(x)

# criando matriz com valores -1 e 1 baseado nos valores do array x
z = np.where(x > 0, 1, -1)
print(z)

[[-1.38047715 -0.04515062  0.37185451  1.60114397]
 [ 0.05827523 -0.10980784 -1.42101522  0.82226923]
 [-0.99568458 -0.00684999 -1.68186466 -0.75999716]
 [-1.87349735 -0.260155   -0.69905232  0.46700044]]
[[False False  True  True]
 [ True False False  True]
 [False False False False]
 [False False False  True]]
[[-1 -1  1  1]
 [ 1 -1 -1  1]
 [-1 -1 -1 -1]
 [-1 -1 -1  1]]


# Pandas

É uma biblioteca para manipular dados como tabelas e séries temporais.

In [10]:
import pandas as pd
from zipfile import ZipFile

In [17]:
# zip file serve para descompactar um arquivo .zip
zip_file = ZipFile('data/titanic.zip')

# carrego arquivo para um dataframe (array) pandas
data_train = pd.read_csv(zip_file.open('train.csv'))
data_test = pd.read_csv(zip_file.open('test.csv'))
data_gender = pd.read_csv(zip_file.open('gender_submission.csv'))

print(data_train.shape)
print(data_test.shape)
print(data_gender.shape)

(891, 12)
(418, 11)
(418, 2)


In [18]:
# resumo estatístico de colunas numéricas

data_train.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [21]:
# lista os 5 primeiros campos

data_train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [22]:
# listo as duas últimas linhas

data_train.tail(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [24]:
# filtrar dados por coluna

data_train[['Name']]

Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,"Heikkinen, Miss. Laina"
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,"Allen, Mr. William Henry"
...,...
886,"Montvila, Rev. Juozas"
887,"Graham, Miss. Margaret Edith"
888,"Johnston, Miss. Catherine Helen ""Carrie"""
889,"Behr, Mr. Karl Howell"


Quando uso o método loc() devo passar um rótulo de linha como parâmetro, com o retorno sendo um dataframe que segue aquele parâmetro passado.

In [25]:
# filtrar linhas por índice com intervalo

data_train.loc[1:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [27]:
# filtro linhas por índice especificamente

data_train.loc[[1,3]]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [36]:
# Com o método loc() posso fazer um filtro mais elaborado

of = data_train.loc[data_train['Sex'] == "female"]
of

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0000,,S
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [38]:
# Série de única coluna. Pode ser criada a partir de um array, lista ou coluna de outro dataframe

s1 = pd.Series([2,5,3,34,54,23,1,16])
s1

0     2
1     5
2     3
3    34
4    54
5    23
6     1
7    16
dtype: int64

In [41]:
# Podemos renomear colunas de maneira não persistida

data_test.rename(columns={'Sex':'Sexo','Age':'Idade'})

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


In [42]:
# Perceba que os campos voltaram pra nomeação original
data_test.head(1)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q


In [44]:
# Ao usar inplace=true nós mantemos qualquer alteração salva no objeto (dataframe) 
# original em vez do que seria retornado

data_test.rename(columns={'Sex':'Sexo', 'Age':'Idade'}, inplace=True)
data_test.head(1)

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q


In [46]:
# Posso excluir colunas usando o método drop

data_test.drop('Sexo', axis=1, inplace=False)

Unnamed: 0,PassengerId,Pclass,Name,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",,0,0,359309,8.0500,,S


In [47]:
data_test.head(1)

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q


In [49]:
# Verificar valores núlos

data_test.isnull()

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...
413,False,False,False,False,True,False,False,False,False,True,False
414,False,False,False,False,False,False,False,False,False,False,False
415,False,False,False,False,False,False,False,False,False,True,False
416,False,False,False,False,True,False,False,False,False,True,False


In [53]:
# Contar dados nulos

data_test.isnull().sum()

PassengerId      0
Pclass           0
Name             0
Sexo             0
Idade           86
SibSp            0
Parch            0
Ticket           0
Fare             1
Cabin          327
Embarked         0
dtype: int64

In [55]:
# Retirar linhas com NaN

data_test.dropna(inplace=False)

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade,SibSp,Parch,Ticket,Fare,Cabin,Embarked
12,904,1,"Snyder, Mrs. John Pillsbury (Nelle Stevenson)",female,23.0,1,0,21228,82.2667,B45,S
14,906,1,"Chaffee, Mrs. Herbert Fuller (Carrie Constance...",female,47.0,1,0,W.E.P. 5734,61.1750,E31,S
24,916,1,"Ryerson, Mrs. Arthur Larned (Emily Maria Borie)",female,48.0,1,3,PC 17608,262.3750,B57 B59 B63 B66,C
26,918,1,"Ostby, Miss. Helene Ragnhild",female,22.0,0,1,113509,61.9792,B36,C
28,920,1,"Brady, Mr. John Bertram",male,41.0,0,0,113054,30.5000,A21,S
...,...,...,...,...,...,...,...,...,...,...,...
404,1296,1,"Frauenthal, Mr. Isaac Gerald",male,43.0,1,0,17765,27.7208,D40,C
405,1297,2,"Nourney, Mr. Alfred (Baron von Drachstedt"")""",male,20.0,0,0,SC/PARIS 2166,13.8625,D38,C
407,1299,1,"Widener, Mr. George Dunton",male,50.0,1,1,113503,211.5000,C80,C
411,1303,1,"Minahan, Mrs. William Edward (Lillian E Thorpe)",female,37.0,1,0,19928,90.0000,C78,Q


In [57]:
data_test['Cabin'].fillna(0, inplace=False)

0         0
1         0
2         0
3         0
4         0
       ... 
413       0
414    C105
415       0
416       0
417       0
Name: Cabin, Length: 418, dtype: object

In [58]:
# Iloc é um método que permite fazer um recorte do dataframe através do parâmetro [<linhas>,<colunas>] e retorná-lo

data_test.iloc[0:3,0:5]

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade
0,892,3,"Kelly, Mr. James",male,34.5
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0
2,894,2,"Myles, Mr. Thomas Francis",male,62.0


In [59]:
# Seleção mais especifica

data_test.iloc[[0,1,2,3,7],0:5]

Unnamed: 0,PassengerId,Pclass,Name,Sexo,Idade
0,892,3,"Kelly, Mr. James",male,34.5
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0
2,894,2,"Myles, Mr. Thomas Francis",male,62.0
3,895,3,"Wirz, Mr. Albert",male,27.0
7,899,2,"Caldwell, Mr. Albert Francis",male,26.0


# Statistics

Uma biblioteca que permite trabalhar com métodos estatísticos em objetos como arrays, listas etc.

In [60]:
import statistics as est

In [61]:
z = [10,20,30,40]

# É a média
x = est.mean(z) 

# É a mediana (representa o valor que está no meio da série, 
# faço a média dos dois do meio se for par, e escolho o do meio se for ímpar)
y = est.median(z)

print(x, ' , ', y)

25  ,  25.0


# Funções Padrão de Estatística

Vamos utilizar funções padrão da linguagem que trabalham com operações básicas de Estatítica

In [63]:
# Módulo

abs(-200)

200

In [66]:
lst = [1,2,30,30,45]
print(max(lst),'\n',min(lst),'\n',sum(lst),'\n',round(2.3232432423, 2))

45 
 1 
 108 
 2.32


*Variância:* Medida da dispersão dos valores em um conjunto de dados em relação à média. É a média dos quadrados das diferenças entre os valores e a média divido por n.

*Desvio Padrão:* É também a medida da dispersão dos valores da série com relação a média. A diferença é que o Desvio Padrão está na mesma escala que os outros valores do conjunto. Ele é a raiz quadrada da variância.

In [67]:
est.stdev(lst)

19.346834366376324

In [68]:
est.variance(lst)

374.3