# Aula 5: Pandas e Numpy

Pandas e NumPy são duas bibliotecas muito importantes para se trabalhar com dados no python.

A biblioteca NumPy que é bastante utilizada na academia para programação numérica

Já o Pandas é utilizado predominantemente para Data Visualization e para Data Analysis

In [3]:
import numpy as np

#### Vetorização

NumPy é excelente para operações com vetores.

Operações do tipo:

- multiplicação matricial e outras operações de álgebra linear  
- vetores de número aleatório  
- aplicação de transformação (ex., seno, cosseno, log, ...)

Vamos tentar criar duas matrizes utilizando listas. Uma 3 x 3 e outra um vetor 1 x 3:

In [186]:
a = [[ 5, 1 ,3], [ 1, 1 ,1], [ 1, 2 ,1]]
b = [1, 2, 3]
print(a)
print(b)
print(a*b)

[[5, 1, 3], [1, 1, 1], [1, 2, 1]]
[1, 2, 3]


TypeError: can't multiply sequence by non-int of type 'list'

In [187]:
2*3

6

Como podemos observar não conseguimos multiplicar essas duas listas. Analisando o erro fica claro que não podemos multiplicar uma lista por uma outra lista.

#### NumPy Arrays

A coisa mais importante que o NumPy define é um **array** N-dimensional formalmente denominado de [numpy.ndarray](http://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html)

Podemos, então, recriar os vetores *a e b* como NumPy arrays e obter sua multiplicação da seguinte maneira:

In [191]:
a = np.array([[ 5, 1 ,3], [ 1, 1 ,1], [ 1, 2 ,1]])
b = np.array([1, 2, 3])
print(a*b)

[[5 2 9]
 [1 2 3]
 [1 4 3]]


Observe, porém, que a multiplicação foi realizada elemento por elemento.

Não obtivemos uma multiplicação matricial. Voltaremos a este problema mais tarde

NumPy arrays são parecidos com listas exceto que:

- As entradas devem ser *homogeneas* (elementos do mesmo tipo)  
- Esses tipos devem ser um dos tipos (`dtypes`) suportados pelo NumPy  


Os tipos mais importantes são:

- float64: 64 bit número em ponto flutuante  
- int64: 64 bit inteiro  
- bool:  8 bit True ou False  

Podemos obter o tipo de um objeto da seguinte maneira:

In [192]:
type(a), type(a[0][0])

(numpy.ndarray, numpy.int64)

In [190]:
a[0][0]

5

Para se obter a multiplicação matricial, devemod utilizar ".dot". Por exemplo:

In [6]:
print(a.dot(b))

[16  6  8]


Ainda assim nossa multiplicação não esta correta dado que estamos multiplicando uma matrix 3 x 3 por uma 1 x 3.

Redefinindo *b* da forma correta podemos obter a multiplicação matricial:

In [194]:
b = np.array([[1], [2], [3]])
print(b)
print("/n")
print(a.dot(b))

[[1]
 [2]
 [3]]
/n
[[16]
 [ 6]
 [ 8]]


Há uma outra maneira de se definir uma matriz. Essa envolve a utilização de [numpy.matrix](https://docs.scipy.org/doc/numpy/reference/generated/numpy.matrix.html)

Definindo-se dessa maneira as matrizes, podemos utilizar a operação produto (*), para multiplica-las:

In [195]:
a = np.matrix('[5, 1 ,3; 1, 1 ,1; 1, 2 ,1]')
b = np.matrix('[1; 2; 3]')
print(a)
a * b

[[5 1 3]
 [1 1 1]
 [1 2 1]]


matrix([[16],
        [ 6],
        [ 8]])

Podemos obter a transposta de diferentes maneiras:

In [10]:
a.transpose()

matrix([[5, 1, 1],
        [1, 1, 2],
        [3, 1, 1]])

In [11]:
a.T

matrix([[5, 1, 1],
        [1, 1, 2],
        [3, 1, 1]])

E a Inversa de uma matriz

In [12]:
a.getI()

matrix([[ 5.00000000e-01, -2.50000000e+00,  1.00000000e+00],
        [ 9.25185854e-18, -1.00000000e+00,  1.00000000e+00],
        [-5.00000000e-01,  4.50000000e+00, -2.00000000e+00]])

In [13]:
a.I

matrix([[ 5.00000000e-01, -2.50000000e+00,  1.00000000e+00],
        [ 9.25185854e-18, -1.00000000e+00,  1.00000000e+00],
        [-5.00000000e-01,  4.50000000e+00, -2.00000000e+00]])

No mais, NumPy arrays podem ser criados a partir de listas utilizando np.array

In [196]:
lista = [10, 20]
np.array(lista)

array([10, 20])

In [203]:
a

matrix([[1, 3, 5],
        [1, 1, 1],
        [1, 1, 2]])

In [202]:
a.mean()

1.7777777777777777

##### Métodos em um Array

In [210]:
a = np.array([5, 4, 3, 2, 1])
a

array([5, 4, 3, 2, 1])

In [206]:
a.sort()
a

array([1, 2, 3, 4])

In [207]:
a.sum()

10

In [208]:
a.mean()

2.5

In [211]:
np.median(a)

3.0

In [84]:
a.max()

4

### PANDAS

Pandas será, provavelmente, a biblioteca mais utilizada por nós daqui em diante. Realizaremos quase todas as operações com dados nela. Importar, maniputar, salvar, estimar, ...

In [5]:
import pandas as pd

In [12]:
pd.read_csv("ex_save_filmes.csv")

Unnamed: 0,nome,obs,rate
0,Dunkirk (2017) - IMDb,543.268,7.9
1,Piratas do Caribe: A Vinganca de Salazar (2017...,259.112,6.6
2,Soul Surfer: Coragem de Viver (2011) - IMDb,45.257,7.0
3,Top Gun: Ases Indomaveis (1986) - IMDb,291.570,6.9
4,A Lista de Schindler (1993) - IMDb,1.198.580,8.9
5,Dunkirk (2017) - IMDb,543.268,7.9
6,Piratas do Caribe: A Vinganca de Salazar (2017...,259.112,6.6
7,Soul Surfer: Coragem de Viver (2011) - IMDb,45.257,7.0
8,Top Gun: Ases Indomaveis (1986) - IMDb,291.570,6.9
9,A Lista de Schindler (1993) - IMDb,1.198.580,8.9


Podemos ler um arquivo em formato CSV, por exemplo, e transforma-lo em uma base (dataframe).

In [7]:
df1 = pd.read_csv("filmes.csv", header = None, names=['nome', 'obs', 'rate']) 

In [13]:
df1

Unnamed: 0,nome,obs,rate
0,Dunkirk (2017) - IMDb,543.268,7.9
1,Piratas do Caribe: A Vinganca de Salazar (2017...,259.112,6.6
2,Soul Surfer: Coragem de Viver (2011) - IMDb,45.257,7.0
3,Top Gun: Ases Indomaveis (1986) - IMDb,291.570,6.9
4,A Lista de Schindler (1993) - IMDb,1.198.580,8.9
5,Dunkirk (2017) - IMDb,543.268,7.9
6,Piratas do Caribe: A Vinganca de Salazar (2017...,259.112,6.6
7,Soul Surfer: Coragem de Viver (2011) - IMDb,45.257,7.0
8,Top Gun: Ases Indomaveis (1986) - IMDb,291.570,6.9
9,A Lista de Schindler (1993) - IMDb,1.198.580,8.9


Salvar uma base de dados em csv.

In [11]:
df1.to_csv('ex_save_filmes.csv', index=False)

O mesmo pode-se aplicar para o [pickle](). Podemos ler e salvar bases de dados em pickle

In [14]:
dfp = pd.read_pickle("dados.pkl")

In [15]:
dfp

['KFD0001',
 'KFD0002',
 'KFD0003',
 'KFD0004',
 'KFD0005',
 'KFD0006',
 'KFD0007',
 'KFD0008',
 'KFD0009',
 'KFD0010',
 'KFD0011',
 'KFD0012',
 'KFD0013',
 'KFD0014',
 'KFD0015',
 'KFD0016',
 'KFD0017',
 'KFD0018',
 'KFD0019',
 'KFD0020',
 'KFD0021',
 'KFD0022',
 'KFD0023',
 'KFD0024',
 'KFD0025',
 'KFD0026',
 'KFD0027',
 'KFD0028',
 'KFD0029',
 'KFD0030',
 'KFD0031',
 'KFD0032',
 'KFD0033',
 'KFD0034',
 'KFD0035',
 'KFD0036',
 'KFD0037',
 'KFD0038',
 'KFD0039',
 'KFD0040',
 'KFD0041',
 'KFD0042',
 'KFD0043',
 'KFD0044',
 'KFD0045',
 'KFD0046',
 'KFD0047',
 'KFD0048',
 'KFD0049',
 'KFD0050',
 'KFD0051',
 'KFD0052',
 'KFD0053',
 'KFD0054',
 'KFD0055',
 'KFD0056',
 'KFD0057',
 'KFD0058',
 'KFD0059',
 'KFD0060',
 'KFD0061',
 'KFD0062',
 'KFD0063',
 'KFD0064',
 'KFD0065',
 'KFD0066',
 'KFD0067',
 'KFD0068',
 'KFD0069',
 'KFD0070',
 'KFD0071',
 'KFD0072',
 'KFD0073',
 'KFD0074',
 'KFD0075',
 'KFD0076',
 'KFD0077',
 'KFD0078',
 'KFD0079',
 'KFD0080',
 'KFD0081',
 'KFD0082',
 'KFD0083',
 'KF

In [16]:
dfp = pd.DataFrame(dfp)

In [17]:
dfp

Unnamed: 0,0
0,KFD0001
1,KFD0002
2,KFD0003
3,KFD0004
4,KFD0005
...,...
3319663,PGZ9995
3319664,PGZ9996
3319665,PGZ9997
3319666,PGZ9998


In [1]:
import numpy as np

In [8]:
np.random.seed(567)

In [9]:
np.random.randn(10, 5)

array([[ 0.21326612, -0.09189941, -0.08934867,  0.26575572,  0.37606508],
       [ 0.6880254 ,  0.51000161,  1.91412049,  0.72477369,  0.12458787],
       [ 1.02339862,  2.22155722,  1.13090861, -0.65153792, -1.17998572],
       [ 0.43710148, -0.60710181,  1.31095368, -0.66690959, -0.38272924],
       [-1.03293277,  0.57399395, -1.18579928, -0.77424751, -1.19824265],
       [ 1.50057385, -0.75121542, -1.65168677,  0.91781965,  1.0166081 ],
       [-0.80994339,  0.89530748, -0.19849482, -0.07177955, -0.68935716],
       [ 0.09576015, -0.6762695 , -0.65038794,  0.78450845, -1.11962807],
       [ 0.48057002,  1.5662302 , -0.8464332 , -0.46807559, -0.06273988],
       [-0.74608775,  1.27634714, -0.8574931 , -1.04794698,  1.17552777]])

In [23]:
dfp.to_pickle("dados1.pkl")

Ou gerar uma base de dados com números aleatórios

In [31]:
df2 = pd.DataFrame(np.random.randn(10, 5))

In [35]:
seed = 37987384

In [28]:
df2

Unnamed: 0,0,1,2,3,4
0,-1.651627,0.439235,-1.29583,-1.40842,1.742969
1,1.337979,2.11573,-0.598289,-1.588779,0.586758
2,1.51686,-0.876056,-0.287875,-0.900494,0.509644
3,-0.766469,1.927199,-0.548617,-0.570509,-0.18103
4,1.23049,0.014691,-1.988748,0.528907,-0.194574
5,2.001604,-0.043797,-0.129556,-1.218252,0.452989
6,-0.728209,1.638407,1.361835,-1.148539,-0.259036
7,0.228667,0.393048,0.766833,-0.128999,-0.431908
8,-0.726983,-0.112497,1.110912,-1.01628,1.201225
9,-0.66958,1.843678,-0.135577,2.648826,0.808688


Array 10-por-5 de amostras de uma N(0, 1):

In [219]:
np.random.randn(10, 5)

array([[ 0.84295181, -0.96619706,  1.16497004, -0.92220646,  0.82853249],
       [-0.41312547, -1.08340072,  1.21650251, -1.48676318,  0.48600096],
       [ 0.57269407,  0.15900025, -0.1428501 ,  2.2589743 ,  2.31971776],
       [-0.56176225, -1.41845228, -0.04340897,  0.70246063, -0.28326958],
       [-0.05562229, -0.31360967, -0.48811437, -2.68338754,  1.73217544],
       [-0.03158561, -0.16209344, -0.41001849, -1.08217191,  2.24465082],
       [ 2.08824103, -0.69563586,  0.64432285, -1.80513222,  0.53939709],
       [ 0.09498621,  0.22614593,  1.52201799,  0.50595518,  0.80298507],
       [-0.97861146, -0.82759307,  0.46868302, -1.03713249,  1.57631076],
       [ 1.49444661,  0.34705101,  0.53928474, -0.61025996, -1.92329505]])

In [29]:
an = np.random.randn(10, 5)

In [30]:
pd.DataFrame(an)

Unnamed: 0,0,1,2,3,4
0,-0.415811,0.634043,-0.320084,-1.035141,-1.472318
1,-0.542063,-0.176143,-1.338999,1.164823,1.651221
2,0.204946,0.519608,-0.064065,-1.443523,-0.982411
3,-1.420311,0.99367,0.564678,0.244036,-1.161996
4,0.623735,-1.096172,-0.290833,-0.643554,-0.844381
5,1.050471,0.735425,0.435364,-0.240895,-1.215186
6,0.722506,1.076963,0.545667,-1.635789,-1.275542
7,-0.289325,-0.238281,0.952617,-0.144314,0.437175
8,0.897783,-0.674219,1.179446,1.552766,1.230427
9,0.984672,0.604761,-0.755868,-1.388132,0.026702


Array 10-por-5 de amostras de uma N(3, 6.25):

In [54]:
2.5 * np.random.randn(10, 5) + 3

array([[ 1.16136126,  1.5610962 ,  1.75928885,  3.33966496, -1.45634772],
       [-0.58605325,  6.45306227,  6.05554663,  2.17318412,  1.78031942],
       [ 3.15637957, -0.21794777, -5.50486352,  2.87625637,  1.50933237],
       [ 6.30665082,  8.83951451,  4.66675398,  3.3226557 ,  6.51439454],
       [-0.89216743,  5.08770786,  5.1808153 ,  3.92077871,  0.78901298],
       [ 6.01710123,  4.59706219, -0.34411691,  7.25530526, -0.31452625],
       [ 4.15758622,  4.2954792 ,  5.15074901,  9.75098855,  4.231685  ],
       [ 4.67886319,  2.66020067,  8.23684412,  4.41423504, -0.03136852],
       [ 2.46470453,  2.17928846,  4.83260918,  1.72097291,  7.08192576],
       [ 3.05218209,  3.05808709,  1.62407702,  4.89992492,  1.82366395]])

In [133]:
df_N3 = pd.DataFrame(2.5 * np.random.randn(1000000, 5) + 3)

In [134]:
df_N3

Unnamed: 0,0,1,2,3,4
0,4.183073,3.268869,1.304839,1.285205,-1.547286
1,0.135505,4.071374,2.016922,4.737354,5.446120
2,10.826263,1.088381,3.463748,3.529078,1.980847
3,-0.157899,3.281568,4.395266,0.293035,8.998278
4,6.430866,6.437216,6.442035,1.776596,-0.444714
...,...,...,...,...,...
999995,1.952721,4.564140,0.532341,2.745993,4.106680
999996,0.011718,2.807503,5.116582,4.832581,5.161998
999997,2.355286,4.586091,3.717003,6.072489,-0.712566
999998,4.174209,5.718669,3.374314,1.877224,1.465869


In [22]:
data = {
'País': ['Bélgica', 'Índia', 'Brasil'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília'],
'População': [123465, 456789, 987654]
}

In [23]:
df3 = pd.DataFrame(data, columns=['País','Capital','População'])

In [24]:
df3

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,Brasil,Brasília,987654


Podemos criar a mesma base através de uma lista de vários json's

In [225]:
data = [{"País":"Bélgica","Capital":"Bruxelas","População":123465},
        {"País":"Índia","Capital":"Nova Delhi","População":456789},
        {"País":"Brasil","Capital":"Brasília","População":987654}]

In [72]:
df4 = pd.DataFrame(data)

In [73]:
df4

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,Brasil,Brasília,987654


In [78]:
df4.drop([0,1])

Unnamed: 0,País,Capital,População
2,Brasil,Brasília,987654


É possível apagar linhas de um dataframe através do índice

In [80]:
df3 = df3.drop([0, 1])

In [82]:
df3.reset_index()

Unnamed: 0,index,País,Capital,População
0,2,Brasil,Brasília,987654


In [105]:
g = [('bird', 389.0),('bird', 24.0),('mammal', 80.5),('mammal', np.nan)]

In [106]:
g

[('bird', 389.0), ('bird', 24.0), ('mammal', 80.5), ('mammal', nan)]

In [107]:
df = pd.DataFrame(g,index=['falcon', 'parrot', 'lion', 'monkey'],columns=('class', 'max_speed'))

In [108]:
df

Unnamed: 0,class,max_speed
falcon,bird,389.0
parrot,bird,24.0
lion,mammal,80.5
monkey,mammal,


In [94]:
df.reset_index()

Unnamed: 0,index,class,max_speed
0,falcon,bird,389.0
1,parrot,bird,24.0
2,lion,mammal,80.5
3,monkey,mammal,75.0


In [111]:
df3

Unnamed: 0,País,Capital,População
0,Bélgica,Bruxelas,123465
1,Índia,Nova Delhi,456789
2,Brasil,Brasília,987654


In [113]:
df3['País']

0    Bélgica
1      Índia
2     Brasil
Name: País, dtype: object

Ou remover colunas utilizando o argumento axis=1

In [96]:
df3.drop(['País','População'], axis=1)

Unnamed: 0,Capital
0,Bruxelas
1,Nova Delhi
2,Brasília


Coletando informações básicas sobre o DataFrame: 

Quantidade de linhas e colunas do DataFrame

In [97]:
df3.shape

(3, 3)

Descrição do Index

In [103]:
df3.index 

RangeIndex(start=0, stop=3, step=1)

In [104]:
list(df3)

['País', 'Capital', 'População']

Colunas presentes no DataFrame

In [102]:
df3.columns

Index(['País', 'Capital', 'População'], dtype='object')

Contagem de dados não-nulos

In [110]:
df3.count()

País         3
Capital      3
População    3
dtype: int64

Criando uma nova coluna em um DataFrame

In [25]:
df3['Nova_Coluna'] = 0

In [26]:
df3

Unnamed: 0,País,Capital,População,Nova_Coluna
0,Bélgica,Bruxelas,123465,0
1,Índia,Nova Delhi,456789,0
2,Brasil,Brasília,987654,0


In [119]:
df3.columns

Index(['País', 'Capital', 'População', 'Nova_Coluna'], dtype='object')

Renomeando colunas de um DataFrame

Se seu DataFrame possui 3 colunas, passe 3 novos valores em uma lista

In [27]:
df3.columns = ['Coluna 1', 'Coluna 2', 'Coluna 3', 'Coluna 4']

In [28]:
df3

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
0,Bélgica,Bruxelas,123465,0
1,Índia,Nova Delhi,456789,0
2,Brasil,Brasília,987654,0


Resumo dos dados

Soma dos valores de um DataFrame

In [122]:
df3.sum()

Coluna 1            BélgicaÍndiaBrasil
Coluna 2    BruxelasNova DelhiBrasília
Coluna 3                       1567908
Coluna 4                             0
dtype: object

Menor valor de um DataFrame

In [123]:
df3.min()

Coluna 1      Brasil
Coluna 2    Brasília
Coluna 3      123465
Coluna 4           0
dtype: object

Maior valor

In [124]:
df3.max()

Coluna 1         Índia
Coluna 2    Nova Delhi
Coluna 3        987654
Coluna 4             0
dtype: object

In [125]:
df3['Coluna 2']

0      Bruxelas
1    Nova Delhi
2      Brasília
Name: Coluna 2, dtype: object

Index do menor valor

In [127]:
df3["Coluna 3"].idxmin()

0

Index do maior valor

In [128]:
df3["Coluna 3"].idxmax()

2

Resumo estatístico do DataFrame, com quartis, mediana, etc.

In [130]:
pedro = df3.describe()

In [131]:
pedro

Unnamed: 0,Coluna 3,Coluna 4
count,3.0,3.0
mean,522636.0,0.0
std,435841.172317,0.0
min,123465.0,0.0
25%,290127.0,0.0
50%,456789.0,0.0
75%,722221.5,0.0
max,987654.0,0.0


Vamos utilizar nossa base gerada a partir de uma Normal com média 3 e desvio 2.5

In [135]:
df_N3.describe()

Unnamed: 0,0,1,2,3,4
count,1000000.0,1000000.0,1000000.0,1000000.0,1000000.0
mean,2.997966,3.002471,3.002204,2.999436,2.99605
std,2.503636,2.497715,2.499649,2.50321,2.501911
min,-8.762739,-8.533824,-9.3161,-9.065561,-9.71636
25%,1.310177,1.315095,1.315435,1.307754,1.306588
50%,2.996494,3.004351,3.002708,2.998233,2.992438
75%,4.687541,4.687013,4.686931,4.685119,4.68509
max,17.225809,15.326498,14.373999,14.544314,16.78319


Média dos valores

In [136]:
df3.mean()

Coluna 3    522636.0
Coluna 4         0.0
dtype: float64

Mediana dos valores

In [137]:
df3.median()

Coluna 3    456789.0
Coluna 4         0.0
dtype: float64

#### Funções Lambda

A função lambda é uma função anonima

Ela pode receber qualquer número de argumentos, mas só pode ter uma expressão.


In [1]:
def teste(a):
    b = a*3
    return b

In [3]:
teste(4)

12

In [5]:
(lambda a : a + 10)(10)

20

In [108]:
x = lambda a : a + 10
x(10)

20

In [7]:
d = lambda x:  x[0] - 2 * x[1] + 2
d([1,2])

-1

In [8]:
x = lambda a, b : a * b
x(5, 6)

30

In [10]:
def myfunc(n):
  return lambda a : a * n

In [12]:
mydoubler = myfunc(2)

In [13]:
mydoubler

<function __main__.myfunc.<locals>.<lambda>(a)>

In [14]:
mydoubler(11)

22

In [15]:
mytripler = myfunc(3)

In [16]:
mytripler(11)

33

In [17]:
myquad = myfunc(4)

In [18]:
myquad(4)

16

In [29]:
df3

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
0,Bélgica,Bruxelas,123465,0
1,Índia,Nova Delhi,456789,0
2,Brasil,Brasília,987654,0


Aplicando funções:

Aplicando uma função que substitui 0 por 1

In [32]:
df3.apply(lambda x: x.replace(0, 1))

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
0,Bélgica,Bruxelas,123465,1
1,Índia,Nova Delhi,456789,1
2,Brasil,Brasília,987654,1


Ordenando valores:

Ordenando em ordem crescente

In [33]:
df3.sort_values(by='Coluna 3')

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
0,Bélgica,Bruxelas,123465,0
1,Índia,Nova Delhi,456789,0
2,Brasil,Brasília,987654,0


Ordenando em ordem decrescente

In [34]:
df3.sort_values(by='Coluna 3',ascending=False)

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
2,Brasil,Brasília,987654,0
1,Índia,Nova Delhi,456789,0
0,Bélgica,Bruxelas,123465,0


Selecionando valores: 

Selecionando a primeira linha da coluna país

loc: seleciona linhas (ou colunas) com labels particulares do index.

iloc: seleciona linhas (ou colunas) em posições particulares do index (assume número inteiro).

In [35]:
df3

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4
0,Bélgica,Bruxelas,123465,0
1,Índia,Nova Delhi,456789,0
2,Brasil,Brasília,987654,0


In [37]:
df3['NC'] = 10

In [38]:
df3

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4,NC
0,Bélgica,Bruxelas,123465,0,10
1,Índia,Nova Delhi,456789,0,10
2,Brasil,Brasília,987654,0,10


In [40]:
df3[df3["Coluna 1"] == 'Brasil']

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4,NC
2,Brasil,Brasília,987654,0,10


In [41]:
df3[df3["Coluna 1"] == 'Bélgica']

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4,NC
0,Bélgica,Bruxelas,123465,0,10


In [42]:
df3

Unnamed: 0,Coluna 1,Coluna 2,Coluna 3,Coluna 4,NC
0,Bélgica,Bruxelas,123465,0,10
1,Índia,Nova Delhi,456789,0,10
2,Brasil,Brasília,987654,0,10


In [43]:
df3.loc[0, 'Coluna 1']

'Bélgica'

In [48]:
df3.iloc[0]['Coluna 1']

'Bélgica'

Suponha, agora, que queremos importar a base de dados AUTO em ".dta".

In [49]:
df4 = pd.read_stata("auto.dta")

In [54]:
df4.head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic


In [63]:
df4["price"].max()

15906

In [76]:
df4[df4["price"] == 15906]

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
12,Cad. Seville,15906,21,3.0,3.0,13,4290,204,45,350,2.24,Domestic


In [69]:
len(df4)

74

In [74]:
for i in range(len(df4)):
    preco = df4.iloc[i]['price']
    if preco == 15906:
        print(df4.iloc[i])
    else:
        continue

make            Cad. Seville
price                  15906
mpg                       21
rep78                      3
headroom                   3
trunk                     13
weight                  4290
length                   204
turn                      45
displacement             350
gear_ratio              2.24
foreign             Domestic
Name: 12, dtype: object


In [82]:
df4.sort_values(by='price',ascending=False).tail(10)

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
19,Dodge Colt,3984,30,5.0,2.0,8,2120,163,35,98,3.54,Domestic
18,Chev. Nova,3955,19,3.0,3.5,13,3430,197,43,250,2.56,Domestic
64,Renault Le Car,3895,26,3.0,3.0,10,1830,142,34,79,3.72,Foreign
28,Merc. Bobcat,3829,22,4.0,3.0,9,2580,169,39,140,2.73,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
65,Subaru,3798,35,5.0,2.5,11,2050,164,36,97,3.81,Foreign
67,Toyota Corolla,3748,31,5.0,3.0,9,2200,165,35,97,3.21,Foreign
17,Chev. Monza,3667,24,2.0,2.0,7,2750,179,40,151,2.73,Domestic
13,Chev. Chevette,3299,29,3.0,2.5,9,2110,163,34,231,2.93,Domestic
33,Merc. Zephyr,3291,20,3.0,3.5,17,2830,195,43,140,3.08,Domestic


In [56]:
print('Soma: ',         df4["price"].sum())
print('Valor máximo: ', df4["price"].max())
print('Valor mínimo: ', df4["price"].min())
print('Média',          df4["price"].mean())

Soma:  456229
Valor máximo:  15906
Valor mínimo:  3291
Média 6165.256756756757


Um outro comando bastante útil é o "value_counts". Com ele podemos contar a frequência de cada valor em um columa não numérica.

In [57]:
df4["foreign"].value_counts()

Domestic    52
Foreign     22
Name: foreign, dtype: int64

Pode-se, então, criar uma sub-base de dados baseada em valores específicos de uma coluna. Por exemplo, imagine que queremos apenas as informações dos carros importados.

In [58]:
df4[df4["foreign"] == 'Foreign']

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
52,Audi 5000,9690,17,5.0,3.0,15,2830,189,37,131,3.2,Foreign
53,Audi Fox,6295,23,3.0,2.5,11,2070,174,36,97,3.7,Foreign
54,BMW 320i,9735,25,4.0,2.5,12,2650,177,34,121,3.64,Foreign
55,Datsun 200,6229,23,4.0,1.5,6,2370,170,35,119,3.89,Foreign
56,Datsun 210,4589,35,5.0,2.0,8,2020,165,32,85,3.7,Foreign
57,Datsun 510,5079,24,4.0,2.5,8,2280,170,34,119,3.54,Foreign
58,Datsun 810,8129,21,4.0,2.5,8,2750,184,38,146,3.55,Foreign
59,Fiat Strada,4296,21,3.0,2.5,16,2130,161,36,105,3.37,Foreign
60,Honda Accord,5799,25,5.0,3.0,10,2240,172,36,107,3.05,Foreign
61,Honda Civic,4499,28,4.0,2.5,5,1760,149,34,91,3.3,Foreign


In [59]:
df4_impot = df4[df4["foreign"] == 'Foreign'] # Dados carros importados
df4_nacio = df4[df4["foreign"] == 'Domestic']

In [60]:
df4_impot.head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
52,Audi 5000,9690,17,5.0,3.0,15,2830,189,37,131,3.2,Foreign
53,Audi Fox,6295,23,3.0,2.5,11,2070,174,36,97,3.7,Foreign
54,BMW 320i,9735,25,4.0,2.5,12,2650,177,34,121,3.64,Foreign
55,Datsun 200,6229,23,4.0,1.5,6,2370,170,35,119,3.89,Foreign
56,Datsun 210,4589,35,5.0,2.0,8,2020,165,32,85,3.7,Foreign


In [61]:
df4_nacio.head()

Unnamed: 0,make,price,mpg,rep78,headroom,trunk,weight,length,turn,displacement,gear_ratio,foreign
0,AMC Concord,4099,22,3.0,2.5,11,2930,186,40,121,3.58,Domestic
1,AMC Pacer,4749,17,3.0,3.0,11,3350,173,40,258,2.53,Domestic
2,AMC Spirit,3799,22,,3.0,12,2640,168,35,121,3.08,Domestic
3,Buick Century,4816,20,3.0,4.5,16,3250,196,40,196,2.93,Domestic
4,Buick Electra,7827,15,4.0,4.0,20,4080,222,43,350,2.41,Domestic


Vamos observar o preço médio do carro importado.

In [62]:
print('Média Impot.: ',df4_impot["price"].mean())
print('Média Nacio.: ',df4_nacio["price"].mean())

Média Impot.:  6384.681818181818
Média Nacio.:  6072.423076923077


In [83]:
df_filmes = pd.DataFrame(columns=('name', 'obs', 'rate'))

In [84]:
df_filmes

Unnamed: 0,name,obs,rate


In [86]:
len(df_filmes)

0

In [88]:
df_filmes.loc[0] = ['Teste', '50', '4']

In [89]:
df_filmes

Unnamed: 0,name,obs,rate
0,Teste,50,4


In [90]:
len(df_filmes)

1

In [95]:
df_filmes.loc[len(df_filmes)] = ['Teste', '50', '4']

In [100]:
df_filmes

NameError: name 'df_filmes' is not defined

In [97]:
len(df_filmes)

5

Deletar base de dados da memória

In [99]:
del(df_filmes)

In [9]:
df_filmes = pd.DataFrame(columns=('name', 'obs', 'rate'))

In [3]:
import requests
from bs4 import BeautifulSoup
import unicodedata
url = ['http://www.imdb.com/title/tt5013056/', 
       'http://www.imdb.com/title/tt1790809/',
       'http://www.imdb.com/title/tt1596346/',
       'http://www.imdb.com/title/tt0092099/',
       'http://www.imdb.com/title/tt0108052/']

In [4]:
def strip_accents(s):
    return ''.join(c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn')

In [10]:
for item in url:
    response = requests.get(item)
    soup = BeautifulSoup(response.text, 'lxml')
    name = strip_accents(soup.title.text)
    obs = soup.find_all("div", "AggregateRatingButton__TotalRatingAmount-sc-1ll29m0-3")[0].text
    rate = soup.find_all("span", "AggregateRatingButton__RatingScore-sc-1ll29m0-1")[0].text
    df_filmes.loc[len(df_filmes)] = [name, obs, rate]

In [11]:
df_filmes

Unnamed: 0,name,obs,rate
0,Dunkirk (2017) - IMDb,599K,7.8
1,Piratas do Caribe: A Vinganca de Salazar (2017...,282K,6.5
2,Soul Surfer: Coragem de Viver (2011) - IMDb,48K,7.0
3,Top Gun: Ases Indomaveis (1986) - IMDb,312K,6.9
4,A Lista de Schindler (1993) - IMDb,1.3M,8.9


Podemos observar o tipo de variável. No caso de rate, ela é um object. Ou seja, não numérica.

In [12]:
df_filmes["rate"]

0    7.8
1    6.5
2    7.0
3    6.9
4    8.9
Name: rate, dtype: object

Neste caso, não conseguimos obter estatísticas

In [13]:
df_filmes["rate"].sum()

'7.86.57.06.98.9'

Mas podemos converter: 

In [109]:
df_filmes["rate"] = pd.to_numeric(df_filmes["rate"])

In [110]:
df_filmes["rate"]

0    7.9
1    6.5
2    7.0
3    6.9
4    8.9
Name: rate, dtype: float64

In [111]:
df_filmes["rate"].sum()

37.199999999999996

In [112]:
df_filmes.dtypes

name     object
obs      object
rate    float64
dtype: object

In [113]:
print(df_filmes["rate"].sum())
print(df_filmes["rate"].max())
print(df_filmes["rate"].min())
print(df_filmes["rate"].mean())

37.199999999999996
8.9
6.5
7.4399999999999995


Uma outra operação importante é obter dummies. Iremos criar uma outra base com a dummies e depois juntar a base original

In [114]:
df_dum = pd.get_dummies(df_filmes['name'])

In [115]:
df_dum

Unnamed: 0,A Lista de Schindler (1993) - IMDb,Dunkirk (2017) - IMDb,Piratas do Caribe: A Vinganca de Salazar (2017) - IMDb,Soul Surfer: Coragem de Viver (2011) - IMDb,Top Gun: Ases Indomaveis (1986) - IMDb
0,0,1,0,0,0
1,0,0,1,0,0
2,0,0,0,1,0
3,0,0,0,0,1
4,1,0,0,0,0


Podemos usar o comando ``pd.concat``para concatenar as duas bases

In [116]:
df_filmes = pd.concat([df_filmes, df_dum], axis=1)

In [117]:
df_filmes

Unnamed: 0,name,obs,rate,A Lista de Schindler (1993) - IMDb,Dunkirk (2017) - IMDb,Piratas do Caribe: A Vinganca de Salazar (2017) - IMDb,Soul Surfer: Coragem de Viver (2011) - IMDb,Top Gun: Ases Indomaveis (1986) - IMDb
0,Dunkirk (2017) - IMDb,545.102,7.9,0,1,0,0,0
1,Piratas do Caribe: A Vinganca de Salazar (2017...,259.809,6.5,0,0,1,0,0
2,Soul Surfer: Coragem de Viver (2011) - IMDb,45.333,7.0,0,0,0,1,0
3,Top Gun: Ases Indomaveis (1986) - IMDb,292.146,6.9,0,0,0,0,1
4,A Lista de Schindler (1993) - IMDb,1.200.891,8.9,1,0,0,0,0


In [120]:
df_filmes.to_latex()

'\\begin{tabular}{lllrrrrrr}\n\\toprule\n{} &                                               name &        obs &  rate &  A Lista de Schindler (1993) - IMDb &  Dunkirk (2017) - IMDb &  Piratas do Caribe: A Vinganca de Salazar (2017) - IMDb &  Soul Surfer: Coragem de Viver (2011) - IMDb &  Top Gun: Ases Indomaveis (1986) - IMDb \\\\\n\\midrule\n0 &                              Dunkirk (2017) - IMDb &    545.102 &   7.9 &                                   0 &                      1 &                                                  0 &                                            0 &                                       0 \\\\\n1 &  Piratas do Caribe: A Vinganca de Salazar (2017... &    259.809 &   6.5 &                                   0 &                      0 &                                                  1 &                                            0 &                                       0 \\\\\n2 &        Soul Surfer: Coragem de Viver (2011) - IMDb &     45.333 &   7.0 &    

In [1]:
import pandas as pd
import pickle

In [3]:
df = pd.read_pickle('dados.pkl')