In [2]:
import numpy as np
import pandas as pd


# Aula 02 &mdash; Introdução a Pandas

Renato Vimieiro
rv2 {em} cin.ufpe.br

março 2017

# Resumo da aula

- O objetivo dessa aula é aprender os conceitos básicos da biblioteca Pandas
- Começaremos por uma revisão dos conceitos básicos de Python
- Depois passaremos para uma breve introdução sobre NumPy
- Finalmente continuaremos com Pandas

# Por quê Python?

- Python é uma linguagem de programação amplamente usada para Data Science
- De acordo com o blog KDNuggets, Python assumiu recentemente o posto de linguagem mais usada em Data Science, passando R


# Por quê Python?

- Entre as vantagens de Python, podemos citar:
    - Facilidade de aprendizado
    - Livre
    - Grande número de bibliotecas disponíveis
    - Integração com outras linguagens
- A grande desvantagem é seu desempenho computacional por ser interpretada (não sempre)

# Python em 10 minuto

In [3]:
# Imprimir mensagens
print("Hello World!")

# Variaveis sao dinamicamente tipadas
nome = "João"
idade = 45
peso = 85.3

print(nome, idade, peso)


Hello World!
João 45 85.3


In [4]:
# Listas reunem diversos valores
dados = [nome, idade, peso]
print(dados)

# Python ainda possui tuplas ordenadas
ponto = (1,3,-1)
print(ponto)

# E dicionarios que mapeiam uma chave a um valor
dic = {'nome':nome, 'idade':idade, 'peso':peso, 'end': 'Av. Jornalista Anibal Fernandes, Centro de Informática'}
print(dic['nome'])

['João', 45, 85.3]
(1, 3, -1)
João


In [5]:
# Testes condicionais sao feitos da seguinte forma
if idade > 65:
    # Python usa indentacao para definir o nivel das instrucoes
    # logo, tome cuidado para alinhar as instrucoes pertencentes ao mesmo nivel
    print(nome, "é um candidato a se aposentar")
       print("Erro")
else:
    print(nome, "tem de trabalhar mais um pouco")

IndentationError: unexpected indent (<ipython-input-5-8fc6772e7a98>, line 6)

In [6]:
# Repeticoes podem ser feitas de duas formas
# 1 - usando lacos while
vezes = 1
while vezes <= 5:
    print("Já passei por aqui {0} vez(es)".format(vezes))
    vezes += 1
    

Já passei por aqui 1 vez(es)
Já passei por aqui 2 vez(es)
Já passei por aqui 3 vez(es)
Já passei por aqui 4 vez(es)
Já passei por aqui 5 vez(es)


In [7]:
# 2 - enumerando os elementos de uma lista (objeto iteravel)
for vezes in [1, 2, 3, 4, 5]:
    print("Já passei por aqui {0} vez(es)".format(vezes))
print("====")
# Ou ainda
for vezes in range(1,6,1):
    print("Já passei por aqui {0} vez(es)".format(vezes))

Já passei por aqui 1 vez(es)
Já passei por aqui 2 vez(es)
Já passei por aqui 3 vez(es)
Já passei por aqui 4 vez(es)
Já passei por aqui 5 vez(es)
====
Já passei por aqui 1 vez(es)
Já passei por aqui 2 vez(es)
Já passei por aqui 3 vez(es)
Já passei por aqui 4 vez(es)
Já passei por aqui 5 vez(es)


In [8]:
# Python possui um recurso bastante util para gerar listas de elementos
# Pode-se definir uma lista quase que da mesma forma com que se define um conjunto em matematica
# esse recurso e chamado de list comprehension

quadrados = [a**2 for a in range(1,6)]
paresQuadrado = [a**2 for a in range(1,6) if a%2==0]

print(quadrados)
print(paresQuadrado)

# Pode-se fazer coisa mais complexas como
primPotencias = [[base**expo for expo in range(4)] for base in range(4)]
print(primPotencias)

[1, 4, 9, 16, 25]
[4, 16]
[[1, 0, 0, 0], [1, 1, 1, 1], [1, 2, 4, 8], [1, 3, 9, 27]]


In [9]:
# funcoes em Python sao definidas da seguinte forma
def quadrado(x):
    return x**2

print(quadrado(3))

# funcoes mais simples podem ser definidas como funcoes lambda
f = lambda x: x**2
print(f(3))

9
9


In [10]:
# Algumas funcoes uteis em Python
# map = aplica uma funcao a cada um dos elementos de uma lista e retorna o resultado como um iteravel
a = map(f, range(6))
print(a, list(a))

# zip = combina elementos de varios iteraveis em tuplas
a = zip(range(6),map(f, range(6)))
print(a,list(a))

# filter = retorna os elementos de um iteravel para os quais o resultado de uma funcao e verdadeiro
a = filter(lambda x: x%2==0, range(10))
print(a,list(a))

<map object at 0x10c969940> [0, 1, 4, 9, 16, 25]
<zip object at 0x10c961bc8> [(0, 0), (1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]
<filter object at 0x10c969978> [0, 2, 4, 6, 8]


# Breve introdução a NumPy

- NumPy é uma biblioteca de Python que oferece, entre outras coisas, estruturas de dados multi-dimensionais eficientes
- A estrutura básica de NumPy é `ndarray`
- Objetos `ndarray` oferecem suporte a vários tipos numéricos (inteiros e ponto flutuante de 8, 16, 32 e 64 bits), além de strings e outros objetos em Python
- Facilita a integração com C/C++ e Fortran 

In [11]:
# Pode-se criar um vetor numpy usando outros iteraveis
# Unidimensional
arr1 = np.array([1,2,3,4,5])
print(type(arr1),arr1)

# Bidimensional
arr2 = np.array([range(6),range(6,12)])
print(arr2)

# Os tamanhos das dimensoes podem ser obtidos com o metodo shape
print(arr1.shape, arr2.shape)

# Pode-se alterar a forma de um vetor mesmo apos sua criacao
arr2.shape = (3,4)
print(arr2)

<class 'numpy.ndarray'> [1 2 3 4 5]
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
(5,) (2, 6)
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [12]:
# NumPy permite operacoes vetorizadas
arr1 = np.arange(50,step=5,dtype=np.float).reshape((2,5))
print(arr1)
arr2 = np.linspace(.1,1,num=10,dtype=np.float).reshape((2,5))
print(arr2,"\n====")
print(arr1 - arr2,"\n====")
print(arr2*arr1,"\n====")
print(np.dot(arr2,arr1.T))


[[  0.   5.  10.  15.  20.]
 [ 25.  30.  35.  40.  45.]]
[[ 0.1  0.2  0.3  0.4  0.5]
 [ 0.6  0.7  0.8  0.9  1. ]] 
====
[[ -0.1   4.8   9.7  14.6  19.5]
 [ 24.4  29.3  34.2  39.1  44. ]] 
====
[[  0.   1.   3.   6.  10.]
 [ 15.  21.  28.  36.  45.]] 
====
[[  20.    57.5]
 [  45.   145. ]]


In [13]:
# Para acessar um elemento, basta informar seu indice em cada eixo
# linha 1 coluna 4
print(arr1[1,4])

# Podemos tambem selecionar uma porcao dos elementos (slicing)
aslice = arr1[:,2:4]
print(aslice)

# O resultado de um slice (basico) e' uma visao do vetor original
# Os valores podem ser modificados atraves dessa visao
aslice[:,:] = 0
print(arr1)

45.0
[[ 10.  15.]
 [ 35.  40.]]
[[  0.   5.   0.   0.  20.]
 [ 25.  30.   0.   0.  45.]]


In [14]:
# NumPy oferece ainda mecanismos para selecao avancada de porcoes
# Usando uma lista de indices
print(arr1[:,[0,2,4]])

# Ou mascaras booleanas
print(arr1[arr1>10])

[[  0.   0.  20.]
 [ 25.   0.  45.]]
[ 20.  25.  30.  45.]


# Pandas

- Pandas é uma biblioteca que introduz o conceito de *Data Frame* a Python
- Data frames são como planilhas do Excel, ou tabelas em BDs, matrizes ...
- A representação básica é que os dados possuem rótulos tanto para as colunas, quanto para as linhas
- Pandas oferece várias funções para manipulação dos dados
- Ela é baseada em NumPy

# Leitura/carregamento de dados

- Usaremos os dados sobre avaliações de filmes no site [MovieLens](https://movielens.org/)
- Diversos dados sobre os usuários, filmes e avaliações foram disponibilizados pelo [GroupLens](https://grouplens.org/)
- Os dados estão disponíveis online em arquivos separdos por barras (ver descrição em [README](http://files.grouplens.org/datasets/movielens/ml-100k/README))


# Leitura/carregamento de dados

- Pandas possui funcoes para leitura de dados em diversos formatos
- Vamos comecar com o formato mais simples: csv
- Vamos obter os dados sobre os usuários, filmes e avaliações



# Leitura dos dados dos usuários

- A descrição dos dados revela que o arquivo de usuários contém informações demográficas dos usuários
- O arquivo é separado por barras e possui as seguintes colunas: user id | age | gender | occupation | zip code
- O arquivo não possui cabeçalho, logo, precisamos informar os rótulos das colunas

In [15]:
usuarios = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.user",
    sep='|',header=None, names=["user_id", "age", "gender", "occupation", "zip_code"])
print(usuarios.shape)
usuarios.head()

(943, 5)


Unnamed: 0,user_id,age,gender,occupation,zip_code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


# Leitura dos dados dos filmes

- O arquivo dos filmes possui as colunas: movie id | movie title | release date | video release date |IMDb URL | unknown | Action | Adventure ...

- As últimas 19 colunas são referentes ao gênero do filme
- Como um filme pode ser classificado com mais de um gênero, a coluna possui 1/0 se o filme pertence ou não ao gênero

In [16]:
filmes = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.item",
    sep='|',header=None, names=["movie_id", "movie_title",  "release_date", "video_release_date", "IMDb_URL", "unknown", "Action", "Adventure", "Animation", 
        "Children", "Comedy", "Crime", "Documentary", "Drama", "Fantasy","FilmNoir", "Horror", "Musical", "Mystery", "Romance", "SciFi","Thriller", "War", "Western"])
print(filmes.shape)
filmes.head()

(1682, 24)


Unnamed: 0,movie_id,movie_title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children,...,Fantasy,FilmNoir,Horror,Musical,Mystery,Romance,SciFi,Thriller,War,Western
0,1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,...,0,0,0,0,0,0,0,0,0,0
1,2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,...,0,0,0,0,0,0,0,1,0,0
2,3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


# Leitura/carregamento dos dados das avaliações

- O arquivo com as avaliações possui as seguintes colunas: user id | movie id | rating | timestamp
- As duas primeiras colunas coincidem com os identificadores nas tabelas de usuário e filme
- O horário na última coluna é representado como segundos passados desde 01/01/1970 0:00 UTC



In [17]:
avaliacoes = pd.read_csv(
    "http://files.grouplens.org/datasets/movielens/ml-100k/u.data",
    sep='\t',header=None, names=["user_id", "movie_id", "rating", "timestamp"])
print(avaliacoes.shape)
avaliacoes.head()

(100000, 4)


Unnamed: 0,user_id,movie_id,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


# Obtendo descrições e tipos dos dados

- Após o carregamento dos dados, é importante verificar se ele foi feito corretamente
- Devemos verificar se os tipos de dados foram assinalados corretamente
- Também podemos obter uma descrição sucinta dos dados para uma primeira impressão

In [20]:
print(usuarios.describe(),"\n")
print(usuarios.dtypes)

          user_id         age
count  943.000000  943.000000
mean   472.000000   34.051962
std    272.364951   12.192740
min      1.000000    7.000000
25%    236.500000   25.000000
50%    472.000000   31.000000
75%    707.500000   43.000000
max    943.000000   73.000000 

user_id        int64
age            int64
gender        object
occupation    object
zip_code      object
dtype: object


In [23]:
print(filmes.dtypes)

movie_id                int64
movie_title            object
release_date           object
video_release_date    float64
IMDb_URL               object
unknown                 int64
Action                  int64
Adventure               int64
Animation               int64
Children                int64
Comedy                  int64
Crime                   int64
Documentary             int64
Drama                   int64
Fantasy                 int64
FilmNoir                int64
Horror                  int64
Musical                 int64
Mystery                 int64
Romance                 int64
SciFi                   int64
Thriller                int64
War                     int64
Western                 int64
dtype: object
