#Bases de Dados (parte 1)

```
(*) Adaptado de material preparado pela Profa. Cristiane Sato
```

## Bibliotecas de Software

A linguagem _Python_, como outras linguagens ou ambientes de programação, possuem diversas bibliotecas de software.

Bibliotecas (de funções) são repositórios onde são armazenados comandos, operações ou instruções, que alguém criou e podemos utilizar sem ter que programar novamente. 

Da mesma forma que muitas vezes recorremos às nossas bibliotecas (de livros) para consultar ou relembrar coisas, podemos usar as bibliotecas de software como as do Python. 

Quando vamos buscar um livro na biblioteca precisamos saber o seu título para encontrá-lo. Em Python, também precisamos saber o nome da biblioteca que queremos usar.

Um sinônimo para biblioteca de software é o termo "pacote".

Vamos então, conhecer a biblioteca ou pacote _Pandas_.

## Biblioteca Pandas

_Pandas_ é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas.

Por exemplo, se precisamos usar um arquivo que temos gravado para mostrar os dados ou ordenar os dados, a biblioteca _Pandas_ possui instruções "prontas" para isso. Nós precisamos então, aprender como usá-las.


## Importanto a biblioteca pandas

O primeiro passo para utilizar uma biblioteca (pacote) é importar.
Imagine que esses pacotes são "externos" ao Python e precisamos importar, ou seja, trazê-los para dentro.

O comando _import_ do Python permite importar bibliotecas (pacotes).

A instrução a seguir importa o pacote pandas.

In [None]:
import pandas as pd

```pd``` é o "apelido" que demos para o pandas. Podíamos escolher outro apelido!

Para acessar qualquer instrução da bibloteca que importamos teremos que usar o seu nome. Isso porque, podemos ter mais de uma biblioteca carregada.

Assim, um apelido (mais curto) ajuda na manipulação, ou seja, daqui pra frente ao invés de usar o termo  _pandas_ para acessar as instruções desta biblioteca usaremos apenas ```pd```.

 

## Carregando um arquivo CSV



Considere que precisamos processar os dados presentes no arquivo `filmes.csv`, ou seja, visualizar, fazer consultas, cálculos, etc.

Clicando no link abaixo você pode ter uma visão dos dados do arquivo `filmes.csv`. Note que o caracter ";" separa os dados de cada colujna.

https://drive.google.com/file/d/1nBYJkh4MTzgB0-zR-HXUGYGiEkc4dK6u/view?usp=sharing


Para processarmos dados em um computador, precisamos trazer (carregar) esses dados para a **memória** do computador. 

Estes dados geralmente estão gravados em algum lugar (disco, pen-drive, ou na nuvem). Por exemplo, o arquivo acima (`filmes.csv`) está armazenado na nuvem, em uma pasta do google drive.


O primeiro passo para manipular os dados de um arquivo de dados é "abrir" este arquivo. Por exemplo, carregamos um documento, num editor de texto, usando a opção "abrir arquivo". 

O processo de "abrir um arquivo" é também conhecido como "ler um arquivo", ou seja, ordenamos ao computador "leia os dados que estão gravados". Neste caso, "ler um arquivo" é o similar a "carregar os dados para a memória do computador.


_Pandas_ possui uma função para ler  (abrir um arquivo) que está gravado em algum lugar, seja no seu computador ou em algum lugar da "nuvem". A instrução **`read_csv`** abre e lê (carrega para a memória) um arquivo do tipo `CSV`. 


A instrução a seguir abre o arquivo filmes.csv

`pd.read_csv("filmes.csv")`

Note que usamos _pd_ antes de _read.csv_. Isto é necessário pois _read_csv é uma instrução (função) que faz parte da biblioteca _pandas_ que carregamos.

Entre parênteses informamos o **nome do arquivo** que queremos abrir. 

Caso o arquivo utilize um separador (dos atributos) que seja diferente de vírgula, precisamos adicionar o parâmetro `sep`, conforme instrução a seguir:

`pd.read_csv("filmes.csv", sep = ";")`

Não vamos tentar executar a instrução acima, pois estamos usando este `notebook ` na "nuvem" (na internet). Ou seja, não temos o arquivo `filmes.csv` localmente, mas podemos acessá-lo diretamente na nuvem.

Note que na instrução da próxima célula, informamos o _link_ do arquivo que está gravado em uma pasta do "google drive". 

Mais adiante explicaremos melhor como obter esse _link_ do arquivo. 

Note que além do _link_ do arquivo a ser aberto, usamos também o parâmetro `sep = ";"`. Isto foi necessário porque as colunas (atributos) do arquivo estão separados por ";" e não por ",". Se o separador for uma "," podemos omitir esse parâmetro `sep = ";"`.

Execute a célula abaixo para ver o conteúdo do arquivo (uma tabela ou planilha).

**Atenção!** É importante que você tenha executado (*play*) a célula anterior para importar a biblioteca pandas. Se não fez isso, ao tentar executar a célula a seguir aparecerá uma mensagem de erro.

In [None]:
  pd.read_csv("https://drive.google.com/u/3/uc?id=1nBYJkh4MTzgB0-zR-HXUGYGiEkc4dK6u&export=download", sep=";") 

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
7,A Origem,2010,148,88
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81


Note que a **tabela** acima possui **quatro colunas** (ou atributos): Título, Ano, Duração, Nota. A primeira coluna exibida (0 a 9) é a numeração das linhas, ou seja, não faz parte dos dados.

Atenção: Note que no título das colunas os nomes estão sem acentos (`Titulo` ao invés de `Título` e Duracao ao invés de `Duração`). O Python até aceita estes "acentos", mas o melhor padrão é não usá-lo para manter uma compatibilidade com outros ambientes ou linguagens que podem ter "problemas" com acentos. Este cuidado com "acentos" são apenas para os TÍTULOS DAS COLUNAS e não para os DADOS dentro da tabela. Por exemplo: `O Senhor dos Anéis `(com acento).

### Dataframe e Variáveis

Para que possamos manipular a tabela (planilha) que foi aberta, ou seja, carregada para a memória, precisamos fazer uso de uma variável.

De forma simplista, uma variável, é uma região de memória que armazena dados temporariamente. Em _Python_ a forma da variável (tamanho, valores, etc) depende do que atribuímos a ela. O fato é que uma variável precisa ter um nome.

A instrução a seguir, armazena o resultado da "abertura e leitura do arquivo CSV" em uma variável chamada `df` (poderia ser outro nome).

Escolhemos o nome `df` porque é uma abreviação de *dataframe*.

**DataFrame** é uma estrutura de dados bidimensional com os dados alinhados de forma tabular em linhas e colunas. Ou seja, quando atribuímos o resultado de um _read_csv_ para uma variável, `df` por exemplo, a variável `df` é um _dataframe_. Mas isso é só uma informação adicional. Fique tranquilo(a).


In [None]:
  df = pd.read_csv("https://drive.google.com/u/3/uc?id=1nBYJkh4MTzgB0-zR-HXUGYGiEkc4dK6u&export=download", sep=";")

Note que ao executar a célula acima, parece que nada aconteceu, ou seja, a tabela (planilha) não foi exibida. 

Mas ela está "armazenada" em `df`. Para vêla basta digitar df e executar. 

Execute a célula abaixo e veja.


In [1]:
df

NameError: ignored

Outra opção é usar o comando _print_ conforme abaixo.
Mais adiante veremso que o _print_ será obrigatório para visualizar os resultados em outros ambientes (que não o Colab).

Execute a célula a seguir.

In [None]:
print(df)

                                    Titulo   Ano  Duracao  Nota
0                                Star Wars  1977      121    87
1         Harry Potter e a Pedra Filosofal  2001      152    75
2  O Senhor dos Anéis: a Companhia do Anel  2001      178    88
3                            Os Vingadores  2012      143    84
4                                Star Trek  2009      127    80
5                                    X-men  2000      104    74
6                  Os Guardiões da Galáxia  2014      121    82
7                                 A Origem  2010      148    88
8                               The Matrix  1999      136    87
9                 O Exterminador do Futuro  1984      107    81


### Nome do Dataframe

Apesar de `df` ser um bom nome para a variável do tipo _dataframe_, muitas vezes precisamos carregar mais de um arquivo de dados ao mesmo para a memória. Então teríamos que usar coisas do tipo df1, df2, etc.

Então, sugerimos usar um nome de variável afinado com o conteúdo do arquivo. Por exemplo, o arquivo que carregamos acima possui dados de filmes. Então, `filmes` pode ser um nome mais adequado para a variável. Essa é a estratégia que vamos usar daqui por diante. Execute a célula abaixo.

In [None]:
filmes = pd.read_csv("https://drive.google.com/u/3/uc?id=1nBYJkh4MTzgB0-zR-HXUGYGiEkc4dK6u&export=download", sep=";")
filmes

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
7,A Origem,2010,148,88
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81


## Conhecendo os dados

Para uma manipulação adequada da base de dados é importante conhecer algumas informações:
* Quantas linhas e colunas existem na tabela (dataframe)? `(shape)`
* Quais são as colunas (atributos) presentes na tabela? `(columns)`
* Quais as informações gerais da tabela? (`info()`)
* Existem atributos com dados nulos (ausência de informação)? `(count())`


In [None]:
#Quantidade de linhas e colunas do DataFrame
filmes.shape

(10, 4)

In [None]:
#Colunas presentes no DataFrame
filmes.columns

Index(['Titulo', 'Ano', 'Duracao', 'Nota'], dtype='object')

In [None]:
# Quais as informações do DataFrame ?
filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Titulo   10 non-null     object
 1   Ano      10 non-null     int64 
 2   Duracao  10 non-null     int64 
 3   Nota     10 non-null     int64 
dtypes: int64(3), object(1)
memory usage: 448.0+ bytes


In [None]:
#Quantas linhas com dados (não nulos) existem na tabela para cada atributo
filmes.count()

Titulo     10
Ano        10
Duracao    10
Nota       10
dtype: int64

Note que cada atributo tem exatamente a quantidade = 10. Como a tabela tem exatamente 10 linhas (10 _entries_) pode-se afirmar que nenhuma coluna tem dados "vazios" (ausência de valores).

In [None]:
# Alternativamente podemos somar os atributos isnull (valores vazios)
filmes.isnull().sum()

Titulo     0
Ano        0
Duracao    0
Nota       0
dtype: int64

A função `describe` apresenta um resumo geral dos valores dos atributos numéricos (quantidade, média, desvio padrão, menor valor, maior valor, etc)

In [None]:
filmes.describe()

Unnamed: 0,Ano,Duracao,Nota
count,10.0,10.0,10.0
mean,2000.7,133.7,82.6
std,12.037442,22.49963,5.168279
min,1977.0,104.0,74.0
25%,1999.25,121.0,80.25
50%,2001.0,131.5,83.0
75%,2009.75,146.75,87.0
max,2014.0,178.0,88.0


## Pesquisas na Base de Dados

Quando decidimos abrir um arquivo de dados, é porque possivelmente precisamos fazer consultas ou operações sobre esses dados.

Poderíamos por exemplo, querer consultar quais o títulos de filme que constam na base de dados. Ou seja, ao invés de visualizar todos os dados (título, ano, duração e nota), queremos visualizar apenas o TÍTULO dos filmes.

Dizemos, neste caso que queremos "filtrar" a base de dados, mostrando apenas a coluna (atributo) do TÍTULO.

Vejamos como fazer isso com a biblioteca _pandas_.

In [None]:
filmes["Titulo"]

0                                  Star Wars
1           Harry Potter e a Pedra Filosofal
2    O Senhor dos Anéis: a Companhia do Anel
3                              Os Vingadores
4                                  Star Trek
5                                      X-men
6                    Os Guardiões da Galáxia
7                                   A Origem
8                                 The Matrix
9                   O Exterminador do Futuro
Name: Titulo, dtype: object

### Mostrando uma ou mais colunas
Note que colocamos entre colchetes (e aspas) o nome do atributo que queremos visualizar.

Caso queira uma visualização mais "bonita", como se fosse uma planilha, use um "par de colchetes" extra conforme abaixo.

In [None]:
filmes[["Titulo"]]

Unnamed: 0,Titulo
0,Star Wars
1,Harry Potter e a Pedra Filosofal
2,O Senhor dos Anéis: a Companhia do Anel
3,Os Vingadores
4,Star Trek
5,X-men
6,Os Guardiões da Galáxia
7,A Origem
8,The Matrix
9,O Exterminador do Futuro


Podemos listar mais de uma coluna. Para tal, basta separar com vírgula confome abaixo.

In [None]:
filmes[["Titulo","Ano"]]

Unnamed: 0,Titulo,Ano
0,Star Wars,1977
1,Harry Potter e a Pedra Filosofal,2001
2,O Senhor dos Anéis: a Companhia do Anel,2001
3,Os Vingadores,2012
4,Star Trek,2009
5,X-men,2000
6,Os Guardiões da Galáxia,2014
7,A Origem,2010
8,The Matrix,1999
9,O Exterminador do Futuro,1984


Podemos também usar o _print_ conforme abaixo.

In [None]:
print(filmes[["Titulo","Ano"]])

                                    Titulo   Ano
0                                Star Wars  1977
1         Harry Potter e a Pedra Filosofal  2001
2  O Senhor dos Anéis: a Companhia do Anel  2001
3                            Os Vingadores  2012
4                                Star Trek  2009
5                                    X-men  2000
6                  Os Guardiões da Galáxia  2014
7                                 A Origem  2010
8                               The Matrix  1999
9                 O Exterminador do Futuro  1984


### Mostrando algumas linhas 
Podemos também realizar filtros por linha, ou seja, visualizar apenas algumas linhas da tabela, de acordo com o "valor" de algum atributo.

Por exemplo: Quais os filmes lançados no ano 2001?


In [None]:
filmes["Ano"] == 2001

0    False
1     True
2     True
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: Ano, dtype: bool

Note que o resultado não foi bem o que esperávamos!

Apareceu _True_ nas linhas em que a condição é verdadeira (Ano == 2000)  e _False_ nas linhas em que é falsa (Ano diferente de 2000). 

Para visualizar os DADOS para o qual esta condição é satisfeita (True) devemos escrever a instrução da seguinte maneira:

In [None]:
filmes[filmes["Ano"] == 2001]

Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88


### Outra Sintaxe

Outra sintaxe para executar a mesma consulta está abaixo. Note que ao invés de usar `filmes["Ano"]` foi usado `filmes.Ano`.

In [None]:
filmes[filmes.Ano==2001]

Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88


O problema agora é exibir apenas o Título e o Ano para os filmes lançados no ano 2001, ao invés de exibir todas as colunas.

Veja a instrução a seguir.

In [None]:
filmes[["Titulo","Ano"]][filmes.Ano==2001]

Unnamed: 0,Titulo,Ano
1,Harry Potter e a Pedra Filosofal,2001
2,O Senhor dos Anéis: a Companhia do Anel,2001


### Consultas usando o Query

Existe uma outra forma "mais simples" de realizar a mesma  consulta, sem ter que ficar repetindo a variável `filmes` na instrução. Para tal, basta usar a função `query` conforme abaixo.

Note que a sintaxe é um pouco diferente. _Parênteses_ ao invés de _colchetes_!

In [None]:
filmes.query("Ano == 2001")

Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88


E se quisermos listar todos os filmes com DURAÇÃO abaixo de 125 minutos?

Execute a instrução a seguir.


In [None]:
filmes.query("Duracao < 125")

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
9,O Exterminador do Futuro,1984,107,81


### Operadores Relacionais
Note que podemos usar os diversos operadores relacionais
* _==_ : igualdade
* _>_ : maior que
* _<_ : menor que
* _>=_ : maior ou igual
* _<=_ : menor ou igual
* _!=_ : diferente


#### Exercício

Escreva a instrução para exibir os dados dos filmes a partir do ano 2000.


In [None]:
# Sua resposta
filmes.query( "Ano > 2000")


Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
3,Os Vingadores,2012,143,84
4,Star Trek,2009,127,80
6,Os Guardiões da Galáxia,2014,121,82
7,A Origem,2010,148,88


### Mostrando algumas linhas e algumas colunas

O problema agora é exibir apenas o TÍTULO dos filmes lançados a partir do ano 2000 (inclusive o ano 2000.

Veja a instrução a seguir.

In [None]:
filmes[["Titulo","Ano"]].query("Ano >= 2000")

Unnamed: 0,Titulo,Ano
1,Harry Potter e a Pedra Filosofal,2001
2,O Senhor dos Anéis: a Companhia do Anel,2001
3,Os Vingadores,2012
4,Star Trek,2009
5,X-men,2000
6,Os Guardiões da Galáxia,2014
7,A Origem,2010


Note que a instrução acima tem duas partes. A primeira parte `>>filmes[["Titulo","Ano"]]<<`  seleciona as colunas a serem exibidas. A segunda parte >>query("Ano >= 2000")<< aplica a condição do que deve ser exibido.


#### Quebrando a consulta em várias partes
É possível também "quebrar" a consulta em duas partes. Vejamos.

A instrução a seguir seleciona as LINHAS a serem exibidas (com a condição). Note que o resultado é atribuido para uma variável (`dfilmes1`), ou seja, é gerada uma cópia (dfilmes1 é outra variável).

In [None]:
dfilmes1 = filmes.query("Ano >= 2010")
print(dfilmes1)

                    Titulo   Ano  Duracao  Nota
3            Os Vingadores  2012      143    84
6  Os Guardiões da Galáxia  2014      121    82
7                 A Origem  2010      148    88


Na instrução a seguir, mostramos apenas as colunas TÍTULO e ANO.

In [None]:
print(dfilmes1[["Titulo","Ano"]])


                    Titulo   Ano
3            Os Vingadores  2012
6  Os Guardiões da Galáxia  2014
7                 A Origem  2010


Outra forma de realizar a consulta **sem usar** o _query_.

In [None]:
filmes[["Titulo","Ano"]][filmes.Ano>=2000]

Unnamed: 0,Titulo,Ano
1,Harry Potter e a Pedra Filosofal,2001
2,O Senhor dos Anéis: a Companhia do Anel,2001
3,Os Vingadores,2012
4,Star Trek,2009
5,X-men,2000
6,Os Guardiões da Galáxia,2014
7,A Origem,2010


### Operadores Lógicos

E se quisermos listar os filmes com menos de 125 minutos de duração e que foram lançados a partir do ano 2000?

Temos duas condições: `duração < 125`  e  `Ano >=200`

Para isso, precisamos combinar as duas condições usando um operador lógico `E`.

O operador lógico `E` é necessário pois as duas condições precisam ser satisfeitas, ou seja, serem avaliadas como verdadeiras (_True_).

Em Python, o operador lógico `E` é representado pelo caracter ``&``.

Vejamos a instrução completa usando o _query_.

A seguir os operadores lógicos em Python.

* & : E (AND)
* | : OU (OR)
* ~ : não (NOT)

In [None]:
filmes.query("Duracao < 125 & Ano >= 2000")

Unnamed: 0,Titulo,Ano,Duracao,Nota
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82


### Outro Exemplo com operadores lógicos

Listar os filmes lançados depois do ano de 2010 ou que tenham duração menor que 120 minutos.

Temos duas condições: Ano >2010 ou duração < 120

Para isso, precisamos combinar as duas condições usando um operador lógico `OU`.

O operador lógico `E` é necessário pois apenas uma condição precisa ser satisfeita, ou seja, ser avaliada como verdadeira (True).

Em Python, o operador lógico `OU` é representado pelo caracter `|`.

Vejamos a instrução completa usando o query.


In [None]:
filmes.query("Ano > 2010 | Duracao < 120")

Unnamed: 0,Titulo,Ano,Duracao,Nota
3,Os Vingadores,2012,143,84
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
9,O Exterminador do Futuro,1984,107,81


### Operadores Lógicos - Sem o Query

In [None]:
# Dados dos filmes acima de 2010 e Duração < 120 minutos
filmes[(filmes["Ano"] > 2010) | (filmes["Duracao"] < 120)]

Unnamed: 0,Titulo,Ano,Duracao,Nota
3,Os Vingadores,2012,143,84
5,X-men,2000,104,74
6,Os Guardiões da Galáxia,2014,121,82
9,O Exterminador do Futuro,1984,107,81


In [None]:
# Dados (Titulo, Ano e Duração) dos filmes acima de 2010 e Duração < 120 minutos
filmes[["Titulo","Ano","Duracao"]][(filmes["Ano"] > 2010) | (filmes["Duracao"] < 120)]

Unnamed: 0,Titulo,Ano,Duracao
3,Os Vingadores,2012,143
5,X-men,2000,104
6,Os Guardiões da Galáxia,2014,121
9,O Exterminador do Futuro,1984,107


#### Exercício

Escreva uma instrução para listar apenas os filmes do ano 2001.

Observação: Para fazer uma condição de igualdade, use ``==`` e não ``=``

In [None]:
# Sua resposta
filmes [filmes["Ano"] == 2001 ]

Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88


#### Exercício

Escreva uma instrução para listar apenas os filmes com Nota pelo menos 80 e que foram lançadas antes do ano 2003.

In [None]:
# Sua resposta
filmes.query("Nota >= 80 & Ano < 2003")

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
2,O Senhor dos Anéis: a Companhia do Anel,2001,178,88
8,The Matrix,1999,136,87
9,O Exterminador do Futuro,1984,107,81


### Consultas com atributos não numéricos

Listar os dados do filme "Star Wars".

In [None]:
filmes.query("Titulo == 'Star Wars'")

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87


#### A necessidade de usar ASPAS
**ATENÇÃO**: Note que para fazer a comparação com o valor `Star Wars` foi necessário usar **ASPAS (simples)** para delimitar `Star Wars`.  Para comparar valores numéricos as **ASPAS (simples)** NÃO são necessárias. Mas elas são **OBRIGATÓRIAS** para comparar com valores não numéricos (como nomes, etc.). Por isso, na consulta acima usamos `'Star Wars'`.

O operador `==` **funciona para consulta exata**.
Mas e se quisermos listar os filmes que tenham o termo "Star" no título (em qualquer parte do título) ?

In [None]:
filmes.query("Titulo == 'Star'")

Unnamed: 0,Titulo,Ano,Duracao,Nota


Note que a consulta acima não retornou nada.
Para este tipo de consulta podemos fazer uso da função _str.contains_ conforme instrução a seguir. Note que o parâmetro `engine = 'python'` é necessário.

In [None]:
filmes.query('Titulo.str.contains("Star")', engine='python')

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
4,Star Trek,2009,127,80


Se precisar listar filmes cujo título apenas **começam** com 'Star' a opção é usar `str.starswith` conforme exemplo a seguir. Mas note que essa opção não faz parte do `query`.

In [None]:
filmes[filmes.Titulo.str.startswith('Star')]

Unnamed: 0,Titulo,Ano,Duracao,Nota
0,Star Wars,1977,121,87
4,Star Trek,2009,127,80


#### Exercício

Escreva uma instrução para listar os filmes que contenham o termo "Potter".

In [None]:
# Sua resposta
filmes.query('Titulo.str.contains("Potter")',engine = 'python')

Unnamed: 0,Titulo,Ano,Duracao,Nota
1,Harry Potter e a Pedra Filosofal,2001,152,75


### Verificando os valores de um atributo (unique)

Dependendo da característica do atributo ele pode assumir um único valor, uma faixa de valores, uma lista de valores, ou mesmo qualquer valor.

Para analisar os valores de um determinado atributo podemos usar a função `unique()`. Esta função retorna quais os valores "únicos" que existem num determinado atributo.

Vejamos a instrução a seguir.

In [None]:
# Listar as diferentes notas atribuídas.
filmes["Nota"].unique()

array([87, 75, 88, 84, 80, 74, 82, 81])

#### Exercício

Escreva uma instrução para listar os diferentes valores para o atributo `Ano`.

In [None]:
# Sua resposta
filmes["Ano"].unique

<bound method Series.unique of 0    1977
1    2001
2    2001
3    2012
4    2009
5    2000
6    2014
7    2010
8    1999
9    1984
Name: Ano, dtype: int64>