![](https://hipsters.jobs/files/pictures/Logo_AlurabyCaelum.png)

### #QUARENTENADADOS

### https://www.alura.com.br/quarentenadados/aula01-sua-primeira-analise-de-dados?utm_campaign=alura_quarentenadados_-_1_aula&utm_medium=email&utm_source=RD+Station

### Este primeiro trabalho consiste em ler dados do MovieLens e fazer algumas análises nas avaliações dos filmes

O MovieLens é uma comunidade virtual que recomenda filmes para que seus usuários assistam, com base em suas preferências de filmes usando filtragem colaborativa de classificação dos filmes dos membros e críticas de filmes.

![](https://www.saashub.com/images/app/service_logos/8/f181cf663f5c/large.png)

### Importando as bibliotecas a serem usadas

A primeira coisa a ser feita é a importação das biliotecas. Mesmo que sejam usadas mais adiante, é bom que este processo seja feito logo no início, de modo a manter a estrutura do notebook orgnaizada.

![](https://thumbs.gfycat.com/IdleCostlyBaiji-size_restricted.gif)

In [3]:
import pandas as pd
from IPython.display import Image

### Importando a base de dados do MovieLens

Aqui nós iremos importar a nossa base de dados.
Além disso, alteraremos os nomes da coluna, tornando a identificação mais intuitiva.

In [4]:
filmes = pd.read_csv("https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/master/aula0/ml-latest-small/movies.csv")

In [5]:
filmes.columns = ["filmeId", "titulos", "generos"]

In [6]:
filmes.head()

Unnamed: 0,filmeId,titulos,generos
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


### Importando a base de dados das avaliações dos filmes

In [7]:
avaliacoes = pd.read_csv("https://github.com/alura-cursos/introducao-a-data-science/blob/master/aula0/ml-latest-small/ratings.csv?raw=true")

In [8]:
avaliacoes.columns = ["usuarioId", "filmeId", "nota", "momento"]

In [9]:
avaliacoes.head()

Unnamed: 0,usuarioId,filmeId,nota,momento
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931



### Alguns testes que podemos fazer na base de dados baixada

Abaixo mostramos algumas coisas que podem ser feitas com a nossa base de dados. Estas manipulações ajudam a analisar as informações que estamos tratando, como identificar médias, verificar número de linhas e valores máximo e mínimo, dentre outros.

In [10]:
#Tamanho da base (número de linhas)

len(avaliacoes)

100836

In [11]:
#Lendo a documentação do objeti (docstring)

?avaliacoes

In [12]:
#Número de linhas e número de colunas (features)

avaliacoes.shape 

(100836, 4)

In [13]:
#Nomes das colunas

avaliacoes.columns 

Index(['usuarioId', 'filmeId', 'nota', 'momento'], dtype='object')

In [14]:
#Descrição da base de dados "avaliacoes"

avaliacoes.describe() 

Unnamed: 0,usuarioId,filmeId,nota,momento
count,100836.0,100836.0,100836.0,100836.0
mean,326.127564,19435.295718,3.501557,1205946000.0
std,182.618491,35530.987199,1.042529,216261000.0
min,1.0,1.0,0.5,828124600.0
25%,177.0,1199.0,3.0,1019124000.0
50%,325.0,2991.0,3.5,1186087000.0
75%,477.0,8122.0,4.0,1435994000.0
max,610.0,193609.0,5.0,1537799000.0


In [16]:
#Filtrar as linhas cujos valores de "filmeId" sejam iguais a 1

avaliacoes.query("filmeId==1").head(5)

Unnamed: 0,usuarioId,filmeId,nota,momento
0,1,1,4.0,964982703
516,5,1,4.0,847434962
874,7,1,4.5,1106635946
1434,15,1,2.5,1510577970
1667,17,1,4.5,1305696483


### Filmes agrupados por notas

In [17]:
notas_medias_por_filme = avaliacoes.groupby("filmeId")["nota"].mean()

In [18]:
notas_medias_por_filme.head(5)

filmeId
1    3.920930
2    3.431818
3    3.259615
4    2.357143
5    3.071429
Name: nota, dtype: float64

### Unindo informações dos dois repositórios que carregamos

Aqui nós iremos inserir a coluna de "notas" à tabela "filmes" através do join, tendo como coluna comum "filmeId"

In [19]:
filmes_com_media = filmes.join(notas_medias_por_filme, on="filmeId")

In [20]:
filmes_com_media.head()

Unnamed: 0,filmeId,titulos,generos,nota
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,2.357143
4,5,Father of the Bride Part II (1995),Comedy,3.071429


In [25]:
#Ordenando os filmes pelo maior valor da nota

filmes_com_media.sort_values("nota", ascending=False).head(15)

Unnamed: 0,filmeId,titulos,generos,nota
7656,88448,Paper Birds (Pájaros de papel) (2010),Comedy|Drama,5.0
8107,100556,"Act of Killing, The (2012)",Documentary,5.0
9083,143031,Jump In! (2007),Comedy|Drama|Romance,5.0
9094,143511,Human (2015),Documentary,5.0
9096,143559,L.A. Slasher (2015),Comedy|Crime|Fantasy,5.0
4251,6201,Lady Jane (1986),Drama|Romance,5.0
8154,102217,Bill Hicks: Revelations (1993),Comedy,5.0
8148,102084,Justice League: Doom (2012),Action|Animation|Fantasy,5.0
4246,6192,Open Hearts (Elsker dig for evigt) (2002),Romance,5.0
9122,145994,Formula of Love (1984),Comedy,5.0


### Desafio 1 do Paulo Silveira
O Paulo fez uma análise rápida e disse que tem 18 filmes sem avaliações, será que ele acertou?

Determine quantos filmes não tem avaliações e quais são esses filmes.

### Desafio 2 do Guilherme Silveira

Mudar o nome da coluna nota do dataframe filmes_com_media para nota_média após o join.


### Desafio 3 do Guilherme Silveira

Colocar o número de avaliações por filme, isto é, não só a média mas o TOTAL de votos por filme.



### Desafio 4 do Thiago Gonçalves

Arredondar as médias (coluna de nota média) para duas casas decimais.



### Desafio 5 do Allan Spadini

Descobrir os generos dos filmes (quais são eles, únicos). (esse aqui o bicho pega)



### Desafio 6 da Thais André

Contar o número de aparições de cada genero.



### Desafio 7 do Guilherme Silveira

Plotar o gráfico de aparições de cada genero. Pode ser um gráfico de tipo igual a barra.