<a href="https://colab.research.google.com/github/italolima04/-quarentena-dados/blob/master/Aula01/QuarentenaDados_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importando Bibliotecas e Dados

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [0]:
#Lendo dados CSV e passando para um Data Frame.
grades = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/master/aula0/ml-latest-small/ratings.csv')

In [0]:
movies = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/introducao-a-data-science/master/aula0/ml-latest-small/movies.csv')

# Visualizando os Dados

In [0]:
#Exibir as 5 primeiras linhas do Data Frame.
grades.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [0]:
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


# Descrevendo os Dados

In [0]:
#Verificar a estrutura do Data Frame - Quantas linhas e colunas.
grades.shape

(100836, 4)

In [0]:
#Método do Pandas p/ descrever estatisticamente um Data Frame. 
#Dados: Quantidade de valores, média, desvio padrão, entrada miníma, 1º quartil, 2º quartil (mediana), 3º quartil e entrada máxima
grades.describe()

Unnamed: 0,userId,movieId,rating,timestamp
count,100836.0,100836.0,100836.0,100836.0
mean,326.127564,19435.295718,3.501557,1205946000.0
std,182.618491,35530.987199,1.042529,216261000.0
min,1.0,1.0,0.5,828124600.0
25%,177.0,1199.0,3.0,1019124000.0
50%,325.0,2991.0,3.5,1186087000.0
75%,477.0,8122.0,4.0,1435994000.0
max,610.0,193609.0,5.0,1537799000.0


In [0]:
def votes_per_movie(n):
  grades_movie = grades.query(f'movieId == {n}')['movieId']
  print('Número de Avaliações do Filme: ')
  return grades_movie.describe()['count']

In [0]:
votes_per_movie(32)

Número de Avaliações do Filme: 


177.0

In [0]:
grades['rating']

0         4.0
1         4.0
2         4.0
3         5.0
4         5.0
         ... 
100831    4.0
100832    5.0
100833    5.0
100834    5.0
100835    3.0
Name: rating, Length: 100836, dtype: float64

# Filtrando / Buscando os Dados

In [0]:
#Método query do Pandas para fazer consultas nos dados.
#Recebe uma condição / parâmetro para a consulta.
twelve_monkeys = grades.query('movieId==32')
#Outra maneira de exibir os dados.
twelve_monkeys

Unnamed: 0,userId,movieId,rating,timestamp
301,4,32,2.0,945173447
581,6,32,4.0,845553426
1030,8,32,3.0,839463624
1390,14,32,4.0,835441168
1776,18,32,4.0,1455209840
...,...,...,...,...
96109,603,32,3.0,963179615
97053,604,32,4.0,832079958
97373,606,32,4.0,1173653921
98675,608,32,3.5,1117336682


In [0]:
twelve_monkeys.describe()

Unnamed: 0,userId,movieId,rating,timestamp
count,177.0,177.0,177.0,177.0
mean,306.20339,32.0,3.983051,1082792000.0
std,175.067433,0.0,0.790387,221701500.0
min,4.0,32.0,1.0,829759800.0
25%,160.0,32.0,3.5,854472000.0
50%,305.0,32.0,4.0,1043341000.0
75%,451.0,32.0,5.0,1237859000.0
max,610.0,32.0,5.0,1535710000.0


In [0]:
#Utilizando o query para uma consulta específica e aplicar a função mean p/ retornar a média da coluna específica (rating)
grades.query('movieId==32')['rating'].mean()

3.983050847457627

In [0]:
#Método len para verificar o tamanho / quantidade de uma coluna.
len(grades['movieId'].unique())

9724

In [0]:
#Verificando quais são as notas (únicas) possíveis para a avaliação.
notas = grades['rating'].unique()
notas

array([4. , 5. , 3. , 2. , 1. , 4.5, 3.5, 2.5, 0.5, 1.5])

# Manipulando os Data Frames

In [0]:
#Criar um novo Data Frame, a partir de um já existente, agrupando os dados pela coluna 'movieId' e aplicando o método mean() para os valores da coluna 'rating'
average_grades = grades.groupby('movieId').mean()['rating']
average_grades.head()

movieId
1    3.920930
2    3.431818
3    3.259615
4    2.357143
5    3.071429
Name: rating, dtype: float64

In [0]:
#Método join do Pandas para associar colunas c/ outro Data Frame.
#Criando um novo Data Frame, que será o de filmes + as respectivas notas, advindas de um outro Data Frame, através do join (que deve ser feito em associação a coluna movieId)
average_movies = movies.join(average_grades, on="movieId")
average_movies.head()

Unnamed: 0,movieId,title,genres,rating
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,2.357143
4,5,Father of the Bride Part II (1995),Comedy,3.071429


In [0]:
#Método para ordenar valores, com parâmetro para ordem descrecente.
average_movies.sort_values('rating', ascending=False)

Unnamed: 0,movieId,title,genres,rating
7656,88448,Paper Birds (Pájaros de papel) (2010),Comedy|Drama,5.0
8107,100556,"Act of Killing, The (2012)",Documentary,5.0
9083,143031,Jump In! (2007),Comedy|Drama|Romance,5.0
9094,143511,Human (2015),Documentary,5.0
9096,143559,L.A. Slasher (2015),Comedy|Crime|Fantasy,5.0
...,...,...,...,...
5749,30892,In the Realms of the Unreal (2004),Animation|Documentary,
5824,32160,Twentieth Century (1934),Comedy,
5837,32371,Call Northside 777 (1948),Crime|Drama|Film-Noir,
5957,34482,"Browning Version, The (1951)",Drama,


# Plotando os Gráficos

In [0]:
grades.query('movieId == 1')['rating'].plot(kind='hist')
plt.title("Avaliações para o Filme: Toy Story")
plt.show()

In [0]:
grades.query('movieId == 2')['rating'].plot(kind='hist')
plt.title("Avaliações para o Filme: Jumanji")
plt.show()

In [0]:
grades.query('movieId == 32')['rating'].plot(kind='hist')
plt.title("Avaliações para o Filme: Twelve Monkeys")
plt.show()

# Desafios

**Desafio 1:**

Descobrir quantos e quais são os filmes que não receberam notas

In [0]:
#Quantidade de filmes que receberam votos
average_movies['rating'].notna().sum()

9724

In [0]:
#Quantidade de filmes que não reberam votos
average_movies['rating'].isna().sum()

18

In [0]:
#Criando uma serie com os filmes que não receberam notas.
filmes = average_movies['rating'].isna()
#Exibindo apenas os filmes que não receberam notas. Filtrando com os []
average_movies[filmes]

Unnamed: 0,movieId,title,genres,rating
816,1076,"Innocents, The (1961)",Drama|Horror|Thriller,
2211,2939,Niagara (1953),Drama|Thriller,
2499,3338,For All Mankind (1989),Documentary,
2587,3456,"Color of Paradise, The (Rang-e khoda) (1999)",Drama,
3118,4194,I Know Where I'm Going! (1945),Drama|Romance|War,
4037,5721,"Chosen, The (1981)",Drama,
4506,6668,"Road Home, The (Wo de fu qin mu qin) (1999)",Drama|Romance,
4598,6849,Scrooge (1970),Drama|Fantasy|Musical,
4704,7020,Proof (1991),Comedy|Drama|Romance,
5020,7792,"Parallax View, The (1974)",Thriller,


**Desafio 2:**

Mudar o nome da coluna utilizando um método diferente do .columns

In [0]:
#Método para Renomear Colunas
average_movies = average_movies.rename(columns= {'rating' : 'mean'})
average_movies.head()

Unnamed: 0,movieId,title,genres,mean
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92093
1,2,Jumanji (1995),Adventure|Children|Fantasy,3.431818
2,3,Grumpier Old Men (1995),Comedy|Romance,3.259615
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,2.357143
4,5,Father of the Bride Part II (1995),Comedy,3.071429


**Desafio 3:**

Colocar o número de Avaliações por filme

In [0]:
#Agrupar os filmes pelo Id, a partir das notas (é o mesmo que uma avaliação), aplicando o count.
avaliacoes_por_filmes = grades.groupby('movieId')['rating'].count()
#Método join para criar uma nova coluna com o número de avaliações para cada filme
avaliacoes_por_filmes = movies.join(avaliacoes_por_filmes, on="movieId")
#Renomeando as colunas
avaliacoes_por_filmes.columns =['movieId', 'title', 'genres', 'votos por filme']
#Desestruturar Data Frame apenas com as colunas de interesse
avaliacoes_por_filmes = avaliacoes_por_filmes[['movieId', 'title', 'votos por filme']]
avaliacoes_por_filmes

Unnamed: 0,movieId,title,votos por filme
0,1,Toy Story (1995),215.0
1,2,Jumanji (1995),110.0
2,3,Grumpier Old Men (1995),52.0
3,4,Waiting to Exhale (1995),7.0
4,5,Father of the Bride Part II (1995),49.0
...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),1.0
9738,193583,No Game No Life: Zero (2017),1.0
9739,193585,Flint (2017),1.0
9740,193587,Bungo Stray Dogs: Dead Apple (2018),1.0


**Desafio 4:**

Arredondar notas para duas casas decimais

In [0]:
#Método round aplicado na serie 'mean'.
average_movies['mean'] = average_movies['mean'].round(2)
average_movies

Unnamed: 0,movieId,title,genres,mean
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,3.92
1,2,Jumanji (1995),Adventure|Children|Fantasy,3.43
2,3,Grumpier Old Men (1995),Comedy|Romance,3.26
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,2.36
4,5,Father of the Bride Part II (1995),Comedy,3.07
...,...,...,...,...
9737,193581,Black Butler: Book of the Atlantic (2017),Action|Animation|Comedy|Fantasy,4.00
9738,193583,No Game No Life: Zero (2017),Animation|Comedy|Fantasy,3.50
9739,193585,Flint (2017),Drama,3.50
9740,193587,Bungo Stray Dogs: Dead Apple (2018),Action|Animation,3.50


**Desafio 5:**
Descobrir quantos e quais são os gêneros

In [0]:
#Método get_dummies para quebrar e separar os valores em colunas.
genres = movies['genres'].str.get_dummies('|')
#Aplicar cada gênero como nome da Coluna no Data Frame de Gêneros
genres = genres.columns


In [0]:
#Quantos são os gêneros.
len(genres)

20

In [0]:
#Quais são os Gêneros.
genres

Index(['(no genres listed)', 'Action', 'Adventure', 'Animation', 'Children',
       'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir',
       'Horror', 'IMAX', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller',
       'War', 'Western'],
      dtype='object')

**Desafio 6:**
Contar a quantidade de filmes por gênero

In [0]:
#Contar a quantidade de gêneros por cada filme
data_genres = movies['genres'].str.get_dummies('|').sum(axis=1).value_counts
data_genres

In [0]:
data_genres = movies['genres'].str.get_dummies('|')
data_genres = data_genres.sum().sort_values(ascending=False)
data_genres

**Desafio 7:**

Plotar o gráfico de aparições dos filmes por gênero

In [0]:
data_genres.plot(kind='bar', title='Filmes por Categoria', figsize=(8,8))
plt.show()

In [0]:
import seaborn as sns

sns.set_style('darkgrid')
plt.figure(figsize=(24,12))

sns.barplot(x=data_genres.index, 
            y= data_genres.values,
            palette=sns.color_palette('BuGn_r' ,n_colors=len(data_genres) + 6))
plt.show()