In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt   #biblioteca pra gerar gráficos
import numpy as np

In [None]:
notas = pd.read_csv("ratings.csv")
#head = cabeçalho, só mostra as 5 primeiras linhas
notas.head()


In [None]:
#shape = mostra o formato da tabela, quantidade de linhas e colunas
notas.shape

In [None]:
notas.columns = ["usuarioID", "filmeID", "nota", "momento"]
notas.head()

In [None]:
notas['nota'].unique()

In [None]:
#contar os valores das notas
notas['nota'].value_counts()

In [None]:
#média das notas
print(notas['nota'].mean())

#mediana das notas
print(notas.nota.median())

In [None]:
#visualizar as notas em forma de histograma
notas.nota.plot(kind='hist')

In [None]:
#diversas medidas de dispersão 
notas.nota.describe()

In [None]:
#visualizar os dados de outra maneira
sns.boxplot(notas.nota)

In [None]:
#visualizar no eixo x
sns.boxplot(x=notas.nota)

In [None]:
filmes = pd.read_csv("movies.csv")
filmes.head()

In [None]:
filmes.columns = ['filmeId', 'titulo', 'generos'] 

filmes.head()

# Analisando algumas notas específicas por filme - CAP 2

In [None]:
#notas.head()

#pegar as notas em que o filme é igual a Toy Story, filme = 1
notas.query("filmeID==1").nota


In [None]:
#Filme Jumanji

notas.query("filmeID==2").nota.mean()

In [None]:
# visualizar a média de cada nota (agrupar)

medias_por_filme = notas.groupby("filmeID").nota.mean()

medias_por_filme

In [None]:
medias_por_filme.plot(kind='hist')

In [None]:
sns.boxplot(medias_por_filme)

In [None]:
sns.histplot(medias_por_filme, bins=10)

In [None]:
sns.distplot(medias_por_filme, bins=10)

In [None]:
plt.hist(medias_por_filme)
plt.title("Histograma das médias dos filmes")

#Cap 3

In [None]:
tmdb = pd.read_csv('tmdb_5000_movies.csv')

tmdb.head()

In [None]:
tmdb.original_language.unique()   #variavel categorica nominal

In [None]:
#budget => orcamento => quantitativo contínuo


In [None]:
#saber quantas vezes aparece cada categoria
tmdb.original_language.value_counts()  #assim é apenas uma série

In [None]:
# pra transformar em uma tabela (data frame), faz o seguinte:
tmdb.original_language.value_counts().to_frame()

In [None]:
# pra remover o índice da língua e criar uma nova coluna:
contagem_de_lingua = tmdb['original_language'].value_counts().to_frame().reset_index()

contagem_de_lingua.columns = ['original_language', 'total']
contagem_de_lingua.head()

In [None]:
#gráfico de barras, apresentar a língua no eixo x
sns.barplot(x='original_language', y='total', data = contagem_de_lingua)

In [None]:
#plot de categoria
sns.catplot(x='original_language', kind='count', data=tmdb)

In [None]:
#gráfico de pizza (não recomendado em nenhuma situação)
plt.pie(contagem_de_lingua['total'], labels = contagem_de_lingua['original_language'])

Pra melhorar a visualização dos dados, é melhor fazer um gráfico comparativo entre cada categoria, em vez de fazer a comparação por todas as línguas existentes

In [None]:
#separando as categorias pra fazer um gráfico comparativo apenas entre elas
total_por_lingua = tmdb['original_language'].value_counts()

total_geral = total_por_lingua.sum()
total_de_ingles = total_por_lingua.loc['en']
total_do_resto = total_geral - total_de_ingles
print(total_de_ingles, total_do_resto)

In [None]:
dados = {
    'lingua': ['ingles', 'outros'],
    'total': [total_de_ingles, total_do_resto]
}

dados

In [None]:
#criar um data frame em cima dos dados
dados = pd.DataFrame(dados)

In [None]:
sns.barplot(x='lingua', y='total', data = dados)

In [None]:
#visualizar os filmes diferentes de inglês
total_por_lingua_de_outros_filmes = tmdb.query("original_language != 'en'").original_language.value_counts()

total_por_lingua_de_outros_filmes

In [None]:
#sns.catplot(x = "original_language", kind='count', data=total_por_lingua_de_outros_filmes)
sns.catplot(x='original_language', kind='count', data=total_por_lingua_de_outros_filmes)

# Capítulo 6

In [None]:
notas_do_toyStory = notas.query("filmeID == 1")
notas_do_jumanji = notas.query("filmeID == 2")

#imprimir quantidade de notas dos dois filmes
print(len(notas_do_toyStory), len(notas_do_jumanji))

In [None]:
print("Nota média do Toy Story", notas_do_toyStory.nota.mean())
print("Nota média do Jumanji", notas_do_jumanji.nota.mean())

# a diferença entre as pessoas q gostaram e q n gostaram é mt grande?

In [None]:
print("Nota mediana do Toy Story", notas_do_toyStory.nota.median())
print("Nota mediana do Jumanji", notas_do_jumanji.nota.median())

In [None]:
filme1 = np.append(np.array([2.5] * 10), np.array([3.5] * 10))
filme2 = np.append(np.array([5.0] * 10), np.array([1.0] * 10))

In [None]:
print(filme1.mean(), filme2.mean())

In [None]:
print(np.median(filme1), np.median(filme2))

In [None]:
sns.distplot(filme1)
sns.distplot(filme2)

In [None]:
plt.hist(filme1)
plt.hist(filme2)

In [None]:
plt.boxplot([filme1, filme2])

In [None]:
sns.boxplot(notas_do_toyStory.nota)


In [None]:
plt.boxplot([notas_do_toyStory.nota, notas_do_jumanji.nota])

In [None]:
sns.boxplot(x = "filmeID", y = "nota", data = notas.query("filmeID in [1,2]"))

In [None]:
# desvio padrão 
notas_do_jumanji.nota.std()