# Python warmup

Para esse conjunto de exercícios vamos utilizar o dataset [MovieLens 100k](https://grouplens.org/datasets/movielens/100k/)


Os conjuntos de dados do MovieLens foram coletados pelo GroupLens Research Project na Universidade de Minnesota.
 
Este conjunto de dados consiste em:
* 100.000 classificações (1-5) de 943 usuários em 1.682 filmes.
* Cada usuário classificou pelo menos 20 filmes.
* Informações demográficas simples para os usuários (idade, sexo, ocupação, CEP)

Os dados foram coletados por meio do site MovieLens (movielens.umn.edu) durante o período de sete meses a partir de 19 de setembro, 1997 a 22 de abril de 1998. Estes dados foram limpos - usuários que tiveram menos de 20 avaliações ou não tiveram dados demográficos completos informações foram removidas deste conjunto de dados. Descrições detalhadas de o arquivo de dados pode ser encontrado no final deste arquivo.

Utilizando esse Dataset responda as seguintes perguntas. Você deverá utilizar somente as bibliotecas padrões do python, i.e., nenhuma nova biblioteca deve ser adicionada para implementar suas soluções (**isso é um warmup de python!**)

#### Encontrar:
1. O(s) usuário(s) mais crítico(s) na avaliação de filmes.
    * Encontrar aquele id cujas notas são, em média, as menores;
1. O(s) filme(s) mais mal avaliado(s) pelos usuários.
1. O(s) filme(s) mais bem avaliado(s) pelos usuários.
1. Média de avaliação para cada gênero de filmes;
1. Avaliação média de filmes por ano. 
    * Listar qual o ano com a melhor média de avaliação de filmes;
1. Qual a ocupação mais propensa a dar más avaliações a filmes;
    * Encontrar a média de avaliação para cada ocupação de usuário e mostrar os menores e maiores valores


In [1]:
# Conforme orientação do professor, esse exercício será resolvido apenas com o pacote numpy e funções built-in python.
import numpy as np

In [4]:
# Importando os dados:
data = open('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.data')
dados = data.read().splitlines()


## Explorando o conjunto de dados:

In [4]:
# Verificando o formato dos dados
np.shape(data)

(100000, 4)

In [5]:
# Verificando o tipo dos dados
print(data.dtype)

float64


In [6]:
type(data)

numpy.ndarray

## Q1. Usuários mais críticos (id cujas notas são, em média, as menores)

In [7]:
# Iremos declarar uma variável (id) que por meio da função np.unique irá encontrar os valores únicos da array.
ids = np.unique(data[:,0])
#print(ids)

In [8]:
# Testando receber os ratings apenas para um user-id

# A variável indices receberá a fção filter(function, iterable) que
# retorna um iterador onde os itens são filtrados por meio de uma função para testar se o item é aceito ou não.

# Neste caso, a fção filter recebe a fção lambda que XXX quando a coluna 0 for igual a 100.
# O iterador buscará linha por linha em todo o comprimento (len) do dataset (data)

#indices = filter(lambda i: data[i,0]==100, [i for i in range(0,len(data))])
#print(list(indices))

In [9]:
# Obtendo as médias de ratings para cada user_id:
lst = list(map(lambda x: np.mean(data[x,2]) ,[np.array(list(filter(lambda i: data[i,0]==x, [i for i in range(0,len(data))]))) for x in ids]))
#print(lst)

In [10]:
# Ordenando a média de rating e relacionando aos user_ids:
ratings = np.array(lst)

sorted_ratings = np.sort(ratings)
ind_sorted = np.argsort(ratings)

result1 = np.transpose(np.stack((ids[ind_sorted],sorted_ratings)))

print('Os 10 usuários mais críticos e suas respectivas notas são:')
print(result1[0:12,:])

Os 10 usuários mais críticos e suas respectivas notas são:
[[181.           1.49195402]
 [405.           1.83446404]
 [445.           1.98518519]
 [685.           2.05      ]
 [774.           2.05803571]
 [724.           2.16470588]
 [206.           2.171875  ]
 [865.           2.28787879]
 [626.           2.34375   ]
 [609.           2.39285714]
 [302.           2.42857143]
 [702.           2.4516129 ]]


## Q2. O(s) filme(s) mais mal avaliado(s) pelos usuários.

In [16]:
# Número de títulos (filmes)
item = np.unique(data[:,1])
print(item)

[1.000e+00 2.000e+00 3.000e+00 ... 1.680e+03 1.681e+03 1.682e+03]


In [17]:
media_items = list(map(lambda a: np.mean(data[a,2]) ,[np.array(list(filter(lambda b: data[b,1]==a, [b for b in range(0,len(data))]))) for a in item]))
#print(media_items)

In [18]:
# Ordenando a média de rating e relacionando aos user_ids:
piores = np.array(media_items)

sorted_piores = np.sort(piores)
item_sorted = np.argsort(piores)

result2 = np.transpose(np.stack((item[item_sorted], sorted_piores)))

print('Os filmes mais mal avaliados pelos usuários são:')
print(result2[:10,]) # Existem 70 títulos avaliados com nota 1.0

Os filmes mais mal avaliados pelos usuários são:
[[1.364e+03 1.000e+00]
 [1.561e+03 1.000e+00]
 [1.559e+03 1.000e+00]
 [1.557e+03 1.000e+00]
 [1.601e+03 1.000e+00]
 [4.370e+02 1.000e+00]
 [1.373e+03 1.000e+00]
 [1.548e+03 1.000e+00]
 [1.374e+03 1.000e+00]
 [1.546e+03 1.000e+00]]


In [19]:
# Corrigir número de casa decimais

# data2 = np.round(data, 2)
# data2 = np.round("%.2f" % data)
# print(data2)

In [6]:
# Relacionar com o título do filme

# Importando os dados:
# titulo = open('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.item', "r", encondig = "lantin-1")
# print(titulo.read())

titulo = open('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.item', encoding="latin-1")
#print(titulo.read())

In [22]:

numero = np.loadtxt('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.item',
                    encoding = 'latin-1',
                    usecols = (0),
                    dtype = 'int',
                    delimiter = "|")

nomes = np.loadtxt('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.item',
                    encoding = 'latin-1',
                    usecols = (1),
                    dtype = 'str',
                    delimiter = "|")

genero_bool = np.loadtxt('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.item',
                    encoding = 'latin-1',
                    usecols = (np.r_[5:24]),
                    dtype = 'bool',
                    delimiter = "|")

## Q3. O(s) filme(s) mais bem avaliado(s) pelos usuários.

In [23]:
# Ordenando a média de rating e relacionando aos user_ids:
melhores = np.array(media_items)

sorted_melhores = np.sort(melhores)
sorted_rev = sorted_melhores[::-1]
item_sorted_melhores = np.argsort(melhores)
item_rev = item_sorted_melhores[::-1]

result3 = np.transpose(np.stack((item[item_rev],sorted_rev)))

print('Os filmes mais bem avaliados pelos usuários são:')
print(result3[0:11,:])

Os filmes mais bem avaliados pelos usuários são:
[[1293.       5.   ]
 [1467.       5.   ]
 [1653.       5.   ]
 [ 814.       5.   ]
 [1122.       5.   ]
 [1599.       5.   ]
 [1201.       5.   ]
 [1189.       5.   ]
 [1500.       5.   ]
 [1536.       5.   ]
 [1449.       4.625]]


## Q4. Média de avaliação para cada gênero de filmes.

In [84]:
# # Importando os dados:
# genero = np.loadtxt('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.genre')
# print(genero)

genero = open('/home/hub/git-pessoal/Aulas_git_Ai2/5-Python/Jupyter_Notebook_Markdown/ml-100k/u.genre', "r")
print(genero.read())

unknown|0
Action|1
Adventure|2
Animation|3
Children's|4
Comedy|5
Crime|6
Documentary|7
Drama|8
Fantasy|9
Film-Noir|10
Horror|11
Musical|12
Mystery|13
Romance|14
Sci-Fi|15
Thriller|16
War|17
Western|18




In [44]:
# Testando

#concat = np.where(genero_bool[:,9]==True)

#print(nomes[concat])
#keep = gereni_bool[concat]