In [68]:
#================================================
# EXPLORAÇÃO INICIAL DA TABELA "tags"
#================================================

import duckdb, pandas as pd
from pathlib import Path

# cria ou liga se já existir:
con = duckdb.connect("movielens100K.duckdb")

In [69]:
#Ver estrutura da tabela (colunas e tipos de dados)
con.sql("DESCRIBE tags").df()

Unnamed: 0,column_name,column_type,null,key,default,extra
0,userId,INTEGER,YES,,,
1,movieId,INTEGER,YES,,,
2,tag,VARCHAR,YES,,,
3,timestamp,TIMESTAMP WITH TIME ZONE,YES,,,


### Comentário

 - "userID": BIGINT 64 bits value;
 - "movieID":  BIGINT 64 bits value;
 - "tag": VARCHAR;
 - "timestamp":  BIGINT 64 bits value;


In [70]:
#Ver o tipo de dados de cada coluna
con.sql("PRAGMA table_info('tags')").df()

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,userId,INTEGER,False,,False
1,1,movieId,INTEGER,False,,False
2,2,tag,VARCHAR,False,,False
3,3,timestamp,TIMESTAMP WITH TIME ZONE,False,,False


### Comentários
 - A coluna "notnull boolean" indica 4 valores zeros.
 - Assim esta tabela aceita nulos ou NULL.
 - Como df foi carregado com read_csv_auto, DuckDB não aplica restrições de NOT NULL

 - Coluna flt_value mostra valor por defeito atribuído caso não seja especificado outro valor quando fazes um INSERT.
 - Nos datasets importados com read_csv_auto (como o MovieLens), esta coluna vai quase sempre aparecer como NULL

 - pk boolean indica se aquela coluna faz parte da chave primária da tabela
 - Não faz parte

In [71]:
#Ver primeiras 10 linhas
con.sql("SELECT * FROM tags LIMIT 10").df()

Unnamed: 0,userId,movieId,tag,timestamp
0,2,60756,funny,2015-10-24 20:29:54+01:00
1,2,60756,Highly quotable,2015-10-24 20:29:56+01:00
2,2,60756,will ferrell,2015-10-24 20:29:52+01:00
3,2,89774,Boxing story,2015-10-24 20:33:27+01:00
4,2,89774,MMA,2015-10-24 20:33:20+01:00
5,2,89774,Tom Hardy,2015-10-24 20:33:25+01:00
6,2,106782,drugs,2015-10-24 20:30:54+01:00
7,2,106782,Leonardo DiCaprio,2015-10-24 20:30:51+01:00
8,2,106782,Martin Scorsese,2015-10-24 20:30:56+01:00
9,7,48516,way too long,2007-01-25 01:08:45+00:00


In [72]:
# Contar o número total de linhas
con.sql("SELECT COUNT(*) AS total_registos FROM tags").df()

Unnamed: 0,total_registos
0,3683


In [73]:
#Contar o número de missing values
con.sql("""
SELECT
    COUNT(*) - COUNT(userId) AS missing_userId,
    COUNT(*) - COUNT(movieId) AS missing_movieId,
    COUNT(*) - COUNT(tag) AS missing_tag,
    COUNT(*) - COUNT(timestamp) AS missing_timestamp
FROM tags
""").df()

Unnamed: 0,missing_userId,missing_movieId,missing_tag,missing_timestamp
0,0,0,0,0


#### Fechar a ligação

In [74]:
con.close()
print("Ligação fechada.")

Ligação fechada.
