<a href="https://colab.research.google.com/github/baladecanhao285/consultas-sql-filmes/blob/main/consultas_SQL_top1000_filmes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TRABALHO INDIVIDUAL: consultas SQL em base de dados sobre filmes**

> ###### ATEN√á√ÉO!
> ###### - Fa√ßa o upload do arquivo CSV no Colab;
> ###### - Ao lado, clique nos √≠cones de pasta e folha (com seta para cima) para come√ßar a transfer√™ncia.
> ###### - Clique no bot√£o play ‚ñ∂ em cada c√©lula para executar uma ap√≥s a outra.

> ### PR√â-PROCESSAMENTO DA BASE DE DADOS

In [None]:
# Prepara√ß√£o do ambiente
# Use a biblioteca Pandas para carregar o CSV e o SQLite para consultas SQL.
import pandas as pd
import sqlite3

In [None]:
# Carrega a planilha em formato CSV e salva a base de dados com o nome "filmes"
filmes = pd.read_csv('/content/Highest Holywood Grossing Movies.csv')

In [None]:
# Exibe primeiras linhas da base de dados
filmes.head(5)

In [None]:
# Mostra informa√ß√µes resumidas da base de dados inicial
filmes.info()

In [None]:
# Mostra todos os nomes das colunas da base de dados
filmes.columns

In [None]:
# Renomeia as colunas com nomes em PT-BR
filmes = filmes.rename(columns={
    'Title': 'Titulo',
    'Movie Info': 'Sinopse',
    'Year': 'Ano',
    'Distributor': 'Distribuidora',
    'Budget (in $)': 'Orcamento (US$)',
    'Domestic Opening (in $)': 'Abertura Domestica (US$)',
    'Domestic Sales (in $)': 'Vendas Domesticas (US$)',
    'International Sales (in $)': 'Vendas Internacionais (US$)',
    'World Wide Sales (in $)': 'Vendas Globais (US$)',
    'Release Date': 'Lancamento',
    'Genre': 'Genero',
    'Running Time': 'Duracao',
    'License': 'Licenca'
})

In [None]:
# Remove coluna 'Unnamed: 0' (elimina repeti√ß√£o da ordem num√©rica das linhas)
filmes = filmes.drop(columns=['Unnamed: 0'])

# Converte coluna 'Lancamento' para o formato datetime64 (data num√©rica)
filmes['Lancamento'] = pd.to_datetime(filmes['Lancamento'], format='%d-%b-%y')

# Formata a coluna de data para 'dia-mes-ano'
filmes['Lancamento'] = filmes['Lancamento'].dt.strftime('%d-%m-%Y')

In [None]:
# Salva o novo dataset
filmes.to_csv('filmes_modificado.csv', index=False)

print("Dataset modificado, datas convertidas, e foi salvo com sucesso!")

# Exibe primeiras linhas da base de dados modificada
filmes.head(5)

# PARTE II


> ### CONSULTAS SQL NA BASE DE DADOS MODIFICADA

In [None]:
# Conectar ao banco de dados SQLite
connect = sqlite3.connect(':memory:')
filmes.to_sql('filmes', connect, index=False, if_exists='replace')

1000

###### 1. Obtenha apenas os t√≠tulos dos filmes e seus or√ßamentos.

In [None]:
# Selecionar colunas espec√≠ficas
query = "SELECT Titulo, `Orcamento (US$)` FROM filmes;"
results = pd.read_sql_query(query, connect)
results

Unnamed: 0,Titulo,Orcamento (US$)
0,Avatar,237000000
1,Avengers: Endgame,356000000
2,Avatar: The Way of Water,December 14 2022 (EMEA APAC)
3,Titanic,200000000
4,Star Wars: Episode VII - The Force Awakens,245000000
...,...,...
995,Sweet Home Alabama,30000000
996,Daddy's Home 2,69000000
997,Hacksaw Ridge,40000000
998,Deja Vu,75000000


###### 2. Liste todos os filmes lan√ßados ap√≥s o ano 2000, mostrando o t√≠tulo e o ano de lan√ßamento.

In [None]:
# Filtrar resultados
query = "SELECT Titulo, Ano FROM filmes WHERE Ano > 2000;"
results = pd.read_sql_query(query, connect)
results

Unnamed: 0,Titulo,Ano
0,Avatar,2009
1,Avengers: Endgame,2019
2,Avatar: The Way of Water,2022
3,Star Wars: Episode VII - The Force Awakens,2015
4,Avengers: Infinity War,2018
...,...,...
781,Sweet Home Alabama,2002
782,Daddy's Home 2,2017
783,Hacksaw Ridge,2016
784,Deja Vu,2006


###### 3. Liste os t√≠tulos dos filmes ordenados pelas vendas globais em ordem crescente, mostrando os valores.

In [None]:
# Ordenar resultados
query = "SELECT Titulo, `Vendas Globais (US$)` FROM filmes ORDER BY `Vendas Globais (US$)`;"
results = pd.read_sql_query(query, connect)
results

Unnamed: 0,Titulo,Vendas Globais (US$)
0,M3GAN,179968873
1,Deja Vu,180557550
2,Hacksaw Ridge,180563636
3,Daddy's Home 2,180613824
4,Sweet Home Alabama,180622424
...,...,...
995,Star Wars: Episode VII - The Force Awakens,2071310218
996,Titanic,2264743305
997,Avatar: The Way of Water,2320250281
998,Avengers: Endgame,2799439100


###### 4. Conte quantos filmes da distribuidora "Walt Disney Studios Motion Pictures" existem na base de dados.

In [None]:
# Contar registros
query = "SELECT COUNT(*) FROM filmes WHERE Distribuidora = 'Walt Disney Studios Motion Pictures';"
results = pd.read_sql_query(query, connect)
print("A distribuidora Walt Disney Studios Motion Pictures possui", results.iloc[0, 0], "filmes.")

A distribuidora Walt Disney Studios Motion Pictures possui 159 filmes.


###### 5. Calcule a m√©dia de vendas globais dos filmes lan√ßados entre 1990 e 2000.

In [None]:
# Usar fun√ß√µes de agrega√ß√£o
query = "SELECT AVG(`Vendas Globais (US$)`) FROM filmes WHERE Ano BETWEEN 1990 AND 2000;"
results = pd.read_sql_query(query, connect)
media_vendas = format(results.iloc[0, 0], ',.2f')
print(f"A m√©dia de vendas dos filmes entre 1990 e 2000 √© de US$ {media_vendas}")

A m√©dia de vendas dos filmes entre 1990 e 2000 √© de US$ 326,914,920.76


######  6. Calcule o total de vendas globais de filmes por distribuidora.

In [None]:
# Agrupar resultados
query = "SELECT Distribuidora, SUM(`Vendas Globais (US$)`) AS Total_Vendas FROM filmes GROUP BY Distribuidora;"
results = pd.read_sql_query(query, connect)
results

Unnamed: 0,Distribuidora,Total_Vendas
0,,245179562
1,"$117,000,000",261989769
2,"$4,500,000",255745157
3,20th Century Studios,2651776879
4,AMC Theaters,197757387
...,...,...
67,Universal Pictures,54630707804
68,Vestron Pictures,214577242
69,Walt Disney Studios Motion Pictures,89495799187
70,Warner Bros.,70385715926


###### 7. Liste as distribuidoras que t√™m mais de 50 filmes.

In [None]:
# Filtrar Dados Agrupados com cl√°usula HAVING
query = "SELECT Distribuidora, COUNT(*) AS Total_Filmes FROM filmes GROUP BY Distribuidora HAVING Total_Filmes > 50;"
results = pd.read_sql_query(query, connect)
results

Unnamed: 0,Distribuidora,Total_Filmes
0,Paramount Pictures,93
1,Sony Pictures Entertainment (SPE),104
2,Twentieth Century Fox,123
3,Universal Pictures,130
4,Walt Disney Studios Motion Pictures,159
5,Warner Bros.,166


###### 8. Selecionar os filmes com maior venda dom√©stica e maior venda global, mostrando os valores.

In [None]:
# Selecionar o filme com maior venda dom√©stica
query = "SELECT Titulo, `Vendas Domesticas (US$)` FROM filmes WHERE `Vendas Domesticas (US$)` = (SELECT MAX(`Vendas Domesticas (US$)`) FROM filmes);"
results = pd.read_sql_query(query, connect)

# Formatar o valor das vendas com separadores de milhares
vendas_formatadas = format(results.iloc[0, 1], ',.2f')
print("O filme com maior venda dom√©stica √©:", results.iloc[0, 0], "com US$", vendas_formatadas)

O filme com maior venda dom√©stica √©: Star Wars: Episode VII - The Force Awakens com US$ 936,662,225.00


In [None]:
# Selecionar o filme com maior venda global
query = "SELECT Titulo, `Vendas Globais (US$)` FROM filmes WHERE `Vendas Globais (US$)` = (SELECT MAX(`Vendas Globais (US$)`) FROM filmes);"
results = pd.read_sql_query(query, connect)

# Formatar o valor das vendas com separadores de milhares
vendas_formatadas = format(results.iloc[0, 1], ',.2f')
print("O filme com maior venda global √©:", results.iloc[0, 0], "com US$", vendas_formatadas)

O filme com maior venda global √©: Avatar com US$ 2,923,706,026.00


###### Parab√©ns por chegar ao final deste notebook. Aproveite para salvar uma c√≥pia no seu Google Drive (no menu superior, clicando em Arquivo/Salvar uma c√≥pia no Drive). Bons estudos! ü§©