## Projeto

### Objetivo do projeto:

* Realizar uma Análise Exploratória de Dados

#### Escopo do projeto:

1. Escolher um dataset;
2. Carregá-lo no PostgreSQL;
3. Realizar uma análise descritiva dos dados com o Visual Studio Code;
4. No VS COde, realizar Query para responder a, pelo menos, 10 perguntas sobre a vase de dados;
5. O projeto deve ser exportado em HTML para entregar ao professor.

### Questões para estruturar e alcançar o objetivo do projeto, conforme a delimitação do escopo.

1. Onde encontrar o dataset?
* Usei o Kaggle. Baixei este dataset: https://www.kaggle.com/datasets/shivamb/netflix-shows?resource=download. Netflix Movies and TV Shows.

2. Conectar Visual Studio Code com o PostgreSQL;
3. Importar o arquivo .csv para o PostgreSQL a partir do VS Code;
4. Usar o VS Code, conectado ao PostgreSQL para realizar as queries;
5. Exportar o projeto em HTML.

#### Vamos iniciar o projeto importando as bibliotecas:

In [28]:
# Bibliotecas para manipulação dos dados:

import pandas as pd 
import pandasql as ps


# Como conectar com o banco?
from sqlalchemy import create_engine

# SGBD://USER:SENHA@HOST/DATABASE

engine = create_engine('postgresql+psycopg2://postgres:SENHA@localhost:5433/postgres')
conn = engine.connect()



#### Criando um SCHEMA no banco de dados.
1. Projeto usa o PostgreSQL, então devemos criar um SCHEMA;
2. Para tanto, usei o método `execute()` com uma instância `text()`, usado para encapsular os comandos brutos de SQL, de forma segura,  criando um objeto que o SQLAlchemy reconhece como contendo uma instrução SQL que deve ser preparada e executada pelo banco de dados. Evitando injeção de SQL.
3. O comando SQL 'IF NOT EXISTS' é para garantir que não farei alguma besteira... rsrsrs.

In [2]:
from sqlalchemy import text

with engine.connect() as conn:
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS netflix;"))
    conn.commit()




#### Importando a tabela para o PostgreSQL.
1. Ler o arquivo CSV para um dataframe. A ideia é enviar esse dataframe para o banco de dados;
2. Usando o método `to_sql()`, quais arqumentos preciso passar?
* 'nome_da_tabela' - necessário definir o nome da tabela;
* con = engine - indicar a conexão criada com o banco;
* index = False - para não incluir o índice do dataframe como uma coluna da tabela;
* if_exists = 'replace' - substitui a tabela, caso ela já exista

`df.to_sql('nome_da_tabela', con=engine, index=False, if_exists='replace')`



In [31]:
# Caminho do seu arquivo CSV
arquivo_csv = 'netflix_titles.csv'

# Lendo o arquivo CSV
df = pd.read_csv(arquivo_csv)




In [28]:
# Enviando o DataFrame para uma nova tabela no PostgreSQL
df.to_sql('dadosnetflix', con=engine, schema='netflix', index=False, if_exists='replace')



807

#### Vamos rodar nossa primeira query e ver se deu tudo certo...

In [4]:
query = text("""
SELECT * FROM netflix.dadosnetflix;
""")

df = pd.read_sql_query(query, con=engine)

df


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,88 min,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."


#### Antes de começar as queries, vamos analisar as colunas.
1. Verificando o nome das colunas;
2. Tipo de dado de cada coluna;
3. Se é preenchimento obrigatório, ou não; ou 
4. Se possui um valor padrão.

A resposta está na execução do código.

In [33]:
query = text("""
SELECT
    column_name,
    data_type,
    is_nullable,
    column_default
FROM
    information_schema.columns
WHERE
    table_schema = 'netflix'
    AND table_name   = 'dadosnetflix';
""")

df = pd.read_sql_query(query, con = engine)

df


Unnamed: 0,column_name,data_type,is_nullable,column_default
0,show_id,text,YES,
1,type,text,YES,
2,title,text,YES,
3,director,text,YES,
4,cast,text,YES,
5,country,text,YES,
6,date_added,text,YES,
7,release_year,bigint,YES,
8,rating,text,YES,
9,duration,text,YES,


#### Resultado da análise:

1. São 12 colunas;
2. À exceção da linha de índice [7],bigint, todas as outras são do tipo 'text';
3. Nenhuma das colunas é de preenchimento obrigatório;
4. Nenhuma das colunas apresenta um valor padrão.

#### Analisando colunas com valores nulos.

In [43]:
query = text("""
SELECT
    COUNT(CASE WHEN show_id IS NULL THEN 1 END) AS nulos_show_id,
    COUNT(CASE WHEN type IS NULL THEN 1 END) AS nulos_type,
    COUNT(CASE WHEN title IS NULL THEN 1 END) AS nulos_title,
    COUNT(CASE WHEN director IS NULL THEN 1 END) AS nulos_director,
    COUNT(CASE WHEN "cast" IS NULL THEN 1 END) AS nulos_cast, -- cast é palavra reservada do SQL, por isso as aspas.
    COUNT(CASE WHEN country IS NULL THEN 1 END) AS nulos_country,
    COUNT(CASE WHEN date_added IS NULL THEN 1 END) AS nulos_date_added,
    COUNT(CASE WHEN release_year IS NULL THEN 1 END) AS nulos_release_year,
    COUNT(CASE WHEN rating IS NULL THEN 1 END) AS nulos_rating,
    COUNT(CASE WHEN duration IS NULL THEN 1 END) AS nulos_duration,
    COUNT(CASE WHEN listed_in IS NULL THEN 1 END) AS nulos_listed_in,
    COUNT(CASE WHEN description IS NULL THEN 1 END) AS nulos_description
FROM
    netflix.dadosnetflix;
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,nulos_show_id,nulos_type,nulos_title,nulos_director,nulos_cast,nulos_country,nulos_date_added,nulos_release_year,nulos_rating,nulos_duration,nulos_listed_in,nulos_description
0,0,0,0,2634,825,831,10,0,4,3,0,0


#### Resultado das colunas com valores nulos:
1. Director: 2634 valores nulos;
2. Cast: 825 valores nulos;
3. Country: 831 valores nulos;
4. Date_added: 10 valores nulos;
5. Rating: 4 valores nulos;
6. Duration: 3 vlaores nulos.

#### Mais algumas informações sobre as colunas:

1. A coluna 'show_id' possui letras e números. 
2. A coluna 'cast' é multivalorada e possui dependência com a coluna 'title'.
3. A coluna 'duration' pode receber valores de tempo em minutos, como de quantidade de temporadas. Essa informação é determinada pelo dado na coluna 'type'.
4. A coluna 'listed_in' é multivalorada e tem dependência com a coluna 'title'.

#### Após as análises... Que comecem os jogos!!! Vamos às Queries!

1. Qual o percentual de Movie e TV Show listados na Netflix?

In [13]:
query = text("""
    SELECT 
        type, 
        COUNT(*) AS "Número de Ocorrências",
        COUNT(*) * 100.0 / SUM(COUNT(*)) OVER () AS "Percentual"
    FROM 
        netflix.dadosnetflix
    GROUP BY 
        type
    ORDER BY 
        "Número de Ocorrências" DESC;
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,type,Número de Ocorrências,Percentual
0,Movie,6131,69.615079
1,TV Show,2676,30.384921


2. Quais os TOP 10 países com mais produções na Netflix?

In [21]:
query = text("""
SELECT 
    country,
    COUNT(*) AS count
FROM
    netflix.dadosnetflix
GROUP BY 
    country
ORDER BY 
    count DESC
LIMIT 10;
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,country,count
0,United States,2818
1,India,972
2,,831
3,United Kingdom,419
4,Japan,245
5,South Korea,199
6,Canada,181
7,Spain,145
8,France,124
9,Mexico,110


3. Quais os top 5 diretores de filmes mais listados na Netflix?

In [21]:
query = text("""
  SELECT
    director,
    COUNT(*) AS "Número de ocorrências"
  FROM 
    netflix.dadosnetflix
  WHERE
    director IS NOT NULL
  GROUP BY 
    director
  ORDER BY 
    "Número de ocorrências" DESC
  LIMIT 5;          
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,director,Número de ocorrências
0,Rajiv Chilaka,19
1,"Raúl Campos, Jan Suter",18
2,Marcus Raboy,16
3,Suhas Kadav,16
4,Jay Karas,14


4. Quantos títulos foram adicionados à Netflix a cada ano?

In [24]:
query = text("""
SELECT 
    EXTRACT(YEAR FROM TO_DATE(date_added, 'Month DD, YYYY')) AS year,
    COUNT(*) AS count
FROM 
    netflix.dadosnetflix
WHERE 
    date_added IS NOT NULL
GROUP BY 
    year
ORDER BY 
    year;
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,year,count
0,2008.0,2
1,2009.0,2
2,2010.0,1
3,2011.0,13
4,2012.0,3
5,2013.0,11
6,2014.0,24
7,2015.0,82
8,2016.0,429
9,2017.0,1188


5. Quais os filmes americanos que possuem duração fora da curva?

In [42]:
query = text("""
WITH quartiles AS (
  SELECT
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER)) AS Q1,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER)) AS Q3
  FROM netflix.dadosnetflix
  WHERE type = 'Movie' AND country LIKE '%United States%'
),
iqr AS (
  SELECT
    Q1,
    Q3,
    (Q3 - Q1) AS IQR
  FROM quartiles
)
SELECT
  title,
  CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) AS duration
FROM
  netflix.dadosnetflix,
  iqr
WHERE type = 'Movie'
  AND country LIKE '%United States%'
  AND (
    CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) < (Q1 - 1.5 * IQR) OR
    CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) > (Q3 + 1.5 * IQR)
  );
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,title,duration
0,Cristina,40
1,Clear and Present Danger,142
2,Cold Mountain,154
3,Once Upon a Time in America,229
4,The Guns of Navarone,156
...,...,...
219,War Horse,147
220,"We, the Marines",38
221,WWII: Report from the Aleutians,45
222,Wyatt Earp,191


6. Qual a média de duração dos filmes americanos, desconsiderando os "Outliers"?

In [43]:
query = text("""
WITH quartiles AS (
  SELECT
    PERCENTILE_CONT(0.25) WITHIN GROUP (ORDER BY CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER)) AS Q1,
    PERCENTILE_CONT(0.75) WITHIN GROUP (ORDER BY CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER)) AS Q3
  FROM netflix.dadosnetflix
  WHERE type = 'Movie' AND country LIKE '%United States%'
),
iqr AS (
  SELECT
    Q1,
    Q3,
    (Q3 - Q1) AS IQR
  FROM quartiles
),
filtered_movies AS (
  SELECT
    title,
    CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) AS duration
  FROM
    netflix.dadosnetflix,
    iqr
  WHERE type = 'Movie'
    AND country LIKE '%United States%'
    AND (
      CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) >= (Q1 - 1.5 * IQR)
      AND CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) <= (Q3 + 1.5 * IQR)
    )
)
SELECT
  AVG(duration) AS average_duration
FROM
  filtered_movies;
""")
df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,average_duration
0,95.13901


7. De acordo com a ANCINE, os filmes são classicados, quanto à duração, da seguinte forma:
* Curta-metragem: Filmes com duração igual ou inferior a 15 minutos;
* Média-metragem: Filmes com duração superior a 15 minutos e igual ou inferior a 70 minutos;
* Longa-metragem: Filmes com duração superior a 70 minutos.

Considerando a classificação da ANCINE, liste no banco de dados, os filmes de acordo com seu tempo de duração. Porém para manter tudo no inglês, use:
* Short - para curta=metragem;
* Medium - para média-metragem;
* Long - para longa-metragem.

In [14]:
query = text("""
SELECT
    title,
    CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) AS duration,
    CASE
        WHEN CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) <= 15 THEN 'Short'
        WHEN CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) > 15 AND CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) <= 70 THEN 'Medium'
        WHEN CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) > 70 THEN 'Long'
        ELSE 'Unknown'
    END AS duration_category
FROM
    netflix.dadosnetflix
WHERE
    type = 'Movie';
""")    

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,title,duration,duration_category
0,Dick Johnson Is Dead,90.0,Long
1,My Little Pony: A New Generation,91.0,Long
2,Sankofa,125.0,Long
3,The Starling,104.0,Long
4,Je Suis Karl,127.0,Long
...,...,...,...
6126,Zinzana,96.0,Long
6127,Zodiac,158.0,Long
6128,Zombieland,88.0,Long
6129,Zoom,88.0,Long


8. Quais são os top 5 títulos mais longos (em duração) na Netflix?

In [29]:
query = text("""
SELECT
    title,
    duration
FROM 
    netflix.dadosnetflix
WHERE 
    type = 'Movie' AND duration IS NOT NULL
ORDER BY 
    CAST(SPLIT_PART(duration, ' ', 1) AS INTEGER) DESC
LIMIT 5;
""")

df = pd.read_sql_query(query, con = engine)

df

Unnamed: 0,title,duration
0,Black Mirror: Bandersnatch,312 min
1,Headspace: Unwind Your Mind,273 min
2,The School of Mischief,253 min
3,No Longer kids,237 min
4,Lock Your Girls In,233 min


9. Quais os filmes classificados como "TV-MA" lançados em 2020.

In [30]:
query = text("""
SELECT 
    title, 
    release_year, 
    rating
FROM 
    netflix.dadosnetflix
WHERE 
    type = 'Movie' AND rating = 'TV-MA' AND release_year = 2020;
""")

df = pd.read_sql_query(query, con = engine)

df 

Unnamed: 0,title,release_year,rating
0,Europe's Most Dangerous Man: Otto Skorzeny in ...,2020,TV-MA
1,Omo Ghetto: the Saga,2020,TV-MA
2,Shadow Parties,2020,TV-MA
3,Here and There,2020,TV-MA
4,Really Love,2020,TV-MA
...,...,...,...
215,Leslie Jones: Time Machine,2020,TV-MA
216,Bulletproof 2,2020,TV-MA
217,"Live Twice, Love Once",2020,TV-MA
218,Ghost Stories,2020,TV-MA


10. Quais os 5 filmes que passaram mais tempo para serem adicionados na plataforma, desde que foram lançados?

In [31]:
query = text("""
SELECT 
    title,
    release_year,
    TO_DATE(date_added, 'FMMonth DD, YYYY') AS date_added_converted,
    EXTRACT(YEAR FROM TO_DATE(date_added, 'FMMonth DD, YYYY')) - CAST(release_year AS INTEGER) AS years_delay
FROM 
    netflix.dadosnetflix
WHERE 
    type = 'Movie'
ORDER BY 
    years_delay DESC
LIMIT 5;
""")

df = pd.read_sql_query(query, con = engine)

df 

Unnamed: 0,title,release_year,date_added_converted,years_delay
0,The Battle of Midway,1942,2017-03-31,75.0
1,Prelude to War,1942,2017-03-31,75.0
2,Why We Fight: The Battle of Russia,1943,2017-03-31,74.0
3,Undercover: How to Operate Behind Enemy Lines,1943,2017-03-31,74.0
4,WWII: Report from the Aleutians,1943,2017-03-31,74.0
