## 📊 Análise Exploratória do Dataset "Disney Plus Movies and TV Shows"

Nesta análise exploratória, iremos examinar o dataset do Disney Plus Movies and TV Shows, que contém informações sobre os filmes e programas de TV disponíveis na plataforma Disney Plus. O dataset fornece informações sobre os registros que nos permitirão extrair insights, são elas:

- `imdb_id`: Identificador único do filme ou série no IMDb.
- `title`: Título do filme ou série.
- `plot`: Sinopse ou resumo do enredo.
- `type`: Indica se é um filme ou uma série.
- `rated`: Classificação etária atribuída.
- `year`: Ano de lançamento.
- `released_at`: Data de lançamento.
- `added_at`: Data em que foi adicionado ao Disney Plus.
- `runtime`: Duração em minutos.
- `genre`: Gêneros ou categorias aos quais pertence.
- `director`: Diretor responsável pelo filme ou série.
- `writer`: Escritor ou roteirista do filme ou série.
- `actors`: Atores principais envolvidos no filme ou série.
- `language`: Idioma original do filme ou série.
- `country`: País de origem do filme ou série.
- `awards`: Prêmios ou reconhecimentos recebidos.
- `metascore`: Pontuação média do filme ou série no Metacritic.
- `imdb_rating`: Avaliação do filme ou série no IMDb.
- `imdb_votes`: Quantidade de votos no IMDb.

### 📚 Instalação de Bibliotecas e Importação da Base de Dados


Nesta etapa, vamos garantir que todas as bibliotecas necessárias estejam instaladas e importar a base de dados do Disney Plus Movies and TV Shows. Para isso, vamos utilizar as bibliotecas pandas e pandasql, que nos permitirão manipular e analisar os dados do dataset.

In [8]:
# Instalando e importando as bibliotecas necessárias

!pip install pandas
!pip install pandasql
!pip install sqlalchemy==1.4.46

import pandas as pd
import pandasql as ps
import os



In [9]:
# Baixando o dataset do GitHub

! git clone https://github.com/renadeveloper/course_betech_database

fatal: destination path 'course_betech_database' already exists and is not an empty directory.


In [10]:
# Carregando o dataset

dados_disney = pd.read_csv('course_betech_database/disney_plus_shows.csv')
ps.sqldf("SELECT * FROM dados_disney LIMIT 10")

Unnamed: 0,imdb_id,title,plot,type,rated,year,released_at,added_at,runtime,genre,director,writer,actors,language,country,awards,metascore,imdb_rating,imdb_votes
0,tt0147800,10 Things I Hate About You,"A pretty, popular teenager can't go out on a d...",movie,PG-13,1999,31 Mar 1999,"November 12, 2019",97 min,"Comedy, Drama, Romance",Gil Junger,"Karen McCullah, Kirsten Smith","Heath Ledger, Julia Stiles, Joseph Gordon-Levi...","English, French",USA,2 wins & 13 nominations.,70.0,7.3,283945
1,tt7019028,101 Dalmatian Street,This series follows the lives of Delilah and D...,series,,2018–,25 Mar 2019,"February 28, 2020",,"Animation, Comedy, Family",,,"Josh Brener, Michaela Dietz, Bert Davis, Abiga...",English,"UK, USA, Canada",,,6.2,124
2,tt0115433,101 Dalmatians,An evil high-fashion designer plots to steal D...,movie,G,1996,27 Nov 1996,"November 12, 2019",103 min,"Adventure, Comedy, Crime, Family",Stephen Herek,"Dodie Smith (novel), John Hughes (screenplay)","Glenn Close, Jeff Daniels, Joely Richardson, J...","English, Spanish","USA, UK",Nominated for 1 Golden Globe. Another 3 wins &...,49.0,5.7,97785
3,tt0324941,101 Dalmatians 2: Patch's London Adventure,"Being one of 101 takes its toll on Patch, who ...",movie,G,2002,21 Jan 2003,"November 12, 2019",74 min,"Animation, Adventure, Comedy, Family, Musical","Jim Kammerud, Brian Smith","Jim Kammerud (story), Dan Root (story), Garret...","Barry Bostwick, Jason Alexander, Martin Short,...",English,USA,5 wins & 10 nominations.,,5.8,7434
4,tt0211181,102 Dalmatians,Cruella DeVil gets out of prison and goes afte...,movie,G,2000,22 Nov 2000,"November 12, 2019",100 min,"Adventure, Comedy, Family",Kevin Lima,"Dodie Smith (novel), Kristen Buckley (story), ...","Glenn Close, Gérard Depardieu, Ioan Gruffudd, ...",English,"USA, UK",Nominated for 1 Oscar. Another 1 win & 7 nomin...,35.0,4.9,33444
5,tt1846442,12 Dates of Christmas,"A story that follows Kate, a young woman who a...",movie,PG,2011,11 Dec 2011,"November 12, 2019",90 min,"Comedy, Fantasy, Romance",James Hayman,"Aaron Mendelsohn (teleplay), Janet Brownell (t...","Laura Miyata, Vijay Mehta, Amy Smart, Audrey D...",English,USA,1 nomination.,,6.3,4933
6,tt0046672,"20,000 Leagues Under the Sea",A ship sent to investigate a wave of mysteriou...,movie,G,1954,20 Jul 1955,"November 12, 2019",127 min,"Adventure, Drama, Family, Fantasy, Sci-Fi",Richard Fleischer,Earl Felton (screenplay),"Kirk Douglas, James Mason, Paul Lukas, Peter L...",English,USA,Won 2 Oscars. Another 3 wins & 3 nominations.,83.0,7.2,27761
7,tt0120623,A Bug's Life,"A misfit ant, looking for ""warriors"" to save h...",movie,G,1998,25 Nov 1998,"November 12, 2019",95 min,"Animation, Adventure, Comedy, Family","John Lasseter, Andrew Stanton(co-director)","John Lasseter (original story by), Andrew Stan...","Dave Foley, Kevin Spacey, Julia Louis-Dreyfus,...",English,USA,Nominated for 1 Oscar. Another 14 wins & 20 no...,77.0,7.2,257065
8,tt12076020,A Celebration of the Music from Coco,,movie,,2020,10 Apr 2020,"April 10, 2020",,Music,Ron de Moraes,,"Benjamin Bratt, Eva Longoria",English,USA,,,7.6,35
9,tt0113198,A Goofy Movie,When Max makes a preposterous promise to a gir...,movie,G,1995,07 Apr 1995,"November 12, 2019",78 min,"Animation, Adventure, Comedy, Family, Musical,...",Kevin Lima,"Jymn Magon (story), Jymn Magon (screenplay), C...","Bill Farmer, Jason Marsden, Jim Cummings, Kell...",English,"USA, Australia, France, Canada",5 nominations.,,6.8,43655


### 📈 Análise Descritiva


Nesta seção, realizaremos uma análise descritiva dos dados do dataset do Disney Plus Movies and TV Shows e explorar as informações contidas nas colunas.

#### Qual a tipagem dos dados?

In [11]:
dados_disney.dtypes

imdb_id         object
title           object
plot            object
type            object
rated           object
year            object
released_at     object
added_at        object
runtime         object
genre           object
director        object
writer          object
actors          object
language        object
country         object
awards          object
metascore      float64
imdb_rating    float64
imdb_votes      object
dtype: object

#### Quantos nulos temos em cada coluna?

In [12]:
dados_disney.isnull().sum()

imdb_id         98
title           98
plot           126
type            98
rated          250
year            98
released_at    118
added_at         0
runtime        154
genre          107
director       303
writer         249
actors         122
language       127
country        123
awards         436
metascore      700
imdb_rating    113
imdb_votes     113
dtype: int64

#### Quantos valores únicos temos nas colunas categóricas?

In [13]:
# Para saber de outras colunas categóricas basta substituir type pelo nome da outra coluna

dados_disney['type'].value_counts()

movie      680
series     191
episode     23
Name: type, dtype: int64

### 🤔 Querys


#### Quantos filmes tem na base de dados?

In [14]:
ps.sqldf("SELECT count(*) AS qtd_filmes FROM dados_disney WHERE type = 'movie'")

Unnamed: 0,qtd_filmes
0,680


#### Quantos filmes a base de dados possui, que foram produzidos antes dos anos 2000?

In [15]:
ps.sqldf("SELECT count(*) AS total_filmes_antes_de_2000 FROM dados_disney WHERE type = 'movie' AND year < 2000 ")

Unnamed: 0,total_filmes_antes_de_2000
0,283


#### Os 10 programas com maior quantidade de votos no IMDB.

In [16]:
ps.sqldf("SELECT title AS 'Titulo', imdb_votes AS 'Votos no IMDB' , type AS 'Estilo', imdb_rating AS 'Notas IMDB', year AS 'Ano de criação' FROM dados_disney ORDER BY imdb_votes DESC LIMIT 10")

Unnamed: 0,Titulo,Votos no IMDB,Estilo,Notas IMDB,Ano de criação
0,The Incredible Dr. Pol,999,series,8.6,2011–
1,Elena of Avalor,998,series,6.4,2016–
2,Boat Builders,993,movie,7.3,1938
3,Pirates of the Caribbean: The Curse of the Bla...,992127,movie,8.0,2003
4,Elmer Elephant,991,movie,7.0,1936
5,Lamp Life,980,movie,6.7,2020
6,Atlantis: The Lost Empire,98258,movie,6.9,2001
7,101 Dalmatians,97785,movie,5.7,1996
8,The Good Dinosaur,97413,movie,6.7,2015
9,Willow,97309,movie,7.3,1988


#### Os 10 programas com a melhor pontuação IMDB, seus anos de lançamento e gênero/categoria.


In [17]:
ps.sqldf("SELECT title AS 'Título', imdb_rating AS 'Notas IMDB', type AS 'Estilo', year AS 'Ano de lançamento', genre AS 'Gênero' FROM dados_disney ORDER BY imdb_rating DESC LIMIT 10")

Unnamed: 0,Título,Notas IMDB,Estilo,Ano de lançamento,Gênero
0,Bluey,9.7,series,2018–,Animation
1,The Imagineering Story,9.1,series,2019–,Documentary
2,Gravity Falls,8.9,series,2012–2016,"Animation, Action, Adventure, Comedy, Family, ..."
3,"Dr. T, Lone Star Vet",8.9,series,2019–,Reality-TV
4,Muppet Moments,8.8,series,2015–,"Short, Family"
5,One Strange Rock,8.8,series,2018–,Documentary
6,Lost Cities with Albert Lin,8.7,series,2019–,"Documentary, History"
7,Star Wars: Episode V - The Empire Strikes Back,8.7,movie,1980,"Action, Adventure, Fantasy, Sci-Fi"
8,The Mandalorian,8.7,series,2019–,"Action, Adventure, Sci-Fi"
9,The Simpsons,8.7,series,1989–,"Animation, Comedy"


#### 10 principais categorias de programas adicionados ao Disney Plus em 2020.

In [18]:
ps.sqldf("SELECT genre AS 'Gênero' FROM dados_disney WHERE added_at LIKE '%2020%' LIMIT 10")

Unnamed: 0,Gênero
0,"Animation, Comedy, Family"
1,Music
2,"Adventure, Family"
3,"Adventure, Family, Fantasy, Sci-Fi"
4,"Adventure, Family, Fantasy, Musical, Romance"
5,"Family, Comedy, Animation, Short"
6,"Comedy, Family, Reality-TV"
7,Documentary
8,"Action, Adventure, Comedy, Family, Western"
9,"Comedy, Family, Music"


####10 filmes lançados antes de 2000 do gênero Animação e com nota no IMDB > 8 adicionados no Disney Plus

In [19]:
ps.sqldf("SELECT title AS 'Título', imdb_rating AS 'Nota IMDB', released_at AS 'Data de lançamento', added_at AS 'Data de lançamento no Disney Plus' FROM dados_disney WHERE genre LIKE '%Documentary%' AND imdb_rating > 8 LIMIT 10" )

Unnamed: 0,Título,Nota IMDB,Data de lançamento,Data de lançamento no Disney Plus
0,Before the Flood,8.3,30 Oct 2016,"November 12, 2019"
1,Brain Games,8.3,09 Oct 2011,"November 12, 2019"
2,Empire of Dreams: The Story of the 'Star Wars'...,8.3,20 Sep 2004,"November 12, 2019"
3,Expedition Mars,8.1,16 Nov 2016,"November 12, 2019"
4,Free Solo,8.2,13 Dec 2018,"November 12, 2019"
5,Great Migrations,8.1,07 Nov 2010,"November 12, 2019"
6,Hostile Planet,8.2,01 Apr 2019,"November 12, 2019"
7,In the Footsteps of Elephant,8.1,03 Apr 2020,"April 3, 2020"
8,Kingdom of the White Wolf,8.2,25 Aug 2019,"November 12, 2019"
9,Lost Cities with Albert Lin,8.7,01 Oct 2019,"February 21, 2020"


####10 filmes lançados antes de 2000 do gênero Familia e com nota no IMDB > 8 adicionados no Disney Plus

In [20]:
ps.sqldf("SELECT title AS 'Título', imdb_rating AS 'Nota IMDB', released_at AS 'Data de lançamento', added_at AS 'Data de lançamento no Disney Plus' FROM dados_disney WHERE genre LIKE '%Family%' AND year <2000 AND imdb_rating > 8 LIMIT 10" )

Unnamed: 0,Título,Nota IMDB,Data de lançamento,Data de lançamento no Disney Plus
0,Boy Meets World,8.1,24 Sep 1993,"November 12, 2019"
1,DuckTales,8.1,18 Sep 1987,"November 12, 2019"
2,Gargoyles,8.1,24 Oct 1994,"November 12, 2019"
3,Spider-Man: The Animated Series,8.3,19 Nov 1994,"November 12, 2019"
4,X-Men: The Animated Series,8.4,31 Oct 1992,"November 12, 2019"
5,Mickey's Christmas Carol,8.1,16 Dec 1983,"November 12, 2019"
6,Prowlers of the Everglades,8.1,23 Jul 1953,"May 1, 2020"
7,So Weird,8.5,18 Jan 1999,"November 12, 2019"
8,The Adventures of Spin and Marty,8.2,04 Nov 1955,"November 12, 2019"
9,The Lion King,8.5,24 Jun 1994,"November 12, 2019"


####10 programas adicionados no Disney Plus com maior nota no IMDB lançados após 2000


In [21]:
ps.sqldf("SELECT title AS 'Título', genre AS 'Gênero', imdb_rating AS 'Nota IMDB', released_at AS 'Data de lançamento', added_at AS 'Data de lançamento no Disney Plus' FROM dados_disney WHERE year >2000 ORDER BY imdb_rating DESC LIMIT 10" )

Unnamed: 0,Título,Gênero,Nota IMDB,Data de lançamento,Data de lançamento no Disney Plus
0,Bluey,Animation,9.7,09 Sep 2019,"January 22, 2020"
1,The Imagineering Story,Documentary,9.1,12 Nov 2019,"November 12, 2019"
2,Gravity Falls,"Animation, Action, Adventure, Comedy, Family, ...",8.9,15 Jun 2012,"November 12, 2019"
3,"Dr. T, Lone Star Vet",Reality-TV,8.9,13 Oct 2019,"January 1, 2020"
4,Muppet Moments,"Short, Family",8.8,03 Apr 2015,"November 12, 2019"
5,One Strange Rock,Documentary,8.8,26 Mar 2018,"January 1, 2020"
6,Lost Cities with Albert Lin,"Documentary, History",8.7,01 Oct 2019,"February 21, 2020"
7,The Mandalorian,"Action, Adventure, Sci-Fi",8.7,12 Nov 2019,"November 12, 2019"
8,The Incredible Dr. Pol,"Documentary, Reality-TV",8.6,,"November 12, 2019"
9,Disney's Newsies: The Broadway Musical!,Musical,8.5,16 Feb 2017,"November 12, 2019"


#### Quais programas não estadunidenses possui a base?

In [22]:
ps.sqldf("SELECT title AS 'Título', type AS 'Tipo de programa', country AS 'País' FROM dados_disney WHERE country NOT LIKE '%USA%'" )

Unnamed: 0,Título,Tipo de programa,País
0,Atlantis Rising,movie,Canada
1,Bluey,series,"Australia, UK"
2,Deep Blue,movie,"UK, Germany"
3,Diana: In Her Own Words,movie,UK
4,Bad Hair Day,movie,Canada
5,Drain the Oceans,series,"UK, Australia"
6,Drain the Sunken Pirate City,movie,UK
7,The New Yoda Chronicles: Clash of the Skywalkers,movie,"Denmark, China"
8,The New Yoda Chronicles: Raid on Coruscant,movie,"Denmark, China"
9,The New Yoda Chronicles: Escape from the Jedi ...,movie,"Denmark, China"


#### Quantos programas ganharam algum tipo de premiação?

In [23]:
ps.sqldf("SELECT count(*) AS total_filmes_premiados FROM dados_disney WHERE awards LIKE '%win%' ")

Unnamed: 0,total_filmes_premiados
0,376


#### Dos programas não estadunidenses da consulta anterior, quais deles possui premiação?

In [24]:
ps.sqldf("SELECT title AS 'Título', type AS 'Tipo de programa', country AS 'País', awards AS 'Premiação' FROM dados_disney WHERE country NOT LIKE '%USA%' AND awards LIKE '%win%'"  )

Unnamed: 0,Título,Tipo de programa,País,Premiação
0,Bluey,series,"Australia, UK",4 wins.
1,Diana: In Her Own Words,movie,UK,2 wins.
2,Drain the Oceans,series,"UK, Australia",1 win.
3,Millions,movie,UK,2 wins & 7 nominations.
4,PJ Masks,series,"France, UK",2 wins & 6 nominations.
5,Violetta,series,Argentina,1 win & 2 nominations.


### 💡 Conclusões

Algumas análises que pudemos fazer relacionada ao dataset de programação do Disney Plus são:
- O tipo de programa que tem mais variedades na plataforma são os filmes, a base conta com 76% de filmes, 21% de séries e 3% de episódios isolados;
- A maior parte dos filmes adicionados a plataforma foram produzidos após os anos 2000, cerca de 58%;
- Nenhum dos 10 programas mais votados estão entre os 10 programas com melhor pontuação IMDB;
- Os gêneros com as maiores quantidades de programas na base de dados são comédia e família, porém o gênero presente mais vezes entre os 10 programas com as melhores avaliações foi documentário;
- A base de dados possui apenas 25 programas que não foram produzidos nos Estados Unidos, ou seja, apenas 2,8% do total de programas e, entre eles, apenas 6 possuem algum tipo de premiação, 1,6% da relação de programas premiados da base;
