# Projeto análise de filmes 

*Nome:* Bruna Bellini

Nesse mini projeto irei utilizar o dataset criado pelo IMDb que contém uma lista de filmes com pontuação de 6 ou mais, além de informações como orçamento, gastos bruto e gênero, de 2006 até 2016.

Esse projeto será composto por alguns passos com ajustes do dataset, análise e aplicação no Power BI e para resultado final criarei e apresentarei com essas análises um dashboard de dados para que todos possam ter acesso aos principais dados e análises relacionados a esses filmes. 

Para maior entendimento dos dados que serão apresentados, deixo abaixo uma tradução das colunas para o português do Brasil.

|COLUNA|SIGNIFICADO EM PORTUGUÊS|
|-----------|-----------|
|Rank|Posição de classificação|
|Title|Título|
|Genre|Gênero|
|Description|Descrição|
|Director|Diretor|
|Actors|Atores|
|Year|Ano de lançamento|
|Runtime (Minutes)|Duração (Minutos)
|Rating	Votes|Média de pontuação|
|Revenue (Millions)|Receita (Milhões)
|Metascore|Pontuação Metascore (https://www.metacritic.com/about-metacritic)|

## Ajustes no dataset

Aqui iremos testar os código que mais adiante serão utilizados na integração de Python com Power BI

### Importando dataset

In [1]:
# importando csv com a biblioteca pandas
import pandas as pd
df_filmes = pd.read_csv("IMDB-Movie-Data.csv")

In [2]:
# imprimindo as 5 primeiras linhas do dataset para verificar se está tudo certo
df_filmes.head()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


In [3]:
# vendo qual tipo de cada coluna e informações nulas
df_filmes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Rank                1000 non-null   int64  
 1   Title               1000 non-null   object 
 2   Genre               1000 non-null   object 
 3   Description         1000 non-null   object 
 4   Director            1000 non-null   object 
 5   Actors              1000 non-null   object 
 6   Year                1000 non-null   int64  
 7   Runtime (Minutes)   1000 non-null   int64  
 8   Rating              1000 non-null   float64
 9   Votes               1000 non-null   int64  
 10  Revenue (Millions)  872 non-null    float64
 11  Metascore           936 non-null    float64
dtypes: float64(3), int64(4), object(5)
memory usage: 93.9+ KB


In [4]:
# removendo linhas que tenham algum elemento nulo
df_filmes = df_filmes.dropna().reset_index()
print(df_filmes)

     index  Rank                     Title                     Genre  \
0        0     1   Guardians of the Galaxy   Action,Adventure,Sci-Fi   
1        1     2                Prometheus  Adventure,Mystery,Sci-Fi   
2        2     3                     Split           Horror,Thriller   
3        3     4                      Sing   Animation,Comedy,Family   
4        4     5             Suicide Squad  Action,Adventure,Fantasy   
..     ...   ...                       ...                       ...   
833    993   994  Resident Evil: Afterlife   Action,Adventure,Horror   
834    994   995                 Project X                    Comedy   
835    996   997           Hostel: Part II                    Horror   
836    997   998    Step Up 2: The Streets       Drama,Music,Romance   
837    999  1000                Nine Lives     Comedy,Family,Fantasy   

                                           Description              Director  \
0    A group of intergalactic criminals are forced ... 

In [5]:
# removendo as colunas que não iremos precisar já que os temos o índice e as outras colunas para 
df_filmes.drop(["index", "Rank"], axis=1, inplace=True)

In [6]:
# verificando alterações feitas no dataset
df_filmes

Unnamed: 0,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0
...,...,...,...,...,...,...,...,...,...,...,...
833,Resident Evil: Afterlife,"Action,Adventure,Horror",While still out to destroy the evil Umbrella C...,Paul W.S. Anderson,"Milla Jovovich, Ali Larter, Wentworth Miller,K...",2010,97,5.9,140900,60.13,37.0
834,Project X,Comedy,3 high school seniors throw a birthday party t...,Nima Nourizadeh,"Thomas Mann, Oliver Cooper, Jonathan Daniel Br...",2012,88,6.7,164088,54.72,48.0
835,Hostel: Part II,Horror,Three American college students studying abroa...,Eli Roth,"Lauren German, Heather Matarazzo, Bijou Philli...",2007,94,5.5,73152,17.54,46.0
836,Step Up 2: The Streets,"Drama,Music,Romance",Romantic sparks occur between two dance studen...,Jon M. Chu,"Robert Hoffman, Briana Evigan, Cassie Ventura,...",2008,98,6.2,70699,58.01,50.0


## Ações no Power BI

**1-** Entre no seu Power BI e clique no menu de opções "Get data", depois em "outros" e escolha a opção de "Python Script"

**2-** Nele você pode digitar o código encontrado no arquivo "Python Script", caso queira mais detalhes das ações você pode verificar neste caderno na parte acima

**3-** Vemos que depois de clicar em "Transform data" temos o dataset e podemo fazer algumas alterações nele,para o dataset de filmes:

*a.* Primeiramente renomeei as colunas para não terem letras maiúscula que podem atrapalhar em um futuro próximo

*b.* Depois verifiquei se cada tipo da coluna (numérica, alfabética...) estava correspondente ao seu conteúdo na coluna, com isso notei alguns erros e realizei a conversão (dica: em caso de números decimais converta o ponto por virgula sempre que necessário)

**4-** Criei agora uma visualização pensando nos dados que temos e as informações importantes para que os usuários possam usufruir para insights e entendimentos

*a.* Colocando cards com categorias básicas como média do score do IMDb, soma dos filmes e número de votos filtrados pelo dataset

*b.* Colocando filtro para conseguir filtrar os dados do dataset por gêneros e ou atores específicos, também nesses filtros você consegue buscar escrevendo palavras ou parte de palavras que você deseja incluir e selecionar mais de uma opção com o CRTL selecionado

*c.* Criando gráfico de linha que contenha média de metascore, junto com média de receita em milhões e quantidade de filmes para que se possa analisar e explorar relações com essas curvas variando de acordo com os dados escolhidos

*d.* Colocando uma nuvem de palavras que retira palavras comuns como artigos, preposições das descrições de filmes, para que possamos também filtrar os dados do dataset por palavras e estudar possíveis relações das palavras com por exemplo gênero, ator e muito mais

*e.* Colocando para aparecer o filme de melhor score seguindo os filtros ou não que colocamos no dashboard interativo