<a href="https://colab.research.google.com/github/Monaliisa/7daysofcode/blob/main/Analise_filmes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sobre o Projeto

Este notebook refere-se ao workshop **Explorando o Cinema com Dados: Análise de Filmes e Tendências Python** do evento **Mulher Tech Sim Senhor**.

Ele tem como objetivo explorar um conjunto de dados sobre filmes, utilizando a linguagem Python e bibliotecas populares como **[Pandas](https://pandas.pydata.org/)**, e **[Plotly](https://plotly.com/python/getting-started/)**.

Ao longo deste estudo, responderemos perguntas como:

- Quais são os gêneros mais comuns?

- Como o orçamento e a receita dos filmes se relacionam?

- Qual o número de filmes ao longo dos anos?



# Importação das bibliotecas


Antes de começarmos a análise, importamos as bibliotecas necessárias para manipulação e visualização dos dados.

In [None]:
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt


Os apelidos usados (como `pd`, `px` e `plt`) são convenções amplamente adotadas na comunidade Python e ajudam a tornar o código mais legível.

# Conhecendo os Dados

Utilizamos o comando `pd.read_csv()` para ler o arquivo CSV que contém as informações sobre os filmes. O argumento `encoding="ISO-8859-1"` é usado para garantir a correta interpretação de caracteres especiais, e `delimiter=';'` especifica que os dados estão separados por ponto e vírgula.

In [None]:
df = pd.read_csv('/content/base_de_filmes.csv', encoding='ISO-8859-1', delimiter=';')
df

Unnamed: 0,Título,Gênero,Ano de Lançamento,Orçamento (USD),Receita (USD),Avaliação IMDb
0,A Forma da Água,Ação,2008,5.400000e+08,,42
1,O Labirinto do Fauno,Comédia,2013,5.200000e+08,,72
2,Os Caça-Fantasmas,Aventura,2011,3.400000e+08,,47
3,Cisne Negro,Ação,1992,,1.840000e+09,43
4,A Bela e a Fera,Ficção Científica,2021,1.200000e+09,,54
...,...,...,...,...,...,...
95,Frozen,Comédia,2022,,3.400000e+09,35
96,Cães de Aluguel,Terror,2015,1.920000e+09,8.360000e+09,55
97,A Fantástica Fábrica de Chocolate,Suspense,2001,6.200000e+08,,37
98,Os Vingadores,Terror,1987,,,79


In [None]:
df.head(5)

Unnamed: 0,Título,Gênero,Ano de Lançamento,Orçamento (USD),Receita (USD),Avaliação IMDb
0,A Forma da Água,Ação,2008,540000000.0,,42
1,O Labirinto do Fauno,Comédia,2013,520000000.0,,72
2,Os Caça-Fantasmas,Aventura,2011,340000000.0,,47
3,Cisne Negro,Ação,1992,,1840000000.0,43
4,A Bela e a Fera,Ficção Científica,2021,1200000000.0,,54


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Título             100 non-null    object 
 1   Gênero             100 non-null    object 
 2   Ano de Lançamento  100 non-null    int64  
 3   Orçamento (USD)    51 non-null     float64
 4   Receita (USD)      46 non-null     float64
 5   Avaliação IMDb     100 non-null    int64  
dtypes: float64(2), int64(2), object(2)
memory usage: 4.8+ KB


# Tratamento de Dados

Antes da análise, é necessário lidar com valores ausentes e garantir que as colunas estejam no formato correto.

In [None]:
df.isnull().sum()

Unnamed: 0,0
Título,0
Gênero,0
Ano de Lançamento,0
Orçamento (USD),49
Receita (USD),54
Avaliação IMDb,0


In [None]:
df = df.fillna({'Orçamento (USD)': df['Orçamento (USD)'].median(), 'Receita (USD)': df['Receita (USD)'].median()})
df

Unnamed: 0,Título,Gênero,Ano de Lançamento,Orçamento (USD),Receita (USD),Avaliação IMDb
0,A Forma da Água,Ação,2008,5.400000e+08,4.434565e+09,42
1,O Labirinto do Fauno,Comédia,2013,5.200000e+08,4.434565e+09,72
2,Os Caça-Fantasmas,Aventura,2011,3.400000e+08,4.434565e+09,47
3,Cisne Negro,Ação,1992,9.629412e+08,1.840000e+09,43
4,A Bela e a Fera,Ficção Científica,2021,1.200000e+09,4.434565e+09,54
...,...,...,...,...,...,...
95,Frozen,Comédia,2022,9.629412e+08,3.400000e+09,35
96,Cães de Aluguel,Terror,2015,1.920000e+09,8.360000e+09,55
97,A Fantástica Fábrica de Chocolate,Suspense,2001,6.200000e+08,4.434565e+09,37
98,Os Vingadores,Terror,1987,9.629412e+08,4.434565e+09,79


# Gerando Dados

Uma métrica essencial na análise financeira de filmes é o lucro, que representa a diferença entre a receita e o orçamento. Aqui, subtraímos o valor investido na produção (Orçamento (USD)) da arrecadação total (Receita (USD)) para obter o lucro de cada filme.

In [None]:
df['Lucro (USD)'] = df['Receita (USD)'] - df['Orçamento (USD)']
df

Unnamed: 0,Título,Gênero,Ano de Lançamento,Orçamento (USD),Receita (USD),Avaliação IMDb,Lucro (USD)
0,A Forma da Água,Ação,2008,5.400000e+08,4.434565e+09,42,3.894565e+09
1,O Labirinto do Fauno,Comédia,2013,5.200000e+08,4.434565e+09,72,3.914565e+09
2,Os Caça-Fantasmas,Aventura,2011,3.400000e+08,4.434565e+09,47,4.094565e+09
3,Cisne Negro,Ação,1992,9.629412e+08,1.840000e+09,43,8.770588e+08
4,A Bela e a Fera,Ficção Científica,2021,1.200000e+09,4.434565e+09,54,3.234565e+09
...,...,...,...,...,...,...,...
95,Frozen,Comédia,2022,9.629412e+08,3.400000e+09,35,2.437059e+09
96,Cães de Aluguel,Terror,2015,1.920000e+09,8.360000e+09,55,6.440000e+09
97,A Fantástica Fábrica de Chocolate,Suspense,2001,6.200000e+08,4.434565e+09,37,3.814565e+09
98,Os Vingadores,Terror,1987,9.629412e+08,4.434565e+09,79,3.471624e+09


Para visualizar melhor os resultados, podemos exibir apenas as colunas de título e lucro:

In [None]:
print(df[['Título', 'Lucro (USD)']].head())

                 Título   Lucro (USD)
0       A Forma da Água  3.894565e+09
1  O Labirinto do Fauno  3.914565e+09
2     Os Caça-Fantasmas  4.094565e+09
3           Cisne Negro  8.770588e+08
4       A Bela e a Fera  3.234565e+09


# Análise Exploratória

## Distribuição de Gêneros

In [None]:
generos = df["Gênero"].value_counts()
generos

Unnamed: 0_level_0,count
Gênero,Unnamed: 1_level_1
Ação,20
Aventura,18
Comédia,17
Drama,11
Ficção Científica,9
Suspense,9
Terror,8
Romance,8


O código abaixo conta a quantidade de filmes por gênero e cria um gráfico de barras para visualizar essa distribuição

In [None]:
# Contagem de filmes por gênero
generos = df["Gênero"].value_counts().reset_index()
generos.columns = ["Gênero", "Quantidade"]

# Criando um gráfico de barras
fig = px.bar(generos, x="Gênero", y="Quantidade", title="Distribuição de Filmes por Gênero")
fig.show()


Aqui, o `df["Gênero"].value_counts()`, que conta o número de ocorrências de cada gênero no conjunto de dados. Em seguida, `reset_index()` transforma essa contagem em um **DataFrame adequado para manipulaçã**o. As colunas são renomeadas para "Gênero" e "Quantidade" para tornar a tabela mais legível. Por fim, `px.bar()` é usado para criar um gráfico de barras interativo que exibe a quantidade de filmes em cada gênero.



## Contagem de filmes lançados por ano

Contamos a quantidades de filmes com df["Ano de Lançamento"]. O `reset_index()` transforma essa contagem em um DataFrame, com as colunas sendo renomeadas para "Ano" e "Quantidade". O `sort_values("Ano")` organiza os anos em ordem **crescente**. O gráfico gerado com `px.line()` exibe a tendência do número de lançamentos ao longo do tempo.

In [None]:
# Contagem de filmes lançados por ano
filmes_por_ano = df["Ano de Lançamento"].value_counts().reset_index()
filmes_por_ano.columns = ["Ano", "Quantidade"]
filmes_por_ano = filmes_por_ano.sort_values("Ano")

# Gráfico de linha
fig = px.line(filmes_por_ano, x="Ano", y="Quantidade", title="Evolução do Número de Filmes por Ano")
fig.show()


## Orçamento x Receita

O código seleciona os **10 primeiros filmes** e exibe um **gráfico de barras agrupadas**, comparando orçamento e receita. O parâmetro `barmode="group"` coloca as barras lado a lado para facilitar a visualização. O comando `fig.update_layout(xaxis_tickangle=-45)` ajusta os rótulos para evitar sobreposição.

In [None]:
df_top10 = df[:10]

#Gráfico de barras agrupadas
fig = px.bar(df_top10,
             x="Título",
             y=["Receita (USD)", "Orçamento (USD)"],
             title="Comparação de Orçamento e Receita dos Filmes",
             labels={"value": "Valor em USD", "variable": "Categoria"},
             barmode="group")  # 'group' para barras lado a lado

fig.update_layout(xaxis_tickangle=-45)  # Rotaciona os rótulos do eixo X
fig.show()