# Observação:

O dataset que escolhemos era separado por datas, então empilhamos os datasets em unico, deixando o estudo mais completo.

In [11]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import statistics
from scipy import stats

# Passo 1: Filtro dos dados

Alguns campos do dataset original, possuem uma lista a função abaixo faz

In [2]:
dados = pd.read_csv('./resultado_empilhado.csv')

In [3]:
dados = dados[dados['Year'] == 2023]

In [12]:
def analisar_dados(dados, variaveis):
    for variavel in variaveis:
        print(f"\nAnálise da variável: {variavel}")

        # Converter para numérico, tratando erros
        dados[variavel] = pd.to_numeric(dados[variavel], errors='coerce')

        # Remover NaN's após a conversão
        dados_limpos = dados.dropna(subset=[variavel])

        if dados_limpos[variavel].empty:
            print(f"  Não há dados numéricos válidos para {variavel}.")
            continue

        media = dados_limpos[variavel].mean()
        mediana = dados_limpos[variavel].median()
        moda = stats.mode(dados_limpos[variavel], keepdims=True)
        amplitude = dados_limpos[variavel].max() - dados_limpos[variavel].min()
        q1 = dados_limpos[variavel].quantile(0.25)
        q3 = dados_limpos[variavel].quantile(0.75)
        desvio_padrao = dados_limpos[variavel].std()
        assimetria = dados_limpos[variavel].skew()
        coeficiente_variacao = (desvio_padrao / media) * 100 if media != 0 else np.nan

        print(f"  Média: {media:.2f}")
        print(f"  Mediana: {mediana:.2f}")
        print(f"  Moda: {moda.mode[0]:.2f}")
        print(f"  Amplitude: {amplitude:.2f}")
        print(f"  Q1: {q1:.2f}")
        print(f"  Q3: {q3:.2f}")
        print(f"  Desvio Padrão: {desvio_padrao:.2f}")
        print(f"  Assimetria: {assimetria:.2f}")
        print(f"  Coeficiente de Variação: {coeficiente_variacao:.2f}%")

variaveis_analise = ['oscars', 'Rating', 'Votes', 'budget', 'grossWorldWide']
analisar_dados(dados.copy(), variaveis_analise)


Análise da variável: oscars
  Média: 0.12
  Mediana: 0.00
  Moda: 0.00
  Amplitude: 10.00
  Q1: 0.00
  Q3: 0.00
  Desvio Padrão: 0.69
  Assimetria: 9.57
  Coeficiente de Variação: 581.54%

Análise da variável: Rating
  Média: 6.39
  Mediana: 6.40
  Moda: 6.40
  Amplitude: 8.00
  Q1: 5.80
  Q3: 7.03
  Desvio Padrão: 1.02
  Assimetria: -0.42
  Coeficiente de Variação: 15.90%

Análise da variável: Votes
  Média: 349.02
  Mediana: 270.00
  Moda: 83.00
  Amplitude: 986.00
  Q1: 111.00
  Q3: 551.00
  Desvio Padrão: 277.12
  Assimetria: 0.69
  Coeficiente de Variação: 79.40%

Análise da variável: budget
  Média: 266695394.14
  Mediana: 30000000.00
  Moda: 20000000.00
  Amplitude: 27999999999.00
  Q1: 9900000.00
  Q3: 82500000.00
  Desvio Padrão: 2174235042.73
  Assimetria: 12.60
  Coeficiente de Variação: 815.25%

Análise da variável: grossWorldWide
  Média: 43223407.27
  Mediana: 1178149.00
  Moda: 5880.00
  Amplitude: 1446937140.00
  Q1: 138617.00
  Q3: 11958548.00
  Desvio Padrão: 1419861

# Conclusões

1. Oscars:

Distribuição Extremamente Assimétrica:<br/>
A média de Oscars (0.12) é muito baixa, a mediana e a moda são zero, e a assimetria é extremamente alta (9.57). Isso indica que a grande maioria dos filmes não ganha nenhum Oscar, e apenas alguns filmes ganham chegam a ganhar muitos.<br/>
O coeficiente de variação (581.54%) é altíssimo, o que confirma a grande dispersão dos dados.<br/>
Conclusão:<br/>
Ganhar um Oscar é um evento raro. A distribuição dos prêmios é altamente concentrada em um pequeno número de filmes.

2. Rating (Avaliação):

Distribuição Relativamente Simétrica:<br/>
A média (6.39) e a mediana (6.40) são muito próximas, o que indica uma distribuição relativamente simétrica.<br/>
A assimetria (-0.42) é baixa, o que confirma a simetria.<br/>
O coeficiente de variação é baixo, portanto os dados são bem concentrados.<br/>
Conclusão:<br/>
As avaliações dos filmes tendem a se concentrar em torno da média, com pouca variação.
3. Votes (Votos):

Distribuição Assimétrica:<br/>
A média (349.02) é maior que a mediana (270.00), o que indica uma assimetria positiva.<br/>
A moda (83.00) é bem menor que a mediana, o que confirma a assimetria.
Coeficiente de variação alto, mostrando grande dispersão.<br/>
Conclusão:<br/>
A maioria dos filmes recebe um número relativamente baixo de votos, mas alguns filmes recebem um número muito alto de votos.<br/>
4. Budget (Orçamento):

Distribuição Extremamente Assimétrica:<br/>
A média (266.695.394,14) é muito maior que a mediana (30.000.000,00), o que indica uma assimetria extremamente alta.<br/>
A amplitude e o desvio padrão são enormes, o que confirma a alta variabilidade.
O coeficiente de variação é altíssimo.<br/>
Conclusão:<br/>
A maioria dos filmes tem orçamentos relativamente baixos, mas alguns filmes têm orçamentos extremamente altos. A distribuição dos orçamentos é altamente concentrada em um pequeno número de filmes.
5. grossWorldWide (Receita Mundial):

Distribuição Altamente Assimétrica:<br/>
A média (43.223.407,27) é muito maior que a mediana (1.178.149,00), o que indica uma assimetria alta.
O coeficiente de variação é muito alto.<br/>
Conclusão:<br/>
A maioria dos filmes tem receitas relativamente baixas, mas alguns filmes têm receitas extremamente altas. A distribuição das receitas é altamente concentrada em um pequeno número de filmes.
<br/>
<br/>
Conclusões Gerais:
<br/>
<br/>
O coeficiente de variação é muito alto para as variáveis "oscars", "budget" e "grossWorldWide", o que confirma a alta variabilidade dos dados.
<br/>
O coeficiente de variação é considerável para a variável "Votes", mostrando uma dispersão considerável dos dados.
<br/>
O coeficiente de variação é o menor para a variável "Rating", o que indica que os dados estão mais concentrados em torno da média.