In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Análise Exploratória - IMDB TV Shows\n",
    "Este notebook realiza a análise dos dados transformados."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import matplotlib.pyplot as plt\n",
    "\n",
    "# Carregar o arquivo transformado\n",
    "file_path = '/mnt/data/imdb_top_5000_tv_shows_transformado.csv'\n",
    "df = pd.read_csv(file_path)\n",
    "print('Linhas e Colunas:', df.shape)\n",
    "print(df.head())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Análise de Qualidade dos Dados\n",
    "print('Valores nulos por coluna:')\n",
    "print(df.isnull().sum())\n",
    "\n",
    "print('Resumo estatístico:')\n",
    "print(df.describe())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Análise dos Gêneros\n",
    "if 'genre_list' in df.columns:\n",
    "    df_exploded = df.explode('genre_list')\n",
    "    genre_counts = df_exploded['genre_list'].value_counts()\n",
    "    print('Frequência dos gêneros:')\n",
    "    print(genre_counts)\n",
    "    genre_counts.plot(kind='bar', figsize=(10,6))\n",
    "    plt.xlabel('Gêneros')\n",
    "    plt.ylabel('Quantidade de TV Shows')\n",
    "    plt.title('Frequência de Gêneros nos Top 5000 TV Shows')\n",
    "    plt.xticks(rotation=45)\n",
    "    plt.show()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Relação entre Nota e Número de Votos\n",
    "correlacao = df['imdbRating'].corr(df['votes'])\n",
    "print('Correlação entre imdbRating e votes:', correlacao)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Evolução dos Ratings ao Longo dos Anos\n",
    "if 'year' in df.columns:\n",
    "    ratings_ano = df.groupby('year')['imdbRating'].mean().sort_index()\n",
    "    plt.figure(figsize=(10,5))\n",
    "    plt.plot(ratings_ano.index, ratings_ano.values, marker='o')\n",
    "    plt.xlabel('Ano')\n",
    "    plt.ylabel('Média do IMDB Rating')\n",
    "    plt.title('Evolução do IMDB Rating ao Longo dos Anos')\n",
    "    plt.grid(True)\n",
    "    plt.show()"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "name": "python",
   "version": "3.x"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
