# Analisando o conjunto dos dados de Series de TV
link: https://www.kaggle.com/datasets/priyanshuganwani09/entertainment-movies-tv-shows-database
<br><br>
O conjunto de dados criado para prever a taxa de sucesso de programas de TV e filmes em streaming usando modelos de aprendizado de máquina. Esses conjuntos de dados consistem em informações dos usuários. Esses conjuntos de dados podem ser usados ​​para entender as preferências e o comportamento do público em relação a diferentes tipos de conteúdo.

## Limpando duplicatas

In [1]:
import pandas as pd

In [2]:
#Importando o arquivo
file = '../data/trending.csv'
ds = pd.read_csv(file)
ds.drop(ds.columns[0], axis='columns', inplace=True)
ds.head()

Unnamed: 0,id,original_title,original_language,release_date,popularity,vote_average,vote_count,media_type,adult
0,638974,Murder Mystery 2,English,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,English,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,English,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,English,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Korean,2023-02-17,33.985,6.9,39,movie,False


In [3]:
print('Quantidade de linhas: {}.'.format(ds.shape[0]))
print('Quantidade de colunas: {}.'.format(ds.shape[1]))

Quantidade de linhas: 16080.
Quantidade de colunas: 9.


In [4]:
ds.drop_duplicates(inplace=True)

In [5]:
print('Quantidade de linhas: {}.'.format(ds.shape[0]))
print('Quantidade de colunas: {}.'.format(ds.shape[1]))

Quantidade de linhas: 20.
Quantidade de colunas: 9.


## Tradução

### Titulo das colunas

In [6]:
ds.columns

Index(['id', 'original_title', 'original_language', 'release_date',
       'popularity', 'vote_average', 'vote_count', 'media_type', 'adult'],
      dtype='object')

In [7]:
rename = {
    'id': 'id',
    'original_title': 'titulo',
    'original_language': 'lingua_original',
    'release_date': 'lancamento',
    'popularity' : 'popularidade',
    'vote_average' : 'media_dos_votos',
    'vote_count' : 'qtds_votos',
    'media_type': 'tipo_de_midia',
    'adult': 'adulto'
}
ds.rename(columns=rename, inplace=True)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,English,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,English,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,English,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,English,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Korean,2023-02-17,33.985,6.9,39,movie,False


### Coluna "lingua_original"

In [8]:
ds.lingua_original.unique()

array(['English', 'Korean', 'Spain', 'Chinese', 'Japanese'], dtype=object)

In [9]:
rename = {
    'English' : 'Inglês',
    'Korean' : 'Coreano',
    'Spain' : 'Espanhol' ,
    'Chinese' : 'Chines',
    'Japanese' : 'Japones'    
}
ds.lingua_original = ds.lingua_original.map(rename)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Inglês,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,Inglês,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,Inglês,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,Inglês,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Coreano,2023-02-17,33.985,6.9,39,movie,False


In [10]:
ds.lingua_original.unique()

array(['Inglês', 'Coreano', 'Espanhol', 'Chines', 'Japones'], dtype=object)

### Coluna "tipo_de_midia"

In [11]:
ds.tipo_de_midia.unique()

array(['movie', 'tv'], dtype=object)

In [12]:
rename = {
    'movie' : 'Filme',
    'tv' : 'Tv'    
}
ds.tipo_de_midia = ds.tipo_de_midia.map(rename)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Inglês,2023-03-26,235.901,6.8,187,Filme,False
1,677179,Creed III,Inglês,2023-03-01,1537.879,7.2,561,Filme,False
2,726759,Tetris,Inglês,2023-03-15,66.661,7.7,100,Filme,False
3,76600,Avatar: The Way of Water,Inglês,2022-12-14,10224.28,7.742,6335,Filme,False
4,849869,길복순,Coreano,2023-02-17,33.985,6.9,39,Filme,False


In [13]:
ds.tipo_de_midia.unique()

array(['Filme', 'Tv'], dtype=object)

## Analisando a qualidade dos dados

In [14]:
quant_lin_1, quant_colun_1 = ds.shape[0], ds.shape[1]
print('O conjunto contem {} linhas e {} colunas.'.format(quant_lin_1, quant_colun_1))
print('Quantidade de dados nulos:')
quant_nul_1 = ds.isna().sum().sum()
ds.isna().sum()

O conjunto contem 20 linhas e 9 colunas.
Quantidade de dados nulos:


id                 0
titulo             5
lingua_original    0
lancamento         5
popularidade       0
media_dos_votos    0
qtds_votos         0
tipo_de_midia      0
adulto             0
dtype: int64

In [15]:
ds.dropna(subset=["titulo"], inplace=True)

In [16]:
quant_lin_2, quant_colun_2 = ds.shape[0], ds.shape[1]
print('O conjunto contem {} linhas e {} colunas.'.format(quant_lin_2, quant_colun_2))
print('Quantidade de dados nulos:')
quant_nul_2 = ds.isna().sum().sum()
ds.isna().sum()

O conjunto contem 15 linhas e 9 colunas.
Quantidade de dados nulos:


id                 0
titulo             0
lingua_original    0
lancamento         0
popularidade       0
media_dos_votos    0
qtds_votos         0
tipo_de_midia      0
adulto             0
dtype: int64

In [17]:
print('Pré tratamento: {} linhas e {} Colunas e {} dados nulos.'.format(quant_lin_1, quant_colun_1, quant_nul_1))
print('Pós tratamento: {} linhas e {} Colunas e {} dados nulos.'.format(quant_lin_2, quant_colun_2, quant_nul_2))

Pré tratamento: 20 linhas e 9 Colunas e 10 dados nulos.
Pós tratamento: 15 linhas e 9 Colunas e 0 dados nulos.


## Analise dos dados

Perguntas a serem respondidas:<br>
1 - Quais os filmes mais populares dos anos.<br>
2 - Qual a Lingua mais presente no conjunto de dados.<br>
3 - A quantidade de filmes por ano.<br>
4 - A quantidade de filmes por lingua.<br>
5 - A quantidade de filmes por ano e lingua.<br>
6 - Comparar a popularidade das linguas dos filmes pelo tempo.<br>

In [18]:
ds.shape

(15, 9)

### Alterando os tipos dos dados

In [19]:
ds.dtypes

id                   int64
titulo              object
lingua_original     object
lancamento          object
popularidade       float64
media_dos_votos    float64
qtds_votos           int64
tipo_de_midia       object
adulto                bool
dtype: object

In [20]:
ds.lancamento = pd.to_datetime(ds.lancamento)
ds.dtypes

id                          int64
titulo                     object
lingua_original            object
lancamento         datetime64[ns]
popularidade              float64
media_dos_votos           float64
qtds_votos                  int64
tipo_de_midia              object
adulto                       bool
dtype: object

### 1 - Quais os filmes mais populares dos anos?

In [21]:
import datetime

In [22]:
ds['ano'] = ds.lancamento.dt.year
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto,ano
0,638974,Murder Mystery 2,Inglês,2023-03-26,235.901,6.8,187,Filme,False,2023
1,677179,Creed III,Inglês,2023-03-01,1537.879,7.2,561,Filme,False,2023
2,726759,Tetris,Inglês,2023-03-15,66.661,7.7,100,Filme,False,2023
3,76600,Avatar: The Way of Water,Inglês,2022-12-14,10224.28,7.742,6335,Filme,False,2022
4,849869,길복순,Coreano,2023-02-17,33.985,6.9,39,Filme,False,2023


In [25]:
maior = []
for ano in ds.ano.unique():
    selecao = ds[ds.ano == ano]
    popularidade = selecao.popularidade.tolist()
    index = popularidade.index(max(popularidade))
    tupla = selecao.iloc[index]
    maior.append(tupla)
    maior
ds_populares_ano = pd.DataFrame(maior)
ds_populares_ano

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto,ano
5,603692,John Wick: Chapter 4,Inglês,2023-03-22,2569.508,8.161,635,Filme,False,2023
3,76600,Avatar: The Way of Water,Inglês,2022-12-14,10224.28,7.742,6335,Filme,False,2022
10,514999,Murder Mystery,Inglês,2019-05-25,197.421,6.252,3642,Filme,False,2019
