# Tratamento do conjunto de dados de Series de TV
link: https://www.kaggle.com/datasets/priyanshuganwani09/entertainment-movies-tv-shows-database
<br><br>
O conjunto de dados criado para prever a taxa de sucesso de programas de TV e filmes em streaming usando modelos de aprendizado de máquina. Esses conjuntos de dados consistem em informações dos usuários. Esses conjuntos de dados podem ser usados ​​para entender as preferências e o comportamento do público em relação a diferentes tipos de conteúdo.

In [1]:
import pandas as pd

## Tradução

In [2]:
#Importando o arquivo
file = '../data/trending.csv'
ds = pd.read_csv(file)
ds.drop(ds.columns[0], axis='columns', inplace=True)
ds.head()

Unnamed: 0,id,original_title,original_language,release_date,popularity,vote_average,vote_count,media_type,adult
0,638974,Murder Mystery 2,English,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,English,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,English,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,English,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Korean,2023-02-17,33.985,6.9,39,movie,False


### Nome das colunas

In [3]:
ds.columns

Index(['id', 'original_title', 'original_language', 'release_date',
       'popularity', 'vote_average', 'vote_count', 'media_type', 'adult'],
      dtype='object')

In [4]:
rename = {
    'id': 'id',
    'original_title': 'titulo',
    'original_language': 'lingua_original',
    'release_date': 'lancamento',
    'popularity' : 'popularidade',
    'vote_average' : 'media_dos_votos',
    'vote_count' : 'qtds_votos',
    'media_type': 'tipo_de_midia',
    'adult': 'adulto'
}
ds.rename(columns=rename, inplace=True)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,English,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,English,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,English,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,English,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Korean,2023-02-17,33.985,6.9,39,movie,False


### Coluna "lingua_original"

In [5]:
ds.lingua_original.unique()

array(['English', 'Korean', 'Spain', 'Chinese', 'Japanese'], dtype=object)

In [6]:
rename = {
    'English' : 'Ingles',
    'Korean' : 'Koreano',
    'Spain' : 'Espanhol' ,
    'Chinese' : 'Chines',
    'Japanese' : 'Japones'    
}
ds.lingua_original = ds.lingua_original.map(rename)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Ingles,2023-03-26,235.901,6.8,187,movie,False
1,677179,Creed III,Ingles,2023-03-01,1537.879,7.2,561,movie,False
2,726759,Tetris,Ingles,2023-03-15,66.661,7.7,100,movie,False
3,76600,Avatar: The Way of Water,Ingles,2022-12-14,10224.28,7.742,6335,movie,False
4,849869,길복순,Koreano,2023-02-17,33.985,6.9,39,movie,False


In [7]:
ds.lingua_original.unique()

array(['Ingles', 'Koreano', 'Espanhol', 'Chines', 'Japones'], dtype=object)

### Coluna "tipo_de_midia"

In [8]:
ds.tipo_de_midia.unique()

array(['movie', 'tv'], dtype=object)

In [9]:
rename = {
    'movie' : 'Filme',
    'tv' : 'Tv'    
}
ds.tipo_de_midia = ds.tipo_de_midia.map(rename)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Ingles,2023-03-26,235.901,6.8,187,Filme,False
1,677179,Creed III,Ingles,2023-03-01,1537.879,7.2,561,Filme,False
2,726759,Tetris,Ingles,2023-03-15,66.661,7.7,100,Filme,False
3,76600,Avatar: The Way of Water,Ingles,2022-12-14,10224.28,7.742,6335,Filme,False
4,849869,길복순,Koreano,2023-02-17,33.985,6.9,39,Filme,False


In [10]:
ds.tipo_de_midia.unique()

array(['Filme', 'Tv'], dtype=object)

In [11]:
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Ingles,2023-03-26,235.901,6.8,187,Filme,False
1,677179,Creed III,Ingles,2023-03-01,1537.879,7.2,561,Filme,False
2,726759,Tetris,Ingles,2023-03-15,66.661,7.7,100,Filme,False
3,76600,Avatar: The Way of Water,Ingles,2022-12-14,10224.28,7.742,6335,Filme,False
4,849869,길복순,Koreano,2023-02-17,33.985,6.9,39,Filme,False


## Alterando os tipos de dados

In [12]:
ds.dtypes

id                   int64
titulo              object
lingua_original     object
lancamento          object
popularidade       float64
media_dos_votos    float64
qtds_votos           int64
tipo_de_midia       object
adulto                bool
dtype: object

In [13]:
ds.lancamento = pd.to_datetime(ds.lancamento)
ds.head()

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Ingles,2023-03-26,235.901,6.8,187,Filme,False
1,677179,Creed III,Ingles,2023-03-01,1537.879,7.2,561,Filme,False
2,726759,Tetris,Ingles,2023-03-15,66.661,7.7,100,Filme,False
3,76600,Avatar: The Way of Water,Ingles,2022-12-14,10224.28,7.742,6335,Filme,False
4,849869,길복순,Koreano,2023-02-17,33.985,6.9,39,Filme,False


In [14]:
ds.dtypes

id                          int64
titulo                     object
lingua_original            object
lancamento         datetime64[ns]
popularidade              float64
media_dos_votos           float64
qtds_votos                  int64
tipo_de_midia              object
adulto                       bool
dtype: object

## Salvando o dataset tratado

In [15]:
ds

Unnamed: 0,id,titulo,lingua_original,lancamento,popularidade,media_dos_votos,qtds_votos,tipo_de_midia,adulto
0,638974,Murder Mystery 2,Ingles,2023-03-26,235.901,6.800,187,Filme,False
1,677179,Creed III,Ingles,2023-03-01,1537.879,7.200,561,Filme,False
2,726759,Tetris,Ingles,2023-03-15,66.661,7.700,100,Filme,False
3,76600,Avatar: The Way of Water,Ingles,2022-12-14,10224.280,7.742,6335,Filme,False
4,849869,길복순,Koreano,2023-02-17,33.985,6.900,39,Filme,False
...,...,...,...,...,...,...,...,...,...
16075,117465,,Japones,NaT,62.392,10.000,4,Tv,False
16076,933419,Champions,Ingles,2023-03-09,104.315,6.512,43,Filme,False
16077,208891,,Japones,NaT,59.825,8.667,3,Tv,False
16078,878375,On a Wing and a Prayer,Ingles,2023-04-06,53.714,8.000,4,Filme,False


In [16]:
path = '../data/tendencias.csv'
ds.to_csv(path, sep=';', index=False)