# Tarefa: Top Youtubers
### Aluno: Vinicius Fernandes Segantini

O enunciado do exercício consiste nos seguintes passos:

1. Fazer download do dataset Top Youtube Artists, do Kaggle. 
2. Tratar as colunas sem informação adicionando o texto “Não informado”.
3. Formatar a coluna de total de inscritos multiplicando por 100 milhões.
4. Formatar coluna “AVG” para 2 casas decimais depois da vírgula.
5. Mostrar os top 10 usuários.
6. Mostrar primeiros 100 usuários por nome decrescente.
7. Salvar um novo CSV com a informação tratada.

In [36]:
import numpy as np
import pandas as pd

**1. Fazer download do dataset Top Youtube Artists, do Kaggle.**

Após fazer o download vou ler o arquivo e checar alguns registros.

In [37]:
#Lendo o csv em um DataFrame:
df = pd.read_csv('arquivos/topyoutube.csv')

#Verificando as 5 primeiras e 5 últimas linhas:
df

Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,27947.9,63.0,7.370
1,Bad Bunny,27573.4,66.0,14.555
2,Justin Bieber,27399.7,37.0,3.986
3,Ed Sheeran,26894.0,39.0,4.609
4,Taylor Swift,24350.0,38.0,5.716
...,...,...,...,...
1582,Pietro Lombardi,204.1,,0.022
1583,Duffy,203.2,,0.020
1584,Psirico,201.1,1.0,0.039
1585,Alex Clare,200.8,,0.020


In [38]:
#Entendendo as informações e tipo de dados nas colunas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1587 entries, 0 to 1586
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Artist       1587 non-null   object 
 1   Total Views  1587 non-null   object 
 2   100M         1416 non-null   float64
 3   Avg          1587 non-null   float64
dtypes: float64(2), object(2)
memory usage: 49.7+ KB


**2. Tratar as colunas sem informação adicionando o texto “Não informado”.**

In [39]:
#Tratar as colunas sem informação adicionando o texto “Não informado”.
df = df.fillna("Não informado")
df


Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,27947.9,63.0,7.370
1,Bad Bunny,27573.4,66.0,14.555
2,Justin Bieber,27399.7,37.0,3.986
3,Ed Sheeran,26894.0,39.0,4.609
4,Taylor Swift,24350.0,38.0,5.716
...,...,...,...,...
1582,Pietro Lombardi,204.1,Não informado,0.022
1583,Duffy,203.2,Não informado,0.020
1584,Psirico,201.1,1.0,0.039
1585,Alex Clare,200.8,Não informado,0.020


**3. Formatar a coluna de total de inscritos multiplicando por 100 milhões.**

Como no dataset não existe a coluna de inscritos, mas sim a de total de visualizações (em milhões), vou formatar a coluna de total de visualizações multiplicando por 1 milhão.

In [40]:
#Como o formato dessa coluna é objeto, vou converter antes para float para poder multiplicar.
df['Total Views'] = df['Total Views'].apply(lambda x: x.replace(',','')).astype(float)

In [41]:
#Formatar a coluna de Total Views multiplicando por 1 milhão.
df['Total Views'] = df['Total Views'].apply(lambda x: x * 1000000)

In [42]:
#Verificando se os dados fazem sentido.
df.head(3)

Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,27947900000.0,63.0,7.37
1,Bad Bunny,27573400000.0,66.0,14.555
2,Justin Bieber,27399700000.0,37.0,3.986


**4. Formatar coluna “AVG” para 2 casas decimais depois da vírgula.**

In [43]:
#Para arredondar para 2 casas decimais, basta usar o comando '.round(nºcasasdecimais)'
df.Avg = df.Avg.round(2)
df.head(3)

Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,27947900000.0,63.0,7.37
1,Bad Bunny,27573400000.0,66.0,14.56
2,Justin Bieber,27399700000.0,37.0,3.99


**5. Mostrar os top 10 usuários.**

Vamos mostrar os top 10 usuários ordenando pelo total de visualizações.

In [44]:
#Primeiro vamos garantir que o DataFrame está ordenado pelo Total Views.
df = df.sort_values(by=['Total Views'], ascending=False)

#Agora vamos mostrar o top 10.
df.head(10)

Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,27947900000.0,63.0,7.37
1,Bad Bunny,27573400000.0,66.0,14.56
2,Justin Bieber,27399700000.0,37.0,3.99
3,Ed Sheeran,26894000000.0,39.0,4.61
4,Taylor Swift,24350000000.0,38.0,5.72
5,Shakira,23961800000.0,43.0,7.84
6,Katy Perry,23553400000.0,25.0,3.18
7,Ozuna,22524800000.0,49.0,4.93
8,Eminem,20937700000.0,38.0,5.84
9,Ariana Grande,20618500000.0,37.0,3.37


**6. Mostrar primeiros 100 usuários por nome decrescente.**

In [47]:
#Primeiro vamos garantir que o DataFrame está ordenado pelo nome decrescente
primeiros_100_users = df.Artist.sort_values(ascending=False).iloc[:100]

#Vamos resetar o index para deixar mais clara a visualização:
primeiros_100_users = primeiros_100_users.reset_index(drop=True)

#Permitir exibição do pandas para visualização de mais linhas:
pd.set_option('display.max_rows',500)

#Agora vamos mostrar os primeiros 100 usuários ordenados por nome de forma decrescente.
primeiros_100_users 


0                         Łobuzy
1                    İrem Derici
2                     Ñengo Flow
3                  Çağatay Akman
4                      will.i.am
5              twenty one pilots
6                       t.A.T.u.
7                         miss A
8                           iKON
9                          gnash
10                          f(x)
11                      deadmau5
12                     blink-182
13                   back number
14                    amazarashi
15                          a-ha
16                   Zé Vaqueiro
17                    Zé Ramalho
18           Zé Neto e Cristiano
19                     Zé Felipe
20                           Zoé
21               Zouhair Bahaoui
22                 Zion & Lennox
23                       Zendaya
24                          Zedd
25                  Zay & Zayion
26                  Zara Larsson
27                   Zak Chumpae
28                          Zaho
29                   Zack Knight
30        

**7. Salvar um novo CSV com a informação tratada.**

In [48]:
#Vamos verificar se o df está correto:
df

Unnamed: 0,Artist,Total Views,100M,Avg
0,BTS,2.794790e+10,63.0,7.37
1,Bad Bunny,2.757340e+10,66.0,14.56
2,Justin Bieber,2.739970e+10,37.0,3.99
3,Ed Sheeran,2.689400e+10,39.0,4.61
4,Taylor Swift,2.435000e+10,38.0,5.72
...,...,...,...,...
1582,Pietro Lombardi,2.041000e+08,Não informado,0.02
1583,Duffy,2.032000e+08,Não informado,0.02
1584,Psirico,2.011000e+08,1.0,0.04
1585,Alex Clare,2.008000e+08,Não informado,0.02


In [52]:
#Como todos os tratamentos foram aplicados, vamos exportar para .csv.
df.to_csv('./arquivos/top_youtubers_tratado.csv')
#Tudo funcionou! :) 