In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as mpl

df= pd.read_csv('TED_TALKS_data.csv').drop(columns =['link'])
df


# Separando o ano da coluna 'date':

In [None]:
anos = []
for c in df['date']:
    anos.append(c.split(' ')[1])
anos = pd.DataFrame(anos, columns=['anos'])

#  Juntando os anos separados com o dataframe principal:

df = df.join(anos, lsuffix='anos')
df

# Agrupando todos os anos (sem repetições) do dataframe principal

In [None]:
anossemrep = []
for c in df['anos']:
    if c not in anossemrep:
        anossemrep.append(c)
anossemrep = pd.DataFrame(anossemrep, columns = ['Ano']).sort_values(by="Ano", ascending=False).reset_index().drop(['index'], axis=1)


# ---------------------------------------------------------------------------------------------------------------

# - Quantidade de vídeos:

### Contagem por ano de quantos vídeos foram postados

In [None]:
contagemano= []
for c in anossemrep['Ano']:
    cont = 0
    for i in df['anos']:
        if c == i:
            cont += 1
    contagemano.append(cont)
contagemano = pd.DataFrame(contagemano, columns=['Vídeos por ano'])


### Data Frame do ano e da quantidade de vídeos por ano

In [None]:
anossemrep = anossemrep.join(contagemano, how = 'right', lsuffix='std', rsuffix='Vídeos por ano').sort_values(by="Ano", ascending=True).drop([0]).reset_index().drop(columns =['index'])


### Plotando gráfico do ano x quantidade de vídeos

In [None]:
fig = plt.figure(figsize=(15, 10), dpi=300)
ax = fig.add_axes([1,1,1.7,1])
ax.bar(anossemrep['Ano'],anossemrep['Vídeos por ano'])
plt.xlabel('Ano')
plt.ylabel('Número de vídeos')
plt.title('Gráfico das postagem de vídeos x ano')
plt.show()

# - Quantidade de visualizações:

### Vizualizações por ano

In [None]:
viewyear= []
for c in anossemrep['Ano']:
    total = 0
    for n ,i in enumerate(df['anos']):
        if c == i:
            total += df['views'][n]
    viewyear.append(total)
viewyear = pd.DataFrame(viewyear, columns=['Visualizações por ano']).reset_index().drop(columns=['index'])


In [None]:
# Data Frame dos anos, vídeos por ano e a quantidade de views por ano

anossemrep = anossemrep.join(viewyear)


### Plotando gráfico do total de views x ano

In [None]:
fig = plt.figure(figsize=(15, 10), dpi=300)
ax = fig.add_axes([1,1,1.5,1])
ax.bar(anossemrep['Ano'],anossemrep['Visualizações por ano'])
plt.xlabel('Ano')
plt.ylabel('Visualizações (em bilhão)')
plt.title('Gráfico da quantidade de visualizações (em bilhão) x ano')
plt.show()

### Média de views por ano:


In [None]:
media_views = pd.DataFrame(anossemrep['Visualizações por ano'] / anossemrep['Vídeos por ano'], columns=['Média de visualizações']).round(2)


### Plotando gráfico da média de visualizações x ano

In [None]:
fig = plt.figure(figsize=(15, 10), dpi=300)
ax = fig.add_axes([1,1,1.5,1])
ax.bar(anossemrep['Ano'],media_views['Média de visualizações'])
plt.xlabel('Ano')
plt.ylabel('Visualizações (em milhão)')
plt.title('Gráfico da média de visualizações(em milhão) x ano')
plt.show()

# - Quantidade de likes: 

### Likes por ano

In [None]:
likes = []
for c in anossemrep['Ano']:
    total = 0
    for n ,i in enumerate(df['anos']):
        if c == i:
            total += df['likes'][n]
    likes.append(total)
likes = pd.DataFrame(likes, columns=['Likes']).reset_index().drop(columns=['index'])


In [None]:
# Data Frame dos anos, vídeos por ano, visualizações por ano e likes

anossemrep = anossemrep.join(likes)


### Plotando gráfico do total de likes x ano

In [None]:
fig = plt.figure(figsize=(15, 10), dpi=300)
ax = fig.add_axes([1,1,1.5,1])
ax.bar(anossemrep['Ano'],anossemrep['Likes'])
plt.xlabel('Ano')
plt.ylabel('Likes (em bilhão)')
plt.title('Gráfico da quantidade de likes (em bilhão) x ano')
plt.show()

### Média de likes por ano:

In [None]:
media_like = pd.DataFrame(anossemrep['Likes'] / anossemrep['Vídeos por ano'], columns=['Média de likes']).round(2)


### Plotando gráfico da média de likes por vídeo x ano:


In [None]:
fig = plt.figure(figsize=(15, 10), dpi=300)
ax = fig.add_axes([1,1,1.5,1])
ax.bar(anossemrep['Ano'],media_like['Média de likes'])
plt.xlabel('Ano')
plt.ylabel('Quantidade de likes')
plt.title('Gráfico da média de likes x ano')
plt.show()

# ---------------------------------------------------------------------------------------------------------------

# Medidas de tendências:

In [None]:
media_views['Média de views'].std()

In [None]:
media_views.boxplot(column='Média de views')

In [None]:
anossemrep.boxplot(column='View per year')

In [None]:
media_like['Média de likes'].std()

In [None]:
media_like.boxplot(column='Média de likes')

# Correlação entre vizualização por ano e likes por ano:

In [None]:
anossemrep.plot.scatter(x = 'View per year', y= 'likes')

In [None]:
anossemrep[['likes', 'View per year']].corr()

# Correlação entre vizualização por ano e quantidade de vídeos por ano:


In [None]:
anossemrep.plot.scatter(x = 'View per year', y=  'Vídeos por ano')

In [None]:
anossemrep[['Vídeos por ano', 'View per year']].corr()

# Correlação entre vídeos por ano e quantidade de likes

In [None]:
anossemrep.plot.scatter(x = 'Vídeos por ano', y= 'likes')

In [None]:
anossemrep[['likes', 'Vídeos por ano']].corr()