<a href="https://colab.research.google.com/github/saramcsantos/pgcienciadedados-estatistica/blob/main/Visualiza%C3%A7%C3%A3o_de_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Visualização de dados

As visulizações dos dados são um importante mecanismo de apresentação e interpretação dos dados para aquelas pessoas que não conhecem muito sobre estatísticas e termos técnicos. As principais bibliotecas do Python para visualização dos dados são:

- matplotlib
- seaborn
- plotly

Para darmos início aos nossos estudos sobre visualização dos dados iremos usar a biblioteca plotly para nos ajudar na representação gráfica das análises feitas sobre os dados do dataset que traz informações sobre os contéudos consumidos na Netflix, nos Estados Unidos.

In [1]:
import pandas as pd
import plotly.express as px
import plotly.figure_factory as ff

In [2]:
df = pd.read_csv('netflix.csv')

In [3]:
df.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


Nas aulas anteriores aprendemos a calcular os quartis, agora iremos usar a plotly para criar o gráfico boxplot para representar os quartis graficamente. Os dados que irão compor o gráfico são referentes as duração dos filmes em minuto, para isso precisaremos extrair essa informação e converter os minutos em inteiros, uma vez que estão como texto.

In [4]:
filmes = df[df['type'] == 'Movie']

In [5]:
filmes.count()

Unnamed: 0,0
show_id,6126
type,6126
title,6126
director,6126
country,6126
date_added,6126
release_year,6126
rating,6126
duration,6126
listed_in,6126


In [6]:
filmes['duration'].head()

Unnamed: 0,duration
0,90 min
3,91 min
4,125 min
6,104 min
7,87 min


In [7]:
# criando uma função para realizar a conversão dos dados númericos da coluna "duration" em inteiros
def duracao_filmes_numerica(valor):
  return int(valor.split(' ')[0])

In [8]:
# criando uma nova coluna e dando a ela os valores convertidos da duração dos filmes
filmes['duracao_min'] = filmes['duration'].apply(duracao_filmes_numerica)

In [9]:
filmes.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in,duracao_min
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries,90
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies",91
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies",125
6,s10,Movie,The Starling,Theodore Melfi,United States,9/24/2021,2021,PG-13,104 min,"Comedies, Dramas",104
7,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu...",87


## Criando o gráfico boxplot

In [10]:
fig = px.box(filmes, 'duracao_min')
fig.update_layout(title_text="Boxplot da duração dos filmes",
                  yaxis=dict(title_text="Duração (min)"))
fig.show()

Podemos inferir com este gráfico que a mediana está entre 98 minutos de duração de filmes, então em média os filmes duram entre 90 a 100 minutos, e também podemos identificar os outliers para menos e para mais, no caso do para menos temos um filme que durou 3 minutos, e no para mais temos um filme que durou 312 minutos, estes são valores extremos dos nossos dados.

## Criando o histograma

Outro gráfico importante para a análise dos dados é o histograma porque eles nos ajuda a entender a frequência de ocorrência de cada valor dentro da amostra ou da população.

In [11]:
fig = px.histogram(filmes['duracao_min'])
fig.update_layout(title_text = "Histograma da duração dos filmes")
fig.show()

Podemos inferir com este gráfico que com frequência os filmes duram 1 hora e 30 minutos, tendo o gráfico apontado como maior frequência a duração de 90 e 91 minutos.

## Criando o gráfico de barras

O gráfico de barras é importante para analisarmos a quantidade de ocorrência por categoria e fazer um comparativo entre elas. Para esse gráfico usaremos os dados apenas das séries da netflix.

In [12]:
series = df[df['type'] =='TV Show']

In [13]:
# contando a quantidade de séries por gênero
series["listed_in"].value_counts()

Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
Kids' TV,219
"International TV Shows, TV Dramas",121
"Crime TV Shows, International TV Shows, TV Dramas",110
"Kids' TV, TV Comedies",97
Reality TV,95
...,...
"Crime TV Shows, International TV Shows, TV Thrillers",1
"Romantic TV Shows, TV Action & Adventure, TV Dramas",1
"Romantic TV Shows, Teen TV Shows",1
"Anime Series, Kids' TV, TV Action & Adventure",1


In [14]:
generoComMaisDe15Series = series["listed_in"].value_counts()[series["listed_in"].value_counts() >= 15]

In [15]:
fig = px.bar(generoComMaisDe15Series)
fig.update_layout(title_text = "Número de séries por gênero",
                  yaxis = dict(title_text = "Quantidade"), xaxis = dict(title_text =  " "))

Podemos inferir com este gráfico de barras que o gênero: Kids, é o gênero mais assistido na Netflix, enquanto que Drama e Horror foram os gêneros menos assistidos.

## Criando gráfico displot

O displot é semelhante ao histograma, ele também mostra a frequência de cada valor no conjunto de dados, contudo com ele é possível estimar a frequência de valores que não estão na amostra.

In [16]:
# displot com a estimação de durações de filmes não existentes na amostra
fig = ff.create_distplot([filmes["duracao_min"]],['Duração (min)'],
                         show_rug= False, bin_size=2, show_hist = False)

fig.update_layout(title_text='Duração dos Filmes')
fig.show()

In [17]:
# displot com a estimativa de frequência da duração dos filmes por gênero
drama = filmes[filmes["listed_in"] == "Dramas, International Movies"]["duracao_min"]
doc = filmes[filmes["listed_in"] == "Documentaries"]["duracao_min"]
stand = filmes[filmes["listed_in"] == "Stand-Up Comedy"]["duracao_min"]
com = filmes[filmes["listed_in"] == "Comedies, Dramas, International Movies"]["duracao_min"]

data = [drama, doc, stand, com]
labels = ["Dramas, International Movies", "Documentaries",
          "Stand-Up Comedy", "Comedies, Dramas, International Movies"]

fig =  ff.create_distplot(data, labels, show_hist = False, show_rug= False)
fig.update_layout(title_text='Duração dos Filmes pelos Top 4 Gêneros')
fig.show()

Podemos inferir que o Stand-Up Comedy foi o gênero com uma frequência maior entre duração de 50 a 100 minutos, seguido do Documentário o qual foi o gênero com uma frequência de duração de 70 a 250 minutos.

## Criando gráfico de linha:

O gráfico de linha é usado para análises temporais em que é preciso interpretar o comportamento dos dados ao longo de um período.

In [18]:
lancamentos_ano = df['release_year'].value_counts().reset_index()

lancamentos_ano.head()

Unnamed: 0,release_year,count
0,2018,1146
1,2017,1030
2,2019,1030
3,2020,953
4,2016,901


In [19]:
lancamentos_ano.rename(columns = {"release_year": "ano", "count": "lancamentos"},
                       inplace = True)

lancamentos_ano.head()

Unnamed: 0,ano,lancamentos
0,2018,1146
1,2017,1030
2,2019,1030
3,2020,953
4,2016,901


In [20]:
lancamentos_ano = lancamentos_ano.sort_values(by = "ano")

lancamentos_ano.head(10)

Unnamed: 0,ano,lancamentos
71,1925,1
68,1942,2
58,1943,3
57,1944,3
53,1945,4
67,1946,2
72,1947,1
64,1954,2
56,1955,3
63,1956,2


In [21]:
# criando gráfico de linha para anos de lançamento
fig = px.line(lancamentos_ano, x="ano", y="lancamentos",
              title='Lançamentos de Títulos por Ano')
fig.show()

O ano de maior lançamento foi: 2018, com 1146