<h1>Data Science: Análise e visualização de dados</h1>
<p>Este notebook é responsável por disponibilizar o conteúdo aprendido e desenvolvido nas aulas do primeiro curso da formação data science da alura.</p>

<p>Os módulos dos cursos são:</p>

<ol>
  <li>Data Science: dados e visualizações</li>
  <li>Análise explorátória</li>
  <li>Variáveis</li>
  <li>Data Visualization</li>
  <li>Continuando com visualização</li>
  <li>Dados e Estatísticas</li>
</ol>



**<h2>1. Data Science: dados e visualizações</h2>**


<h3>Analisando a base de dados 'ratings.csv'</h3>

<p>Resumo do que foi aprendido na aula:</p>
<ul>
  <li>Importar padas(biblioteca de análise de dados);</li>
  <li>Ler dados CSV;</li>
  <li>Fazer upload de arquivo para o Google Colab;</li>
  <li>Renomear colunas;</li>
  <li>Contar dados;</li>
  <li>Melhorar a visualização das informações.</li>
</ul>

<p><i>Resumindo as bibliotecas utilizadas:</i></p>

<p><b>Pandas</b>: é utilizada para manipulação e análise de dados. Com o Pandas, podemos carregar conjuntos de dados, limpar e transformar os dados, realizar operações estatísticas e muito mais.</p>
<p><b>Seaborn</b>: é uma biblioteca de visualização de dados que trabalha em conjunto com o Matplotlib. Ela oferece uma interface de alto nível para criar gráficos estatísticos atraentes e informativos. Com o Seaborn, podemos criar facilmente gráficos como histogramas, boxplots, gráficos de dispersão e muito mais, facilitando a visualização e compreensão dos dados.</p>

<h4>Importando a base e corrigindo ela</h4>

In [None]:
#Importando as bibliotecas e a base de dados de avaliações
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


#Importando e visualizando a base de dados 'ratings.csv'
tb_notas = pd.read_csv('/content/assets/ratings.csv')

print('Exibindo as 5 primeiras linhas da base\n')
tb_notas.head() # .head(): Função responsável por exibir os 5 primeiros dados da tabela

In [None]:
#Realizando a alteração no cabeçalho das colunas
tb_notas.columns = ['usuarioId', 'filmeID', 'nota', 'momento']
display(tb_notas.head())

<h4>Exibindo os dados</h4>

In [None]:
#Exibindo a coluna 'nota'
#tb_notas['nota']
print('Exibindo as 5 primeiras notas da base')
display(tb_notas.nota.head())
print('\n')

print('Exibindo estatísticas descritivas que resumem a tendência central')
display(tb_notas.nota.describe())
print('\n')

print('Exibindo quantas vezes a nota aparece')
display(tb_notas.nota.value_counts())

In [None]:
#Exibindo um gráfico em formato de histograma
tb_notas.nota.plot(kind='hist')

In [None]:
#Exibindo um boxplot
sns.boxplot(x=tb_notas.nota)

**<h2>2. Análise exploratória</h2>**

<h3>Analisando a base de dados 'movies.csv'<h3>

In [None]:
#Importando a base de dados 'movies.csv'
tb_filmes= pd.read_csv('/content/assets/movies.csv')
tb_filmes.columns = ['filmeID', 'titulo', 'generos']
tb_filmes.head()

<h4>Analisando as notas por filme (média)</h4>

In [None]:
print('A média de notas do filme correspondente ao ID 1 é: ')
tb_notas.query('filmeID == 1').nota.mean()
#notas.query('filmeID == 1').nota.median() #median() = é igual a mediana

<h4>Agrupando os filmes por ID e retirando as médias de forma automática</h4>

In [None]:
medias_por_filme = tb_notas.groupby('filmeID').mean().nota #.groupby() =responsável por agrupar recursos
print('Médias das notas agrupadas por id do filme:\n')
display(medias_por_filme.head())
print('\n')

print('Exibindo estatísticas descritivas que resumem a tendência central')
display(tb_notas.nota.describe())

In [None]:
medias_por_filme.plot(kind='hist')

In [None]:
#Exibindo um boxplot
sns.boxplot(x=tb_notas.nota)

<h2><b>3. Variáveis</b></h2>

<p>Nesta aula, o professor introduziu um conjunto de dados chamado TMDB 5000 Movie Dataset, que contém informações sobre 5000 filmes. Ele explicou a importância de classificar os diferentes tipos de variáveis presentes nos dados, como variáveis categóricas nominais, categóricas ordinais e quantitativas. Além disso, exemplificou a diferença entre esses tipos de variáveis, utilizando exemplos como a língua original dos filmes, escolaridade, orçamento e contagem de votos.</p>

<b>Tipos de variáveis</b>
<ul>
  <li>categóricas nominais: Cada item é único e não há uma ordem específica entre eles, apenas diferentes categorias.</li>
  <li>categóricas ordinais: quando existe um ordem específica entre eles</li>
  <li>categóricas quantitativas: Quando envolve números</li>
</ul>




In [None]:
tb_tmdb_filmes = pd.read_csv('/content/assets/tmdb_5000_movies.csv')

tb_tmdb_filmes.columns = ['orcamento','generos','homepage','id','palavras_chaves',
                        'lingua_original', 'titulo_original','resumo','popularidade',
                        'empresas_producao','paises_producao','data_lancamento',
                        'receita','tempo_execucao','linguas_faladas', 'status', 'slogan',
                        'titulo', 'media_votos', 'contagem_votos']

tb_tmdb_filmes.head()

tb_tmdb_filmes.media_votos.unique() # .unique() = função responsável por deixar valores únicos

<h2><b>4. Data visualization</b></h2>

<p>Nesta aula aprendi: </p>
<ul>
  <li>Comparar categorias;</li>
  <li>Identificar o que é uma Series;
  <li>Instalar o seaborn;</li>
  <li>Transformar em dataframe com a função to_frame();</li>
  <li>Remover o índice para gerar duas colunas usando a função reset_index();</li>
  <li>Utilizar o Categorical do seaborn.</li></li>
</ul>

In [None]:
tb_tmdb_filmes.lingua_original.value_counts()

In [None]:
tb_count_language = tb_tmdb_filmes.lingua_original.value_counts().to_frame().reset_index()
# .to_frame() = transforma a coluna em um dataframe
#.reset_index() = irá transformar em duas colunas o índice
tb_count_language.columns = ['lingua_original', 'total']
tb_count_language.head()


In [None]:
sns.barplot(x='lingua_original', y='total', data = tb_count_language)
#barplot() = plotagem de baixo nível que permite fornecer mais controle sobre cada etapa do processo

In [None]:
sns.catplot(x='lingua_original', kind='count', data= tb_tmdb_filmes)
#.catplot() = plotagem de alto nível

In [None]:

plt.pie(tb_count_language['total'], labels = tb_count_language['lingua_original'])

In [None]:
#Realizar a isolação dos dados da lingua para comparar o ingles com as demais linguas

total_lingua = tb_tmdb_filmes['lingua_original'].value_counts()
total_lingua_geral = total_lingua.sum()
total_lingua_ingles = total_lingua.loc['en']
total_outras_linguas = total_lingua_geral - total_lingua_ingles
display(total_lingua_ingles,total_outras_linguas)

In [None]:
#Transformando os dados anterior em uma nova DataFrame

tb_dados_linguagem = {
    'lingua': ['ingles', 'outras'],
    'total': [total_lingua_ingles, total_outras_linguas]
}
tb_dados_linguagem = pd.DataFrame(tb_dados_linguagem)
tb_dados_linguagem

sns.barplot(data = tb_dados_linguagem, x ='lingua', y='total')

In [None]:
lingua_nao_ingles = tb_tmdb_filmes.query('lingua_original != "en"')
#lingua_nao_ingles = tb_tmdb_filmes.query('lingua_original != "en"').lingua_original.value_counts()
lingua_nao_ingles_ordem = lingua_nao_ingles.lingua_original.value_counts()
display(lingua_nao_ingles_ordem.head())
lingua_nao_ingles.head()

In [None]:
sns.catplot(data=lingua_nao_ingles,  x='lingua_original', kind='count')

<h2><b>5. Continuando com visualização</b></h2>
<p>Nesta aula aprendi: </p>
<ul>
  <li>Reescalar o gráfico (aspect)</li>
  <li>ordernar o gráfico(order);
  <li>Alterar os tons do gráfico(palette)</li>
</ul>

In [None]:
#Controlar o aspecto da figura
sns.catplot(data=lingua_nao_ingles,  x='lingua_original', kind='count', aspect=2)

In [None]:
#Organizando o gráfico por ordem decrescente por aparecimento
sns.catplot(data=lingua_nao_ingles,  x='lingua_original', kind='count',
            aspect=2, order=lingua_nao_ingles_ordem.index)

In [None]:
#Organizando as cores (paletes)

sns.catplot(data=lingua_nao_ingles,  x='lingua_original', kind='count',
            aspect=2, order=lingua_nao_ingles_ordem.index, palette='GnBu_d')

<h2><b>6. Dados e Estatística</b></h2>

<p>Nesta aula aprendi: </p>
<ul>
  <li>Comparar a média de filmes;</li>
  <li>Juntar arrays com o np.append();</li>
  <li>Reconhecer o que é a dispersão de dados;</li>
  <li>Compreender o que é Desvio padrão.</li>
</ul>

<b>Resumo da aula:</b>
Nesta aula, o professor realizou uma análise exploratória de dados utilizando o conjunto de dados "movies.csv". Ele começou exibindo os dois primeiros filmes do dataset e em seguida buscou as notas desses filmes. Calculou a média e a mediana das notas de cada filme, destacando que essas medidas não conseguem expressar a proporção de cada uma das notas para os filmes. Para ilustrar essa ideia, criou uma situação hipotética em que um grupo de 10 pessoas deu a mesma nota para um filme e utilizou a biblioteca Numpy para calcular a média dessas notas. Em seguida, criou dois conjuntos de notas diferentes e mostrou que, mesmo tendo médias iguais, as distribuições das notas são diferentes. Utilizou o Matplotlib e o Seaborn para plotar gráficos que mostram as distribuições das notas dos filmes, destacando que essas visualizações são mais adequadas para entender o comportamento dos dados do que apenas as medidas de tendência central. Introduziu o conceito de desvio padrão como uma medida de dispersão dos dados e mostrou como calculá-lo utilizando o Numpy. Ressaltou que existem diversas maneiras de analisar os dados e tirar conclusões, e que a análise exploratória é fundamental para entender as tendências de um conjunto de dados.

In [None]:
tb_filmes.head()

In [None]:
tb_filmes.head(2)

In [None]:
#descobrindo a média dos dois primeiros filmes
notas_filme_1 = tb_notas.query('filmeID==1')
notas_filme_2 = tb_notas.query('filmeID==2')
display(len(notas_filme_1), len(notas_filme_2))

In [None]:
print('Exibindo a média do filme Toy Store: %.2f' % notas_filme_1.nota.mean())
print('Exibindo a média do filme Jumanji: %.2f'%notas_filme_2.nota.mean())

print('\nExibindo a mediana do filme Toy Store: %.2f' % notas_filme_1.nota.median())
print('Exibindo a mediana do filme Jumanji: %.2f'%notas_filme_2.nota.median())


In [None]:
import numpy as np

filme1= np.append(np.array([2.5]*10), np.array([4.5]*10)) # append = para adicionar a array
filme2= np.append(np.array([1.5]*10), np.array([2]*10))

#np.array([2.5]*10) > Utilizado para criar uma array
#np.array([4.5]*10)

print(filme1.mean(), filme2.mean())
print(np.std(filme1), np.std(filme2))
print(np.median(filme1), np.median(filme2))

In [None]:
sns.displot(filme1)
sns.displot(filme2)

In [None]:
sns.boxplot(notas_filme_1.nota)
sns.boxplot(notas_filme_2.nota)

In [None]:
plt.boxplot([notas_filme_1.nota ,notas_filme_2.nota])

In [None]:
sns.boxplot(x = 'filmeID', y='nota',data=tb_notas.query('filmeID in [1,2,3,4,5]'))

In [None]:
display(notas_filme_1.nota.std())
display(notas_filme_2.nota.std())