<a href="https://colab.research.google.com/github/danisoaresl/Data-Analytics/blob/main/Data_Visualization_Dani.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Exercício Prático - Data Visualization

Desafio Prático 1: Visualizando Dados Diferentes

Descrição: Neste desafio, suas alunas irão visualizar dados de diferentes formas utilizando
Matplotlib, Seaborn e Plotly. Elas deverão criar gráficos que mostrem a distribuição dos
dados, correlações entre variáveis e tendências.

Tarefas:

1. Carregar os dados de um arquivo CSV fornecido (saude.csv).

In [None]:
import pandas as pd

from google.colab import drive
drive.mount('/content/drive')

with open('/content/drive/My Drive/saude.csv', 'r') as file:
  #ler o conteúdo do arquivo
  #para ler todas as linhas
  lines = file.readlines()

#ler arquivo CSV
df = pd.read_csv('/content/drive/My Drive/saude.csv')

#criar cópia DataFrame
df_saude = df.copy()

#visualizar os primeiros 5 registros da cópia
print(df_saude.head())

2. Criar um histograma da variável 'age' usando Matplotlib.

In [None]:
#contagem de cada gênero
gender_counts = df_saude['gender'].value_counts().reset_index()
gender_counts.columns = ['gender', 'contagem']

#colunas para conferir os valores
print(gender_counts)

O eixo x deve ter os valores "M" e "F".

O eixo y deve mostrar a contagem de 5 para cada gênero.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

#criar o histograma da variável 'age'
plt.hist(df_saude['age'], bins=10, color='purple')  # bins define o número de barras no histograma

#adicionar títulos aos eixos
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.title('Distribuição das Idades')

#mostrar gráfico
plt.show()

In [None]:
import matplotlib.pyplot as plt

#criar histogramas para 'age', 'height' e 'weight'
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

#histograma idade
axes[0].hist(df_saude['age'], bins=10, color='purple')
axes[0].set_xlabel('Idade')
axes[0].set_ylabel('Frequência')
axes[0].set_title('Distribuição das Idades')

#histograma altura
axes[1].hist(df_saude['height'], bins=10, color='lightblue')
axes[1].set_xlabel('Altura (cm)')
axes[1].set_ylabel('Frequência')
axes[1].set_title('Distribuição da Altura')

#histograma peso
axes[2].hist(df_saude['weight'], bins=10, color='lightgreen')
axes[2].set_xlabel('Peso (kg)')
axes[2].set_ylabel('Frequência')
axes[2].set_title('Distribuição do Peso')

plt.tight_layout()
plt.show()


3. Criar um gráfico de dispersão mostrando a relação entre 'height' e 'weight' usando
Seaborn.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#criando uma coluna categórica chamada 'grupo' apenas para demonstrar a diferença de cores no gráfico
#grupo A e Grupo B foram atribuídos de forma alternada
df_saude['grupo'] = ['Grupo A', 'Grupo B'] * (len(df_saude) // 2)

#gráfico de dispersão com cores diferentes para cada grupo
sns.scatterplot(data=df_saude, x='height', y='weight', hue='grupo')

#adicionando título e rótulos aos eixos
plt.title('Relação entre Altura e Peso')
plt.xlabel('Altura (cm)')
plt.ylabel('Peso (kg)')

plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

#calcular a matriz de correlação
correlation_matrix = df_saude[['age', 'height', 'weight']].corr()

#criar um mapa de calor das correlações
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Mapa de Calor das Correlações')
plt.show()


4. Criar um gráfico interativo de barras mostrando a contagem de indivíduos por
'gender' usando Plotly.

In [None]:
import pandas as pd
import plotly.express as px

#calculando contagem de cada gênero
gender_counts = df_saude['gender'].value_counts().reset_index()
gender_counts.columns = ['gender', 'contagem']

#gráfico de barras interativo com cores personalizadas
fig = px.bar(gender_counts, x='gender', y='contagem', color='gender',
             color_discrete_map={'M': 'green', 'F': 'purple'},  # Definindo cores para masculino (verde) e feminino (roxo)
             labels={'gender': 'Gênero', 'contagem': 'Contagem'},
             title='Contagem de Indivíduos por Gênero')

#mostrar gráfico
fig.show()


In [None]:
import plotly.express as px

#calcular média de idade, altura e peso por gênero
gender_means = df_saude.groupby('gender')[['age', 'height', 'weight']].mean().reset_index()

#criar gráficos de barras para média de idade, altura e peso por gênero
fig = px.bar(gender_means.melt(id_vars='gender'), x='gender', y='value', color='variable',
             labels={'gender': 'Gênero', 'value': 'Média', 'variable': 'Variável'},
             title='Média de Idade, Altura e Peso por Gênero')
fig.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

#paleta de cores para cada gênero
palette = {'M': 'green', 'F': 'purple'}  # Verde para masculino, roxo para feminino

#boxplots para idade, altura e peso separados por gênero
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

#boxplot para Idade
sns.boxplot(data=df_saude, x='gender', y='age', ax=axes[0], palette=palette)
axes[0].set_title('Distribuição de Idade por Gênero')

#boxplot para Altura
sns.boxplot(data=df_saude, x='gender', y='height', ax=axes[1], palette=palette)
axes[1].set_title('Distribuição de Altura por Gênero')

#boxplot para Peso
sns.boxplot(data=df_saude, x='gender', y='weight', ax=axes[2], palette=palette)
axes[2].set_title('Distribuição de Peso por Gênero')

plt.tight_layout()
plt.show()


Desafio Prático 2: Séries Temporais

Descrição: Neste desafio, suas alunas irão analisar uma série temporal de dados de
vendas.
Elas deverão criar gráficos que mostrem as vendas ao longo do tempo, identificar
tendências e sazonalidades.

Tarefas:

1.Carregar os dados de um arquivo CSV fornecido (vendas.csv).

In [None]:
import pandas as pd

from google.colab import drive
drive.mount('/content/drive')

with open('/content/drive/My Drive/vendas.csv', 'r') as file:
  #ler o conteúdo do arquivo
  #para ler todas as linhas:
  lines = file.readlines()

#arquivo CSV
df = pd.read_csv('/content/drive/My Drive/vendas.csv')

#cópia DataFrame
df_vendas = df.copy()

#primeiros 5 registros da cópia
print(df_vendas.head())

2.Criar um gráfico de linhas das vendas ao longo do tempo usando Matplotlib.

In [None]:
import matplotlib.pyplot as plt

#carregar dados
df = pd.read_csv('/content/drive/My Drive/vendas.csv')

#cópia DataFrame
df_vendas = df.copy()

#garantir que coluna datas esteja no formato datetime
df_vendas['date'] = pd.to_datetime(df_vendas['date'])

#criar o gráfico de linha cor rosa
plt.figure(figsize=(10, 6))
plt.plot(df_vendas['date'], df_vendas['sales'], color='orange', marker='o')

#adicionar título e rótulos aos eixos
plt.title('Vendas ao longo do tempo', fontsize=14)
plt.xlabel('Data', fontsize=12)
plt.ylabel('Vendas', fontsize=12)

#adicionar grade ao gráfico
plt.grid(True)

#mostrar gráfico
plt.xticks(rotation=45)  #rotacionar as datas para melhor visualização
plt.tight_layout()  #ajustar o layout
plt.show()

3.Criar um gráfico de decomposição sazonal usando Seaborn.

In [None]:
import seaborn as sns
from statsmodels.tsa.seasonal import seasonal_decompose

#definir a coluna 'date' como índice
df_vendas.set_index('date', inplace=True)

#decomposição sazonal (usando a decomposição aditiva)
decomposition = seasonal_decompose(df_vendas['sales'], model='additive', period=7)  # period=7 pode ser ajustado conforme a sazonalidade

#extrair componentes
trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

#configurar gráfico
plt.figure(figsize=(12, 8))

#plotar tendência
plt.subplot(3, 1, 1)
sns.lineplot(x=df_vendas.index, y=trend, color='blue')
plt.title('Tendência')

#plotar sazonalidade
plt.subplot(3, 1, 2)
sns.lineplot(x=df_vendas.index, y=seasonal, color='green')
plt.title('Sazonalidade')

#plotar resíduos
plt.subplot(3, 1, 3)
sns.lineplot(x=df_vendas.index, y=residual, color='red')
plt.title('Resíduos')

#layout
plt.tight_layout()
plt.show()


4.Criar um gráfico interativo que permita a exploração dos dados de vendas ao longo
do tempo usando Plotly.

In [None]:
#restaurar date como coluna no dataframe para fazer Plotly
df_vendas.reset_index(inplace=True)

In [None]:
print(df_vendas.head())

In [None]:
import pandas as pd
import plotly.express as px

#gráfico interativo com Plotly
fig = px.line(df_vendas, x='date', y='sales', title='Vendas ao longo do tempo')

#cor da linha rosa
fig.update_traces(line=dict(color='orange'))

#mostrar gráfico
fig.show()
