In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:

url_dados = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'

dados = pd.read_csv(url_dados, compression = 'zip')
dados

# o compression = 'zip' descompacta o documento

In [None]:
dados.head()

In [None]:
dados.shape
#informação do total de linhas e colunas

In [None]:
dados['tratamento']
#selecionada somente a serie tratamento

In [None]:
dados['tratamento'].unique()
#mostra quais são os valores unicos encontrados na tabela unica

In [None]:
dados['tempo'].unique()

In [None]:
dados['dose'].unique()

In [None]:
dados['droga'].unique()

In [None]:
dados['g-0'].unique()

# esses números nos dizem a expressão de cada gene frente as drogas ou a exposição.

In [None]:
dados['tratamento'].value_counts()

#quantidade de valores que tem em cada um das colunas 

In [None]:
dados['dose'].value_counts()

In [None]:
dados['droga'].value_counts()

In [None]:
dados['tratamento'].value_counts(normalize = True)

#calcula a normalização dos dados, calculando assim a proporção entre os dados de tratamento

In [None]:
dados['dose'].value_counts(normalize = True)

In [None]:
dados['tratamento'].value_counts().plot.pie()

In [None]:
dados['tempo'].value_counts().plot.pie()
#essa forma não é muito facil de ver a diferença entre os valores, pois o balanceamento entre os valores está muito proximo

In [None]:
dados['tempo'].value_counts().plot.bar()

#é interessante estudar cada tipo de grafico e também as melhores situações para utilizar cada um deles

In [None]:
dados_filtrados = dados[dados['g-0'] > 0]
dados_filtrados.head()

#Analisa quais sao os valores de g-0 que são maiores que 0

In [None]:
dados.columns


In [None]:
nome_das_colunas = dados.columns

In [None]:
novo_nome_coluna = []

for coluna in nome_das_colunas:
  coluna = coluna.replace('-', '_')
  novo_nome_coluna.append(coluna)
dados.columns = novo_nome_coluna 

dados.head()

#Esse for roda todo o array e faz a substituição dos nomes das colunas, nas colunas
#que tem o '-' ele vai substituir por '_'

In [None]:
dados_filtrados = dados[dados['g_0'] > 0]
dados_filtrados.head()

#comparação do resultado usando Query com o resultado usando máscara + slice

In [None]:
dados_filtrados = dados.query('g_0 > 0')
dados_filtrados.head()

Deixando os graficos mais bonitin hahaha

In [None]:
valore_tempo = dados['tempo'].value_counts(ascending=True)
valore_tempo.sort_index()

In [None]:
plt.figure(figsize=(15, 10))
valore_tempo = dados['tempo'].value_counts(ascending=True)
ax = valore_tempo.sort_index().plot.bar()
ax.set_title('Janelas de tempo', fontsize=20)
ax.set_xlabel('Tempo', fontsize=18)
ax.set_ylabel('Quantidade', fontsize=18)
plt.xticks(rotation = 0, fontsize=16)
plt.yticks(fontsize=16)
plt.show()

In [None]:
dados

In [None]:
mapa = {'droga': 'composto'}
dados.rename(columns=mapa, inplace=True)

#altera o nome da coluna 'droga' por 'composto'
#parâmetro 'inplace = True', esse parâmetro faz com que os dados sejam modificados no local e o dataframe será atualizado. 

In [None]:
dados.head()

In [None]:
cod_compostos = dados['composto'].value_counts().index[0:5]
#elenca os 5 compostos que mais aparecem. 

In [None]:
cod_compostos

In [None]:
dados.query('composto in @cod_compostos')
#realiza um filtro em nossos dados, selecionando apenas as linhas nas quais o 
#composto esteja dentro da lista cod_composto (lista que representa os 5 compostos mais testados no experimento) 
#e utiliza o método query para resolver este problema.

#Como parâmetro da função, passamos uma string contendo a lógica para realização 
#da seleção dos dados. O que queremos é o seguinte: o queryprecisa retornar para 
#nós todas as linhas contendo os 5 compostos mais utilizados. Logo, a string necessária para isso é: composto in @cod_compostos.

#Usamos composto porque essa é a coluna a ser verificada no dataframe e cod_compostos 
#por ser a lista com os top 5 compostos, o detalhe aqui é que o @ é necessário para 
#informar o query que cod_composto é uma variável que já foi definida fora da função.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set()
plt.figure(figsize=(8, 6))
ax = sns.countplot(x = 'composto', data=dados.query('composto in @cod_compostos'))
ax.set_title('Top 5 compostos')
plt.show()

#O countplot é um gráfico pré-programado da biblioteca Seaborne, por isso, precisaremos fazer a importação padrão da mesma (import seaborn as sns)
#para que possamos enxergar o gráfico com os padrões de configuração da biblioteca, precisamos rodar sns.set()

In [None]:
len(dados['g_0'].unique())
#Como temos diversos compostos únicos dentro da coluna g-0, não é viável que façamos o mesmo gráfico utilizado anteriormente. Por isso, precisamos traçar uma nova estratégia para visualizar os nossos dadose aqui, usaremos um histograma. O primeiro passo, é identificar qual o valor mínimo (min()) e o valor máximo (max()) 
#para entender qual o intervalo númerico com o qual estamos trabalhando.

In [None]:
dados['g_0'].min()

In [None]:
dados['g_0'].max()

In [None]:
dados['g_0'].hist(bins = 100, figsize=(20, 6))

In [None]:
dados['g_19'].hist(bins = 100, figsize=(20, 6))

In [None]:
dados.describe()
#olha as descrições das estatisticas

In [None]:
dados.loc[:,'g_0':'g_771'].describe()
#Como argumentos, passamos primeiramente o :, os dois pontos faz com que o loc[] retorne todos os elementos de uma 
#determinada coluna, isso é importante quando não sabemos qual a quantidade de linhas de um dataframe. E, o segundo
# elemento, passamos as colunas que são de nosso interesse. No caso, queremos que a função nos retorne todos os elementos das colunas g-0até g-771. 
#E, por fim, podemos declarar a nossa função de interesse a partir deste filtro realizado nos dados, o describe().

In [None]:
dados.loc[:,'g_0':'g_771'].describe().T['mean'].hist(bins=30, figsize=(20, 6))

#trasforma as linhas em colunas
