Manipulando Arquivos de Dados
============
Neste exemplo você irá aprender a carregar arquivos contendo informações (exportadas de algum banco de dados, sistema ou repositório) e a analisar analisar as informações contidas neles.

**Antes de iniciar a atividade, caso opte por executar o script localmente:**

- **Primeiro baixe o arquivo de dados entitulado 'extratoppgc.csv' (o arquivo contém dados reais, mas incompletos, os quais podem ser obtidos de maneira pública);**
- **Suba esse arquivo na plataforma Jupyter. Para tanto, vá ao menu 'Data > Upload' e escolha o arquivo 'extratoppgc.csv' que você baixou no passo anterior (se o ambiente perguntar onde colocar o arquivo, escolha a pasta 'library');** 
- **Depois de ter encaminhado o arquivo, use o código seguinte para abrí-lo.** 

Lembre-se de que para executar o código é necessário selecionar a célula que o contém e utilizar o botão "play" no menu superior. Você também pode mandar executar todas as células de uma única vez escolhendo a opção "Run all" no menu "Cell".

In [None]:
# pandas é uma biblioteca para manipulação de tabelas de dados
import pandas as pd

# Nome do arquivo de dados
arquivo = 'extratoppgc.csv'

print("Lendo arquivo: ", arquivo)

# lê o arquivo e coloca o resultado em um dataframe chamado 'df'
#df = pd.read_csv(arquivo, encoding='cp860',sep=";") 
df = pd.read_csv(arquivo, sep=";") 

print("Arquivo lido.")

**Para saber quais são as colunas que esse arquivo possui, use o seguinte comando:**

In [None]:
print(df.columns)

**Para ver o conteúdo do dataframe, use o seguinte comando:**

In [None]:
print(df)

In [None]:
# para ver o resultado em forma de tabela, simplesmente solicite o dataframe:
df

**Vamos agora utilizar a bibliteca 'pandas' para: **
- **verificar quantos artigos (no total) são produzidos por ano, no programa PPGC;**
- **montar uma tabela que demonstre quantos artigos por tipo (periódico ou conferência) são publicados por ano.** 
- **mostrar um gráfico em barras que compare a produção de cada tipo, por ano);**
- **montar uma tabela que demonstre a quantidade total de artigos por QUALIS;**
- **extratificar a tabela anterior, demonstrando a quantidade de artigos em cada tipo de qualis, por ano, além de gráficos em linha que demonstrem a evolução da produção no período;**
- **montar uma tabela e um gráfico que demonstre informações estatísticas (mediana, moda, desvio padrão, etc.).** 


In [None]:
# habilita a geração de gráficos no Jupyter
%matplotlib inline

# Seleciona somente os registros que são efetivamente do PPGC e coloca em um novo 
# dataframe chamado 'prodPPGC':
prodPPGC = df[df['PPGC'] == 'Sim']

In [None]:
# Mostra 2 primeiros registros do dataframe (só para mostrar que dá para filtrar)
prodPPGC.head(2)

In [None]:
# Remove a coluna PPGC do dataframe, pois ela não é mais necessária (afinal, agora ele só tem dados do PPGC)
prodPPGC = prodPPGC.drop(['PPGC'], axis=1)

In [None]:
# Agrupa os registros por tipo de produção e coloca em 'prodPPGCByTipos':
prodPPGCByTipos = prodPPGC.groupby('Tipo')

In [None]:
# Mostra os 2 primeiros registros do dataset resultante 
# (como há 2 grupos de dados, um para cada tipo de produção, i.e., periódicos e conferências), 
# acaba mostrando 4, ou seja, 2 para cada grupo):
prodPPGCByTipos.head(2)

In [None]:
# verifica o tamanho (quantidade de itens) de cada grupo e mostra gráfico em barras
prodPPGCByTipos.size().plot.bar(color=['red', 'blue'])

In [None]:
# verifica o tamanho (quantidade de itens) de cada grupo e mostra gráfico em pizza
prodPPGCByTipos.size().plot.pie(colors=['red', 'blue'])

In [None]:
# personalizando o gráfico
import matplotlib.pyplot as plot
plot.pie(prodPPGCByTipos.size(), colors=['red', 'blue'], labels=prodPPGCByTipos.groups.keys(), shadow=True,autopct='%1.1f%%')
plot.title('PUBLICAÃÃES POR TIPO')

In [None]:
# Agrupa por ano:
prodPPGCByAno = prodPPGC.groupby('Ano')

# conta quantos registros cada grupo (ano) possui
resultado = prodPPGCByAno.count()

# troca o nome da coluna 
resultado.rename(columns={'Qualis': 'Quantidade'}, inplace=True)

# mostra quantidade por ano, em forma de tabela
resultado[['Quantidade']]

In [None]:
# Motra quantidade total de artigos por ano em um gráfico em barras
resultado['Quantidade'].plot.bar()

# também poderia ter feito direto: prodPPGCByAno.size().plot.bar()

In [None]:
# Agrupa dados de produção por ano e, dentro do ano, por tipo
prodPPGCByTipoporAno = prodPPGC.groupby(['Ano','Tipo'])
# ou prodPPGCByTipoporAno = prodPPGC.groupby([prodPPGC['Ano'],prodPPGC['Tipo']])

resultado = prodPPGCByTipoporAno.size().unstack()

In [None]:
# Tabela com a quantidade de artigos por tipo de qualis, por ano:
resultado.columns.values[0] =  'Artigos em Conferências'
resultado.columns.values[1] =  'Artigos em Periódicos'
resultado

In [None]:
# Tabela alternativa, agrupada por categorias em linhas:
resultadoalternativo = prodPPGCByTipoporAno.count()
resultadoalternativo.columns.values[0] =  'Quantidade'
resultadoalternativo[['Quantidade']]

In [None]:
# gráfico 
resultado.plot.bar(color=['red', 'blue'])
# tente o seguinte e analise se há diferença: 
#prodPPGCByTipoporAno.size().plot.bar(color=['red', 'blue'])

In [None]:
# mesmo gráfico, mas com barras empilhadas
resultado.plot.bar(color=['red', 'blue'], stacked=True).legend(title='Tipo de publicação', loc='center left', bbox_to_anchor=(1, 0.5))

In [None]:
# gráfico em linhas
resultado = prodPPGCByTipoporAno.size().unstack()
resultado.columns.values[0] =  'Artigos em ConferÃªncias'
resultado.columns.values[1] =  'Artigos em PeriÃ³dicos'
resultado = resultado.reset_index()
resultado["Ano"] = resultado["Ano"].astype("category")
resultado.index = resultado['Ano']
resultado.plot.line(color=['red', 'blue'], linewidth=3, grid=True, marker='x').legend(title='Tipo de publicaÃ§Ã£o', loc='center left', bbox_to_anchor=(1, 0.5))

In [None]:
# Quantidade total de artigos no período, por QUALIS
prodPPGCByQualis = prodPPGC.groupby(['Qualis'])
resultado = prodPPGCByQualis.count()[['Tipo']].rename(columns={'Tipo': 'Quantidade'})
resultado

In [None]:
# resultado em um gráfico de barras
resultado.plot.bar()

In [None]:
# Quantidade de artigos por qualis no período, extratificado por ano 
resultado = prodPPGC.groupby(['Ano','Qualis']).size()
resultado.unstack()

In [None]:
# grráfico em barras empilhadas
resultado.unstack().plot.bar(stacked=True).legend(loc='center left', bbox_to_anchor=(1, 0.5))

In [None]:
# mostra linhas com a evolução da quantidade por ano, por qualis
resultado.unstack().plot.line(linewidth=3).legend(loc='center left', bbox_to_anchor=(1, 0.5)) # melhore o grÃ¡fico, ajustando as legendas...

In [None]:
# mostra tabela com a evolução da quantidade por ano, extratificada por tipo e por qualis
resultado = prodPPGC.groupby(['Ano','Tipo', 'Qualis']).size().unstack()
resultado

In [None]:
# Gráfico
resultado.plot(kind='bar', stacked=True)

In [None]:
# Tabela de produção anual, por tipo de publicação vs qualis
resultado = prodPPGC.groupby(['Tipo','Ano', 'Qualis']).size().unstack()
resultado

In [None]:
# Mostra a quantidade de artigos no período que possuem alunos da graduação como autores:
prodPPGC[prodPPGC['Aut.Grad']>0]['Ano'].count()

In [None]:
# a quantidade de artigos que possuem alunos da graduação, por ano:
prodPPGC[prodPPGC['Aut.Grad']>0].groupby('Ano')['Tipo'].count()

In [None]:
# a média anual de artigos com Qualis A1, no período
prodPPGC[prodPPGC['Qualis']=='A1'].groupby('Ano').count()['Tipo'].mean()

Exemplo 2
-----------

O **trecho de código a seguir** abre um arquivo CSV disponibilizado pelo professor no seu espaço  pessoal no GitHub usando a biblioteca *`pandas`* (ver http://pandas.pydata.org/ para detalhes sobre ela).

O arquivo contém um trecho dos dados do ENADE de 2014.

Os **dados originais** podem ser obtidos em:
http://dados.gov.br/dataset/microdados-do-exame-nacional-de-desempenho-de-estudantes-enade

Em especial, para este exemplo, foram obtidos os dados de 2014:
http://download.inep.gov.br/microdados/Enade_Microdados/microdados_enade_2014.zip

Eles foram coletados, extraídos e disponibilizados na URI especificada no código seguinte. 

**Execute-o e perceba que é muito simples coletar dados disponibilizados na Web!**

In [None]:
import pandas as pd

# local onde está o arquivo de dados
#uri = 'http://raw.githubusercontent.com/lwives/mlp/master/2014.csv' 

uri = 'http://raw.githubusercontent.com/lwives/mlp/master/enade.csv'

print("Baixando arquivo: ", uri)    
# Lê o arquivo de dados a partir da URI/URL
# Detalhes de funcionamento em: http://pandas.pydata.org/pandas-docs/stable/io.html#io-read-csv-table 
df = pd.read_csv(uri, sep=";")
print("Arquivo baixado!")    

**O trecho seguinte mostra o conteúdo lido e presente na estrutura interna (dataframe)**

In [None]:
df

**O trecho seguinte mostra as colunas (atributos) que foram lidos do arquivo:**

In [None]:
print("Column headers", df.columns)

**A definição de o que significa cada coluna está disponível no portal do INEP (mais especificamente em uma subpasta dentro do arquivo disponível em http://download.inep.gov.br/microdados/Enade_Microdados/microdados_enade_2014.zip).**

**O trecho seguinte mostra um sumário estatístico do arquivo:**

In [None]:
df.describe()

**Perceba que alguns atributos são *categóricos* e algumas das métricas não fazem sentido (p. ex., média para o ano). Mas podemos mudar a semêntica dos atributos... **

**Por exemplo, o trecho seguinte cria um novo atributo chamado "ano", tendo como base o atributo "nu_ano", mas em formato categórico. Depois, solicita para gerar dados estatísticos deste novo atributo:**

In [None]:
df["ano"] = df["nu_ano"].astype("category")
df["ano"].describe()

**Também podemos pegar um subconjunto dos dados ou um dos atributos e colocá-los em ordem. O trecho seguinte seleciona a coluna relativa ao ano de conclusão do 2o grau e mostra os registros em ordem crescente, por este campo:**

In [None]:
df['ano_fim_2g'].sort_values()

**Já o trecho seguinte cria uma nova tabela (data-frame) que contém as notas gerais dos alunos (Nota bruta da prova, i.e., a média ponderada da formação geral (25%) e componente específico (75%) (0 a 100)), ordenadas por ano de finalização do 2o grau:**

In [None]:
df2 = df[['ano_fim_2g','nt_ger']]
df2.sort_values(by='ano_fim_2g')

**Para ter uma ideia dos tipos de visualização disponíveis, consulte: 
http://pandas.pydata.org/pandas-docs/version/0.9.0/visualization.html**

**Para uma visão geral (de 10 minutos) sobre o que você pode fazer com a biblioteca "Pandas", consulte: http://pandas.pydata.org/pandas-docs/stable/10min.html**

Exercícios (extras para praticar, i.e., não obrigatórios)
-----------

1. Monte um gráfico em barras que mostre a quantidade de pessoas que fizeram a prova, por ano;
2. Monte um gráfico em barras que mostre a média das notas agrupadas por ano de conclusão do 2o grau;
3. Agrupe os dados por sexo e monte um gráfico em forma de pizza que demonstre a porcentagem geral de pessoas por sexo;
4. Monte uma tabela que demonstre informações estatísticas relacionadas com a nota (média, desvio padrão, variância), por ano de conclusão.