 <img src="Images/fc.pos.jpg" class="bg-primary" align = 'left' width=200/>


# Academia de Física 2025

## Pandas e Excel
A importação de ficheiros usando a função `loadtxt()` do `numpy`, nem sempre é possível ou o mais conveniente. No acesso a bases de dados acontece frequentemente que os dados não estão completos ou com o fomato adequado. A biblioteca `pandas` foi concebida para lidar com múltiplos formatos de ficheiros e dados. No `pandas` é possível ler um ficheiro Excel `.xlsx` diretamente. Contudo, na minha experiência é útil remover explicitamente todas as colunas vazias do ficheiro excel. De outro modo o panda importa-as e diz que o respetivo conteúdo é `NaN`, **N**ot **a** **N**umber.

In [None]:
%matplotlib inline                                     
import numpy as np                    # modulo numérico , essencial para trabalho cientifico; chamado
import matplotlib.pyplot as plt

In [None]:
import pandas as pd

O `Pandas` tem dois tipos de estruturas de dados: `Series`, para representar sequências de dados e `DataFrames` para  tabelas de duas entradas. 

In [None]:
pl=[24,45,23]
series_pl=pd.Series(pl)
series_pl


A diferença relativamente a uma lista reside no índice que é explícito, e que só por omissão é $0,\ 1,\dots$. Pode ser outro:

In [None]:
pl=[24,45,23]
series_pl=pd.Series(pl, index=['Pedro','Paulo','Maria'])
series_pl


In [None]:
print(series_pl[2])
print(series_pl['Paulo'])


Vejamos agora um exemplo de `DataFrame` obtido por importação de um ficheiro Excel

In [None]:
df0=pd.read_excel("Dados/PORDATA_Por-sexo_VO.xlsx")
df0

O objeto `df` é um exemplo de um `DataFrame`, a estrutura principal do pacote `pandas`. Consiste numa tabela de dados. A primeira coluna é um índice, a primeira linha contém os nomes dos dados de cada coluna. Neste exemplo só quatro colunas têm dados, mas o panda importou colunas vazias com a indicação `NaN` que significa **N**ot **a** **N**mber. Eis o que acontece se tivermos removido as colunas vazias:

In [None]:
df=pd.read_excel("Dados/PORDATA_Por-sexo.xlsx")
df

Podemos converter um DataFrame num `array numpy`  para prosseguir na vizualização de que demos exemplos na segunda sessão. Mas, antes disso, veremos como poderíamos remover as colunas vazias usando o `pandas`. 

Podemos selecionar as colunas a representar. A sintaxe é `DataFrame["nome_coluna"]`. Se quisermos mais do que uma coluna podemos substituir `"nome_coluna"` por uma lista de nomes.

In [None]:
type(df0)

In [None]:
df1=df0[["Anos","Total","Masculino"]]  #seleção das colunas com os títulos das listas
df1

Também é possível selecionar linhas do `DataFrame`

In [None]:
df.loc[60:63]    # dataFrame com três linha apenas

In [None]:
df.loc[60]  #uma linha, data series. 

In [None]:
df.loc[60].name, df.loc[60].Ano,  df.loc[60].Total

In [None]:
# conversão para numpy array
df.loc[60].to_numpy()


In [None]:
# transformando o DataFrame Panda num array
df.to_numpy()

Depis desta conversão podemos recorrer ao `matplotlib`  para vizualizar gráficamente os dados. Mas também podemos fazer gráficos a partir diretamente do `DataFrame` usando métodos definidos no `pandas`. Quando o `plot` se aplica a um data frame, interpreta as colunas como os dados a representar e o índice como variável independente. 

In [None]:
df.plot()

O resultado não é exatamente o desejado. Foi usada a coluna de índice  como abcissas. Mas podemos importar os dados usando o "Ano" com índice. 

In [None]:
df1=pd.read_excel("Dados/PORDATA_Por-sexo.xlsx", index_col=0)
df1

In [None]:
df1.plot()
plt.title("População Portuguesa")
plt.grid(True)

Podemos selecionar apenas uma coluna:

In [None]:
df["Total"].plot()
plt.title("População Portuguesa")
plt.grid(True)

Como "Ano" passou a ser índice, se exportarmos para `array numpy`  a coluna "Ano" não é incluída.

In [None]:
df1.to_numpy()

os exemplos seguintes mostram como se pode manter controlo sob o aspeto dos gráficos.

In [None]:
df1[["Masculino", "Feminino"]].plot(ylabel="milhares", figsize=(8,4.5),\
                                    title="População Portuguesa", grid=True);

Ou de um modo mais parecido com a sitaxe do `PyPlot`:

In [None]:
fig=plt.figure(figsize=(8,4.5))
ax=df1[["Feminino","Masculino"]].plot(color=['blue','red'], marker='o',ms=4)
ax.set_ylabel("milhares")
ax.set_xlim(1980,2020)
ax.set_ylim(4500,5600)
ax.grid(True)
ax.set_title("População Portuguesa");

Um exemplo um pouco mais complexo, ilustrado por dados obtidos do site do [Eurostat](https://ec.europa.eu/eurostat).  

In [None]:
eurostat=pd.read_excel('Dados/educ_uoe_grad01.xlsx')
eurostat

Podemos representar os dados de uma mais linhas na célula seguinte. Como as colunas com dados alternan com colunas NaN usamos a sintaxe x:y:2 para obter os dados $[x,x+2,x+4\dots ]$ das séries que constituem cada linha da matriz.

In [None]:
eurostat.loc[24][1:21:2].plot(marker='o', linewidth=1, label='Portugal') # row 24 as a Series
eurostat.loc[25][1:21:2].plot(marker='o', linewidth=1, label='Romania')
eurostat.loc[9][1:21:2].plot(marker='o', linewidth=1, label='Ireland')
plt.grid(True)
plt.xlabel("Year")
plt.ylabel("graduates")
plt.legend()

### Referências

 1. Pandas tutorial,  W3Schools [Pandas tutorial](http://www.w3schools.com/python/pandas/)
 2. PORDATA, Estatísticas sobre Portugal e a Europa,  Fundação Francisco Manuel dos Santos, [https://www.pordata.pt/portugal](https://www.pordata.pt/portugal). <a id='ref1'></a>
 3.EUROSTAT, European Union, [Graduates by education level, programme orientation, sex and field of education](https://ec.europa.eu/eurostat/databrowser/view/educ_uoe_grad02/default/table?lang=en&category=educ.educ_outc.educ_uoe_grad)