# An√°lise de Dados em Python: Manipula√ß√£o de Tabelas

2023/24 -- Jo√£o Pedro Neto, DI/FCUL

Uma **tabela** (em ingl√™s, *data frame*) √© uma estrutura de dados indexada que armazena uma sequ√™ncia de registos. Os registos t√™m todos a mesma estrutura e possuem diferentes tipos de informa√ß√£o. √â normal representar os registos em linhas, e os v√°rios tipos de informa√ß√£o em colunas. Esta √© uma representa√ß√£o quase universal que voc√™s conhecem, por exemplo, da forma como o Excel organiza a sua informa√ß√£o.

<center><img src="https://media.geeksforgeeks.org/wp-content/uploads/finallpandas.png" alt="https://www.geeksforgeeks.org/python-pandas-dataframe/" width="650"/></center>

Para trabalhar com tabelas em Python o m√≥dulo `pandas` √© uma das melhores op√ß√µes. Vamos aprender a trabalhar com ele.


In [None]:
import pandas as pd

O pandas pode criar uma tabela a partir de uma lista:

In [None]:
dados = ["Ana", "Bruno", "Carla", "Diogo", "Eva"]

pd.DataFrame(dados)

Se usarmos um dicion√°rio com chaves associadas a listas do mesmo tamanho, o pandas converte para uma tabela apropriada:

In [None]:
dados = { 'Nome'    : ["Ana", "Bruno", "Carla", "Diogo", "Eva", "Francisco"],
          'Idade'   : [20, 21, 19, 25, 22, 21],
          'emProgI' : [True, True, False, True, False, True],
          'Cidade'  : ['Lisboa', 'Setubal', 'Coimbra', 'Leiria', 'Lisboa', 'Porto']
        }

df = pd.DataFrame(dados)
df

O pandas permite realizar opera√ß√µes sobre as tabelas.

+ selecionar colunas:

In [None]:
df[['Nome', 'Cidade']]

+ selecionar linhas de acordo com certos crit√©rios:

In [None]:
df[ df['Cidade']=='Lisboa' ] # selecionar pessoas de Lisboa

+ iterar pelas v√°rias linhas.

Vamos aproveitar essa capacidade para calcular a m√©dia das idades:

In [None]:
nLinhas, nColunas = df.shape
somaIdades = sum(registo['Idade'] for _,registo in df.iterrows())

print(f'{somaIdades/nLinhas:5.2f}')



---



As tabelas podem ser vistas como bases de dados. √â normal neste contexto que cada registo possa ser localizado por um valor √∫nico, uma chave ou identificador (abreviamos para id).

N√≥s estamos habituados a isso: temos um n√∫mero de cart√£o de cidad√£o, um n√∫mero de carta de condu√ß√£o, n√∫mero de contribuinte, n√∫mero de aluno da FCUL, etc.

Vamos adicionar aos dados um campo `id` e defini-lo como chave:

In [None]:
dados = { 'Id'      : [51321, 50123, 52932, 46431, 49123, 50543],
          'Nome'    : ["Ana", "Bruno", "Carla", "Diogo", "Eva", "Francisco"],
          'Idade'   : [20, 21, 19, 25, 22, 21],
          'emProgI' : [True, True, False, True, False, True],
          'Cidade'  : ['Lisboa', 'Setubal', 'Coimbra', 'Leiria', 'Lisboa', 'Porto']
        }

dfPessoas = pd.DataFrame(dados).set_index('Id') # definir chave
dfPessoas

Desta forma podemos usar a chave para pesquisar o respetivo registo com o uso de uma funcionalidade da tabela designada `loc` (de localiza√ß√£o):

In [None]:
dfPessoas.loc[50543]['Nome']

Podemos igualmente aplicar opera√ß√µes aritm√©ticas a colunas da tabela,

In [None]:
dfPessoas[ dfPessoas['Idade'].ge(22) ] # quem tem idade >= 22

Entre as opera√ß√µes poss√≠veis, temos `add`, `sub`, `mul`, `div`, `mod`, `ge`, `gt`, `eq`, `ne` (not equal), etc.



---



Para experimentar mais funcionalidades do `pandas` vamos ler um ficheiro com dados de movimentos de dinheiro de v√°rias pessoas (que eu criei para este texto). O ficheiro encontra-se na minha conta GitHub no formato [csv](https://pt.wikipedia.org/wiki/Comma-separated_values).

In [None]:
url = 'https://raw.githubusercontent.com/jpneto/Prog.I/master/data/movimentos.csv'

df = pd.read_csv(url)

df.head(10)  # mostra as primeiras linhas da tabela

Podemos ter um resumo dos dados com a fun√ß√£o `info()`

In [None]:
df.info()

Observamos que o tipo da coluna `data` n√£o est√° num formato de datas, sendo provavelmente uma *string*.

Vamos convert√™-la para o tipo `datatime`, um tipo Python que representa datas:

In [None]:
df['data'] = pd.to_datetime(df['data'], format='%Y-%m-%d')
df.info()

In [None]:
df.head()



---



## Projetar e Restringir Tabelas

O `pandas` permite efetuar v√°rias opera√ß√µes sobre tabelas.

A opera√ß√£o mais simples chamada de **proje√ß√£o** √© selecionar um subconjunto de colunas:


In [None]:
df2 = df[ ['pessoa', 'categoria'] ]

df2.head()

A opera√ß√£o de selecionar apenas algumas linhas chama-se **restri√ß√£o** e j√° a vimos em funcionamento:

In [None]:
df2 = df[ df['pessoa']=='Carla' ]
df2.head()

Podemos aplicar estas duas opera√ß√µes sequencialmente:

In [None]:
df2 = df[ ['pessoa', 'categoria'] ][ df['pessoa']=='Carla' ]

df2.head()



---



## Fundir Tabelas

Outra opera√ß√£o √© a **fus√£o** de duas tabelas.

Vamos criar uma segunda tabela contendo apenas os nomes das pessoas da tabela anterior, √†s quais juntamos as respetivas cidades de origem e os anos de nascimento.



In [None]:
dfInfo = df[['pessoa']].drop_duplicates()  # remove duplicados
dfInfo['cidade'] = ['Lisboa', 'Porto', 'Set√∫bal', 'Lisboa', 'Lisboa', 'Leiria']
dfInfo['nascimento'] = [1995, 2001, 1998, 2002, 2000, 1999]
dfInfo

Qual o resultado de fundir a tabela original com esta nova tabela?

In [None]:
df.merge(dfInfo)



---



## Agregar Tabelas

Uma das funcionalidades poss√≠veis √© agregar uma tabela por grupos.

Por exemplo, talvez eu queira investigar os gastos efetuados por cada uma das pessoas em separado.

Estas opera√ß√µes realizam-se atrav√©s da fun√ß√£o `groupBy`.

Neste primeiro exemplo, vamos contar quantos registos de movimentos existem para cada pessoa:

In [None]:
df.groupby('pessoa').aggregate({'valor':'count'})

Ou mostrar a m√©dia dos movimentos por pessoa,

In [None]:
df.groupby('pessoa').aggregate({'valor':'mean'})

Podemos agregar v√°rios valores na mesma tabela:

In [None]:
df.groupby('pessoa').aggregate({'valor': ['min', 'mean', 'max'],
                                'data' : ['min', 'max']})

A fun√ß√£o `groupBy` devolve uma sequ√™ncia de tabelas individuais agregadas, neste caso, por pessoa:

In [None]:
dfPorPessoa = df.groupby("pessoa")

for pessoa, frame in dfPorPessoa:
  print(pessoa)
  print('*'*20)
  print(frame.head(4))

Vamos selecionar, por exemplo, o grupo dos movimentos da Ana:

In [None]:
dfPorPessoa.get_group("Ana").head()

Agora queremos analisar a soma dos gastos da Ana por cada categoria. Para isso, voltamos a agregar a tabela da Ana por categoria e pedimos para ser calculada a soma de cada grupo:

In [None]:
dfAna = dfPorPessoa.get_group('Ana')
dfAna.groupby('categoria').sum()

Vamos fazer este c√°lculo para todas as pessoas. Agregamos primeiro por pessoa e, para cada pessoa, agregamos por categoria. E em cada uma destas agrega√ß√µes calculamos a soma. Armazenamos estas somas num dicion√°rio.

In [None]:
somas = {} # soma de gastos por pessoa e por categoria

for pessoa, frame1 in df.groupby('pessoa'):              # 1¬∫ agrega por pessoa
  somas[pessoa] = []
  categorias = list( frame1.groupby('categoria').groups.keys() )

  for categoria, frame2 in frame1.groupby('categoria'):  # 2¬∫ agrega por categoria nessa pessoa
    somas[pessoa].append( round(frame2['valor'].sum(),2) )

print(categorias)
print(somas)

Com o dicion√°rio das somas e a lista das categorias criamos uma nova tabela para ter esta informa√ß√£o bem organizada:

In [None]:
dfSomas = pd.DataFrame(somas)
dfSomas['categoria'] = categorias
dfSomas.set_index("categoria", drop=True, inplace=True) # a categoria passa a ser a chave
dfSomas

Com esta tabela final podemos criar uma visualiza√ß√£o para ser mais f√°cil compararmos os gastos por pessoa e por categoria:

In [None]:
dfSomas.plot(kind="bar", figsize=(12,8), rot=30);



---



Podemos agrupar v√°rias linhas e v√°rias colunas,

In [None]:
df2 = df.groupby(['pessoa','categoria']).aggregate({'valor':['min','max']})
df2.head(13)

Com as colunas achatadas √© mais f√°cil lidar com a tabela,





In [None]:
df2.columns = ['min valor', 'max valor']
df2 = df2.reset_index() # achatar todas as colunas
df2.head(7)

 O pandas permite criar [pivot tables](https://www.excel-easy.com/data-analysis/pivot-tables.html) (como no Excel), que servem para agrupar ao mesmo tempo duas colunas/grupos de uma tabela

In [None]:
df = df.merge(dfInfo) # fundir a tabela com as cidades
df.pivot_table(index='categoria', columns='cidade', values='valor', aggfunc='sum')

## Refer√™ncias

+ [Minimally Sufficient Pandas](https://medium.com/dunder-data/minimally-sufficient-pandas-a8e67f2a2428)

+ [Panda's User Guide](https://pandas.pydata.org/docs/user_guide/index.html)



---



## Interl√∫dio: Tempos e Datas

Vamos falar um pouco mais sobre o tipo `datetime` para ver algumas das funcionalidades que o Python tem sobre o tempo e as datas.

Gerir datas √© um assunto pouco referido nestes t√≥picos da programa√ß√£o, sendo considerado um tipo mundano de pouco interesse. No entanto, a necessidade de representar datas √© muito comum e conv√©m termos um tipo apropriado para o efeito.

Sendo uma informa√ß√£o relativamente simples, existem muitos detalhes subtis (fusos hor√°rios, hor√°rio de Ver√£o, *leap seconds*, [etc](https://gist.github.com/timvisee/fcda9bbdff88d45cc9061606b4b923ca).) que torna dif√≠cil uma abordagem mais exaustiva. Vamos considerar apenas os elementos mais comuns.

In [None]:
import time

timestamp = time.time()  # os segundos que passaram desde as 00:00:00 UTC de 1 de Janeiro de 1970
timestamp

Este n√∫mero que indica um *timestamp* do momento da execu√ß√£o do c√≥digo √© √∫til para um programa mas n√£o para ser visualizado por pessoas. Podemos traduzir para um valor do tipo `datetime`:

In [None]:
from datetime import datetime

now = datetime.fromtimestamp(timestamp)
now

O m√≥dulo permite traduzir um *timestamp* facilmente numa descri√ß√£o textual. Alguns exemplos:

In [None]:
print( now.strftime("%d-%m-%Y (%H:%M:%S.%f)") )
print( now.strftime("%H:%M:%S -- %B %d, %Y") )
print( now.strftime("%j¬∫ dia do ano %Y") )

Podemos fazer o inverso. Sabendo o formato de data guardada numa *string*, podemos traduzi-la num valor `datetime`.

In [None]:
from datetime import datetime

datetime.strptime("2022-12-05", "%Y-%m-%d")

Podemos adicionar ou remover tempo a datas:

In [None]:
from datetime import datetime, timedelta

jumpAWeek = timedelta(days=7)
print(now + jumpAWeek)

jumpAweekMinus10Hours = timedelta(days=7, hours=-10)
print(now + jumpAweekMinus10Hours)

# podemos at√© somar e subtrair saltos
print(now + jumpAWeek + jumpAweekMinus10Hours)

Podem consultar a [documenta√ß√£o](https://docs.python.org/3/library/datetime.html) para maiores detalhes.



---



## Atividade Opcional: üí∞üí∞

A tabela dos movimentos incluia uma coluna com quantias de dinheiro. Se for necess√°rio implementar um programa s√©rio para lidar com dinheiro, n√£o se deve usar o tipo `float` pelos potenciais erros de arredondamento que podem produzir.

Vamos usar um m√≥dulo externo nos pr√≥ximos exemplos:

In [None]:
import sys

if 'money' not in sys.modules:
  !pip install money -q

import money

Com este m√≥dulo criamos quantias monet√°rias definindo o valor e a moeda:

In [None]:
from money import Money

m = Money(amount='20.16', currency='EUR')
m

As opera√ß√µes sobre estes valores s√£o est√°veis.

In [None]:
centimo = Money(amount='0.01', currency='EUR')

(m + centimo) / 2

Calcular o r√°cio entre duas quantias:

In [None]:
m2 = Money(amount='5.02', currency='EUR')

m / m2

O m√≥dulo tem funcionalidades para formatar quantias:

In [None]:
m = Money(amount='10000.0', currency='EUR')
print(m.format('en_US', '¬§#,##0.00'))
print(m.format('pt_PT', '¬§#,##0.00'))
print(m.format('pt_PT', '#,##0.00 ¬§¬§'))
print(m.format('pt_PT', '#,##0 ¬§¬§¬§'))

m = Money(amount='10000.0', currency='USD')
print(m.format('en_US', '¬§#,##0.00')) # em ingl√™s dos USA
print(m.format('pt_PT', '#,##0 ¬§¬§¬§')) # em portugu√™s de Portugal
print(m.format('es_ES', '#,##0 ¬§¬§¬§')) # em espanhol de Espanha

O m√≥dulo tamb√©m permite fazer convers√µes de moedas baseado nas convers√µes correntes. Podem ler a [documenta√ß√£o](https://pypi.org/project/money/) do m√≥dulo para mais detalhes.