# Material/Conteúdo de aula do dia 2

Responsável: Gustavo Nascimento/ Renato A. Corrêa dos Santos

* Importação de arquivos
* Biblioteca Pandas
* Séries e Dataframe
* Gráficos iniciais (Matplotlib)
* Exportação de arquivos e figuras


# Biblioteca pandas

A biblioteca Pandas utiliza NumPy, uma outra biblioteca de Python para cálculos numéricos, e facilita a análise de dados estruturas ou em forma de "tabela" (tabulados).

Diferente de NumPy, Pandas foi planejamento para trabalhar com dados tabulares ou heterogêneos.

## Importando bibliotecas em Python

In [None]:
import pandas

In [2]:
import pandas as pd # Convenção

# Importação de arquivos

Vamos falar rapidamente sobre formas de ler arquivos em Python e em seguida vamos apresentar como comumente fazemos isso com a biblioteca Pandas.

## Leitura de arquivos em Python (sem Pandas)

Há algumas formas diferentes de importar arquivos no Google Colab. Uma das formas envolve selecionar a aba à esquerda ("Arquivos" ou "Files" e "Upload to Session Storage"). Nesta modalidade, os arquivos ficarão disponíveis apenas durante uma sessão de execução do Colab - se quiserem manter os arquivos permanentemente no Drive de vocês é importante criar uma pasta e carregá-lo FORA da sessão da atividade.

Nas atividades de hoje, vamos utilizar três formatos de arquivo diferente e que são comumente usados em análises científicas:

* CSV (comma-separated values, .csv)
* TSV (tab-separated values, .tsv)
* Arquivo do Excel (.xlsx)

In [None]:
previsao_do_tempo_semana = open("Previsão do tempo.tsv", mode="r", encoding="utf-8")

In [None]:
for linha in previsao_do_tempo_semana:
    print(linha) # Visualização dos dados separados por TAB

ValueError: I/O operation on closed file.

In [None]:
previsao_do_tempo_semana.close() # Boa prática, para liberar recursos

Uma curiosidade é que os arquivos são lidos apenas uma vez. Ou seja, você só conseguirá realizar um laço for uma vez; se quiser realizar uma segunda iteração nas linhas do arquivo deverá importá-lo novamente.

In [None]:
previsao_do_tempo_semana = open("Previsão do tempo.csv", mode="r", encoding="utf-8")

In [None]:
for linha in previsao_do_tempo_semana:
    print(linha) # Visualização dos dados separados por vírgula

Geralmente, analisamos dados em tabelas do Excel ou Google Sheets (formato .xlsx). Existem funções já desenvolvidas para a leitura deste tipo de arquivo.

In [None]:
previsao_do_tempo_semana = open("Previsão do tempo.xlsx", mode="r", encoding="utf-8")

In [None]:
for linha in previsao_do_tempo_semana:
    print(linha)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcb in position 12: invalid continuation byte

Mais adiante vamos explorar também formas de escrever em arquivos.

Existem diferentes "modos" de abertura de arquivos (escrita, acrescentar informação em arquivo existente, escrita com verificação de existência de arquivos, etc).

## Leitura de arquivos com a biblioteca Pandas

# Series

Series são unidimensionais e compostos por:
* Array de valores do mesmo tipo
* Rótulos chamados índices

In [None]:
pd.Series([10, 9, 9, 12, 13, 13, 14, 15]) # Números correspondem aos mínimos de temperatura (em Celsius) entre os dias 11 e 18 de junho de 2025 em São Paulo

Unnamed: 0,0
0,10
1,9
2,9
3,12
4,13
5,13
6,14
7,15


Da mesma forma que fizemos com strings e listas, podemos também associar este novo objeto a uma variável:

In [34]:
temperaturas_minimas_sp = pd.Series([10, 9, 9, 12, 13, 13, 14, 15])

Acessando valores e índices associados:

In [4]:
temperaturas_minimas_sp.array

<NumpyExtensionArray>
[np.int64(10),  np.int64(9),  np.int64(9), np.int64(12), np.int64(13),
 np.int64(13), np.int64(14), np.int64(15)]
Length: 8, dtype: int64

In [5]:
temperaturas_minimas_sp.array.tolist()

[np.int64(10),
 np.int64(9),
 np.int64(9),
 np.int64(12),
 np.int64(13),
 np.int64(13),
 np.int64(14),
 np.int64(15)]

In [8]:
temperaturas_minimas_sp.index

RangeIndex(start=0, stop=8, step=1)

In [7]:
temperaturas_minimas_sp.index.tolist()

[0, 1, 2, 3, 4, 5, 6, 7]

Por padrão, os índices de Series são criados com números que têm início em zero. No entanto, eles podem ser numéricos ou cadeias de caracteres e nós mesmos podemos definir quais são esses índices.

Vamos associar cada um desses valores de temperatura em São Paulo (Celsius) às datas de previsão do tempo para as máximas:

In [28]:
temperaturas_maximas_sp = pd.Series([15, 14, 17, 19, 19, 23, 24, 31], index=["11/06", "12/06", "13/06", "14/06", "15/06", "16/06", "17/06", "18/06"])

In [29]:
temperaturas_maximas_sp.index

Index(['11/06', '12/06', '13/06', '14/06', '15/06', '16/06', '17/06', '18/06'], dtype='object')

Podemos acessar cada um dos valores usando os índices:

In [30]:
temperaturas_maximas_sp['11/06']

np.int64(15)

In [31]:
temperaturas_maximas_sp[['11/06', '12/06', '18/06']] # se tivermos dois valores, é necessário incluir uma lista de índices na consulta

Unnamed: 0,0
11/06,15
12/06,14
18/06,31


É possível alterar valores através de atribuição. Na verdade, a previsão de máxima para o dia 18 é de 24 C:

In [32]:
temperaturas_maximas_sp['18/06'] = 24

In [33]:
temperaturas_maximas_sp[['11/06', '12/06', '18/06']]

Unnamed: 0,0
11/06,15
12/06,14
18/06,24


## Extra: Definindo Series com o uso de dicionários

Pela nossa limitação de tempo, não foi possível mostrar dicionários, uma outra estrutura de dados bastante importante em Python. Vamos mostrar de forma breve.

Dicionários são combinações de chaves únicas e valores associados. Cada par é definido com "dois pontos" e é separado do próximo par por vírgulas:

In [18]:
{'11/06': 15,
 '12/06': 14,
 '13/06': 17,
 '14/06': 19,
 '15/06': 19,
 '16/06': 23,
 '17/06': 24,
 '18/06': 24}

{'11/06': 15,
 '12/06': 14,
 '13/06': 17,
 '14/06': 19,
 '15/06': 19,
 '16/06': 23,
 '17/06': 24,
 '18/06': 24}

Podemos utilizá-lo para a construção de Series:

In [19]:
pd.Series({'11/06': 15,
 '12/06': 14,
 '13/06': 17,
 '14/06': 19,
 '15/06': 19,
 '16/06': 23,
 '17/06': 24,
 '18/06': 24})

Unnamed: 0,0
11/06,15
12/06,14
13/06,17
14/06,19
15/06,19
16/06,23
17/06,24
18/06,24


## Operações matemáticas com Series

❌ seção incompleta. Não faz sentido ensinar operações com mínimas e máximas. Retomar aqui mais adiante, com outro exemplo.

## Alinhamentos de dados

❌ seção incompleta. Uma das grandes vantagens do uso de índices em Series é poder realizar operações entre objetos com os mesmos índices. Acho que vale a pena explorar um pouco disso antes de ir para DataFrames.

# DataFrames

DataFrames são representações de tabelas de dados e apresentam estas propriedades:
* Possuem uma coleção de colunas ordenadas e nomeadas
* Cada coluna apresenta dados do mesmo tipo

❌ seção incompleta. Explicar novamente o que são dicionários e como são estruturados.

Criando DataFrame com dicionários de listas:

In [99]:
temperaturas = {"Min": [10, 9, 9, 12, 13, 13, 14, 15],
                   "Max": [15, 14, 17, 19, 19, 23, 24, 31]}

In [100]:
temperaturas_df = pd.DataFrame(temperaturas)

Ao criar um dataframe desta forma, os índices são gerados automaticamente (numéricos, com início em zero) e os valores são adicionados na ordem em que aparecem nas listas.

In [101]:
temperaturas_df

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19
5,13,23
6,14,24
7,15,31


Como vimos em outros objetos de Python, DataFrames também apresentam métodos que podem ser aplicados:

In [102]:
temperaturas_df.head() # Visualizar as primeiras linhas

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19


In [103]:
temperaturas_df.tail() # Visualizar as últimas linhas

Unnamed: 0,Min,Max
3,12,19
4,13,19
5,13,23
6,14,24
7,15,31


Podemos acessar colunas desejadas do DataFrame:

In [104]:
temperaturas_df["Min"]

Unnamed: 0,Min
0,10
1,9
2,9
3,12
4,13
5,13
6,14
7,15


In [105]:
temperaturas_df.Min # Notação alternativa

Unnamed: 0,Min
0,10
1,9
2,9
3,12
4,13
5,13
6,14
7,15


In [106]:
temperaturas_df[["Min", "Max"]] # Similar à forma de recuperarmos informações de Series (naquele caso, com índices)

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19
5,13,23
6,14,24
7,15,31


❌ seção incompleta. Esclarecer bem as diferenças entre `.loc` e `.iloc`.

Podemos acessar linhas pelos valores e índices:

In [107]:
temperaturas_df.loc[1]

Unnamed: 0,1
Min,9
Max,14


In [108]:
temperaturas_df.iloc[1]

Unnamed: 0,1
Min,9
Max,14


Criando uma nova coluna:

In [109]:
temperaturas_df["Cidade"] = "São Paulo"

Todos os valores que queremos adicionar, neste caso, são iguais. Esse é um atalho para não fazer algo como uma lista assim:

In [110]:
temperaturas_df["Cidade"] = ["São Paulo", "São Paulo", "São Paulo", "São Paulo", "São Paulo", "São Paulo", "São Paulo", "São Paulo"]

In [111]:
temperaturas_df

Unnamed: 0,Min,Max,Cidade
0,10,15,São Paulo
1,9,14,São Paulo
2,9,17,São Paulo
3,12,19,São Paulo
4,13,19,São Paulo
5,13,23,São Paulo
6,14,24,São Paulo
7,15,31,São Paulo


Deletando colunas do DataFrame.

Como não faz muito sentido neste momento ter uma coluna com todos os dados iguais, vamos remover a coluna "Cidade":

In [112]:
del temperaturas_df["Cidade"]

In [113]:
temperaturas_df

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19
5,13,23
6,14,24
7,15,31


In [114]:
del temperaturas_df["Cidada"]

KeyError: 'Cidada'

## Erros frequentes em Python

❌ seção incompleta

O "traceback" do interpretador de Python nos ajuda a identificar, sempre que possível, a que está associado nosso erro:

* `SyntaxError`: o interpretador não reconhece determinado trecho como código válido de Python
* `NameError`:
* `IndexError`:
* `IndentationError`:
* `KeyError`: da mesma forma que temos erros ao tentar acessar um índice que não existe em lista, temos também erro ao tentar acessar chaves de dicionários ou nomes de colunas em DataFrames !

In [115]:
temperaturas_df

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19
5,13,23
6,14,24
7,15,31


Modificando valores de um DataFrame criado:

In [116]:
temperaturas_df["Max"] = [15, 14, 17, 19, 19, 23, 24, 24]

In [117]:
temperaturas_df

Unnamed: 0,Min,Max
0,10,15
1,9,14
2,9,17
3,12,19
4,13,19
5,13,23
6,14,24
7,15,24


In [40]:
temperaturas_minimas_sp.to_dict()

{'11/06': 10,
 '12/06': 9,
 '13/06': 9,
 '14/06': 12,
 '15/06': 13,
 '16/06': 13,
 '17/06': 14,
 '18/06': 15}

In [42]:
temperaturas_minimas_sp.tolist()

[10, 9, 9, 12, 13, 13, 14, 15]

In [41]:
temperaturas_maximas_sp.to_dict()

{'11/06': 15,
 '12/06': 14,
 '13/06': 17,
 '14/06': 19,
 '15/06': 19,
 '16/06': 23,
 '17/06': 24,
 '18/06': 24}

In [43]:
temperaturas_maximas_sp.tolist()

[15, 14, 17, 19, 19, 23, 24, 24]

In [38]:
temperaturas_minimas_sp = pd.Series([10, 9, 9, 12, 13, 13, 14, 15], index=["11/06", "12/06", "13/06", "14/06", "15/06", "16/06", "17/06", "18/06"])

In [39]:
temperaturas_maximas_sp = pd.Series([15, 14, 17, 19, 19, 23, 24, 24], index=["11/06", "12/06", "13/06", "14/06", "15/06", "16/06", "17/06", "18/06"])

# Gráficos iniciais

A biblioteca Matplotlib é uma das mais comuns para visualização de dados em Python de forma bidimensional.

# Exportação de arquivos e figuras

# Referências

* McKinney, Wes. Python para análise de dados: Tratamento de dados com Pandas, NumPy e IPython. Novatec Editora, 2018.