# Aula 1 - Arquivos em Python

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Arquivos em Python
- 2) Arquivos csv

_______


______
________
______

## 1) Arquivos em Python

Todos os programas que fizemos até o momento tinham variáveis, input e output **temporários**, guardados na memória RAM do computador **enquanto o programa é executado**.

Após o programa ser finalizado, todas as variáveis, inputs e outputs eram perdidos.

Muitas vezes queremos que esses valores sejam armazenados, que os dados processados pelo programa sejam preservados. O termo para esta característica é **persistência de dados**.

A persistência se dá através de **arquivos**: documentos criados para **armazenar dados em uma memória permanente**, como o **disco rígido**, um **USB** ou um **servidor web**.

O Python têm algumas funções padrão para a manipulação de arquivos. Vamos vê-las!

A função `open()` é usada pra abrir arquivos existentes ou criar um arquivo novo. 

Ela possui 2 argumentos: o primeiro é o caminho do arquivo, com seu nome (se apenas o nome do arquivo for passado, isso é interpretado como o arquivo estando na mesma pasta que o código!); e o segundo é o modo de operação. Os modos são:

- r -	lê um arquivo existente
- w -	cria um novo arquivo
- a -	abre um arquivo existente para adicionar informações ao seu final
- \+ -	ao ser combinado com outros modos, permite alteração de arquivo já existente (ex: r+ abre um arquivo existente e permite modificá-lo)

O terceiro argumento é o "encoding", que dá a codificação do arquivo. Pra evitar problemas, é legal sempre usar `encoding="utf-8"`

<img src="./modos_abertura.png" width=700>

(Valeu, Arthur!)

In [13]:
caminho_absoluto1 = "H:/Meu Drive/let's code/pi_ds/815/modulo_3/aulas/arquivos/arquivo1.txt"

In [14]:
caminho_absoluto2 = "H:\\Meu Drive\\let's code\\pi_ds\\815\\modulo_3\\aulas\\arquivos\\arquivo2.txt"

In [15]:
caminho_relativo = "./arquivos/arquivo3.txt"

In [16]:
arquivo = open(caminho_relativo, "w", encoding="utf-8")

Se analisarmos a variável "arquivo" (é o return da função `open()`), note que há algumas coisas estranhas... É assim que o python entende seu arquivo, mas não precisa se preocupar muito com isso

In [17]:
arquivo

<_io.TextIOWrapper name='./arquivos/arquivo3.txt' mode='w' encoding='utf-8'>

Uma vez aberto o arquivo, podemos escrever alguma coisa nele. Para isso, usamos o método `write()`

Essa função aceita apenas um argumento, que é o que vc quer escrever no arquivo -- e **deve ser uma string**!

In [18]:
arquivo.write("meu primeiro arquivo uhuuuuu!!!")

31

Após abrirmos (ou criarmos) um arquivo, e fazer as operações desejadas com ele, devemos fechá-lo usando o método `close()`. Essa etapa é importante por 2 motivos:

- Se alteramos o arquivo mas não o fechamos, as alterações não serão salvas.
- Se esquecermos de fechar um arquivo, outros programas podem ter problemas de acesso a ele.

Por isso, **nunca se esqueca de fechar os arquivos abertos!**

In [19]:
arquivo.close()

__Fazendo todas as operações em uma única célula__

In [23]:
arquivo = open(caminho_absoluto2, "w", encoding="utf-8")

arquivo.write("meu primeiro arquivo uhuuuuu!!!")

arquivo.close()

Apesar desta ser uma forma clara e direta, existe um procedimento mais robusto e mais seguro, que é utilizando o ambiente `with`.

O `with` garante que, quando o bloco de código em seu interior for executado, todos os recursos que foram criados (indicados após o `as`) serão liberados!

No nosso caso, o recurso é justamente um arquivo! Com o `with`, nós garantimos que **o arquivo será aberto e fechado**, independente se ocorra qualquer erro antes do arquivo ser fechado! Isso é muito importante, pois garante maior segurança e robustez a nosso código!

In [32]:
caminho_relativo

'./arquivos/arquivo3.txt'

In [26]:
with open(caminho_relativo, "w", encoding="utf-8") as f:

    f.write("meu primeiro arquivo uhuuuuu!!!")

Brincando um pouco com o caminho relativo

In [27]:
# arquivo na mesma pasta que o notebook (usando CAMINHO RELATIVO)

with open("./arquivo_na_mesma_pasta.txt", "w", encoding="utf-8") as f:
    
    f.write("tô na mesma pasta!")

In [28]:
# arquivo na mesma pasta que o notebook (mesma coisa que o anterior, não precisa do ./)

with open("arquivo_também_na_mesma_pasta.txt", "w", encoding="utf-8") as f:
    
    f.write("tô na mesma pasta!")

In [30]:
with open("./../arquivo_uma_pasta_antes.txt", "w", encoding="utf-8") as f:
    
    f.write("tô numa pasta antes!")

In [31]:
with open("../arquivo_também_uma_pasta_antes.txt", "w", encoding="utf-8") as f:
    
    f.write("tô numa pasta antes!")

In [33]:
caminho_relativo

'./arquivos/arquivo3.txt'

In [34]:
# o open NÃO cria pastas!!
with open("./nao_existe/arquivo_em_pasta_que_nao_existe.txt", "w", encoding="utf-8") as f:
    
    f.write("tô numa pasta antes!")

FileNotFoundError: [Errno 2] No such file or directory: './nao_existe/arquivo_também_uma_pasta_antes.txt'

Brincando um pouco com o encoding

In [37]:
with open("./arquivos/arquivo_certo.txt", "w", encoding="utf-8") as f:

    f.write("coração amigão migué essência ó ú")

In [46]:
with open("./arquivos/arquivo_bugado.txt", "w") as f:

    f.write("coração amigão migué essência ó ú")

__________________

Como essa maneira é mais robusta, bamos usá-la daqui pra frente. (Mas, lembre-se que a opção que apresentamos primeiro também é possível!)

In [15]:
# criando um novo arquivo

with open("./arquivos/arquivo.txt", "w", encoding="utf-8") as f:

    f.write("olá, mundo!!")

Vamos escrever mais algumas coisas no nosso arquivo...

Como o arquivo já existe, vamos tentar usar o modo "r"...

In [13]:
with open("./arquivos/arquivo.txt", "r", encoding="utf-8") as f:

    f.write("abacate")

UnsupportedOperation: not writable

Note que encontramos um erro, pois o modo "r" permite **apenas a leitura do arquivo**

Se queremos escrever algo nele, usamos o "r+"

In [16]:
with open("./arquivos/arquivo.txt", "r+", encoding="utf-8") as f:

    f.write("abacate")

Note, no entanto, que se usarmos o modo "r+", o write substitui o conteúdo anterior da primeira linha do arquivo! Isso pq este modo equivale a colocar o cursor **no começo do arquivo** e escrever a partir dali (como se tivese com o `Insert` selecionado).

Prra corrigir isso, usamos o modo "a", que permite escrever AO FIM do arquivo. Isso equivale a colocar o cursor **no último caractere escrito**, e começar a escrever a partir dali!

In [1]:
with open("./arquivos/arquivo.txt", "w", encoding="utf-8") as f:

    f.write("olá, mundo!!")

In [2]:
with open("./arquivos/arquivo.txt", "a", encoding="utf-8") as f:

    f.write("abacate")

Se quisermos escrever em uma nova linha, usamos o "\n":

In [3]:
with open("./arquivos/arquivo.txt", "a", encoding="utf-8") as f:

    f.write("\nabacaxi")

Caso queiramos escrever uma lista pro arquivo:

In [5]:
lista = ["oi, tudo bom?", "estudo na let's code", "bob e alice"]

In [37]:
with open("./arquivos/arquivo.txt", "a", encoding="utf-8") as f:

    f.write(lista)

TypeError: write() argument must be str, not list

O método `write()` pode apenas escrever strings ao arquivo!!

In [6]:
with open("./arquivos/arquivo.txt", "a", encoding="utf-8") as f:

    for elemento in lista:
        
        f.write(f"\n{elemento}")

________

Agora, imagina que queremos apenas **ler** o arquivo, sem intenção de modificá-lo.

Nesse caso, utilizamos o modo "r" do open.

Além disso, se quisermos de fato armazenar os dados do arquivo em uma variável do python, usamos o método `read()`

In [7]:
with open("./arquivos/arquivo.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.read()

In [9]:
conteudo2 = '''olá, mundo!!abacate
abacaxi
oi, tudo bom?
estudo na let's code
bob e alice'''

In [11]:
conteudo2 = "olá, mundo!!abacate\nabacaxi\noi, tudo bom?\nestudo na let's code\nbob e alice"

Da mesma forma que o `write()` só pode escrever strings, o `read()` lê o arquivo como uma string! Veja:

In [15]:
conteudo

"olá, mundo!!abacate\nabacaxi\noi, tudo bom?\nestudo na let's code\nbob e alice"

In [17]:
print(conteudo)

olá, mundo!!abacate
abacaxi
oi, tudo bom?
estudo na let's code
bob e alice


Como o `read()` lê o que estiver no arquivo em forma de uma string, temos que as quebras de linha serão, portanto, armazenadas como "\n".

A partir daí, dá pra pegar cada linha e colocar numa lista:

In [18]:
conteudo_lista = conteudo.split("\n")

In [20]:
conteudo_lista.append("nova linha!!!")

In [21]:
conteudo_lista.append("mais uma nova linha!!!")

In [22]:
conteudo_lista

['olá, mundo!!abacate',
 'abacaxi',
 'oi, tudo bom?',
 "estudo na let's code",
 'bob e alice',
 'nova linha!!!',
 'mais uma nova linha!!!']

In [23]:
conteudo_lista[1] = "limão"

In [24]:
conteudo_lista

['olá, mundo!!abacate',
 'limão',
 'oi, tudo bom?',
 "estudo na let's code",
 'bob e alice',
 'nova linha!!!',
 'mais uma nova linha!!!']

Alterando o arquivo original, depois de ter alterado o conteúdo dele NO PYTHON, ou seja, o que tá na lista `conteudo_lista`

In [29]:
conteudo_lista[0]

'olá, mundo!!abacate'

In [30]:
conteudo_lista[1:]

['limão',
 'oi, tudo bom?',
 "estudo na let's code",
 'bob e alice',
 'nova linha!!!',
 'mais uma nova linha!!!']

Obs.: é importante escrever a primeira linha separadamente, pra não ter o "\n" na primeira linha

In [31]:
with open("./arquivos/arquivo.txt", "w", encoding="utf-8") as f:

    # primeira linha, que é o primeiro elemento da lista - sem \n
    f.write(f"{conteudo_lista[0]}")
    
    # demais linhas, são os demais elementos da lista - com \n
    for elemento in conteudo_lista[1:]:
        
        f.write(f"\n{elemento}")

Vamos para um outro exemplo... Imagine que eu quero armazenar uma lista, para depois lê-la novamente. Como faço isso?

In [32]:
notas = [8, 5, 9, 10, 10, 7]

In [33]:
n_notas = int(input("Quantas notas vc quer? "))

notas = []

for i in range(n_notas):
    
    notas.append(float(input(f"Digite a {i+1}a nota: ")))

Quantas notas vc quer? 4
Digite a 1a nota: 8
Digite a 2a nota: 9
Digite a 3a nota: 7.5
Digite a 4a nota: 10


In [40]:
notas = [float(input(f"Digite a {i+1}a nota: ")) for i in range(int(input("Quantas notas vc quer? ")))]

Quantas notas vc quer? 4
Digite a 1a nota: 8
Digite a 2a nota: 9
Digite a 3a nota: 7.5
Digite a 4a nota: 10


In [41]:
notas

[8.0, 9.0, 7.5, 10.0]

In [63]:
sum(notas)/len(notas)

8.625

Lembre-se que só é possível escrever **strings** com o `write()`! 

In [57]:
with open("./arquivos/notas.txt", "w", encoding="utf-8") as f:
    
    f.write(f"{notas[0]}")
    
    for nota in notas[1:]:
        
        f.write(f"\n{nota}")

Agora, pra ler o arquivo, e já calcular a média das notas armazenadas!

In [58]:
with open("./arquivos/notas.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.read()

In [59]:
conteudo

'8.0\n9.0\n7.5\n10.0'

In [61]:
notas_lidas = conteudo.split("\n")

In [62]:
notas_lidas

['8.0', '9.0', '7.5', '10.0']

In [68]:
notas_lidas = [float(x) for x in notas_lidas]

In [69]:
notas_lidas

[8.0, 9.0, 7.5, 10.0]

In [70]:
sum(notas_lidas)/len(notas_lidas)

8.625

__________

Vamos fazer um arquivo de várias linhas, e depois lê-lo:

In [76]:
poema = """Batatinha quando nasce
se esparrama pelo chão
menininha quando dorme
põe a mão no coração""".split("\n")

In [77]:
poema

['Batatinha quando nasce',
 'se esparrama pelo chão',
 'menininha quando dorme',
 'põe a mão no coração']

In [78]:
with open("./arquivos/poema.txt", "w", encoding="utf-8") as f:
    
    f.write(f"{poema[0]}")
    
    for verso in poema[1:]:
        
        f.write(f"\n{verso}")

Lendo o arquivo todo:

In [79]:
with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.read()

In [80]:
conteudo

'Batatinha quando nasce\nse esparrama pelo chão\nmenininha quando dorme\npõe a mão no coração'

In [81]:
conteudo.split("\n")

['Batatinha quando nasce',
 'se esparrama pelo chão',
 'menininha quando dorme',
 'põe a mão no coração']

Lendo apenas a primeira linha, com o método `readline()`:

In [89]:
with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.readline()

In [90]:
conteudo

'Batatinha quando nasce\n'

Para ler algo que não seja a primeira linha, use o `.readlines()`:

In [101]:
with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.readlines()

In [102]:
conteudo

['Batatinha quando nasce\n',
 'se esparrama pelo chão\n',
 'menininha quando dorme\n',
 'põe a mão no coração']

In [97]:
with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    conteudo = f.readlines()[1]

In [98]:
conteudo

'se esparrama pelo chão\n'

Ler cada uma das linhas, separadamente

Neste caso, não precisa nem de readline!

In [99]:
conteudo = []

with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    for linha in f:
        
        conteudo.append(linha)

In [100]:
conteudo

['Batatinha quando nasce\n',
 'se esparrama pelo chão\n',
 'menininha quando dorme\n',
 'põe a mão no coração']

In [103]:
with open("./arquivos/poema.txt", "r", encoding="utf-8") as f:
    
    conteudo = [linha for linha in f]

In [104]:
conteudo

['Batatinha quando nasce\n',
 'se esparrama pelo chão\n',
 'menininha quando dorme\n',
 'põe a mão no coração']

Apesar de termos tratado sobre as funções acima, existem **bibliotecas específicas** para a leitura/escrita de determinados tipos de arquivos.

Na prática, é muito mais conveniente usarmos estas bibliotecas, a depender do tipo de arquivo que desejamos ler/escrever!

____
____
___

## 2) Arquivos CSV

Um tipo de arquivo muito comum é o **csv**

A sigla CSV significa **Comma-Separated Values**, ou **"valores separados por vírgula"**. 

Este formato é uma forma padrão de representar tabelas usando arquivos de texto simples: cada elemento é separado por uma vírgula (ou ponto-e-vírgula, ou, qualquer outro separador), e cada linha é separada por uma quebra de linha. 

Em Python, podemos entender um arquivo CSV como uma lista de listas. 

Imagine que queremos armazenar um arquivo csv. Começamos com uma lista de listas:

In [108]:
tabela = [['Aluno', 'Nota1', 'Nota2', 'Presença'],
          ["Alice", 10, 8.5, 75],
          ["Bob", 7, 9.5, 80],
          ["Eva", 8, 8, 30]]
          

In [113]:
tabela

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', 10, 8.5, 75],
 ['Bob', 7, 9.5, 80],
 ['Eva', 8, 8, 30]]

In [115]:
for linha in tabela:
    
    print(linha)

['Aluno', 'Nota1', 'Nota2', 'Presença']
['Alice', 10, 8.5, 75]
['Bob', 7, 9.5, 80]
['Eva', 8, 8, 30]


In [122]:
lista = ["a", "b", "c"]

print(*lista, sep="\t")

a	b	c


In [132]:
for linha in tabela:
    
    print(*linha, sep="\t")

Aluno	Nota1	Nota2	Presença
Alice	10	8.5	75
Bob	7	9.5	80
Eva	8	8	30


In [127]:
# exercicio: escreve esses dados num arquivo, usando o método que vimos até aqui.

Pode não ser tão simples escrever esta lista de listas em um arquivo usando o método write(), como vimos antes, né?

Para trabalhar com arquivos csv, vamos utilizar a biblioteca `csv` do python!

Desta biblioteca, vamo usar duas funções:

- **método de escrita**: `csv.writer().writerows()`

- **método de leitura**: `csv.reader()`

In [128]:
import csv

In [134]:
tabela

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', 10, 8.5, 75],
 ['Bob', 7, 9.5, 80],
 ['Eva', 8, 8, 30]]

Primeiramente, criamos o arquivo, como fizemos antes

In [135]:
f = open("./arquivos/notas_alunos.csv", "w", encoding="utf-8")

Depois, utilizamos o método `writer` da biblioteca `csv`, juntamente do método `writerows` para escrever a lista de listas ao arquivo:

In [136]:
csv.writer(f, delimiter=",", lineterminator="\n").writerows(tabela)

A primeira parte, 

```python
csv.writer(arquivo, delimiter=';', lineterminator='\n')
```

Indica:

- em que arquivo você quer escrever
- como que você vai separar os valores (neste caso, com ";")
- como vc vai separar as diferentes linhas do arquivo (neste caso, com "\n")

A segunda parte, indica quais os dados que você quer escrever no arquivo (no caso, a lista de listas "tabela"):

```python
writerows(tabela)
```

Fechando o arquivo

In [137]:
f.close()

Tudo junto:

In [145]:
f = open("./arquivos/notas_alunos.csv", "w", encoding="utf-8")

csv.writer(f, delimiter=",", lineterminator="\n").writerows(tabela)

f.close()

In [139]:
tabela

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', 10, 8.5, 75],
 ['Bob', 7, 9.5, 80],
 ['Eva', 8, 8, 30]]

E, fazendo do jeito mais robusto, com o `with`:

In [170]:
with open("./arquivos/notas_alunos.csv", "w", encoding="utf-8") as f:
    
    csv.writer(f, delimiter=",", lineterminator="\n").writerows(tabela)

E como lemos este arquivo?

Para isso, temos que utilizar a função `reader()` da biblioteca csv:

```python
csv.reader(f, delimiter=';', lineterminator='\n')
```

Essa função tem como argumentos:

- o arquivo aberto (no caso, a variável "f");
- o separador entre os valores (no caso, ";");
- o separador de linhas (no caso, "\n");

Aí, basta iterar neste objeto com o for para popular a lista de listas "planilha":

É uma boa ideia sempre ler só a primeira linha, pra determinar com certeza o que é o `delimiter` e o `lineterminator`

In [178]:
with open("./arquivos/notas_alunos.csv", "r", encoding="utf-8") as f:
    
    primeira_linha = f.readline()
    
primeira_linha

'Aluno,Nota1,Nota2,Presença\n'

In [175]:
with open("./arquivos/notas_alunos.csv", "r", encoding="utf-8") as f:
    
    tabela_lida = [linha for linha in csv.reader(f, delimiter=",", lineterminator="\n")]

In [172]:
tabela_lida

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', '10', '8.5', '75'],
 ['Bob', '7', '9.5', '80'],
 ['Eva', '8', '8', '30']]

In [167]:
tabela

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', 10, 8.5, 75],
 ['Bob', 7, 9.5, 80],
 ['Eva', 8, 8, 30]]

Outra forma de fazer: usando o `f.read()` para ler os dados como uma string, e depois processá-la

In [179]:
with open("./arquivos/notas_alunos.csv", "r", encoding="utf-8") as f:
    
    conteudo = f.read()

In [188]:
conteudo

'Aluno,Nota1,Nota2,Presença\nAlice,10,8.5,75\nBob,7,9.5,80\nEva,8,8,30\n'

In [186]:
tabela_lida2 = [x.split(",") for x in conteudo.split("\n")[:-1]]

tabela_lida2

[['Aluno', 'Nota1', 'Nota2', 'Presença'],
 ['Alice', '10', '8.5', '75'],
 ['Bob', '7', '9.5', '80'],
 ['Eva', '8', '8', '30']]

__Vamos agora processar esse arquivo que acabamos de ler?__

Imagina que queremos calcular qual é a média de determinado aluno, a partir do seu nome!

Pra fazer isso, usamos **list comprehension** pra fazer uma lista com os nomes dos alunos:

In [235]:
lista_nomes = [linha[0] for linha in tabela_lida]

lista_nomes

['Aluno', 'Alice', 'Bob', 'Eva']

Aí, usamos a função index() pra descobrir qual é o índice nesta lista referente a determinado aluno.

Por exemplo, a aluna "Alice", está na posição de índice 1:

In [238]:
idx_aluno = lista_nomes.index("Alice")

idx_aluno

1

Agora, basta passar esse índice para a lista de listas (que chamamos de "tabela_lida"), pra acessarmos a linha correspondente à Alice:

In [239]:
tabela_lida[idx_aluno]

['Alice', '10', '8.5', '75']

Legal! Agora, sabemos que as posições de índice 1 e 2 **desta lista** são, respectivamente, a nota1 e a nota2! 

Ou seja, podemos capturar as notas (já as transformando para float!), e aí calcular a média 

In [240]:
nota1 = float(tabela_lida[idx_aluno][1])
nota2 = float(tabela_lida[idx_aluno][2])

nota1, nota2

(10.0, 8.5)

Com isso, podemos calcular a média!

Vamos agora fazer todas as operações acima, mas solicitando ao usuário a média de qual aluno ele deseja:

(Colocando tudo numa função)

In [233]:
import time

def calcula_media_aluno():
    
    lista_nomes = [linha[0] for linha in tabela_lida]
    
    print("Alunos cadastrados:\n")
    print(*lista_nomes[1:], sep="\n")

    time.sleep(0.5)

    aluno = input("\nDigite o nome do aluno: ")
    
    idx_aluno = lista_nomes.index(aluno)

    nota1 = float(tabela_lida[idx_aluno][1])
    nota2 = float(tabela_lida[idx_aluno][2])

    media = (nota1 + nota2)/2

    print(f"\nA média do(a) {aluno} é: {media}")

In [234]:
calcula_media_aluno()

Alunos cadastrados:

Alice
Bob
Eva

Digite o nome do aluno: Bob

A média do(a) Bob é: 8.25


__________

É possíver fazer o **processamento de arquivos** de forma muito mais simples e natural do que foi feito acima, ao utilizarmos uma biblioteca própria para isso: o [pandas](https://pandas.pydata.org/)! Vamos introduzi-la nas aulas seguintes!

Um pequeno spoiler...

In [241]:
import pandas as pd

In [242]:
df = pd.read_csv("./arquivos/notas_alunos.csv")

In [253]:
df[df["Aluno"] == "Eva"][["Nota1", "Nota2"]].mean(axis=1).values[0]

8.0

______

O que vc prefere? Assim...

In [284]:
with open("./arquivos/temperature.csv", "r", encoding="utf-8") as f:
    
    tabela_lida = [linha for linha in csv.reader(f, delimiter=",", lineterminator="\n")]

In [285]:
tabela_lida

[['record_id',
  'month',
  'day',
  'year',
  'AverageTemperatureFahr',
  'AverageTemperatureUncertaintyFahr',
  'City',
  'country_id',
  'Country',
  'Latitude',
  'Longitude'],
 ['3779550',
  '04',
  '01',
  '1854',
  '42.0674',
  '33.1142',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779551',
  '05',
  '01',
  '1854',
  '62.654',
  '33.2888',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779552',
  '06',
  '01',
  '1854',
  '65.8166',
  '35.096',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779553',
  '07',
  '01',
  '1854',
  '72.8366',
  '34.0376',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779554',
  '08',
  '01',
  '1854',
  '69.1466',
  '34.295',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779555',
  '09',
  '01',
  '1854',
  '56.8382',
  '33.8468',
  'Kherson',
  'UKR',
  'Ukraine',
  '47.42N',
  '31.97E'],
 ['3779556',
  '10',
  '01',
  '1854',
  '50.9666',
  '34.439',
  'Khers

In [264]:
with open("./arquivos/temperature.csv", "r", encoding="utf-8") as f:
    
    primeira_linha = f.readline()
    
primeira_linha

'record_id,month,day,year,AverageTemperatureFahr,AverageTemperatureUncertaintyFahr,City,country_id,Country,Latitude,Longitude\n'

In [265]:
df = pd.read_csv("./arquivos/temperature.csv", sep=",")

In [266]:
df

Unnamed: 0,record_id,month,day,year,AverageTemperatureFahr,AverageTemperatureUncertaintyFahr,City,country_id,Country,Latitude,Longitude
0,3779550,4,1,1854,42.0674,33.1142,Kherson,UKR,Ukraine,47.42N,31.97E
1,3779551,5,1,1854,62.6540,33.2888,Kherson,UKR,Ukraine,47.42N,31.97E
2,3779552,6,1,1854,65.8166,35.0960,Kherson,UKR,Ukraine,47.42N,31.97E
3,3779553,7,1,1854,72.8366,34.0376,Kherson,UKR,Ukraine,47.42N,31.97E
4,3779554,8,1,1854,69.1466,34.2950,Kherson,UKR,Ukraine,47.42N,31.97E
...,...,...,...,...,...,...,...,...,...,...,...
204,7178168,8,1,1807,66.3008,37.0472,Stockholm,SWE,Sweden,58.66N,18.46E
205,7178169,9,1,1807,51.3932,34.3868,Stockholm,SWE,Sweden,58.66N,18.46E
206,7178170,10,1,1807,43.7504,35.3138,Stockholm,SWE,Sweden,58.66N,18.46E
207,7178171,11,1,1807,39.4178,37.8986,Stockholm,SWE,Sweden,58.66N,18.46E


In [267]:
df.describe()

Unnamed: 0,record_id,month,day,year,AverageTemperatureFahr,AverageTemperatureUncertaintyFahr
count,209.0,209.0,209.0,209.0,209.0,209.0
mean,4313127.0,6.488038,1.0,1887.090909,50.799751,34.803194
std,1983425.0,3.572208,0.0,91.403619,14.068438,2.968804
min,474381.0,1.0,1.0,1744.0,13.4978,32.2664
25%,3817593.0,3.0,1.0,1806.0,40.4348,32.5634
50%,4672995.0,6.0,1.0,1855.0,53.3516,33.8342
75%,5415632.0,10.0,1.0,1994.0,61.5848,35.924
max,7178172.0,12.0,1.0,2002.0,75.839,46.5656


In [269]:
df.columns.tolist()

['record_id',
 'month',
 'day',
 'year',
 'AverageTemperatureFahr',
 'AverageTemperatureUncertaintyFahr',
 'City',
 'country_id',
 'Country',
 'Latitude',
 'Longitude']

In [271]:
df['City'].value_counts()

Marseille    38
Odesa        36
Auckland     35
Stockholm    26
Kiev         23
Lvov         22
Paris        16
Kherson      13
Name: City, dtype: int64

In [272]:
df['City'].unique()

array(['Kherson', 'Auckland', 'Kiev', 'Lvov', 'Marseille', 'Odesa',
       'Paris', 'Stockholm'], dtype=object)

In [273]:
cidade = 'Kiev'

df[df["City"] == cidade]

Unnamed: 0,record_id,month,day,year,AverageTemperatureFahr,AverageTemperatureUncertaintyFahr,City,country_id,Country,Latitude,Longitude
48,3817589,9,1,1770,57.2828,36.9176,Kiev,UKR,Ukraine,50.63N,31.69E
49,3817590,10,1,1770,47.111,39.6788,Kiev,UKR,Ukraine,50.63N,31.69E
50,3817591,11,1,1770,35.2544,39.7058,Kiev,UKR,Ukraine,50.63N,31.69E
51,3817592,12,1,1770,31.2152,45.059,Kiev,UKR,Ukraine,50.63N,31.69E
52,3817593,1,1,1771,24.1862,41.603,Kiev,UKR,Ukraine,50.63N,31.69E
53,3817594,2,1,1771,13.4978,38.498,Kiev,UKR,Ukraine,50.63N,31.69E
54,3817595,3,1,1771,23.7686,42.8378,Kiev,UKR,Ukraine,50.63N,31.69E
55,3817596,4,1,1771,40.262,42.233,Kiev,UKR,Ukraine,50.63N,31.69E
56,3817597,5,1,1771,56.7842,46.5656,Kiev,UKR,Ukraine,50.63N,31.69E
57,3817598,6,1,1771,67.2998,36.563,Kiev,UKR,Ukraine,50.63N,31.69E


In [279]:
import numpy as np

In [282]:
df.groupby(["Country", "year"])[["AverageTemperatureFahr"]].agg(["min", "mean", "max"])

Unnamed: 0_level_0,Unnamed: 1_level_0,AverageTemperatureFahr,AverageTemperatureFahr,AverageTemperatureFahr
Unnamed: 0_level_1,Unnamed: 1_level_1,min,mean,max
Country,year,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
France,1744,38.5196,47.8607,57.875
France,1745,35.519,40.5122,48.6194
France,1752,40.928,45.6116,50.4338
France,1753,31.9046,44.46716,56.5736
France,1999,49.703,61.5182,75.6356
France,2000,49.6616,61.69655,74.6474
France,2001,49.8074,61.85495,75.839
France,2002,50.2088,51.8252,53.4416
New Zealand,1853,51.9062,54.447543,59.846
New Zealand,1854,52.8044,58.19735,65.372


In [281]:
df.groupby(["Country", "year"])[["AverageTemperatureFahr"]].agg([np.min, np.mean, np.max])

Unnamed: 0_level_0,Unnamed: 1_level_0,AverageTemperatureFahr,AverageTemperatureFahr,AverageTemperatureFahr
Unnamed: 0_level_1,Unnamed: 1_level_1,amin,mean,amax
Country,year,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
France,1744,38.5196,47.8607,57.875
France,1745,35.519,40.5122,48.6194
France,1752,40.928,45.6116,50.4338
France,1753,31.9046,44.46716,56.5736
France,1999,49.703,61.5182,75.6356
France,2000,49.6616,61.69655,74.6474
France,2001,49.8074,61.85495,75.839
France,2002,50.2088,51.8252,53.4416
New Zealand,1853,51.9062,54.447543,59.846
New Zealand,1854,52.8044,58.19735,65.372


____
____
____
____