### Tratamento de dados nos arquivos (CSV, Json, Parquet e ZIP)
Python tem bibliotecas poderosas para lidar com diferentes tipos de arquivos, abaixo darei uma explicação mais detalhada de cada um deles.

**Arquivos CSV (Comma-Separated Values):** 
Os arquivos CSV são amplamente usados para armazenar dados tabulares e são fáceis de manipular. O Python possui dois métodos principais para tratá-los:
- Módulo csv (mais básico): Permite ler e escrever arquivos CSV linha por linha.
```python
import csv

with open("dados.csv", mode="r") as file:
    reader = csv.reader(file)
    for linha in reader:
        print(linha)  # Exibe cada linha do arquivo CSV

```

- Biblioteca pandas (mais avançada): Oferece funções eficientes para análise de dados.

```python
import pandas as pd

df = pd.read_csv("dados.csv")
print(df.head())  # Exibe as primeiras linhas do dataframe

```

**Arquivos JSON (JavaScript Object Notation):**
O formato JSON é leve e utilizado para trocar informações entre aplicações. Python tem suporte nativo com o módulo json.
- Carregar um arquivo JSON:
```python
import json

with open("dados.json", "r") as file:
    dados = json.load(file)
print(dados)  # Exibe os dados carregados

```

- Salvar um dicionário Python em JSON:
```python
dados = {"nome": "Jessica", "idade": 28, "cidade": "Rio de Janeiro"}

with open("novo_dados.json", "w") as file:
    json.dump(dados, file, indent=4)  # Salva com identação para melhor legibilidade
    
```

**Arquivos Parquet:**
O formato Parquet é otimizado para grandes conjuntos de dados, sendo muito mais eficiente que CSV em termos de armazenamento e velocidade de leitura/escrita. Python tem bibliotecas como *pyarrow* e *fastparquet* para trabalhar com esse formato.

- Lendo um arquivo Parquet:
```python
import pandas as pd

df = pd.read_parquet("dados.parquet")
print(df.head())  # Exibe as primeiras linhas do dataframe

```

- Escrevendo um arquivo Parquet:
```python
df.to_parquet("novo_dados.parquet", engine="pyarrow")  # Salva usando 'pyarrow'

```

**Arquivos ZIP:**
Para compactação e extração de arquivos ZIP, Python possui o módulo *zipfile*.

- Criando um arquivo ZIP:
```python
import zipfile

with zipfile.ZipFile("arquivo.zip", "w") as zip_ref:
    zip_ref.write("dados.csv")  # Adiciona um arquivo ao ZIP
```

- Extraindo arquivos de um ZIP:
```python
with zipfile.ZipFile("arquivo.zip", "r") as zip_ref:
    zip_ref.extractall("destino/")  # Extrai para a pasta especificada

```

### Exercícios:

In [None]:
import pandas as pd

# Ler arquivo jason e salvar em um dataframe
arquivo_json = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"
df =pd.read_json(arquivo_json)
df.head(5)

Unnamed: 0,Numero_da_Ocorrencia,Numero_da_Ficha,Operador_Padronizado,Classificacao_da_Ocorrência,Data_da_Ocorrencia,Hora_da_Ocorrência,Municipio,UF,Regiao,Descricao_do_Tipo,...,Lesoes_Desconhecidas_Tripulantes,Lesoes_Desconhecidas_Passageiros,Lesoes_Desconhecidas_Terceiros,Modelo,CLS,Tipo_ICAO,PMD,Numero_de_Assentos,Nome_do_Fabricante,PSSO
0,33947,2022722007,AZUL LINHAS AÉREAS BRASILEIRAS S.A.,Incidente,2022-08-11,05:31:00,PALMAS,TO,Norte,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,...,,,,ERJ 190-200 LR,L2J,E195,50790.0,125.0,EMBRAER,verdadeiro
1,29123,202140534,AZUL,Incidente Grave,2021-08-06,16:59,CAXIAS DO SUL,RS,Sul,CONTATO ANORMAL COM A PISTA,...,,,,ERJ 190-400,L2J,E295,61500.0,143.0,EMBRAER,verdadeiro
2,32189,2022293670,FIGUEIREDO AVIAÇÃO AGRÍCOLA EIRELI,Incidente Grave,2022-05-21,12:25,DOURADOS,MS,Centro-Oeste,OPERAÇÃO A BAIXA ALTITUDE,...,,,,EMB-201,L1P,IPAN,1800.0,1.0,NEIVA,verdadeiro
3,32190,2022354545,FENIX PARTICIPACOES LTDA,Incidente,2022-02-12,15:30,CAMPINAS,SP,Sudeste,COLISÃO COM AVE,...,,,,PC-12/47E,L1T,PC12,4740.0,10.0,PILATUS,verdadeiro
4,32726,2022125796,ANAPE EMPREENDIMENTOS IMOBILIÁRIOS-EIRELI,Incidente,2022-06-26,13:45,CAMPINAS,SP,Sudeste,COLISÃO NO SOLO,...,,,,A109E,H2T,A109,3000.0,8.0,AGUSTA,verdadeiro


In [None]:
# O módulo os em Python é super útil para interagir com o sistema operacional. Ele permite manipular arquivos, diretórios e variáveis de ambiente.
import os

# Verificar tamanho do arquivo 
caminho_arquivo = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"
if os.path.exists(caminho_arquivo):
    tamanho = os.path.getsize(caminho_arquivo)
    print(f" {tamanho} bytes")

 20436383 bytes


In [None]:
import os

caminho_arquivo = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"


if os.path.exists(caminho_arquivo):  
    tamanho_bytes = os.path.getsize(caminho_arquivo)        
    # Megabytes (1 MB = 1.048576 bytes)
    tamanho_mb = tamanho_bytes / (1024 * 1024)
    # Converta para gigabytes (1 GB = 1024 MB)
    tamanho_gb = tamanho_mb / 1024
    
    print(f"{tamanho_bytes} bytes")
    print(f"{tamanho_mb:.2f} MB")
    print(f"{tamanho_gb:.2f} GB")
else:
    print("O arquivo não existe")


20436383 bytes
19.49 MB
0.02 GB


https://convertlive.com/pt/u/converter/gigabytes/em/megabytes#1\
https://www.to-convert.com/pt/informatica/converter-byte-para-megabyte.php

### Análise de armazenamento

In [4]:
import pandas as pd
import os

In [None]:
# Ler arquivo jason e salvar em um dataframe
arquivo_json = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"
df=pd.read_json(arquivo_json)
#df.head(5)

In [None]:
#salvar em parquet
caminho_parquet = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.parquet"
df.to_parquet(caminho_parquet, index=False)

In [None]:
# Salvar em CSV
caminho_csv = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.csv"
df.to_csv(caminho_csv, index=False)

**Tamanho arquivo Json:**

In [None]:
Json = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"

# Verifique se o arquivo existe
if os.path.exists(Json):
    tamanho_bytes = os.path.getsize(Json)     
    tamanho_mb = tamanho_bytes / (1024 * 1024)
    tamanho_gb = tamanho_mb / 1024
    
    print(f" {tamanho_bytes} bytes")
    print(f" {tamanho_mb:.2f} MB")
    print(f" {tamanho_gb:.2f} GB")
else:
    print("O arquivo não existe.")


 20436383 bytes
 19.49 MB
 0.02 GB


**Tamanho arquivo Parquet:**


In [None]:
parquet = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.parquet"

# Verifique se o arquivo existe
if os.path.exists(parquet):
    tamanho_bytes = os.path.getsize(parquet)     
    tamanho_mb = tamanho_bytes / (1024 * 1024)
    tamanho_gb = tamanho_mb / 1024
    
    print(f" {tamanho_bytes} bytes")
    print(f" {tamanho_mb:.2f} MB")
    print(f" {tamanho_gb:.2f} GB")
else:
    print("O arquivo não existe.")


 3339701 bytes
 3.18 MB
 0.00 GB


**Tamanho arquivo CSV:**

In [None]:
csv = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.csv"

# Verifique se o arquivo existe
if os.path.exists(csv):
    tamanho_bytes = os.path.getsize(csv)     
    tamanho_mb = tamanho_bytes / (1024 * 1024)
    tamanho_gb = tamanho_mb / 1024
    
    print(f" {tamanho_bytes} bytes")
    print(f" {tamanho_mb:.2f} MB")
    print(f" {tamanho_gb:.2f} GB")
else:
    print("O arquivo não existe.")

 8788888 bytes
 8.38 MB
 0.01 GB


In [None]:
# Análise de todos os arquivos
import os
import pandas as pd

# Caminho dos arquivos
caminho_csv = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.csv"
caminho_parquet = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.parquet"
caminho_json = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json"

#lista arquivos para fazer o for looop
caminhos_arquivos = [caminho_csv, caminho_parquet, caminho_json]

# listavazia tamanhos
tamanhos_bytes = []
tamanhos_mb = []
tamanhos_gb = []

# Loop através dos caminhos dos arquivos
for caminho_arquivo in caminhos_arquivos:
    if os.path.exists(caminho_arquivo):
        tamanho_bytes = os.path.getsize(caminho_arquivo)
        tamanho_mb = tamanho_bytes / (1024 * 1024)
        tamanho_gb = tamanho_mb / 1024
        
        tamanhos_bytes.append(tamanho_bytes)
        tamanhos_mb.append(tamanho_mb)
        tamanhos_gb.append(tamanho_gb)
    else:
        tamanhos_bytes.append(None)
        tamanhos_mb.append(None)
        tamanhos_gb.append(None)

# levando para DF
data = {
    'Arquivo': caminhos_arquivos,
    'Bytes': tamanhos_bytes,
    'MB': tamanhos_mb,
    'GB': tamanhos_gb
}
dftamanho = pd.DataFrame(data)

dftamanho.head()


##### Exibindo Parquet no Power BI

In [None]:
#ler arquivo parquet
import pandas as pd
Caminho = r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.parquet"
dfpq=pd.read_parquet(Caminho)
dfpq.head(5)

## tem como ver Parquet em Power BI queridinho do momento?

Unnamed: 0,Numero_da_Ocorrencia,Numero_da_Ficha,Operador_Padronizado,Classificacao_da_Ocorrência,Data_da_Ocorrencia,Hora_da_Ocorrência,Municipio,UF,Regiao,Descricao_do_Tipo,...,Lesoes_Desconhecidas_Tripulantes,Lesoes_Desconhecidas_Passageiros,Lesoes_Desconhecidas_Terceiros,Modelo,CLS,Tipo_ICAO,PMD,Numero_de_Assentos,Nome_do_Fabricante,PSSO
0,33947,2022722007,AZUL LINHAS AÉREAS BRASILEIRAS S.A.,Incidente,2022-08-11,05:31:00,PALMAS,TO,Norte,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,...,,,,ERJ 190-200 LR,L2J,E195,50790.0,125.0,EMBRAER,verdadeiro
1,29123,202140534,AZUL,Incidente Grave,2021-08-06,16:59,CAXIAS DO SUL,RS,Sul,CONTATO ANORMAL COM A PISTA,...,,,,ERJ 190-400,L2J,E295,61500.0,143.0,EMBRAER,verdadeiro
2,32189,2022293670,FIGUEIREDO AVIAÇÃO AGRÍCOLA EIRELI,Incidente Grave,2022-05-21,12:25,DOURADOS,MS,Centro-Oeste,OPERAÇÃO A BAIXA ALTITUDE,...,,,,EMB-201,L1P,IPAN,1800.0,1.0,NEIVA,verdadeiro
3,32190,2022354545,FENIX PARTICIPACOES LTDA,Incidente,2022-02-12,15:30,CAMPINAS,SP,Sudeste,COLISÃO COM AVE,...,,,,PC-12/47E,L1T,PC12,4740.0,10.0,PILATUS,verdadeiro
4,32726,2022125796,ANAPE EMPREENDIMENTOS IMOBILIÁRIOS-EIRELI,Incidente,2022-06-26,13:45,CAMPINAS,SP,Sudeste,COLISÃO NO SOLO,...,,,,A109E,H2T,A109,3000.0,8.0,AGUSTA,verdadeiro


##### Arquivo Zipado

In [None]:
import pandas as pd
import zipfile
import os

# Leitura do arquivo json
df=pd.read_json(r"C:\Users\projetos_udemy\arquivos\V_OCORRENCIA_AMPLA.json")

# Parâmetros do destino
pasta_destino = r"C:\Users\projetos_udemy\arquivos"
nome_arquivo_parquet = "OcorrenciaANAC.parquet"
caminho_parquet = f"{pasta_destino}/{nome_arquivo_parquet}"

df.to_parquet(caminho_parquet, index=False)

# Nome do arquivo ZIP de saída
nome_arquivo_zip = "OcorrenciaANAC.zip"
caminho_zip = f"{pasta_destino}/{nome_arquivo_zip}"

# Crie um arquivo ZIP contendo o arquivo Parquet
with zipfile.ZipFile(caminho_zip, 'w', compression=zipfile.ZIP_DEFLATED) as zipf:
    zipf.write(caminho_parquet, nome_arquivo_parquet)
    
os.remove(caminho_parquet)  # comando para apagar o arquivo e deixar somente o Zip

##### Como Ler arquivo Zipado 


In [None]:
import pandas as pd
import zipfile

# O arquivo Parquet não é extraído para a máquina local ele apenas armazena no DataFrame
PastaZip = r"C:\Users\projetos_udemy\arquivos\OcorrenciaANAC.zip"
NomeArquivo = "OcorrenciaANAC.parquet"

# Extrair o arquivo Parquet do arquivo ZIP
with zipfile.ZipFile(PastaZip, 'r') as zipf:
    with zipf.open(NomeArquivo) as Extraido:
        # Transformar Arquivo em um df (pode ser qualqer origem csv, json etc....)
        dfnovo = pd.read_parquet(Extraido)

dfnovo.head(10)


Unnamed: 0,Numero_da_Ocorrencia,Numero_da_Ficha,Operador_Padronizado,Classificacao_da_Ocorrência,Data_da_Ocorrencia,Hora_da_Ocorrência,Municipio,UF,Regiao,Descricao_do_Tipo,...,Lesoes_Desconhecidas_Tripulantes,Lesoes_Desconhecidas_Passageiros,Lesoes_Desconhecidas_Terceiros,Modelo,CLS,Tipo_ICAO,PMD,Numero_de_Assentos,Nome_do_Fabricante,PSSO
0,33947,2022722007,AZUL LINHAS AÉREAS BRASILEIRAS S.A.,Incidente,2022-08-11,05:31:00,PALMAS,TO,Norte,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,...,,,,ERJ 190-200 LR,L2J,E195,50790.0,125.0,EMBRAER,verdadeiro
1,29123,202140534,AZUL,Incidente Grave,2021-08-06,16:59,CAXIAS DO SUL,RS,Sul,CONTATO ANORMAL COM A PISTA,...,,,,ERJ 190-400,L2J,E295,61500.0,143.0,EMBRAER,verdadeiro
2,32189,2022293670,FIGUEIREDO AVIAÇÃO AGRÍCOLA EIRELI,Incidente Grave,2022-05-21,12:25,DOURADOS,MS,Centro-Oeste,OPERAÇÃO A BAIXA ALTITUDE,...,,,,EMB-201,L1P,IPAN,1800.0,1.0,NEIVA,verdadeiro
3,32190,2022354545,FENIX PARTICIPACOES LTDA,Incidente,2022-02-12,15:30,CAMPINAS,SP,Sudeste,COLISÃO COM AVE,...,,,,PC-12/47E,L1T,PC12,4740.0,10.0,PILATUS,verdadeiro
4,32726,2022125796,ANAPE EMPREENDIMENTOS IMOBILIÁRIOS-EIRELI,Incidente,2022-06-26,13:45,CAMPINAS,SP,Sudeste,COLISÃO NO SOLO,...,,,,A109E,H2T,A109,3000.0,8.0,AGUSTA,verdadeiro
5,33267,2022814112,LATAM Airlines,Incidente,2022-07-31,01:23,RIO DE JANEIRO,RJ,Sudeste,AERÓDROMO,...,,,,,,,,,,falso
6,35928,2023813602,SIMOL EMPREENDIMENTOS IMOBILIARIOS LTDA,Incidente,2023-01-12,15:24:00,TAUBATÉ,SP,Sudeste,FALHA OU MAU FUNCIONAMENTO DO MOTOR,...,,,,PA-34-220T,L2P,PA34,2155.0,6.0,PIPER AIRCRAFT,verdadeiro
7,36149,2023689258,AZUL LINHAS AÉREAS BRASILEIRAS S.A.,Incidente,2023-01-13,09:24:00,RIO DE JANEIRO,RJ,Sudeste,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,...,,,,A320-253N,L2J,A20N,77000.0,182.0,AIRBUS S.A.S.,verdadeiro
8,36206,2023101831,SECRETARIA DE ESTADO DE SEGURANÇA PÚBLICA E DE...,Acidente,2023-01-27,13:20:00,BELÉM,PA,Norte,PERDA DE CONTROLE NO SOLO,...,,,,AS 350 B3,H1T,AS50,2250.0,6.0,HELIBRAS,verdadeiro
9,36206,2023101831,SECRETARIA DE ESTADO DE SEGURANÇA PÚBLICA E DE...,Acidente,2023-01-27,13:20:00,BELÉM,PA,Norte,PERDA DE CONTROLE NO SOLO,...,,,,AS 350 B3,H1T,AS50,2250.0,6.0,HELIBRAS,verdadeiro
