## Importando bibliotecas

In [None]:
import os
import requests
import zipfile
import pandas as pd

## Acessando a URL

A variável url contém o endereço da web de onde o arquivo ZIP será baixado.

A função requests.get(url) é utilizada para realizar uma requisição HTTP para a URL especificada, e a resposta é armazenada na variável response

In [None]:
url = 'https://github.com/ProfLeandroLessa/classroom-datasets/raw/master/CDD/TP/pesquisa_preferencias.zip'
response = requests.get(url)

## Verificando e Criando o Diretório de Armazenamento
Após efetuar a requisição da URL no site, é crucial verificar seu status para validar sua integridade e criar o caminho onde os dados serão armazenados.
 
-Definição do Diretório de Destino:
    -A variável diretorio_destino indica o local no sistema de arquivos onde o arquivo ZIP será salvo após o download. Nesse caso o diretório é uma pasta armazenada no diretório C: do Windows.
-Verificação de Resposta Bem-sucedida:
    - O código verifica se a resposta da requisição possui o código de status HTTP 200 (OK), indicando que a requisição foi bem-sucedida.
    -Extração do Nome do Arquivo e Definição do Caminho do Arquivo ZIP:
    -Se a resposta foi bem-sucedida, o código extrai o nome do arquivo ZIP da URL (parte após a última barra) e, em seguida, cria o caminho completo do arquivo ZIP utilizando os.path.join(diretorio_destino, nome_arquivo_zip).
    -Neste contexto, o nome do arquivo é combinado ao diretório de armazenamento. Como exemplo, o caminho completo para o arquivo destino seria:    -C:\dados_pesquisa\pesquisa_preferencias.zip.

In [None]:

diretorio_destino = r'C:\VIRTUALENVS\MyFirstVirtualEnv\2024-9A - POS - Bootcamp Cientista de Dados\Atividades\AMM1_health_analytics\datasets'
if response.status_code == requests.codes.OK:
        nome_arquivo_zip = url.split('/')[-1]
        caminho_arquivo_zip = os.path.join(diretorio_destino, nome_arquivo_zip)


### Realizando o Download do Arquivo
Com o diretório de destino devidamente configurado, o próximo passo é realizar o download do arquivo. Utilize o código abaixo para executar essa operação.
 
Aqui temos:

-Abertura e Escrita do Arquivo:
    - O código abre um arquivo no caminho especificado (caminho_arquivo_zip) no modo de escrita binária ('wb').
    - O conteúdo da resposta HTTP (response.content), que é o conteúdo binário do arquivo ZIP, é então gravado nesse arquivo recém-aberto.
-Impressão do Status do Download:
    -Após a escrita bem-sucedida do arquivo, uma mensagem é impressa indicando que o download foi concluído e especificando o local onde o arquivo foi salvo (caminho_arquivo_zip).

In [None]:

with open(caminho_arquivo_zip, 'wb') as arquivo:
            arquivo.write(response.content)
            print("Donwload finalizado. Salvo em: {}".format(caminho_arquivo_zip))

## Descompactando o Arquivo
Com o arquivo devidamente baixado no seu diretório, o próximo e último passo consiste em realizar a extração do seu conteúdo. Utilize o código abaixo para realizar esta operação.
 
-Abertura e Extração do Arquivo ZIP
-Nesta seção, um contexto with é utilizado para garantir a correta manipulação do arquivo ZIP. O arquivo ZIP especificado em caminho_arquivo_zip é aberto no modo de leitura ('r').
-Em seguida, o método extractall é aplicado ao objeto ZipFile (zip_ref), descompactando todos os arquivos do arquivo ZIP para o diretório fornecido em diretorio_destino.
-Impressão do Status da Extração:
    -Após a extração bem-sucedida, uma mensagem é impressa indicando que o arquivo ZIP foi descompactado com sucesso. O caminho do diretório onde os arquivos foram extraídos (diretorio_destino) é incluído na mensagem para fornecer informações sobre a localização dos dados recém-extraídos.

In [None]:

with zipfile.ZipFile(caminho_arquivo_zip, 'r') as zip_ref:
    zip_ref.extractall(diretorio_destino)
 
print(f"Arquivo ZIP descompactado em: {diretorio_destino}")

## csv files to dataframe

In [None]:

# Caminho da pasta com os arquivos CSV
pasta = r'C:\VIRTUALENVS\MyFirstVirtualEnv\2024-9A - POS - Bootcamp Cientista de Dados\Atividades\AMM1_health_analytics\datasets'

# Lista para armazenar os DataFrames lidos
dfs = []

# %%
# Percorre todos os arquivos na pasta
for arquivo in os.listdir(pasta):
    if arquivo.endswith('.csv'):
        caminho_arquivo = os.path.join(pasta, arquivo)
        try:
            # Lê o arquivo CSV
            df = pd.read_csv(caminho_arquivo, sep='|', encoding='ISO-8859-1', skipinitialspace=True, engine='python')
            # Adiciona o DataFrame à lista
            dfs.append(df)
            print(f"Arquivo {arquivo} lido com sucesso.")
        except Exception as e:
            print(f"Erro ao ler {arquivo}: {e}")

# Concatena todos os DataFrames em um único DataFrame
df_concatenado = pd.concat(dfs, ignore_index=True)

In [None]:
# Exibe o DataFrame concatenado
df_concatenado.head()