# Importação de arquivos

Na última seção, criamos manualmente nosso dataframe, usando a função `pd.DataFrame()`. Entretanto, para aplicações reais, isto simplesmente não é factível, pois bases de trabalho possuem centenas de milhares ou até mesmo milhões de linhas. Sendo assim, é necessário importar para o ambiente do Python os *datasets*, que em geral são disponibilizados em planilhas (`.csv` ou `.xlsx`). Vamos apresentar como trazer estes arquivos para o Google Colab, usando as bibliotecas `pandas` e `google.colab`.

## Importação de máquina local

A importação de arquivos armazenados localmente é simples, envolvendo a função files.upload(), que abre um navegador para seleção do diretório.



### Importação de `.csv`

A importação de arquivos .csv é direta por meio da função `pd.read_csv()`, que já armazena o objeto em um *dataframe* `pandas`.

In [1]:
import pandas as pd
from google.colab import files

uploaded = files.upload()
df1 = pd.read_csv('tiktok_dataset.csv')
df1.head()

Saving tiktok_dataset.csv to tiktok_dataset.csv


Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0


### Importação de `.xlsx`

Procederemos de maneira análoga para arquivos `.xlsx`, empregando a função `pd.read_excel()`.

In [2]:
uploaded = files.upload()
df2 = pd.read_excel('dataset_calls.xlsx')
df2.head()

Saving dataset_calls.xlsx to dataset_calls.xlsx


Unnamed: 0,Date Of Test,Signal (dBm),Speed (m/s),Distance from site (m),Call Test Duration (s),Call Test Result,Call Test Technology,Call Test Setup Time (s),MOS
0,2017-07-01 00:00:27,-61.0,68.800003,1048.6,90.0,SUCCESS,UMTS,0.56,2.1
1,2017-07-01 00:02:57,-61.0,68.769997,1855.54,90.0,SUCCESS,UMTS,0.45,3.2
2,2017-07-01 00:05:29,-71.0,69.169998,1685.62,90.0,SUCCESS,UMTS,0.51,2.1
3,2017-07-01 00:08:02,-65.0,69.279999,1770.92,90.0,SUCCESS,UMTS,0.0,1.0
4,2017-07-01 00:10:30,-103.0,0.82,256.07,60.0,SUCCESS,UMTS,3.35,3.6


## Importação do Google Drive

Para arquivos armazenados no Google Drive, usaremos a função `drive.mount()` da biblioteca `google.colab()` para acessar o conteúdo do Drive, por meio do seu caminho (o *notebook* Python deve estar salvo no mesmo Drive). O caminho absoluto do arquivo sempre começará com '/content/drive/My Drive/', devendo ser completado com os diretórios e nome do arquivo, no caminho relativo.

As funções utilizadas da biblioteca `pandas` permanecem as mesmas.

### Importação de .csv

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
path_abs = '/content/drive/My Drive'
path_csv = '/Curso de Python/Bases/tiktok_dataset.csv'

df1 = pd.read_csv(path_abs+path_csv)
df1.head()

Unnamed: 0,#,claim_status,video_id,video_duration_sec,video_transcription_text,verified_status,author_ban_status,video_view_count,video_like_count,video_share_count,video_download_count,video_comment_count
0,1,claim,7017666017,59,someone shared with me that drone deliveries a...,not verified,under review,343296.0,19425.0,241.0,1.0,0.0
1,2,claim,4014381136,32,someone shared with me that there are more mic...,not verified,active,140877.0,77355.0,19034.0,1161.0,684.0
2,3,claim,9859838091,31,someone shared with me that american industria...,not verified,active,902185.0,97690.0,2858.0,833.0,329.0
3,4,claim,1866847991,25,someone shared with me that the metro of st. p...,not verified,active,437506.0,239954.0,34812.0,1234.0,584.0
4,5,claim,7105231098,19,someone shared with me that the number of busi...,not verified,active,56167.0,34987.0,4110.0,547.0,152.0


### Importação de `.xlsx`

O processo geral é o mesmo descrito acima.

In [6]:
path_xlsx = '/Curso de Python/Bases/dataset_calls.xlsx'

df2 = pd.read_excel(path_abs+path_xlsx)
df2.head()

Unnamed: 0,Date Of Test,Signal (dBm),Speed (m/s),Distance from site (m),Call Test Duration (s),Call Test Result,Call Test Technology,Call Test Setup Time (s),MOS
0,2017-07-01 00:00:27,-61.0,68.800003,1048.6,90.0,SUCCESS,UMTS,0.56,2.1
1,2017-07-01 00:02:57,-61.0,68.769997,1855.54,90.0,SUCCESS,UMTS,0.45,3.2
2,2017-07-01 00:05:29,-71.0,69.169998,1685.62,90.0,SUCCESS,UMTS,0.51,2.1
3,2017-07-01 00:08:02,-65.0,69.279999,1770.92,90.0,SUCCESS,UMTS,0.0,1.0
4,2017-07-01 00:10:30,-103.0,0.82,256.07,60.0,SUCCESS,UMTS,3.35,3.6


# Exportação de arquivos

Após formarmos e tratarmos datasets empregando o Python, é frequente precisarmos exportar o *dataframe*, para permitir o acesso a outros usuários ou alimentar demais etapas do processo. Para isso, empregamos as funções `pd.to_csv()` e `pd.to_excel()`.

## Exportação para a máquina local

Emprega-se a função `files.download()` da biblioteca `google.drive`.

### Exportação em `.csv`

In [11]:
df1.to_csv("df1.csv", sep = ';')
files.download('df1.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Exportação em `.xlsx`

In [13]:
df2.to_excel("df2.xlsx")
files.download('df2.xlsx')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Exportação para o Google Drive

O processo é simples, bastando pré-montar o acesso ao Drive com a função `drive.mount()`, como fizemos anteriormente, e criar um caminho relativo como o nome do arquivo.

### Exportação em `.csv`

A função de exportação para `.csv` na biblioteca pandas é `pd.to_csv()`.

In [8]:
drive.mount('/content/drive')
path_abs = '/content/drive/My Drive'
path_csv = '/Curso de Python/Exportações/tiktok_dataset.csv'

df1.to_csv(path_abs+path_csv, sep = ';')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


### Exportação em .xlsx

Aqui, a função a ser utilizada é `pd.to_excel()`.

In [10]:
path_excel = '/Curso de Python/Exportações/dataset_calls.xlsx'

df2.to_excel(path_abs+path_excel)