# Processo Seletivo Engenheiro de Dados Jr - Mayke Kend

Pensei em manipular uma planilha no Google Sheets usando Python junto com a biblioteca Pandas via Google Colab, no qual vamos salvar alguns dados que foram extraídos da nossa [base de dados](https://docs.google.com/spreadsheets/d/1ta35CQlVuDHchDS6RavnCgHQnlXuRVV9t0oKTbvgB2I/edit#gid=0) em uma página específica do Google Sheets.

Preparado? Então, vamos lá!

Para quem trabalha com dados, às vezes é bem interessante pegar dados de planilhas do Google Sheets ou acrescentar linhas a uma planilha já existente. Para isso, podemos utilizar um pacote python chamado gsprea

# Interagindo com o Google Sheets

>Instalando `gspread`

In [1]:
!pip install --upgrade gspread

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


# Importando as Bibliotecas e Realizando Autenticação

>Importando as Bibliotecas

In [2]:
from google.colab import auth
auth.authenticate_user()

import gspread
from google.auth import default
creds, _ = default()

gc = gspread.authorize(creds)

>Abrindo planilha JSON_to_Google_Sheets 

In [3]:
spreasheet = gc.open('JSON_to_Google_Sheets')

>Abrindo a primeira página da planilha

In [4]:
page = spreasheet.sheet1

>Visualizando a primeira linha da planilha

In [5]:
page.row_values(1)

['name',
 'phone',
 'email',
 'address',
 'postalZip',
 'region',
 'country',
 'list',
 'numberrange',
 'currency']

>Visualizando valor de uma célula específica

In [6]:
page.acell('A2').value

'Jerry Snyder'

>Atualizando uma determinada célula ou deletar informação

In [7]:
# page.update('K1', 'Test')
# page.update('K1', '')

Caso você queira está carregando o Google Sheets em formato de DataFrame por completo, só basta importar a biblioteca Pandas

In [8]:
import pandas as pd

>Criando um DataFrame para que seja visualizado os dados

In [9]:
df = pd.DataFrame(page.get_all_records())

>Visualizando os 5 primeiros dados em uma variável df para DataFrame

In [10]:
df.head()

Unnamed: 0,name,phone,email,address,postalZip,region,country,list,numberrange,currency
0,Jerry Snyder,1-963-621-3676,molestie.pharetra.nibh@aol.com,631-6614 Quis Road,3715 CO,Ankara,France,11,10,$42.23
1,Evelyn Cortez,(438) 713-1664,eget.ipsum@outlook.org,283-4910 Quis Road,69845,Zaporizhzhia oblast,Sweden,13,5,$62.78
2,Keane Gross,1-681-418-7743,ridiculus.mus@hotmail.net,"P.O. Box 957, 1870 Donec St.",12528,Central Sulawesi,Sweden,11,10,$36.01
3,Illana Collins,(356) 124-0101,eu@protonmail.com,978-5629 Semper Street,76135,Maule,Sweden,13,5,$37.14
4,Hedley Mejia,1-267-247-1174,a@aol.org,"P.O. Box 461, 9908 Luctus Road",3543 LM,Provence-Alpes-Côte d'Azur,Canada,5,4,$10.49


# Abrindo em um DataFrame por Completo

>Aprofundando-se um pouco mais em nossa automação com o Google Sheets. Aqui, pensei em fazer uma query com intuito de visualizar coluna "numberrange" que possui valor igual a 4 e depois inserir esses dados em uma nova página. Então, pasa isso temos que criar outro DataFrame para salvar essa informação

In [11]:
df_numberrange = df.query('numberrange==4')

>realizando leitura do nodo DataFrame que chamamos de df_numberrange

In [12]:
df_numberrange.head()

Unnamed: 0,name,phone,email,address,postalZip,region,country,list,numberrange,currency
4,Hedley Mejia,1-267-247-1174,a@aol.org,"P.O. Box 461, 9908 Luctus Road",3543 LM,Provence-Alpes-Côte d'Azur,Canada,5,4,$10.49
5,Caleb Finch,1-262-522-8138,nulla.ante@hotmail.net,792-2262 Et Street,14980,North Island,Russian Federation,19,4,$76.60
14,Jason Mosley,1-762-271-9237,ipsum@outlook.edu,Ap #204-5865 Nulla Rd.,58031,Karnataka,Turkey,7,4,$18.16
17,Drake Horton,1-488-770-2162,quam.a.felis@hotmail.com,"P.O. Box 686, 5213 Iaculis Ave",215486,Tennessee,Sweden,19,4,$11.57
33,Kimberley Watson,(568) 698-6561,lacus.varius@icloud.net,Ap #847-6595 Dolor Rd.,8976,Delaware,Chile,5,4,$8.07


>Visualizando informações que faz referência a quantidade de linhas e colunas

In [13]:
df_numberrange.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 53 entries, 4 to 498
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   name         53 non-null     object
 1   phone        53 non-null     object
 2   email        53 non-null     object
 3   address      53 non-null     object
 4   postalZip    53 non-null     object
 5   region       53 non-null     object
 6   country      53 non-null     object
 7   list         53 non-null     int64 
 8   numberrange  53 non-null     int64 
 9   currency     53 non-null     object
dtypes: int64(2), object(8)
memory usage: 4.6+ KB


Criando uma nova página com 53 linhas e 10 colunas. Por enquanto no Google Sheets estará em branco

In [16]:
numberrange = spreasheet.add_worksheet('Numberrange_Data', rows=53, cols=10)

>Para inserir os dados filtrados para nova página que chamamos de "Numberrange_Data". Vamos precisar atualizar da seguinte forma nossa variável numberrange

In [17]:
numberrange.update([df_numberrange.columns.values.tolist()] + df_numberrange.values.tolist())

{'spreadsheetId': '1ta35CQlVuDHchDS6RavnCgHQnlXuRVV9t0oKTbvgB2I',
 'updatedCells': 540,
 'updatedColumns': 10,
 'updatedRange': 'Numberrange_Data!A1:J54',
 'updatedRows': 54}

Para entender um pouco mais a linha acima, veja que criamos uma lista com os nomes das colunas

In [19]:
df_numberrange.columns.values.tolist()

['name',
 'phone',
 'email',
 'address',
 'postalZip',
 'region',
 'country',
 'list',
 'numberrange',
 'currency']

>Transforma os valores do DataFrame em que tudo que não é coluna, também em uma lista

In [20]:
df_numberrange.values.tolist()

[['Hedley Mejia',
  '1-267-247-1174',
  'a@aol.org',
  'P.O. Box 461, 9908 Luctus Road',
  '3543 LM',
  "Provence-Alpes-Côte d'Azur",
  'Canada',
  5,
  4,
  '$10.49'],
 ['Caleb Finch',
  '1-262-522-8138',
  'nulla.ante@hotmail.net',
  '792-2262 Et Street',
  14980,
  'North Island',
  'Russian Federation',
  19,
  4,
  '$76.60'],
 ['Jason Mosley',
  '1-762-271-9237',
  'ipsum@outlook.edu',
  'Ap #204-5865 Nulla Rd.',
  58031,
  'Karnataka',
  'Turkey',
  7,
  4,
  '$18.16'],
 ['Drake Horton',
  '1-488-770-2162',
  'quam.a.felis@hotmail.com',
  'P.O. Box 686, 5213 Iaculis Ave',
  215486,
  'Tennessee',
  'Sweden',
  19,
  4,
  '$11.57'],
 ['Kimberley Watson',
  '(568) 698-6561',
  'lacus.varius@icloud.net',
  'Ap #847-6595 Dolor Rd.',
  8976,
  'Delaware',
  'Chile',
  5,
  4,
  '$8.07'],
 ['Hayes Chan',
  '(804) 244-3948',
  'et.rutrum.non@hotmail.net',
  '3765 Eget, Avenue',
  5384,
  'Munster',
  'South Korea',
  19,
  4,
  '$23.84'],
 ['Sopoline Higgins',
  '1-721-171-0451',
  'lor

# Resultado da extração para uma nova página

>Você pode verificar o resultado da página gerada com os Numberrange igual a 4 em: [Numberrange_Data](https://docs.google.com/spreadsheets/d/1ta35CQlVuDHchDS6RavnCgHQnlXuRVV9t0oKTbvgB2I/edit#gid=1930327076)