**PREPARAÇÃO DE DADOS E CONFIGURAÇÃO DE BIBLIOTECAS**

Nesta sessão vamos configurar uma amostra de dados para utilizar em nosso estudo, e importar as bibliotecas que vamos utilizar.

In [44]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

paises = pd.DataFrame({
  'pais': ['USA', 'Holanda', 'Espanha', 'México', 'Austrália', 'Brasil'],
  'capital': ['Washington D.C.', 'Amsterdan', 'Madri', 'Cidade do México', 'Camberra', 'Brasília'],
  'continente': ['América do Norte', 'Europa', 'Europa', 'América do Norte', 'Austrália', 'América do Sul'],
  'linguagem': ['Inglês', 'Holandês', 'Espanhol', 'Espanhol', 'Inglês', 'Português']
})

estudantes = pd.DataFrame({
    'nome': ['Ben', 'Tina', 'John', 'Eric'],
    'genero': ['M', 'F', 'M', 'M']
})

---

**1 | SELECIONAR MULTIPLAS LINHAS E COLUNAS UTILIZANDO O OPERADOR LOC**

Utilizando o operador `LOC`, conseguimos selecionar um conjunto de linhas e colunas baseado em seu índice de linha e nome de coluna.

In [18]:
paises.loc[:, 'pais':'continente']

Unnamed: 0,pais,capital,continente
0,USA,Washington D.C.,América do Norte
1,Holanda,Amsterdan,Europa
2,Espanha,Madri,Europa
3,México,Cidade do México,América do Norte
4,Austrália,Camberra,Austrália
5,Brasil,Brasília,América do Sul


Você pode também filtrar o índice de registros que deseja trazer.

In [19]:
paises.loc[0:2, 'pais':'continente']

Unnamed: 0,pais,capital,continente
0,USA,Washington D.C.,América do Norte
1,Holanda,Amsterdan,Europa
2,Espanha,Madri,Europa


Também pode determinar quais registros trazer pelo índice da linha, e também determinando quais colunas deseja trazer no conjunto de dados.

In [20]:
paises.loc[[0,4], ['pais','linguagem']]

Unnamed: 0,pais,linguagem
0,USA,Inglês
4,Austrália,Inglês


---

**2 | FILTRAR DATAFRAMES POR CATEGORIAS**

Em muitas situações quando se precisa manipular os dados para uma análise,você precisará filtrar um conteúdo através de um campo de categorização.

In [21]:
paises[paises.continente == 'Europa']

Unnamed: 0,pais,capital,continente,linguagem
1,Holanda,Amsterdan,Europa,Holandês
2,Espanha,Madri,Europa,Espanhol


Você pode ainda buscar multiplos valores.

In [22]:
paises[paises.linguagem.isin(['Holandês', 'Inglês'])]

Unnamed: 0,pais,capital,continente,linguagem
0,USA,Washington D.C.,América do Norte,Inglês
1,Holanda,Amsterdan,Europa,Holandês
4,Austrália,Camberra,Austrália,Inglês


---

**3 | FILTRAR DATAFRAMES EXCLUÍNDO CATEGORIAS**

Uma situação oposta ao filtro por categoria, onde você deseja filtrar os dados excluíndo um atributo, realizando a inversão da expressão de filtro passada com o sinal ~ antes da condição passada como filtro.

In [24]:
paises[~paises.linguagem.isin(['Holandês', 'Inglês'])]

Unnamed: 0,pais,capital,continente,linguagem
2,Espanha,Madri,Europa,Espanhol
3,México,Cidade do México,América do Norte,Espanhol
5,Brasil,Brasília,América do Sul,Português


---

**4 | RENOMEAR COLUNAS**

Em alguns casos você precisará renomear os atributos de um DataFrame, seja para realizar uma operação ou para exibir os dados com um apelido.

In [33]:
paises.rename({'pais': 'País', 'linguagem': 'Língua Mais Falada'}, axis='columns')

Unnamed: 0,País,capital,continente,Língua Mais Falada
0,USA,Washington D.C.,América do Norte,Inglês
1,Holanda,Amsterdan,Europa,Holandês
2,Espanha,Madri,Europa,Espanhol
3,México,Cidade do México,América do Norte,Espanhol
4,Austrália,Camberra,Austrália,Inglês
5,Brasil,Brasília,América do Sul,Português


Existe ainda uma alternativa informando o nome das colunas em um array

In [34]:
paises.columns = ['País', 'Capital', 'Continente', 'Língua Mais Falada']
paises

Unnamed: 0,País,Capital,Continente,Língua Mais Falada
0,USA,Washington D.C.,América do Norte,Inglês
1,Holanda,Amsterdan,Europa,Holandês
2,Espanha,Madri,Europa,Espanhol
3,México,Cidade do México,América do Norte,Espanhol
4,Austrália,Camberra,Austrália,Inglês
5,Brasil,Brasília,América do Sul,Português


---

**5 | LINHAS EM ORDEM INVERSA**

Para analisar o conjunto de dados em ordem inversa você pode utilizar o operador `LOC`.

In [37]:
paises.loc[::-1]

Unnamed: 0,País,Capital,Continente,Língua Mais Falada
5,Brasil,Brasília,América do Sul,Português
4,Austrália,Camberra,Austrália,Inglês
3,México,Cidade do México,América do Norte,Espanhol
2,Espanha,Madri,Europa,Espanhol
1,Holanda,Amsterdan,Europa,Holandês
0,USA,Washington D.C.,América do Norte,Inglês


Vale atentar-se que a ordem dos índices não é alterada. Caso você queira recriar os índices após esta operação, será necessário utilizar a função `reset_index`

In [36]:
paises.loc[::-1].reset_index(drop=True)

Unnamed: 0,País,Capital,Continente,Língua Mais Falada
0,Brasil,Brasília,América do Sul,Português
1,Austrália,Camberra,Austrália,Inglês
2,México,Cidade do México,América do Norte,Espanhol
3,Espanha,Madri,Europa,Espanhol
4,Holanda,Amsterdan,Europa,Holandês
5,USA,Washington D.C.,América do Norte,Inglês


---

**6 | COLUNAS EM ORDEM INVERSA**

Similar a função de inversão de linhas, existe também a inversão de colunas.

In [38]:
paises.loc[:, ::-1]

Unnamed: 0,Língua Mais Falada,Continente,Capital,País
0,Inglês,América do Norte,Washington D.C.,USA
1,Holandês,Europa,Amsterdan,Holanda
2,Espanhol,Europa,Madri,Espanha
3,Espanhol,América do Norte,Cidade do México,México
4,Inglês,Austrália,Camberra,Austrália
5,Português,América do Sul,Brasília,Brasil


---

**7 | DIVIDIR O CONJUNTO DE DADOS PRINCIPAL EM DOIS SUB CONJUNTOS**

Em algumas situações de análise, você precisará segmentar seu conjunto de dados. Você pode então utilizar a função `sample`, que permite a criação de um subset de dados de forma randômica. Você pode ainda utilizar a função `drop` para a partir do dataframe original excluir os registros resultantes do sub conjunto de dados, ficando com a amostra de diferença, gerando então dois subconjuntos complementares.

In [41]:
paises_1 = paises.sample(frac=0.6, random_state=999)
paises_1

Unnamed: 0,País,Capital,Continente,Língua Mais Falada
2,Espanha,Madri,Europa,Espanhol
5,Brasil,Brasília,América do Sul,Português
3,México,Cidade do México,América do Norte,Espanhol
1,Holanda,Amsterdan,Europa,Holandês


In [43]:
paises_2 = paises.drop(paises_1.index)
paises_2

Unnamed: 0,País,Capital,Continente,Língua Mais Falada
0,USA,Washington D.C.,América do Norte,Inglês
4,Austrália,Camberra,Austrália,Inglês


---

**8 | CRIAR VARIÁVEIS FICTÍCIAS**

Você pode precisar pivotar (inverter) um conjunto de categorias em variáveis para uma análise, e para realizar esta operação você pode utilizar a função `get_dummies`

In [45]:
pd.get_dummies(estudantes)

Unnamed: 0,nome_Ben,nome_Eric,nome_John,nome_Tina,genero_F,genero_M
0,1,0,0,0,0,1
1,0,0,0,1,1,0
2,0,0,1,0,0,1
3,0,1,0,0,0,1


---

**9 | CHECAR IGUALDADE DAS COLUNAS**

Para validar a igualdade entre duas colunas diferentes, você não utilizará como de costume o operador `==`, pois ele somente trabalha com operadores simples, e não considera valores NaN de forma adequada, desta forma será utilizada a função `equals`.

In [49]:
df = pd.DataFrame({'col_1': [1, 0], 'col_2': [0, 1], 'col_3': [1, 0]})
df

Unnamed: 0,col_1,col_2,col_3
0,1,0,1
1,0,1,0


In [51]:
df['col_1'].equals(df['col_2'])

False

In [52]:
df['col_1'].equals(df['col_3'])

True

---

**10 | UNINDO DOS CONJUNTOS DE DADOS**

Quando se trabalha com ciência de dados, o que mais se precisa fazer é realizar a manipulação de multiplas tabelas para gerar informações diferentes, e para isto podemos utilizar a função `concat` para unificar dois conjuntos de dados unindo os registros em uma mesma estrutura.

In [56]:
df

Unnamed: 0,col_1,col_2,col_3
0,1,0,1
1,0,1,0


In [54]:
df_1 = pd.DataFrame({'col_1': [6, 7, 8], 'col_2': [1, 2, 3], 'col_3': [5, 6, 7]})
df_1

Unnamed: 0,col_1,col_2,col_3
0,6,1,5
1,7,2,6
2,8,3,7


In [55]:
pd.concat([df, df_1]).reset_index(drop=True)

Unnamed: 0,col_1,col_2,col_3
0,1,0,1
1,0,1,0
2,6,1,5
3,7,2,6
4,8,3,7


---
**PANDAS E O MUNDO GEO**

Podemos aproveitar de todo este recurso oferecido pela biblioteca Pandas, para agregar performance ao processo de análises geográficas. Na API Python da Esri existe, hoje suporte para conversão dos dados de uma camada de feições para um dataframe do pandas. Isto torna o processo analítico muito mais rápido. Mas vamos ver isto na prática.

In [60]:
from arcgis import GIS
from arcgis.features import SpatialDataFrame
item = GIS().content.get("85d0ca4ea1ca4b9abf0c51b9bd34de2e")
flayer = item.layers[0]
sdf = SpatialDataFrame.from_layer(flayer)
sdf.head()

Unnamed: 0,FID,NAME,CLASS,ST,STFIPS,PLACEFIPS,CAPITAL,POP_CLASS,POPULATION,POP2010,...,MARHH_NO_C,MHH_CHILD,FHH_CHILD,FAMILIES,AVE_FAM_SZ,HSE_UNITS,VACANT,OWNER_OCC,RENTER_OCC,SHAPE
0,1,Ammon,city,ID,16,1601990,,6,15181,13816,...,1131,106,335,3352,3.61,4747,271,3205,1271,"{'x': -12462673.723706165, 'y': 5384674.994080..."
1,2,Blackfoot,city,ID,16,1607840,,6,11946,11899,...,1081,174,381,2958,3.31,4547,318,2788,1441,"{'x': -12506251.313993266, 'y': 5341537.793529..."
2,4,Burley,city,ID,16,1611260,,6,10727,10345,...,861,139,358,2499,3.37,3885,241,2183,1461,"{'x': -12667411.402393516, 'y': 5241722.820606..."
3,6,Chubbuck,city,ID,16,1614680,,6,14655,13922,...,1281,172,370,3586,3.4,4961,229,3324,1408,"{'x': -12520053.904151963, 'y': 5300220.333409..."
4,8,Eagle,city,ID,16,1623410,,6,25825,19908,...,2450,165,398,5585,3.2,7570,501,5770,1299,"{'x': -12952121.214662466, 'y': 5418315.320992..."


Podemos testar um das funções vistas acima nos truques de mestre, que é a de seleção por múltiplas linhas e colunas, demonstrando que apesar de estarmos manipulando um dataframe geográfico, temos ainda todas as funcionalidades oferecidas no pandas.

In [61]:
sdf.loc[0:5,['FID','NAME','CLASS','POPULATION']]

Unnamed: 0,FID,NAME,CLASS,POPULATION
0,1,Ammon,city,15181
1,2,Blackfoot,city,11946
2,4,Burley,city,10727
3,6,Chubbuck,city,14655
4,8,Eagle,city,25825
5,9,Garden City,city,12172
