# Manipulando Índices

In [1]:
import numpy as np
import pandas as pd

In [2]:
file="C:\\. ProjetosDataScience\\Datasets\\drinks.csv"
drinks = pd.read_csv(file)
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


In [3]:
#Qualquer Dataframe possui um índice

drinks.index

RangeIndex(start=0, stop=193, step=1)

In [4]:
#As colunas também estão armazenadas em um objeto de índices

drinks.columns

Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'population', 'continent'],
      dtype='object')

In [4]:
# Índices ou colunas não são incluidas no shape

drinks.shape

(193, 7)

In [9]:
# Índices e colunas são inteiros por padrão caso não sejam definidos

file="C:\\. ProjetosDataScience\\Datasets\\espectadores.txt"

pd.read_table(file, header=None, sep='|').head()

FileNotFoundError: File b'C:\\. ProjetosDataScience\\Datasets\\espectadores.txt' does not exist

**Os índices são utilizados em geral para três operações:**

1. Identificação
2. Seleção
3. Alinhamento


# Identificação

In [5]:
# Filtro = dataset[dataset.coluna=='busca'] Pode usar o nome da coluna com espaço.
# Na identificação, o índice permanece com cada linha quando filtramos um Dataframe

drinks[drinks.continent=='South America']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
6,Argentina,193,25,221,8.3,43.085.000,South America
20,Bolivia,167,41,8,3.8,11.410.651,South America
23,Brazil,245,145,16,7.2,207.660.929,South America
35,Chile,130,124,172,7.6,18.006.407,South America
37,Colombia,159,76,3,4.2,48.336.300,South America
52,Ecuador,162,74,3,4.2,16.027.500,South America
72,Guyana,93,302,1,7.1,746.900,South America
132,Paraguay,213,117,74,7.3,7.003.406,South America
133,Peru,163,160,21,6.1,31.151.643,South America
163,Suriname,128,178,7,5.6,534.189,South America


# Localização

In [7]:
# Na seleção podemos trazer uma parte do Dataframe utilizando o índice. 
# A função loc permite a localização por índice. 
# LOC vem de localização (localzação por indice). 
# Permite cruzar os indices (linhas com colunas).

drinks.loc[6, 'beer_servings']

193

# Alterando índices

## A alteração de índices reflete no Dataframe na forma de agrupamentos ou reshaping

In [13]:
# Verificando os índices

drinks.index

# Estão numéricos 

Index(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antigua & Barbuda', 'Argentina', 'Armenia', 'Australia', 'Austria',
       ...
       'Tanzania', 'USA', 'Uruguay', 'Uzbekistan', 'Vanuatu', 'Venezuela',
       'Vietnam', 'Yemen', 'Zambia', 'Zimbabwe'],
      dtype='object', name='country', length=193)

In [14]:
#Alterando o índice para países com a opção inplace, que refletirá no Dataframe ORIGINAL
# Irá setar (set_index) o país (country) como indice.

drinks.set_index('country', inplace=True)

drinks.head()

# country fica em negrito indicando que é um indice.

KeyError: 'country'

In [15]:
# Verificando novamente os índices

drinks.index

Index(['Afghanistan', 'Albania', 'Algeria', 'Andorra', 'Angola',
       'Antigua & Barbuda', 'Argentina', 'Armenia', 'Australia', 'Austria',
       ...
       'Tanzania', 'USA', 'Uruguay', 'Uzbekistan', 'Vanuatu', 'Venezuela',
       'Vietnam', 'Yemen', 'Zambia', 'Zimbabwe'],
      dtype='object', name='country', length=193)

In [16]:
# Podemos também concluir que Países não é mais uma coluna

drinks.columns

Index(['beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'population', 'continent'],
      dtype='object')

In [18]:
# Anteriormente, tínhamos um shape de 193 linhas e 7 colunas. (193,7)
# Qual será a mudança agora?

drinks.shape

# country virou indice

(193, 6)

In [19]:
# Utilizamos a função loc mais uma vez para trazer uma parte do Dataframe

drinks.loc['Brazil', 'beer_servings']

245

In [20]:
drinks.loc['Andorra', 'beer_servings']

245

In [21]:
drinks.loc['Argentina', 'beer_servings']

193

# Nomeando índices

In [22]:
# Podemos nomear os índices, mas essa característica é opcional, porém, recomendada em produção e documentação

drinks.index.name = None
drinks.head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


In [23]:
# Renomeando o índice

drinks.index.name = 'country-rename'
drinks.head()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
country-rename,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


# Resetando um índice

In [24]:
drinks.reset_index(inplace=True)
drinks.head()

Unnamed: 0,country-rename,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


In [25]:
drinks.index

RangeIndex(start=0, stop=193, step=1)

# Métodos de Dataframes em Séries

In [28]:
# Podemos mesclar praticamente todos os métodos dos Dataframes
# Aqui por exemplo, o describe retorna um novo Dataframe
# describe() traz a média, mínimo, quartis, etc.

drinks.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [27]:
type(drinks.describe())

pandas.core.frame.DataFrame

In [41]:
# Que pode ser utilizado pelo método loc.
# Qual a média de cerveja consumida no mundo inteiro 

drinks.describe().loc['mean', 'beer_servings']

106.16062176165804

In [29]:
# Toda série também possui um índice, que é carregado a partir do Dataframe

drinks.continent.head() # início do Dataframe

0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: object

In [32]:
drinks.continent.tail() # fim do Dataframe

188    South America
189             Asia
190             Asia
191           Africa
192           Africa
Name: continent, dtype: object

In [35]:
# Alterando o índice mais uma vez

drinks.set_index('country', inplace=True)

KeyError: 'country'

In [57]:
# Verificando uma série do Dataframe

drinks.continent.head()

0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: object

In [39]:
# Um outro exemplo de série retornada, é quando utilizamos value_counts()
# Nesse caso, o value_counts vai somar quantas vezes o índice aparece e exibir o total
# No caso calcula a quantidade de palavras 

drinks.continent.value_counts()

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

In [41]:
# Podemos também ter acesso ao índice de uma série

drinks.continent.value_counts().index

Index(['Africa', 'Europe', 'Asia', 'North America', 'Oceania',
       'South America'],
      dtype='object')

In [42]:
# Acessando os valores da série

drinks.continent.value_counts().values

array([53, 45, 44, 23, 16, 12], dtype=int64)

In [43]:
# Os elementos de uma série podem ser selecionados utilizando a notação de brackets

drinks.continent.value_counts()['Africa']

53

# Ordenando Séries

In [44]:
# Qualquer série pode ter os seu valores ordenados por valores

drinks.continent.value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

In [45]:
# Qualquer série pode ter os seus valores ordenados por índices

drinks.continent.value_counts().sort_index()

Africa           53
Asia             44
Europe           45
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

# Alinhamento

In [46]:
# A coluna beer_servings contém a média anual de cerveja consumida por pessoa
drinks.beer_servings.head(20)

0       0
1      89
2      25
3     245
4     217
5     102
6     193
7      21
8     261
9     279
10     21
11    122
12     42
13      0
14    143
15    142
16    295
17    263
18     34
19     23
Name: beer_servings, dtype: int64

In [53]:
# Supondo uma classificação: 0 - 75 = Baixa / 76 - 150 = Media / 151 - ... Alta
# Vamos criar outra série baseada e ALINHADA à primeira

cons_beer = pd.Series(['Baixo', 'Baixo', 'Alto'], index=['Afghanistan', 'Albania', 'Andorra'], name='consumo')
cons_beer

Afghanistan    Baixo
Albania        Baixo
Andorra         Alto
Name: consumo, dtype: object

- As duas séries estão **aligned** (alinhadas) pelos índices.
- Se um valor está faltando em uma série, ele é marcado como **NaN**.
- O alinhamento de índices nos facilita a trabalhar com **dados incompletos**.

In [56]:
# Concatene as séries ou dataframes

pd.concat([drinks, cons_beer], axis=1).head(20)

Unnamed: 0,country-rename,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
0,Afghanistan,0.0,0.0,0.0,0.0,34.660.000,Asia,
1,Albania,89.0,132.0,54.0,4.9,2.876.000,Europe,
2,Algeria,25.0,0.0,14.0,0.7,40.061.000,Africa,
3,Andorra,245.0,138.0,312.0,12.4,77.281.000,Europe,
4,Angola,217.0,57.0,45.0,5.9,28.081.000,Africa,
5,Antigua & Barbuda,102.0,128.0,45.0,4.9,86.295,North America,
6,Argentina,193.0,25.0,221.0,8.3,43.085.000,South America,
7,Armenia,21.0,179.0,11.0,3.8,2.925.000,Europe,
8,Australia,261.0,72.0,212.0,10.4,24.013.000,Oceania,
9,Austria,279.0,75.0,191.0,9.7,8.725.111,Europe,
