### Manipulando Índices

In [1]:
import numpy as np
import pandas as pd

In [46]:
file="C:\\projetos\\drinks.csv"
drinks = pd.read_csv(file)
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


In [47]:
#Qualquer Dataframe possui um índice

drinks.index

RangeIndex(start=0, stop=193, step=1)

In [48]:
#As colunas também estão armazenadas em um objeto de índices.

drinks.columns

Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'population', 'continent'],
      dtype='object')

In [34]:
# Indices ou colunas não são incluidas no shape
drinks.shape

(193, 7)

### Identificação

In [10]:
#Na identificação, o indice permanece com cada linha quando filtramos um Dataframe

drinks[drinks.continent=='Asia']

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
12,Bahrain,42,63,7,2.0,1.359.800,Asia
13,Bangladesh,0,0,0,0.0,159.145.000,Asia
19,Bhutan,23,0,0,0.4,765.650,Asia
24,Brunei,31,2,1,0.6,393.372,Asia
30,Cambodia,57,65,1,2.2,15.405.157,Asia
36,China,79,192,8,5.0,1.372.470.000,Asia
46,North Korea,0,0,0,0.0,25.155.000,Asia
77,India,9,114,0,2.2,1.278.160.000,Asia
78,Indonesia,5,1,0,0.1,255.780.000,Asia


### Localização

In [12]:
# Na seleção podemos trazer uma parte do Dataframe utilizando o indice

# A função Loc permite a localização por índice

drinks.loc[6, 'beer_servings']

193

### Alterando Índices

#### A alteração de índices reflete no Dataframe na forma de agrupamentos ou reshaping

In [35]:
#Alterando o índice para países com opção implace, que refletirá no Dataframe ORIGINAL

drinks.set_index('country', inplace=True)
drinks.head()

Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


In [37]:
# Utilizando a função Loc mais uma vez para trazer uma parte do Dataframe

drinks.loc['Brazil', 'beer_servings']

245

### Nomeando índices

In [39]:
# Podemos nomear os índices, mas essa característica é opcional, porém, recomendada em produção e documentação

drinks.index.name = None
drinks.head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


### Resetando um índice


In [40]:
drinks.reset_index(inplace=True)
drinks.head()

Unnamed: 0,index,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


### Métodos de Dataframes em Séries

In [41]:
# Podemos mesclar praticamente todos os métodos dos Dataframes
# Aqui por exemplo, o describe retorna um novo Dataframe

drinks.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [42]:
# Que pode ser utilizado pelo método Loc.
# Qual a média de cerveja consumida no mundo inteiro

drinks.describe().loc['mean', 'beer_servings']

106.16062176165804

In [44]:
# Toda série tambem possui um indice, que é carregado a partir do Dataframe

drinks.continent.tail()

188    South America
189             Asia
190             Asia
191           Africa
192           Africa
Name: continent, dtype: object

In [49]:
# Alterando o índice mais uma vez

drinks.set_index('country', inplace=True)

In [50]:
# Verificando uma série do Dataframe

drinks.continent.head()

country
Afghanistan      Asia
Albania        Europe
Algeria        Africa
Andorra        Europe
Angola         Africa
Name: continent, dtype: object

In [51]:
# Um outro exemplo de séries retornada, é quando utilizamos o value_counts()

drinks.continent.value_counts().index

Index(['Africa', 'Europe', 'Asia', 'North America', 'Oceania',
       'South America'],
      dtype='object')

In [52]:
# Acessando os valores da série

drinks.continent.value_counts().values

array([53, 45, 44, 23, 16, 12], dtype=int64)

In [53]:
# Os elementos de uma série podem ser selecionados utilizando a notação de brackets

drinks.continent.value_counts()['Africa']

53

### Ordenando Séries

In [56]:
# Qualquer série pode ter os seus valores ordenados por valores

drinks.continent.value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

In [58]:
# Qualquer série pode ter os seus valores ordenados por índices

drinks.continent.value_counts().sort_index()

Africa           53
Asia             44
Europe           45
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

### Alinhamento

In [59]:
# A coluna beer_servings contém a média anual de cerveja consumida por pessoa
drinks.beer_servings.head()

country
Afghanistan      0
Albania         89
Algeria         25
Andorra        245
Angola         217
Name: beer_servings, dtype: int64

In [64]:
# Supondo uma classificação: 0 - 75 = Baixa / 76 - 150 = Media / 151 - .... Alta
# Vamos criar outra série baseada e ALINHADA a primeira

cons_beer = pd.Series(['Baixo', 'Baixo', 'Alto'], index=['Afghanistan', 'Albania', 'Andorra'], name='consumo')
cons_beer

Afghanistan    Baixo
Albania        Baixo
Andorra         Alto
Name: consumo, dtype: object

In [65]:
# Concatene as séries ou dataframes

pd.concat([drinks, cons_beer], axis=1).head(20)

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
Afghanistan,0,0,0,0.0,34.660.000,Asia,Baixo
Albania,89,132,54,4.9,2.876.000,Europe,Baixo
Algeria,25,0,14,0.7,40.061.000,Africa,
Andorra,245,138,312,12.4,77.281.000,Europe,Alto
Angola,217,57,45,5.9,28.081.000,Africa,
Antigua & Barbuda,102,128,45,4.9,86.295,North America,
Argentina,193,25,221,8.3,43.085.000,South America,
Armenia,21,179,11,3.8,2.925.000,Europe,
Australia,261,72,212,10.4,24.013.000,Oceania,
Austria,279,75,191,9.7,8.725.111,Europe,
