In [None]:
import numpy as np
import pandas as pd

In [None]:
file="C:\\Git\\DataScience\\drinks.csv"
drinks=pd.read_csv(file)

In [None]:
#Qualquer data frame possui um índice

drinks.index

In [None]:
#As colunas também estão armazenadas em um objeto de índices

drinks.columns

In [None]:
#Índices ou colunas não não incluídas no shape

drinks.shape

In [None]:
#Índices e colunas são inteiros por padrão, caso não sejam definidos

file="C:\\Git\\DataScience\\Users.txt"

pd.read_table(file,header=None,sep='|').head()

**Os índices são utilizados em geral para três operações:**
1. Identificação
2. Seleção
3. Alinhamento

## Identificação

In [None]:
#Na identificação, o índice permanece com cada linha quanto filtramos um data frame

drinks[drinks.continent=='South America'] #Acessando o índice continente do data frame drinks

## Seleção/Localização

In [None]:
#Na seleção, podemos trazer uma parte do data frame utilizando o índice
#A função loc permite a localização por índice

drinks.loc[6, 'beer_servings'] #Acessando o índice 6 da linha e beer_serving da coluna

## Alterando índices

A alteração de índices reflet no data frame na forma de agrupamentos ou reshaping

In [None]:
#Alterando o índice para países com a opção inplace, que refletirá no data frame original

drinks.set_index('country', inplace=True)

In [None]:
#Verificando novamente os índices

drinks.index

In [None]:
#Podemos então concluir que países não é mais uma coluna

drinks.columns

In [None]:
#Anteriormente o shape era de 193 linhas e 7 colunas (193,7). E agora?

drinks.shape

In [None]:
#Utilizamos mais uma vez a função loc para trazer parte do data frame

drinks.loc['Brazil','beer_servings']

## Nomeando índices

In [None]:
#Podemos nomear os índices, mas essa característica é opcional, porém, recomendada em produção e documentação

drinks.index.name = None
drinks.head()

In [None]:
#Renomeando o índice

drinks.index.name = 'country'
drinks.head()

## Resetando um índice

In [None]:
drinks.reset_index(inplace=True)
drinks.head()

## Métodos de data frames em séries

In [None]:
#Podemos mesclar praticamente todos os métodos dos data frames
#Aqui, por exemplo, describe retorna um novo data frame

drinks.describe()

In [None]:
#Que pode ser utilizado pelo método loc
#Qual a média de cerveja consumida no mundo inteiro?

drinks.describe().loc['mean','beer_servings']

In [None]:
#Toda série também possui um índice, que é carregado a partir do data frame

drinks.continent.head()

In [None]:
#Alterando o índice mais uma vez

drinks.set_index('country',inplace=True)

In [None]:
#Verificando uma série do data frame

drinks.continent.head()

In [None]:
#Outro exemplo de série retornada é quanto utilizamos o value_counts()

drinks.continent.value_counts()

In [None]:
#Podemos também ter acesso ao índice de uma série

drinks.continent.value_counts().index

In [None]:
#Acessando os valores da série

drinks.continent.value_counts().values

In [None]:
#Os elementos de uma série podem ser selecionados utilizando a notação de brackets

drinks.continent.value_counts()['Africa']

## Ordenando séries

In [None]:
#Qualquer série pode ter os seus valores ordenados por valores

drinks.continent.value_counts().sort_values()

In [None]:
#Qualquer série pode ter os seus valores ordenados por índices

drinks.continent.value_counts().sort_index()

## Alinhamento

In [None]:
#A coluna beer_servings contém a média anual de cerveja consumida por pessoa

drinks.beer_servings.head()

In [None]:
#Supondo uma classificação: 0 - 75 = Baixa / 76 - 150 = Média / 151 - ... = Alta
#Vamos criar outra série baseada e ALINHADA à primeira

cons_beer = pd.Series(['Baixo','Baixo','Alto'], index=['Afghanistan','Albania','Andorra'],name='consumo')
cons_beer

* As duas séries estão **aligned** (alinhadas) pelos índices;
* Se um valor está faltando em uma série, ele é marcado como **NaN**;
* O alinhamento de índices nos facilita a trabalhar com **dados incompletos**.

In [None]:
#Concatenando as séries ou data frames

pd.concat([drinks, cons_beer],axis=1).head()