In [3]:
import pandas as pd
import numpy as np

In [4]:
drinks = pd.read_csv("C:\\Users\\grati\\Downloads\\drinks.csv")
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


In [5]:
#Qualquer dataframe possui um índice

drinks.index

RangeIndex(start=0, stop=193, step=1)

In [6]:
#As colunas também estão armazenadas em um objeto de índices
drinks.columns

Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'population', 'continent'],
      dtype='object')

In [7]:
# Índices ou colunas não são incluidos no shape

drinks.shape

(193, 7)

In [8]:
#Índices e colunas são inteiros por padrão caso não sejam definidos

pd.read_table("C:\\Users\\grati\\Downloads\\espectadores.txt", header=None, sep="|").head()


Unnamed: 0,0,1,2,3,4
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


# Os indices são utilizados em geral em três operações:
1. Identifição
2. Seleção
3. Alinhamento

## Identificação

In [9]:
drinks[drinks.continent=="South America"]

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
6,Argentina,193,25,221,8.3,43.085.000,South America
20,Bolivia,167,41,8,3.8,11.410.651,South America
23,Brazil,245,145,16,7.2,207.660.929,South America
35,Chile,130,124,172,7.6,18.006.407,South America
37,Colombia,159,76,3,4.2,48.336.300,South America
52,Ecuador,162,74,3,4.2,16.027.500,South America
72,Guyana,93,302,1,7.1,746.900,South America
132,Paraguay,213,117,74,7.3,7.003.406,South America
133,Peru,163,160,21,6.1,31.151.643,South America
163,Suriname,128,178,7,5.6,534.189,South America


## Localização

In [10]:
# Na seleção podemos trazer uma parte do DF utilizando o índice
# A função loc permite a localização po índice

drinks.loc[6,"beer_servings"]

193

## Alterando Índices

### A alteração de índices reflete no DF na forma de agrupamentos ou reshaping

In [11]:
#Alterando o indice para paises com a opção inplace, que refletirá no DF ORIGINAL

drinks.set_index("country", inplace=True)

In [12]:
# Podemos també, consluir que Países não é mais uma coluna

drinks.columns

Index(['beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'population', 'continent'],
      dtype='object')

In [13]:
# Anteriormente, tínhasmos um shape de 193 linhas e 7 colunas. (193,7)
#Qual será a mudança agora?

drinks.shape

(193, 6)

In [14]:
# Utilizamos a função loc mais uma vez para trazer uma parte do DF
drinks.loc["Venezuela","beer_servings"]

333

# Nomeando índices

In [15]:
# Podemos nomear os índices, mas essa características é opcional, porém, recomendad em produção e documentação

drinks.index.name = None
drinks.head()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


In [16]:
# Renomeando Índices

drinks.index.name = "country"
drinks.head()


Unnamed: 0_level_0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Afghanistan,0,0,0,0.0,34.660.000,Asia
Albania,89,132,54,4.9,2.876.000,Europe
Algeria,25,0,14,0.7,40.061.000,Africa
Andorra,245,138,312,12.4,77.281.000,Europe
Angola,217,57,45,5.9,28.081.000,Africa


# Resetando um índice

In [17]:
drinks.reset_index(inplace= True)
drinks.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent
0,Afghanistan,0,0,0,0.0,34.660.000,Asia
1,Albania,89,132,54,4.9,2.876.000,Europe
2,Algeria,25,0,14,0.7,40.061.000,Africa
3,Andorra,245,138,312,12.4,77.281.000,Europe
4,Angola,217,57,45,5.9,28.081.000,Africa


# Métodos de DF em Séries

In [18]:
# podemos mesclar praticamente todos os métodos dos DF
# Aqui por exemplo, o describe retorna um novo DF

drinks.describe()

Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [20]:
# Que pode ser utilizado pelo método loc.
# Qual a média de cerveja consumida no mundo inteiro
drinks.describe().loc["mean","beer_servings"]

106.16062176165804

In [21]:
# Toda série também possui um índice, que é carregado a partir do DF
drinks.continent.head()



0      Asia
1    Europe
2    Africa
3    Europe
4    Africa
Name: continent, dtype: object

In [22]:
#Alterando o índice mais uma vez

drinks.set_index("country", inplace=True)

In [23]:
# Verificando uma série do DF
drinks.continent.head()

country
Afghanistan      Asia
Albania        Europe
Algeria        Africa
Andorra        Europe
Angola         Africa
Name: continent, dtype: object

In [24]:
# Um outro exemplo de série retornada, é quando utilizamos value_counts()

drinks.continent.value_counts()

Africa           53
Europe           45
Asia             44
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

In [25]:
# Podemos também ter acesso ao índice de umaa série 

drinks.continent.value_counts().index

Index(['Africa', 'Europe', 'Asia', 'North America', 'Oceania',
       'South America'],
      dtype='object')

In [26]:
# Acessando os valores da Série 
drinks.continent.value_counts().values

array([53, 45, 44, 23, 16, 12], dtype=int64)

In [27]:
# Os elementos de uma série podem ser selecionados utilizando a notação de brackets
drinks.continent.value_counts()["Africa"]

53

## Ordenando Séries

In [28]:
# Qualquer série pode ter os seus valores oredenados por valores

drinks.continent.value_counts().sort_values()

South America    12
Oceania          16
North America    23
Asia             44
Europe           45
Africa           53
Name: continent, dtype: int64

In [29]:
# Qualque série pode ter os seus valores ordenados po índices

drinks.continent.value_counts().sort_index()

Africa           53
Asia             44
Europe           45
North America    23
Oceania          16
South America    12
Name: continent, dtype: int64

## Alinhamento


In [30]:
# A coluna beer_servings contém a média anual de cerveja consumida por pessoa
drinks.beer_servings.head()

country
Afghanistan      0
Albania         89
Algeria         25
Andorra        245
Angola         217
Name: beer_servings, dtype: int64

In [33]:
#Supondo uma classificação: 0 - 75 = Baixa / 76 - 150 = Media / 151 - ...Alta
# Vamos criar outra série baseada e Alinhada à primeira

cons_beer = pd.Series(["Baixo", "Medio", "Alto"], index=["Afghanistan","Albania","Andorra"], name="consumo")
cons_beer

Afghanistan    Baixo
Albania        Medio
Andorra         Alto
Name: consumo, dtype: object

-> As duas séries estão aligned(alinhadas) pelos índices;
-> Se um valor está falatando em uma série, ele é marcado com NaN.
-> O alinhamento de índices nos facilia a trabalhar com dados incompletos.

In [34]:
# Concatene as séries ou DF
pd.concat([drinks, cons_beer],axis=1).head()

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,population,continent,consumo
Afghanistan,0,0,0,0.0,34.660.000,Asia,Baixo
Albania,89,132,54,4.9,2.876.000,Europe,Medio
Algeria,25,0,14,0.7,40.061.000,Africa,
Andorra,245,138,312,12.4,77.281.000,Europe,Alto
Angola,217,57,45,5.9,28.081.000,Africa,
