In [1]:
import pandas as pd
import numpy as np

### Series

Series com lista

In [2]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])
numeros

# O resultado trará 2 colunas a primeira é o indecie e a segunda é a serie

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [3]:
type(numeros)

pandas.core.series.Series

In [4]:
# A leitura do resultado é a seguinte: inicia em zero, para no 12-1 e vai de 1 em 1
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [5]:
meses = ['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out', 'nov', 'dez']

In [7]:
# O np.arange gera os números de 1 a 13-1. O segundo parametro é para passar o indice da série, esse parâmetro só recebe uma lista
meses_sr = pd.Series(np.arange(1, 13), index = meses)
meses_sr

jan     1
fev     2
mar     3
abr     4
mai     5
jun     6
jul     7
ago     8
set     9
out    10
nov    11
dez    12
dtype: int64

In [8]:
meses_sr.index

Index(['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out',
       'nov', 'dez'],
      dtype='object')

Séries com dicionários

In [9]:
# Criando ums série através de um dicionário - As chaves passam a ser os indices
world_cup = {
    'Brasil': 5,
    'Alemanha': 4,
    'Itália': 4,
    'Argentina': 2,
    'Uruguai': 2,
    'Inglaterra': 1,
    'França': 1
}

In [10]:
world_cup_sr = pd.Series(world_cup)
world_cup_sr

Brasil        5
Alemanha      4
Itália        4
Argentina     2
Uruguai       2
Inglaterra    1
França        1
dtype: int64

In [11]:
# Criando uma série definindo o índice
world_cup = {
    'Brasil': 5,
    'Alemanha': 4,
    'Itália': 4,
    'Argentina': 2,
    'Uruguai': 2,
    'Inglaterra': 1,
    'França': 1
}

In [14]:
world_cup_sr = pd.Series(
    world_cup,
    index = ['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra', 'França', 'Espanha'],
    name = 'wcSeries')

In [15]:
# Observe o valor nulo
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
França        1.0
Espanha       NaN
Name: wcSeries, dtype: float64

In [16]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra',
       'França', 'Espanha'],
      dtype='object')

In [17]:
# Posso trazer o valor de uma série atráves do índice
world_cup_sr['Brasil']

5.0

In [18]:
# Implicitamente o python ainda atribui um índice numérico
world_cup_sr[0]

5.0

In [19]:
# Podemos atribuir um valor através do índice numérico ou valorado

world_cup_sr['Espanha'] = 1
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
França        1.0
Espanha       1.0
Name: wcSeries, dtype: float64

In [20]:
# Ao trabalhar com índices numéricos, podemos fazer slices, assim como, nas listas e vetores
world_cup_sr[1:3]

Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

In [21]:
# Podemos realizar comparações lógicas

world_cup_sr[world_cup_sr > 3]

Brasil      5.0
Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

### Leitura de arquivos - Excel

In [23]:
arquivo = '/home/diego/workspace/python/estudo_ciencia_de_dados/Datasets/Alunos.xlsx'

# Carregando o arquivo
xls = pd.ExcelFile(arquivo)

# Verificando as planilhas
print(xls.sheet_names)

['Alunos', 'Notas', 'Trimestre']


In [24]:
# Carregando a planilha na variável alunos

alunos = xls.parse('Alunos')
alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [25]:
type(alunos)

pandas.core.frame.DataFrame

#### Ao ler se um arquivo, o pandas tratará tudo(tipo) como dataframe

In [26]:
# Em dataframes os indices são colunas
alunos['Alunos'][1]

'Clara'

In [27]:
# Dor notation
alunos.Alunos[1]

'Clara'

#### Dot notation x colchetes?

In [28]:
alunos = xls.parse('Trimestre')
alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [29]:
# O dot notation não funciona com espaço no título da coluna, sempre usar essa notação:
alunos['Mês 01'][1]

9.9

In [30]:
# Indice de linhas
alunos.index

RangeIndex(start=0, stop=8, step=1)

In [31]:
# Tamanho do dataframe
alunos.shape

(8, 5)

In [32]:
# Verificando as colunas
alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

## Criando uma nova série em um dataframe

In [33]:
# Criando uma nova série

'João' + ' ' + 'Nunes'

'João Nunes'

In [34]:
alunos['Nome Completo'] = alunos['Alunos'] +  ' ' + alunos['Sobrenome']

In [35]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa


In [36]:
# Usando dot notation
alunos['Nome Completo'] = alunos.Alunos + ' ' + alunos.Sobrenome

In [37]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa
