### Analisando dados com Pandas

In [1]:
import pandas as pd
import numpy as np

#### Series

Series com listas

In [2]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])
numeros

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [4]:
type(numeros)

pandas.core.series.Series

In [5]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [6]:
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [7]:
meses_sr = pd.Series(np.arange(1,13), index = meses)
meses_sr

Janeiro       1
Fevereiro     2
Março         3
Abril         4
Maio          5
Junho         6
Julho         7
Agosto        8
Setembro      9
Outubro      10
Novembro     11
Dezembro     12
dtype: int32

In [8]:
meses_sr.index

Index(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype='object')

Series com Dicionarios

In [9]:
#Criando uma série através de um dicionário - As chaves passa o índece

world_cup = {'Brasil':5, 'Alemanha':4, 'Itália':4, 'Argentina':2, 'Uruguai':2, 'Inglaterra':1, 'França':1}

In [10]:
world_cup_sr = pd.Series(world_cup)
world_cup_sr

Brasil        5
Alemanha      4
Itália        4
Argentina     2
Uruguai       2
Inglaterra    1
França        1
dtype: int64

In [11]:
#Criando uma série definindo o índice

world_cup = {'Brasil':5, 'Alemanha':4, 'Itália':4, 'Argentina':2, 'Uruguai':2, 'Inglaterra':1, 'França':1}

In [12]:
world_cup_sr = pd.Series(
    world_cup,
    index = ['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra', 'Espanha'],
    name = 'wcSeries')

In [13]:
# Observe o valor nulo

world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
Espanha       NaN
Name: wcSeries, dtype: float64

In [14]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra',
       'Espanha'],
      dtype='object')

In [15]:
#Posso trazer o valor de uma série através do índice

world_cup_sr['Brasil']

5.0

In [16]:
#Implicitamente, porém, o Python ainda atribui um índice numérico

world_cup_sr[0]

5.0

In [17]:
#Podemos também atribuir um valor através do índice numérico ou valorado

world_cup_sr['Espanha'] = 1
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
Espanha       1.0
Name: wcSeries, dtype: float64

In [18]:
#Ao trabalharmos com índices numéricos, podemos fazer slices assim como listas e vetores

world_cup_sr[1:3]

Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

In [19]:
#Podemos realizar comparações lógicas

world_cup_sr[world_cup_sr > 3]

Brasil      5.0
Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

### Leitura de Arquivos - Excel

In [20]:
arquivo = "c:\\Projetos\\Alunos.xlsx"

#Carregando o arquivo

xls = pd.ExcelFile(arquivo)

#Verificando as planilhas

print(xls.sheet_names)

['Alunos', 'Notas', 'Trimestre']


In [21]:
#Carregandp a planilha na variável alunos

alunos = xls.parse('Alunos')

alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [22]:
type(alunos)

pandas.core.frame.DataFrame

In [23]:
#Tentando trazer a linha no índice 1

alunos[1]

KeyError: 1

### Ao ler de um arquivo, o Pandas tratará tudo(tipo) como Dataframe

In [24]:
#Em Dataframes os indices são as colunas

alunos['Alunos'][1]

'Clara'

In [25]:
#Dot Notation

alunos.Alunos[1]

'Clara'

### Dot Notation X Colchetes?

In [26]:
alunos = xls.parse('Trimestre')

alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [27]:
alunos["Mês 01"][1]

9.9

In [28]:
#Indice de linhas

alunos.index

RangeIndex(start=0, stop=8, step=1)

In [29]:
#Tamanho do Dataframe

alunos.shape

(8, 5)

In [30]:
#Verificando as colunas

alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

### Criando uma nova série em um Dataframe

In [31]:
#Criando uma nova série

'João' + ' ' + 'Nunes'

'João Nunes'

In [32]:
alunos['Nome Completo'] = alunos['Alunos'] + ' ' + alunos['Sobrenome']

In [33]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa


In [34]:
alunos['Nome Completo'] = alunos.Alunos + ' ' + alunos.Sobrenome

In [35]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa
