## Analisando dados com Pandas

In [2]:
import pandas as pd
import numpy as np

## Series() - 1 dimensão

Series com Listas

In [6]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])
numeros

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [7]:
type(numeros)

pandas.core.series.Series

In [8]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [11]:
meses = ['jan','fev','mar','abr','mai','jun','jul','ago','set','out','nov','dez']

In [13]:
meses_sr = pd.Series(np.arange(1,13), index = meses)
meses_sr

jan     1
fev     2
mar     3
abr     4
mai     5
jun     6
jul     7
ago     8
set     9
out    10
nov    11
dez    12
dtype: int64

In [14]:
meses_sr.index

Index(['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out',
       'nov', 'dez'],
      dtype='object')

Series com dicionários

In [15]:
#Criando uma série através de um dicionário. As chaves passam a índice

world_cup = {'Brasil':5,'Alemanha':4,'Itália':4,'Argentina':2,'Uruguai':2,'Ingraterra':1,'França':1}

In [16]:
world_cup_sr = pd.Series(world_cup)
world_cup_sr

Alemanha      4
Argentina     2
Brasil        5
França        1
Ingraterra    1
Itália        4
Uruguai       2
dtype: int64

In [17]:
#Criando uma série definindo o índice

world_cup = {'Brasil':5,'Alemanha':4,'Itália':4,'Argentina':2,'Uruguai':2,'Ingraterra':1,'França':1}

In [18]:
world_cup_sr = pd.Series(
   world_cup,
   index = ['Brasil','Alemanha','Itália','Argentina','Uruguai','Ingraterra','França','Espanha'],
   name = 'wSeries')

In [19]:
#Observe o valor nulo

world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Ingraterra    1.0
França        1.0
Espanha       NaN
Name: wSeries, dtype: float64

In [20]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Ingraterra',
       'França', 'Espanha'],
      dtype='object')

In [21]:
#Posso trazer o valor de uma série através do índice

world_cup_sr['Brasil']

5.0

In [22]:
#Implicitamente o Python ainda atribui um índice numérico

world_cup_sr[0]

5.0

In [23]:
#Podemos também atribuir um valor através do índice numérico ou valorado

world_cup_sr['Espanha'] = 1
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Ingraterra    1.0
França        1.0
Espanha       1.0
Name: wSeries, dtype: float64

In [24]:
#Ao trabalharmos com índices numéricos, podemos fazer slices assim como nas listas e vetores

world_cup_sr[1:3]

Alemanha    4.0
Itália      4.0
Name: wSeries, dtype: float64

In [25]:
#Podemos realizar comparações lógica

world_cup_sr[world_cup_sr > 3]

Brasil      5.0
Alemanha    4.0
Itália      4.0
Name: wSeries, dtype: float64

## Leitura de arquivos - Excel

In [27]:
arquivo = "Alunos.xlsx"

#Carregando o arquivo
xls = pd.ExcelFile(arquivo)

#Verificando as planilhas
print(xls.sheet_names)

['Alunos', 'Notas', 'Trimestre']


In [28]:
#Carregando a planilha na variável alunos

alunos = xls.parse('Alunos')

alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [29]:
type(alunos)

pandas.core.frame.DataFrame

In [31]:
#Tentando trazer a linha no índice 1

alunos[1] #erro pois o dataframe possui linha e coluna

KeyError: 1

## Ao ler de um arquivo, o Pandas tratará TUDO(tipo) como Dataframe

In [35]:
alunos

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos
5,Jorge
6,Lilian
7,Antônio


In [33]:
#Em dataframes os índices são as COLUNAS

alunos['Alunos'][1]

'Clara'

In [34]:
#Dot notation

alunos.Alunos[1]

'Clara'

## Dot notation x parênteses

In [36]:
alunos = xls.parse('Trimestre')
alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [37]:
alunos["Mês 01"][1] #Preferir sempre utilizar colchetes

9.9

In [38]:
alunos. #Dot notation não funciona quando existe espaço

SyntaxError: invalid syntax (<ipython-input-38-7db0e5d80fcb>, line 1)

In [39]:
#indices de linhas

alunos.index

RangeIndex(start=0, stop=8, step=1)

In [40]:
alunos.shape

(8, 5)

In [41]:
alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

In [42]:
##Criando uma nova série em um Dataframe

In [43]:
#criando uma nova série

'Joao' + ' ' + 'Nunes'

'Joao Nunes'

In [44]:
alunos['Nome Completo'] = alunos['Alunos'] + ' ' + alunos['Sobrenome']
alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme


In [47]:
alunos['Nome Completo'] = alunos.Alunos + ' ' + alunos.Sobrenome
alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo,Nome Completo2
0,Ana,Santos,5.7,6.8,4.6,Ana Santos,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes,
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme,
