## Analisando dados com Pandas

In [1]:
import pandas as pd
import numpy as np

### Series

Series com Listas

In [2]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])
numeros

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [3]:
type(numeros)

pandas.core.series.Series

In [4]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [5]:
meses = ['Janeiro', 'Fevereiro','Março','Abril','Maio','Junho','Julho','Agosto','Setembro','Outubro','Novembro','Dezembro']

In [6]:
meses_sr = pd.Series(np.arange(1,13), index = meses)
meses_sr

Janeiro       1
Fevereiro     2
Março         3
Abril         4
Maio          5
Junho         6
Julho         7
Agosto        8
Setembro      9
Outubro      10
Novembro     11
Dezembro     12
dtype: int32

In [7]:
meses_sr.index

Index(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype='object')

In [8]:
# Criando uma série através de um dicionário - As chaves passam a ser índices
world_cup = {'Brasil':5,'Alemanha':4,'Itália':4,'Argentina':2,'Uruguai':2,'Inglaterra':1,'França':1}
world_cup

{'Brasil': 5,
 'Alemanha': 4,
 'Itália': 4,
 'Argentina': 2,
 'Uruguai': 2,
 'Inglaterra': 1,
 'França': 1}

In [10]:
world_cup_sr = pd.Series(world_cup)
world_cup_srb

Brasil        5
Alemanha      4
Itália        4
Argentina     2
Uruguai       2
Inglaterra    1
França        1
dtype: int64

In [11]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra',
       'França'],
      dtype='object')

In [12]:
# Criando uma série através de um dicionário - As chaves passam a ser índices
world_cup = {'Brasil':5,'Alemanha':4,'Itália':4,'Argentina':2,'Uruguai':2,'Inglaterra':1,'França':1}

In [13]:
world_cup_sr = pd.Series(
    world_cup,
    index=['Brasil','Alemanha','Itália','Argentina','Uruguai','Inglaterra','França','Espanha'],
    name='wcSeries')
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
França        1.0
Espanha       NaN
Name: wcSeries, dtype: float64

In [14]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra',
       'França', 'Espanha'],
      dtype='object')

In [15]:
world_cup_sr['Brasil']

5.0

In [16]:
world_cup_sr[0]

5.0

In [17]:
world_cup_sr['Espanha'] = 1

In [18]:
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
França        1.0
Espanha       1.0
Name: wcSeries, dtype: float64

In [19]:
world_cup_sr[world_cup_sr > 3]

Brasil      5.0
Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

## Leitura de Arquivos - Excel

In [51]:
'''
Temos duas formas de ler um arquivo excel.
1) Com o ExcelFiles conseguimos listar todas as planilhas no Excel utilizando o sheet_names
2) Com o read_excel temos que informar qual a planilha queremos ler
'''
xls = pd.ExcelFile('Alunos.xlsx')
xls.sheet_names

['Alunos', 'Notas', 'Trimestre']

In [54]:
alunos

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos
5,Jorge
6,Lilian
7,Antônio


In [50]:
alunos = xls.parse('Alunos')  # .parse carrega a planilha
alunos.head()

"""
Mesma forma em:
xls = pd.read_excel('Alunos.xlsx', sheet_name='Alunos')
"""

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [52]:
type(alunos)

pandas.core.frame.DataFrame

In [53]:
alunos['Alunos'][0]

'Ana'

In [55]:
# Dot Notation
alunos.Alunos[1]

'Clara'

### Dot Notation X Colchetes?
##### Dot Notation -> Não consegue ler com as colunas quando o nome contém espaços.
##### Colchetes -> Consegue ler as colunas com ou sem espaço

In [56]:
alunos = xls.parse('Trimestre')  # .parse carrega a planilha
alunos.head()

"""
Mesma forma em:
xls = pd.read_excel('Alunos.xlsx', sheet_name='Trimestre')
"""

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [58]:
alunos['Mês 01'][1]

9.9

In [59]:
alunos.index

RangeIndex(start=0, stop=8, step=1)

In [60]:
# Tamanho do dataframe
alunos.shape

(8, 5)

In [61]:
alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

## Criando uma nova série em um DataFrame

In [62]:
# Criando uma nova série
'João' + ' ' + 'Nunes'

'João Nunes'

In [63]:
alunos['Nome Completo'] = alunos['Alunos'] + ' ' + alunos['Sobrenome']

In [64]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa
