# Analisando dados com Pandas

In [2]:
import pandas as pd
import numpy as np

# Series

In [2]:
numeros = pd.Series([1,2,3,4,5,6,7,8,9,10,11,12])
numeros

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [3]:
type(numeros)

pandas.core.series.Series

In [4]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [6]:
n = pd.Series([42,31,45,21,44,55])
print(n)

0    42
1    31
2    45
3    21
4    44
5    55
dtype: int64


In [7]:
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [9]:
meses_sr = pd.Series(np.arange(1,13), index = meses)
meses_sr

Janeiro       1
Fevereiro     2
Março         3
Abril         4
Maio          5
Junho         6
Julho         7
Agosto        8
Setembro      9
Outubro      10
Novembro     11
Dezembro     12
dtype: int32

In [10]:
meses_sr.index

Index(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype='object')

# Series com dicionários

In [11]:
world_cup = {'Brasil':5, 'Alemanha':4, 'Itália':4, 'Argentina':2, 'Uruguai': 2, 'Inglaterra':1, 'França': 1}

In [13]:
world_cup_sr = pd.Series(world_cup)
world_cup_sr

Brasil        5
Alemanha      4
Itália        4
Argentina     2
Uruguai       2
Inglaterra    1
França        1
dtype: int64

In [14]:
world_cup_sr = pd.Series(world_cup, index = ['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra', 'Espanha'],
                        name = 'wcSeries')

In [16]:
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
Espanha       NaN
Name: wcSeries, dtype: float64

In [17]:
world_cup_sr.index

Index(['Brasil', 'Alemanha', 'Itália', 'Argentina', 'Uruguai', 'Inglaterra',
       'Espanha'],
      dtype='object')

In [18]:
world_cup_sr['Brasil']

5.0

In [19]:
world_cup_sr[0]

5.0

In [20]:
world_cup_sr['Espanha'] = 1
world_cup_sr

Brasil        5.0
Alemanha      4.0
Itália        4.0
Argentina     2.0
Uruguai       2.0
Inglaterra    1.0
Espanha       1.0
Name: wcSeries, dtype: float64

In [21]:
world_cup_sr[1:3]

Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

In [22]:
world_cup_sr[world_cup_sr>3]

Brasil      5.0
Alemanha    4.0
Itália      4.0
Name: wcSeries, dtype: float64

# Leitura de arquivos - Excel

In [3]:
arquivo = "c:\\Users\\dan\\Documents\\Curso Data Science\\Datasets\\Alunos.xlsx"
xls = pd.ExcelFile(arquivo)
print(xls.sheet_names)

['Alunos', 'Notas', 'Trimestre']


In [24]:
alunos = xls.parse('Alunos')
alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [25]:
type(alunos)

pandas.core.frame.DataFrame

In [26]:
alunos

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos
5,Jorge
6,Lilian
7,Antônio


In [27]:
alunos['Alunos'][1]

'Clara'

In [28]:
alunos.Alunos[1]

'Clara'

In [32]:
alunos = xls.parse('Trimestre')
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0
5,Jorge,Silva,6.8,7.0,5.0
6,Lilian,Vianna,7.8,8.0,8.5
7,Antônio,Costa,7.0,6.5,6.0


In [30]:
alunos["Mês 01"][1]

9.9

In [31]:
alunos.index

RangeIndex(start=0, stop=8, step=1)

In [33]:
alunos.shape

(8, 5)

In [34]:
alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

# Criando uma série em um Dataframe

In [35]:
alunos['Nome Completo'] = alunos['Alunos'] + ' ' + alunos['Sobrenome']

In [36]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa
