# Analisando Dados com PANDAS

In [1]:
import pandas
import numpy

# SERIES

# Séries com listas

In [2]:
numeros = pandas.Series([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 ])

In [3]:
numeros

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
dtype: int64

In [4]:
type(numeros)

pandas.core.series.Series

In [5]:
numeros.index

RangeIndex(start=0, stop=12, step=1)

In [6]:
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [7]:
meses_sr = pandas.Series(numpy.arange(1, 13), index = meses)

In [8]:
meses_sr

Janeiro       1
Fevereiro     2
Março         3
Abril         4
Maio          5
Junho         6
Julho         7
Agosto        8
Setembro      9
Outubro      10
Novembro     11
Dezembro     12
dtype: int32

In [9]:
meses_sr.index

Index(['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho',
       'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro'],
      dtype='object')

# Séries com Dicionários

In [10]:
# Criando uma série através de um dicionário - as CHAVES passa o ÍNDICES

World_Cup = {'Alemanha':4, 'Argentina':2, 'Brasil':5, 'França':1, 'Inglaterra':1, 'Uruguai':2 }

In [11]:
World_Cup_sr = pandas.Series(World_Cup)

In [12]:
World_Cup_sr

Alemanha      4
Argentina     2
Brasil        5
França        1
Inglaterra    1
Uruguai       2
dtype: int64

In [16]:
# Criando uma série definindo o índice

World_Cup = {'Alemanha':4, 'Argentina':2, 'Brasil':5, 'França':1, 'Inglaterra':1, 'Uruguai':2, 'Itália':4} 

In [17]:
World_Cup_sr = pandas.Series
(
    World_Cup,
    index = ['Alemanha', 'Argentina', 'Brasil', 'França', 'Inglaterra', 'Uruguai', 'Espanha'],
    name = 'wcSeries'
)

SyntaxError: invalid syntax (<ipython-input-17-d01ed4c6937f>, line 4)

In [18]:
# Observando o valor nulo

World_Cup_sr

Alemanha      4
Argentina     2
Brasil        5
França        1
Inglaterra    1
Uruguai       2
dtype: int64

In [19]:
World_Cup_sr.index

Index(['Alemanha', 'Argentina', 'Brasil', 'França', 'Inglaterra', 'Uruguai'], dtype='object')

In [20]:
# É possível trazer o valor de uma Série através do índice

World_Cup_sr['Alemanha']

4

In [21]:
# Implicitamente, porém, o Python ainda atribui um índice numérico

World_Cup_sr[0]

4

In [22]:
# Pode-se também atribuir um valor através do índice numérico ou valorado

World_Cup_sr['Espanha'] = 1

In [23]:
World_Cup_sr

Alemanha      4
Argentina     2
Brasil        5
França        1
Inglaterra    1
Uruguai       2
Espanha       1
dtype: int64

In [24]:
# Ao trabalhar com índice numérico, pode-se fazer SLICE, assim como nas listas e vetores

World_Cup_sr[1 : 3]

Argentina    2
Brasil       5
dtype: int64

In [25]:
# Pode-se efetuar comparações lógicas 

World_Cup_sr[World_Cup_sr > 3]

Alemanha    4
Brasil      5
dtype: int64

# Leitura de arquivos - EXCEL

In [26]:
arquivo = 'E:\\Udemy - Cursos\\Data Science\\Pacotes\\Alunos.xlsx'

# Carregando o arquivo
xls = pandas.ExcelFile(arquivo)

# Verificando as planilhas
print(xls.sheet_names)

['Alunos', 'Notas', 'Trimestre']


In [27]:
# Carregando a planilha na variável alunos

alunos = xls.parse('Alunos')

alunos.head()

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos


In [28]:
type(alunos)

pandas.core.frame.DataFrame

In [29]:
# Tentando trazer a linha no índice 1

alunos[1] # Não é possível porque o DataFrame possui índice de linha e coluna

KeyError: 1

# Ao ler um arquivo, o PANDAS irá tratar tudo (tipo) como DataFrame

In [30]:
alunos 

Unnamed: 0,Alunos
0,Ana
1,Clara
2,Célia
3,João
4,Carlos
5,Jorge
6,Lilian
7,Antônio


In [31]:
# Em DataFrames os índices são as colunas

alunos['Alunos'][1]

'Clara'

In [32]:
# DOT Notation

alunos.Alunos[1]

'Clara'

# DOT Notation X Colchetes

In [33]:
alunos = xls.parse('Trimestre')

alunos.head()

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03
0,Ana,Santos,5.7,6.8,4.6
1,Clara,Mafra,9.9,7.0,9.0
2,Célia,Tavares,8.0,8.0,9.0
3,João,Nunes,9.9,9.0,8.0
4,Carlos,Guilherme,7.0,7.5,6.0


In [35]:
alunos['Mês 01'][1]

9.9000000000000004

In [36]:
# Índice de linhas

alunos.index

RangeIndex(start=0, stop=8, step=1)

In [37]:
# Tamanho do DataFrame

alunos.shape

(8, 5)

In [38]:
# Verificando as colunas

alunos.columns

Index(['Alunos', 'Sobrenome', 'Mês 01', 'Mês 02', 'Mês 03'], dtype='object')

# Criando uma nova série em um DataFrame

In [39]:
# Criando uma nova série

'João' + ' ' + 'Pontes'

'João Pontes'

In [40]:
alunos['Nome Completo'] = alunos['Alunos'] + ' ' + ['Sobrenome']

In [41]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Sobrenome
1,Clara,Mafra,9.9,7.0,9.0,Clara Sobrenome
2,Célia,Tavares,8.0,8.0,9.0,Célia Sobrenome
3,João,Nunes,9.9,9.0,8.0,João Sobrenome
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Sobrenome
5,Jorge,Silva,6.8,7.0,5.0,Jorge Sobrenome
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Sobrenome
7,Antônio,Costa,7.0,6.5,6.0,Antônio Sobrenome


In [42]:
alunos['Nome Completo'] = alunos.Alunos + ' ' + alunos.Sobrenome # Utilizado DOT Notation

In [43]:
alunos

Unnamed: 0,Alunos,Sobrenome,Mês 01,Mês 02,Mês 03,Nome Completo
0,Ana,Santos,5.7,6.8,4.6,Ana Santos
1,Clara,Mafra,9.9,7.0,9.0,Clara Mafra
2,Célia,Tavares,8.0,8.0,9.0,Célia Tavares
3,João,Nunes,9.9,9.0,8.0,João Nunes
4,Carlos,Guilherme,7.0,7.5,6.0,Carlos Guilherme
5,Jorge,Silva,6.8,7.0,5.0,Jorge Silva
6,Lilian,Vianna,7.8,8.0,8.5,Lilian Vianna
7,Antônio,Costa,7.0,6.5,6.0,Antônio Costa
