Neste notebook iremos trabalhar:
 - Carga de dados manual
 - O objeto Series
 - Operação básica em objetos Series
 - O objeto DataFrame
 - Subconjuntos condicionais e fatiamento e indexação sofisticados
 - Como salvar dados

In [2]:
#Importando biblioteca padas
import pandas as pd

In [4]:
'''
O modo mais fácil de criar uma Serie é passando uma list Python.
Se passarmos  uma lista com tipos misturados, a representação mais comun usada.
Em geral, dtype será um objeto
'''
s = pd.Series(['banana', 42])
print(s)

0    banana
1        42
dtype: object


In [6]:
# atribuindo valores de índice manualmente em uma séria
# passando uma list Python
s = pd.Series(['Rennan Cardoso', 'Instrutor Pandas'], index=['Pessoa','Funcao'])
print(s)

Pessoa      Rennan Cardoso
Funcao    Instrutor Pandas
dtype: object


In [11]:
# Criando DataFrame
# podemos pensar em um DataFrame como um dicionario de objetos Series. É por isso que os dicionários são o modo mais comum
# de criar dataFrame. Key representa o nome da coluna e values são os conteudos.

cientistas = pd.DataFrame({
    'Nome':['Rosaline Franklin', 'Willian Gosset'],
    'Ocupacao':['Cientista','Estatistico'],
    'nascimento':['1920-07-25','1876-06-13'],
    'ano':[37,61]})
print(cientistas)

                Nome     Ocupacao  nascimento  ano
0  Rosaline Franklin    Cientista  1920-07-25   37
1     Willian Gosset  Estatistico  1876-06-13   61


In [12]:
'''
Observemos que é possível usar o parâmetro columns ou especificar a ordem das colunas.
Se quisermos usar a coluna name para o índice da linha, podemos usar o parâmetro index.
'''
cientistas = pd.DataFrame(
    data={'Ocupacao':['Cientista','Estatistico'],
         'nascimento':['1920-07-25','1825-06-13'],
         'ano':[37,61]},
    index=['Rosaline Franklin','William Gosset'],
    columns=['Ocupacao','nascimento','ano'])
print(cientistas)

                      Ocupacao  nascimento  ano
Rosaline Franklin    Cientista  1920-07-25   37
William Gosset     Estatistico  1825-06-13   61


# Series

In [17]:
'''
Vimos como o método de fatiamento afeta o type do resultado. Se usarmos o atribulo loc para gerar 
o subconjunto com a primeira linha de nosso dataframe cientista, obteremos um objeto Series.
'''
# Primeiro criaremos o nosso DataFrame de exemplo
# Com um rótulo de índice das linhas
cientista = pd.DataFrame(
    data={'ocupacao':['Cientista','Estatistico'],
          'nascimento':['1290-07-25','1876-06-13'],
          'ano':[37,61]},
    index=['Rosaline Frankilin','William Gosset'],
    columns=['ocupacao','nascimento','ano'])
print(cientista)

                       ocupacao  nascimento  ano
Rosaline Frankilin    Cientista  1290-07-25   37
William Gosset      Estatistico  1876-06-13   61


In [18]:
# Agora selecionaremos um cientista pelo rótulo do índice da linha.
# Leciona pelo rótulo do indice da linha
primeira_linha = cientista.loc['William Gosset']
print(type(primeira_linha))

<class 'pandas.core.series.Series'>


In [19]:
print(primeira_linha)

ocupacao      Estatistico
nascimento     1876-06-13
ano                    61
Name: William Gosset, dtype: object


In [20]:
# Ao exibir uma séria o indice é apresentado como a primeira "coluna", e os valores como a segunda "coluna"
# Dentre muitos atributos e métodos existentes associados a um objeto Series, 
# Ver documentação: https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html
# Veja dois exemplos, index e values

print(primeira_linha.index)

Index(['ocupacao', 'nascimento', 'ano'], dtype='object')


In [21]:
print(primeira_linha.values)

['Estatistico' '1876-06-13' 61]


In [22]:
# Keys é um apelido (alias) para o atributo values
print(primeira_linha.keys())

Index(['ocupacao', 'nascimento', 'ano'], dtype='object')


In [23]:
#Obtém o primeiro index usando um atributo
print(primeira_linha.index[0])

ocupacao


In [24]:
#Obtém o primeiro index usando um Método
print(primeira_linha.keys()[0])

ocupacao


# SERIES É SEMELHANTE A NDARRAY

A estrutura de dados do Pandas conhecida como Series é muito semelhante ao numpy.ndarray

In [25]:
#Obtem a coluna 'Ano'
anos = cientista['ano']
print(anos)

Rosaline Frankilin    37
William Gosset        61
Name: ano, dtype: int64


In [27]:
#Quanto tempos vetores numéricos, alguns calculos podem ser execultados
print('Media de anos:', anos.mean())
print('Menor ano', anos.min())
print('Maior ano', anos.max())
print('Desvio padrão', anos.std())


Media de anos: 49.0
Menor ano 37
Maior ano 61
Desvio padrão 16.97056274847714


# DataFrame
