# DataFrame
DataFrame é o coração da biblioteca Pandas.

Dataframe é, conceitualmente, um Series Object em 2 dimensões, onde tem indíces e múltilpas colunas, com cada coluna tendo um nome.

## Creation

In [1]:
import pandas as pd

In [2]:
# Vamos criar um exemplo de 3 alunos em escolas e suas notas. Vamos criar 3 Series com o nome,aula e 
# nota do estudante.

record1 = pd.Series({'Name': 'Alice',
                        'Class': 'Physics',
                        'Score': 85})
record2 = pd.Series({'Name': 'Jack',
                        'Class': 'Chemistry',
                        'Score': 82})
record3 = pd.Series({'Name': 'Helen',
                        'Class': 'Biology',
                        'Score': 90})

In [3]:
record1

Name       Alice
Class    Physics
Score         85
dtype: object

In [5]:
# Assim como a Series, um DataFrame é indexado
# Assim como na criação das Series, podemos passar um array com os dados e os indices como um segundo argumento.
df=pd.DataFrame([record1,record2,record3],index=['school1','school2','school3'])
df.head()

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school3,Helen,Biology,90


In [4]:
# Um método alternativo é quepodemos criar uma lista de dicionários, cada um representado uma linha de dados
students = [{'Name': 'Alice',
              'Class': 'Physics',
              'Score': 85},
            {'Name': 'Jack',
             'Class': 'Chemistry',
             'Score': 82},
            {'Name': 'Helen',
             'Class': 'Biology',
             'Score': 90}]

# E então passamos a lista de dicionários na função DataFrame
df =pd.DataFrame(students,index=['school1','school2','school1'])
df.head()

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


### Methods

In [5]:
# Similar a Series, podemos extrair os dados utilizando os atributos .iloc e .loc.
# Como o DataFrame é 2D, ao passar um único valor para o atributo loc, será retornado uma Series caso
# só tenha uma linha para ser retornada. E será retornado uma novo DataFrame caso tenha duas linhas
# para serem retornadas.
# Por exemplo:

In [6]:
df.loc['school2'] # Series

Name          Jack
Class    Chemistry
Score           82
Name: school2, dtype: object

In [7]:
df.loc['school1'] # DataFrame

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school1,Helen,Biology,90


In [8]:
# Um dos poderes do DataFrame é que podemos selecionar os dados passando 2 parâmetros.
# Por exemplo, se queremos os nomes dos estudantes da escola1 e da escola 2, vamos passar 2 parâmetros,
# um sendo o indice da linha, e o outro o nome da coluna:

In [9]:
df.loc['school2']['Name']

'Jack'

In [10]:
df.loc['school1']['Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [11]:
# Podemos transpor o DataFrame, utilizando o atributo T.
df.T

Unnamed: 0,school1,school2,school1.1
Name,Alice,Jack,Helen
Class,Physics,Chemistry,Biology
Score,85,82,90


In [12]:
#Como iloc e loc são usados para selação de linhas,o Pandas reserva o operador index [] diretamente
# para selecionar colunas.
# Por exemplo
df['Name']

school1    Alice
school2     Jack
school1    Helen
Name: Name, dtype: object

In [13]:
# Podemos notar que o resultado de uma única projeção de coluna é uma Series.
type(df['Name'])

pandas.core.series.Series

In [14]:
# Nós podemos utilizar o operador index [] juntamente com o operador loc, por exemplo.
# Isso é chamado de 'chain'.
# Por exemplo, podemos selecionar todas as linhas relacionadas a escola 1 e projetar a coluna 'Name'.
df.loc['school1']['Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [15]:
# Esse método chain deve ser evitado. Esse método gera uma cópia do DataFrame original e não uma view.

In [16]:
# Aqui está outra abordagem:
# Como vimos, o atributo .loc faz uma seleção de linhas e pode receber dois parâmetros, um representando a linha
# e outro representando o nome da coluna.
# O atributo .loc também suporta slicing.

# Refatorando a pesquisa anterior em que queriamos os nomes da escola 1:
df.loc['school1','Name']

school1    Alice
school1    Helen
Name: Name, dtype: object

In [17]:
# Se quisermos os Nomes e as Notas de todas as escolas:
df.loc[:,['Name','Score']]

Unnamed: 0,Name,Score
school1,Alice,85
school2,Jack,82
school1,Helen,90


### Copy()

In [18]:
copy_df=df.copy()

### Dropping data

In [19]:
# Podemos usar a função drop(), essa função requer um único parâmetro que é o nome ou indice da linha a ser excluída,
# e possui 2 parâmetros opcionais.
# Essa função não altera o DataFrame original, ela só retorna uma cópia do DataFrame com a linha removida.

In [8]:
df.drop('school2')

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school3,Helen,Biology,90


In [21]:
# Se olharmos o DataFrame original, veremos que ele não foi alterado.
df

Unnamed: 0,Name,Class,Score
school1,Alice,Physics,85
school2,Jack,Chemistry,82
school1,Helen,Biology,90


In [22]:
# drop() tem dois parâmetros opcionais. Inplace e axis.
# Inplace por padrão é default, se for 'True' o DataFrame original será alterado e a função drop não retornará nada(None).
df.drop('school2',inplace=True)


In [23]:
# O segundo parâmetro é o 'axis', que indica o eixo a ser excluído.
# Por padrão,'axis=0', que indica o eixo linha.
# Mas podemos alterar para 1 indicando o nome da coluna a ser removida.
df.drop('Name',axis=1)

Unnamed: 0,Class,Score
school1,Physics,85
school1,Biology,90


In [24]:
# Temos um segundo jeito de excluir uma coluna, utilizando a palavra del.
# Mas esse jeito não retorna nada e age diretamente no DataFrame.
del copy_df['Class']
copy_df

Unnamed: 0,Name,Score
school1,Alice,85
school2,Jack,82
school1,Helen,90


In [25]:
# Podemos adicionar uma nova coluna ou linha com o mesmo valor utilizando o operador de indexação [].
df['ClassRanking'] = None
df.loc['teste']='oi'
df

Unnamed: 0,Name,Class,Score,ClassRanking
school1,Alice,Physics,85,
school1,Helen,Biology,90,
teste,oi,oi,oi,oi
