# Introdução a DataFrame

Assim como o Panda Series, um DataFrame pode ser visto de duas formas:

    - Generalização de um array numpy;
    - Especialização de um dicionário.
    
Vamos começar com um exemplo simples.   

In [None]:
#Bibliotecas a serem importadas
import pandas as pd
import numpy as np

In [None]:
data = {'Curso': ["Engenharia", "Engenharia", "Física", 
                  "Jornalismo", None], 
     'Idade': [18, 19, 23, 32, 18],
     'Aprovado': ["S", "N", "N", "N", "S"]
     }

alunos = ["João", "Maria", "Zeca", "Jow", "Mano"]

df = pd.DataFrame(data=data, index = alunos)
df

Observe que apesar de um DataFrame permitir uma estrutura de dados heterogênea há uma *estrutura* nos dados. Cada instância, isto é, cada linha têm seus dados organizados com as informações do curso, idade e se foi ou não aprovado. 

É possível ainda construir DataFrame com lista de dicionarios, da seguinte forma:

In [None]:
data2 = [{'Curso': 'Engenharia', 'Idade': 18, 'Aprovado': 'S'},
        {'Curso': 'Engenharia', 'Idade': 19, 'Aprovado' : 'N'},
        {'Curso': 'Física', 'Idade': 23, 'Aprovado' : 'N'},
        {'Curso': 'Jornalismo', 'Idade': 32, 'Aprovado' : 'N'},
        {'Idade': 18, 'Aprovado' : 'S'}]

df2 = pd.DataFrame(data = data2, index = alunos)
df2

A Diferença a ser notada é que nessa construção na última instância não especificamos a coluna "Curso", na qual ele atribuíu como sendo "NaN". Dessa forma, você pode especificar instâncias colocando no dicionário apenas as informações disponíveis.

# Atributos

Na questão de atributos, há elevada semelhança com Panda Series. 

Curtas e rápidas sobre alguns dos atributos do pd.DataFrame:

In [None]:
#Acessando os índices (= nome da instâncias)
df.index

In [None]:
#Matriz de valores
df.values

In [None]:
#Colunas do DataFrame
df.columns

In [None]:
#Chaves do DataFrame
df.keys()

Pode parecer supérfluo falar de dois métodos que essencialmente o mesmo resultado, mas nesse caso não é. É importante observar que se você fizer um *loop* tomando valores de "df" o que será considerado são as suas chaves. Em outras palavras, a **informação de que as chaves do DataFrame são exatamente as suas colunas já nos deixa cientes que o acesso natural a um DataFrame é através do nome das suas colunas**

In [None]:
#Acessando coluna "Curso"
df['Curso']

In [None]:
#Loop via chaves, que é exatamente os nomes das colunas
for name in df:
    print(name)

In [None]:
#Acessar coluna
df.Aprovado

O último método funciona desde que o nome da coluna não seja um método do Pandas. Por exemplo, df.pop vai apontar para o método pop(), mesmo que enventualmente exista a coluna "pop". Dessa forma é importante ter cuidado ao acessar colunas dessa forma. 

In [None]:
#Número total de células dataframe (exclui índices)
df.size

In [None]:
#Dimensões 
df.shape

Convém observar que o último objeto se trata de um Pandas Series

In [None]:
type(df['Curso'])

É possível acessar linhas, colunas ou elementos específicos usando iloc:

In [None]:
#Acessar linha 1
df.iloc[1,:]

In [None]:
#Acessar coluna 2 (Aprovado ou não)
df.iloc[:, 2]

In [None]:
#Acessa linha 0, colun 2
df.iloc[0,2]

In [None]:
#Só os novinhos :D
df[df['Idade'] < 25]

In [None]:
#Novinhos da Engenharia
df[(df['Idade'] < 25) & (df['Curso'] == 'Engenharia')]

# Métodos

Podemos ainda utilizar operações matemática e/ou métodos para trasnformar e manipular DataFrames

In [None]:
df

In [None]:
#Soma
df['Idade'] += 5
df

In [None]:
#Multiplicação /divisão
df['Idade'] *= 2/3
df

In [None]:
#Transpondo um DataFrame
df.T

In [None]:
#Multiplicar DataFrame
2*df

Outras operações evidentemente não funcionaria já que não tem como dividir strings ou calcular exponenciais por exemplo. Para exemplificar, vamos considerar o seguinte DataFrame númerico:

In [None]:
#Valoes numéricos
df2 = pd.DataFrame(data = { 'Idade': [18, 23], 'Score' : [2, 3]}, 
                   index = ["João", "Maria"])
df2

In [None]:
np.exp(df2)

É possível ainda fazer operações entre DataFrames

In [None]:
df + df2

In [None]:
#Alternativa:
A = pd.DataFrame([[3, 5, 7],[3, 5, 7]], index=[0, 1])
B = pd.DataFrame([[2, 4, 6], [2, 4, 6], []], index=[1, 2, 3])
df3 = A.add(B, fill_value = 0)
df3

Repara a diferença:

In [None]:
A + B

Algumas operações usuais com correspondente no pandas:

| Operação | Pandas | 
| ------ | ------ | 
| + | add() | 
| + | sub(), substract() | 
| * | mul(), multiply() | 
| / |  div(), divide() | 
| // | floordiv() | 
| % | mod() |
|** | pow |

É possível ainda usar o método apply para transformar um pandas DataFrame.

In [None]:
def fnan(x):
    return x.fillna(0)

df3.apply(fnan)

In [None]:
df3.fillna(0)

In [None]:
df4 = df3.where(-df3.isna(), 0)
df4