# Pandas 
### Introdução do dataframe 
* Assim como o Panda Series, um DataFrame pode ser visto das duas formas

In [None]:
import pandas as pd
import numpy as np

In [None]:
data = {
    'Curso' : ['Programador', 'MagicSoftware', 'Devops'],
    'Idade' : [23, 21, 20 ],
    'Aprovado' : ["Sim", "Não", "Sim"],   
}
alunos = ["Hedris", "Invoker" , "Tinker"] 



df = pd.DataFrame(data=data, index=alunos)

In [None]:
df 

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,23,Sim
Invoker,MagicSoftware,21,Não
Tinker,Devops,20,Sim


Observer que apesar de um DataFrame permitir uma estrutura de dados heterogênea há uma estrutura nos dados. Cada instância, isto é, cada linha têm, seus dados com as informação do curso, idade e se foi aprovado ou não.

#Atributos

In [None]:
#Acessando o index do dataframe 
df.index

Index(['Hedris', 'Invoker', 'Tinker'], dtype='object')

In [None]:
#Acesando o valores do index 
df.values

array([['Programador', 23, 'Sim'],
       ['MagicSoftware', 21, 'Não'],
       ['Devops', 20, 'Sim']], dtype=object)

In [None]:
#Colunms do DataFrame
df.columns

Index(['Curso', 'Idade', 'Aprovado'], dtype='object')

In [None]:
#Chaves do dataframe
df.keys

<bound method NDFrame.keys of                  Curso  Idade Aprovado
Hedris     Programador     23      Sim
Invoker  MagicSoftware     21      Não
Tinker          Devops     20      Sim>

*Pode parecer supérfluo falar de dois métodos que essencialmente o mesmo resultado, mas nesse caso não é. É importante observar que se você fizer um loop tomando os valores "df" o que será considerado são as chaves das outras palavras. Em outras palavras* **A informação do que as chaves do DataFrame são exatamente as suas colunas já nos deixa cientes que o acesso natural a um dataframe é  através do nome das suas colunas**

In [None]:
#Loop via chaves, que é exatamente os nomes da coluna
for sql in df:
  print(sql)

Curso
Idade
Aprovado


In [None]:
#Acessar uma coluna 
df.Aprovado

Hedris     Sim
Invoker    Não
Tinker     Sim
Name: Aprovado, dtype: object

In [None]:
df.Curso

Hedris       Programador
Invoker    MagicSoftware
Tinker            Devops
Name: Curso, dtype: object

*O último métedo funciona desde que o nome da coluna não seja um métedo do Pandas. Por exemplo , df.pop vai apontar um method pop(), mesmo que enventualmente exista uma coluna pop. Dessa forma é importante ter cuidado ao acessar colunas desta forma*

In [None]:
# número total de células do dataframe (excluir indices)
df.size

9

In [None]:
#Mostrar as dimensões do meu df 
df.shape

(3, 3)

### Convém observar que o último objeto se trata de um Pandas Series 

In [None]:
type(df["Curso"])

pandas.core.series.Series

### É possivel acessar linhas, colunas ou elementos específicos usando iloc

In [None]:
#Acessando á linhas 
df.iloc[:2]

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,23,Sim
Invoker,MagicSoftware,21,Não


In [None]:
df.iloc[:, :3]

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,23,Sim
Invoker,MagicSoftware,21,Não
Tinker,Devops,20,Sim


In [None]:
df[(df['Idade'] < 25) & (df['Curso'] == "Programador")]

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,23,Sim


In [None]:
df[(df["Idade"] < 21 ) & (df["Aprovado"] ==  "Sim")]

Unnamed: 0,Curso,Idade,Aprovado
Tinker,Devops,20,Sim


# Métedos 

*Fazendo operação math do python com dataframe*

In [None]:
df

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,23,Sim
Invoker,MagicSoftware,21,Não
Tinker,Devops,20,Sim


In [None]:
#soma 
df["Idade"] += 5
df

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,28,Sim
Invoker,MagicSoftware,26,Não
Tinker,Devops,25,Sim


In [None]:
#Multiplicação /divisão
df["Idade"] *= 2/3
df

Unnamed: 0,Curso,Idade,Aprovado
Hedris,Programador,12.444444,Sim
Invoker,MagicSoftware,11.555556,Não
Tinker,Devops,11.111111,Sim


In [None]:
#Transpondo um DataFrame
df.T

Unnamed: 0,Hedris,Invoker,Tinker
Curso,Programador,MagicSoftware,Devops
Idade,12.444444,11.555556,11.111111
Aprovado,Sim,Não,Sim


In [None]:
2*df

Unnamed: 0,Curso,Idade,Aprovado
Hedris,ProgramadorProgramador,24.888889,SimSim
Invoker,MagicSoftwareMagicSoftware,23.111111,NãoNão
Tinker,DevopsDevops,22.222222,SimSim


Outras operação evidentemente não funciona já que não tem como dividir strings ou calcular exponencias por exemplo.. Para exemplificar vamos considera outro df

In [None]:
#Valores númericos 
df2 =  pd.DataFrame(data = {'Idade' : [20, 19], "Score": [2, 3]},
                    index={"Hedris", "Henrique"})

In [None]:
df2

Unnamed: 0,Idade,Score
Henrique,20,2
Hedris,19,3


In [None]:
np.exp(df2)

Unnamed: 0,Idade,Score
Henrique,485165200.0,7.389056
Hedris,178482300.0,20.085537


In [None]:
del (df2["Score"])

In [None]:
df2

Unnamed: 0,Idade
Henrique,20
Hedris,19


# Métedo aply

In [None]:
df3 = pd.DataFrame([[3, 5, 6,], [1, 2, 4]], index=[0,1])

In [None]:
df3

Unnamed: 0,0,1,2
0,3,5,6
1,1,2,4


In [None]:
def index(x):
  return x * 2

In [None]:
df3.apply(index)

Unnamed: 0,0,1,2
0,6,10,12
1,2,4,8
