# Introducao Pandas

In [70]:
import pandas as pd

In [71]:
#O pandas pode ser muito util para indexar listas
lista_de_numeros = [92, 10, 13, 32, 25, 13, 92, 52]

serie_pandas = pd.Series(lista_de_numeros)

In [72]:
print(serie_pandas)
print("O segundo numero da lista: ", serie_pandas[1])

0    92
1    10
2    13
3    32
4    25
5    13
6    92
7    52
dtype: int64
O segundo numero da lista:  10


In [73]:
#Ele pode usar palavras como index, como por exemplo em um dicionario  de notas
notas = {"lucas" : 8, "joao": 9, "maria" : 10, "vitoria" : 10}

notas_pandas = pd.Series(notas)

In [74]:
print(notas_pandas)
print("A nota de Lucas foi: ", notas_pandas["lucas"])

lucas       8
joao        9
maria      10
vitoria    10
dtype: int64
A nota de Lucas foi:  8


# Funcoes mais usadas Pandas

In [75]:
#O unique pode ser usado para buscar todos os elementos de uma tabela sem repeti-los
numeros_unicos = serie_pandas.unique()
#O describle mostra estatísticas descritivas, como média, desvio padrão, máximo, mínimo e outras tendências centrais
descricao = serie_pandas.describe()

In [76]:
print(numeros_unicos)

[92 10 13 32 25 52]


In [77]:
print(descricao)

count     8.000000
mean     41.125000
std      34.202913
min      10.000000
25%      13.000000
50%      28.500000
75%      62.000000
max      92.000000
dtype: float64


# Pandas Data frames

In [78]:
biblioteca_de_livros = {
    'titulos': ['Cem Anos de Solidão', 'Dom Casmurro', 'A Metamorfose'],
    'autores': ['Gabriel Garcia Marquez', 'Machado de Assis', 'Franz Kafka'],
    'anos': [1967, 1899, 1915],
    'editoras': ['Harper & Row', 'Editora Brasileira', 'Wolff'],
    'valor': [45.00, 25.90, 34.99]
}

In [79]:
#Os DataFrames permitem trabalar dados em formato de tabela
df = pd.DataFrame(biblioteca_de_livros)

In [80]:
df

Unnamed: 0,titulos,autores,anos,editoras,valor
0,Cem Anos de Solidão,Gabriel Garcia Marquez,1967,Harper & Row,45.0
1,Dom Casmurro,Machado de Assis,1899,Editora Brasileira,25.9
2,A Metamorfose,Franz Kafka,1915,Wolff,34.99


In [81]:
#mostra todos os titulos
df["titulos"]

0    Cem Anos de Solidão
1           Dom Casmurro
2          A Metamorfose
Name: titulos, dtype: object

In [82]:
#Mostra apenas o titulo no index 0
df["titulos"][0]

'Cem Anos de Solidão'

In [83]:
#As colunas da tabela sao series do pandas, isso permite que usemos funcoes do pandas em partes especificas da tabela
df["valor"].mean()

35.296666666666674

In [84]:
#As tabelas do dataframe tambem permitem a criacao de mascaras booleanas
mask = df["autores"] == "Machado de Assis"
print(mask)

0    False
1     True
2    False
Name: autores, dtype: bool


In [85]:
#Com a mascara booleana, podemos fazer filtragens em nossas tabelas
df[mask]

Unnamed: 0,titulos,autores,anos,editoras,valor
1,Dom Casmurro,Machado de Assis,1899,Editora Brasileira,25.9


In [86]:
# Podemos adiconar novos valores a tabela atraves da funcao append, assim como numa lista
df = df.append({'titulos' : 'A revolução dos bichos', 'autores' : 'George Orwell', 'anos' : 1945, 'editoras' : 'Princips', 'valor' : 25.5}, ignore_index= True)

  df = df.append({'titulos' : 'A revolução dos bichos', 'autores' : 'George Orwell', 'anos' : 1945, 'editoras' : 'Princips', 'valor' : 25.5}, ignore_index= True)


In [87]:
df

Unnamed: 0,titulos,autores,anos,editoras,valor
0,Cem Anos de Solidão,Gabriel Garcia Marquez,1967,Harper & Row,45.0
1,Dom Casmurro,Machado de Assis,1899,Editora Brasileira,25.9
2,A Metamorfose,Franz Kafka,1915,Wolff,34.99
3,A revolução dos bichos,George Orwell,1945,Princips,25.5


In [88]:
# Para editar algum item na tabela pode ser usada a funcao loc
edit_mask = df["titulos"] == "A revolução dos bichos"
df.loc[edit_mask, "titulos"] = "Revolução dos bichos"

In [89]:
df

Unnamed: 0,titulos,autores,anos,editoras,valor
0,Cem Anos de Solidão,Gabriel Garcia Marquez,1967,Harper & Row,45.0
1,Dom Casmurro,Machado de Assis,1899,Editora Brasileira,25.9
2,A Metamorfose,Franz Kafka,1915,Wolff,34.99
3,Revolução dos bichos,George Orwell,1945,Princips,25.5


In [91]:
df = df.append({'titulos' : 'A revolução', 'autores' : 'George Orwell', 'anos' : 1945, 'editoras' : 'Princips', 'valor' : 25.5}, ignore_index= True)

  df = df.append({'titulos' : 'A revolução', 'autores' : 'George Orwell', 'anos' : 1945, 'editoras' : 'Princips', 'valor' : 25.5}, ignore_index= True)


In [92]:
# Em caso de dados repetidos ou de adicao de um dado nao pertencente a tabela, podemos usar a funcao drop
index = df
df.drop([4])

Unnamed: 0,titulos,autores,anos,editoras,valor
0,Cem Anos de Solidão,Gabriel Garcia Marquez,1967,Harper & Row,45.0
1,Dom Casmurro,Machado de Assis,1899,Editora Brasileira,25.9
2,A Metamorfose,Franz Kafka,1915,Wolff,34.99
3,Revolução dos bichos,George Orwell,1945,Princips,25.5
