In [None]:
    import pandas as pd
    import numpy as np

## Introdução ao pandas

### Séries

In [None]:
# uma série é um vetor unidimensional contendo uma sequência de valores
# e um vetor de rótulos associados - chamado de índice!
x = pd.Series([12,13,1])

In [None]:
x

In [None]:
print(type(x.values))
x.values

In [None]:
x.index

In [None]:
x = pd.Series([1,2,3], index = ["a", "b", "c"])
x

In [None]:
x[x>1]

### DataFrame

In [None]:
# DataFrame's representam tabelas retangulares.
# São conjuntos de séries que compartilham o **mesmo** índice
df = pd.DataFrame({
    "hello": [1,2,3],
    "bye": [4,5,6]
})


In [None]:
df

In [None]:
x = pd.Series([1,2,3], index = ["a", "b", "c"])
y = pd.Series([1,2,3], index = ["x", "y", "z"])
df = pd.DataFrame({"col1": x, "col2": y})

In [None]:
# isso é meio inesperado vindo do Rm - em geral as funções do tidyverse 
# descartam os 'índices' ou nomes dos vetores.
df 

### Importação dos dados

#### Lendo arquivos

In [None]:
df = pd.read_csv("../dados/imdb.csv")

# Pandas is not the fastest package to read csv code. 
# If the code is bigger, seek faster packages such as:
# https://blog.djnavarro.net/posts/2022-11-30_unpacking-arrow-datasets/

In [None]:
# Similar as glimpse in R code
df.info()

In [None]:
df.describe(include="all")

In [None]:
!pip install openpyxl

In [None]:
df = pd.read_excel("../dados/imdb.xlsx")
 

In [None]:
df.info()


In [None]:
# é possível ler de muitos outros formatos. veja por exemplo a tabela aqui:
# https://wesmckinney.com/book/accessing-data.html#io_flat_files

df_sas = pd.read_sas("../dados/imdb.sas7bdat", encoding="UTF-8")

In [None]:
#pd.options.display.max_rows = 10000000
df_csv2 = pd.read_csv("../dados/imdb2.csv", sep=";", na_values="NA" )

#### Escrevendo

In [None]:
df.to_csv("../dados/x.csv", index=False)

In [None]:
# Good way to save in Python (do not lose information) 
df.to_pickle("../dados/x.pickle")

# But is not modern since it has several problems. Try to use to_parquet 

### Manipulação de dados

In [None]:
# vamos pensar em manipulação de dados fazendo um paralelo com o dplyr.
# dplyr: 6 verbos principais
# select()    # seleciona colunas do data.frame
# arrange()   # reordena as linhas do data.frame
# filter()    # filtra linhas do data.frame
# mutate()    # cria novas colunas no data.frame (ou atualiza as colunas existentes)
# summarise() + group_by() # sumariza o data.frame
# left_join   # junta dois data.frames

#### select

In [None]:
df[["titulo"]]

In [None]:
# o filter atua nos índices do DataFrame, podendo ser o índice das
# linhas ou colunas. O padrão é pegar pelas colunas.
df.filter(["titulo", "ano"])

In [None]:
df.columns

In [None]:
# Ao contrário do dplyr, não dá para remover colunas com o filter.
# para isso vc pode usar a drop que por padrão tira os indices
df.drop(["ano"], axis = "columns")

In [None]:
## If you select all columns beside the column year
def select_desired_columns (df):
    return df.columns[[x!="ano" for x in df.columns]]

df.filter( select_desired_columns(df) )

In [None]:
# como não tem non-standard evaluation, vc sempre pode colocar
# o nome numa lista e depois filtrar.
colunas = ["titulo", "ano"]
df.filter(colunas)

#### arrange

In [None]:
# Order and then take the year
# Is like the pipeline
# True is the standard
df_ordered = df.sort_values(["ano", ascending=False]).filter(["ano"])

#### filter

In [None]:
df_filter = df.query("ano == 2020 &  duracao==102" ) 

In [43]:
ano = 2020
duracao  = 102
df_filter = df.query(f"ano == (ano) &  duracao==(duracao)" ) # meio esquisito pq a condição está entre aspas...

In [None]:
df[df["ano"] == 2020] # muito parecido com base R