# pandas

Assume-se um conhecimento sobre o funcionamento do _"IPython Notebook"_ para essa introdução, veja essas [notas de aula](intro_notebook.ipynb) para se familiarizar melhor.

`pandas` é uma biblioteca escrita para facilitar a manipulação de dados tabulados.

Se todo seu ambiente estiver configurado corretamente a célula abaixo não dará erro.


In [None]:
# Importa o pacote pandas
import pandas


## Importando dados

Para importar os dados, você precisa _ter_ os dados.

No nosso caso vamos usar o arquivo sobre filmes do [MetaCritic](https://www.metacritic.com/movie) que pode ser encontrado em [Kaggle - Datasets (MetaCritic)](https://www.kaggle.com/datasets/patkle/metacritic-scores-for-games-movies-tv-and-music).

Uma cópia do arquivo está [aqui](data/movies.csv).


In [None]:
# Importa o arquivo csv (comma separated values) e remove a coluna 'id' que não serve para a análise
# axis=1 é coluna, axis=0 é linha
movies = pandas.read_csv("data/movies.csv").drop('id', axis=1)

# Mostra as 5 primeiras e últimas linhas do DataFrame (tipo tabular usado pelo pandas)
movies


## DataFrame

É o tipo de dados utilizado pela biblioteca `pandas` para manipular os dados tabulares.

Tem vários métodos úteis para manipular um `DataFrame`.


In [None]:
# Exibe quantas linhas e colunas tem no DataFrame
movies.shape


In [None]:
# Exibe quais colunas existem no DataFrame
movies.columns


In [None]:
# Informações extras sobre as colunas do DataFrame
movies.info()


In [None]:
# É possível usar apenas uma coluna, que é chamada de `Series` pelo `pandas` e se comporta de forma ligeiramente diferente do `DataFrame`.
títulos = movies["title"]
títulos.head()  # Mostra somente as primeiras linhas dessa Série


In [None]:
# Usando mais de uma coluna gerando um novo DataFrame com as colunas selecionadas
rating_títulos = movies[["rating", "title"]]
rating_títulos


In [None]:
# Filtrar usando um critério também é possível
# Seleciona todos os filmes com nota pelo menos 91
filmes_aclamados = movies[movies["metascore"] > 90]
filmes_aclamados


In [None]:
# É possível combinar operadores lógicos para fazer um filtro complexo e (&) ou o operador lógico ou (|)
filmes_ruins_para_toda_família = movies[(
    movies["metascore"] < 10) & (movies["rating"] == "PG")]
filmes_ruins_para_toda_família


In [None]:
# O método notna de um DataFrame retorna uma série de valores booleanos em que todo elemento sem valor definido é False.
filmes_com_data = movies["release_date"].notna()
filmes_com_data


In [None]:
# Depois podemos usar essa série para filtrar todos os filmes que tem data de lançamento definidos.
filmes_com_data = movies[filmes_com_data]
filmes_com_data


In [None]:
# Uma descrição dos dados numéricos pode ser obtida com o método abaixo
movies.describe()
