# pandas

Assume-se um conhecimento sobre o funcionamento do _"IPython Notebook"_ para essa introdução, veja essas [notas de aula](intro_notebook.ipynb) para se familiarizar melhor.

`pandas` é uma biblioteca escrita para facilitar a manipulação de dados tabulados.

Se todo seu ambiente estiver configurado corretamente a célula abaixo não dará erro.


In [1]:
# Importa o pacote pandas
import pandas


## Importando dados

Para importar os dados, você precisa _ter_ os dados.

No nosso caso vamos usar o arquivo sobre filmes do [MetaCritic](https://www.metacritic.com/movie) que pode ser encontrado em [Kaggle - Datasets (MetaCritic)](https://www.kaggle.com/datasets/patkle/metacritic-scores-for-games-movies-tv-and-music).

Uma cópia do arquivo está [aqui](data/movies.csv).


In [2]:
# Importa o arquivo csv (comma separated values) e remove a coluna 'id' que não serve para a análise
# axis=1 é coluna, axis=0 é linha
movies = pandas.read_csv("data/movies.csv").drop('id', axis=1)

# Mostra as 5 primeiras e últimas linhas do DataFrame (tipo tabular usado pelo pandas)
movies


Unnamed: 0,metascore,rating,release_date,sort_no,summary,title,user_score
0,94,TV-14,"July 26, 1989",101,A young boy and his little sister struggle to ...,Grave of the Fireflies (1988),8.9
1,94,PG-13,"December 8, 2000",102,"In 19th century China, a magical sword given b...","Crouching Tiger, Hidden Dragon",8.2
2,94,G,"September 11, 1970",103,"In a French forest in 1798, a child is found w...",The Wild Child,6.5
3,94,TV-PG,"January 15, 1943",104,A young woman discovers her visiting uncle may...,Shadow of a Doubt,8.2
4,94,PG,"June 19, 2015",105,"Growing up can be a bumpy road, and it’s no ex...",Inside Out,8.7
...,...,...,...,...,...,...,...
15320,1,PG,"August 22, 1987",15321,Dodger must confront the struggles of life as ...,The Garbage Pail Kids Movie,0.7
15321,1,Not Rated,"June 5, 2015",15322,"Three men—Jules Rimet (Gérard Depardieu), Joao...",United Passions,0.7
15322,1,PG-13,"January 12, 1996",15323,Five brave scientists are forced to face life ...,Bio-Dome,7.5
15323,1,Not Rated,"August 12, 2005",15324,Quite definitely one of the most brutal displa...,Chaos,2.5


## DataFrame

É o tipo de dados utilizado pela biblioteca `pandas` para manipular os dados tabulares.

Tem vários métodos úteis para manipular um `DataFrame`.


In [3]:
# Exibe quantas linhas e colunas tem no DataFrame
movies.shape


(15325, 7)

In [4]:
# Exibe quais colunas existem no DataFrame
movies.columns


Index(['metascore', 'rating', 'release_date', 'sort_no', 'summary', 'title',
       'user_score'],
      dtype='object')

In [5]:
# Informações extras sobre as colunas do DataFrame
movies.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15325 entries, 0 to 15324
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   metascore     15325 non-null  int64 
 1   rating        14201 non-null  object
 2   release_date  15325 non-null  object
 3   sort_no       15325 non-null  int64 
 4   summary       15322 non-null  object
 5   title         15325 non-null  object
 6   user_score    15325 non-null  object
dtypes: int64(2), object(5)
memory usage: 838.2+ KB


In [6]:
# É possível usar apenas uma coluna, que é chamada de `Series` pelo `pandas` e se comporta de forma ligeiramente diferente do `DataFrame`.
títulos = movies["title"]
títulos.head()  # Mostra somente as primeiras linhas dessa Série


0     Grave of the Fireflies (1988)
1    Crouching Tiger, Hidden Dragon
2                    The Wild Child
3                 Shadow of a Doubt
4                        Inside Out
Name: title, dtype: object

In [7]:
# Usando mais de uma coluna gerando um novo DataFrame com as colunas selecionadas
rating_títulos = movies[["rating", "title"]]
rating_títulos


Unnamed: 0,rating,title
0,TV-14,Grave of the Fireflies (1988)
1,PG-13,"Crouching Tiger, Hidden Dragon"
2,G,The Wild Child
3,TV-PG,Shadow of a Doubt
4,PG,Inside Out
...,...,...
15320,PG,The Garbage Pail Kids Movie
15321,Not Rated,United Passions
15322,PG-13,Bio-Dome
15323,Not Rated,Chaos


In [8]:
# Filtrar usando um critério também é possível
# Seleciona todos os filmes com nota pelo menos 91
filmes_aclamados = movies[movies["metascore"] > 90]
filmes_aclamados


Unnamed: 0,metascore,rating,release_date,sort_no,summary,title,user_score
0,94,TV-14,"July 26, 1989",101,A young boy and his little sister struggle to ...,Grave of the Fireflies (1988),8.9
1,94,PG-13,"December 8, 2000",102,"In 19th century China, a magical sword given b...","Crouching Tiger, Hidden Dragon",8.2
2,94,G,"September 11, 1970",103,"In a French forest in 1798, a child is found w...",The Wild Child,6.5
3,94,TV-PG,"January 15, 1943",104,A young woman discovers her visiting uncle may...,Shadow of a Doubt,8.2
4,94,PG,"June 19, 2015",105,"Growing up can be a bumpy road, and it’s no ex...",Inside Out,8.7
...,...,...,...,...,...,...,...
334,91,Not Rated,"March 18, 2011",235,Patricio Guzmán travels to Chile’s Atacama Des...,Nostalgia for the Light,8.1
335,91,R,"April 13, 2018",236,"Once a rising star of the rodeo circuit, and a...",The Rider,7.5
336,91,Not Rated,"January 13, 2023",237,Saint Omer court of law. Young novelist Rama a...,Saint Omer,3.9
337,91,Passed,"January 18, 1935",238,A gentle orphan discovers life and love in an ...,David Copperfield,tbd


In [9]:
# É possível combinar operadores lógicos para fazer um filtro complexo e (&) ou o operador lógico ou (|)
filmes_ruins_para_toda_família = movies[(
    movies["metascore"] < 10) & (movies["rating"] == "PG")]
filmes_ruins_para_toda_família


Unnamed: 0,metascore,rating,release_date,sort_no,summary,title,user_score
15296,9,PG,"August 27, 2004",15297,The adventure continues with a new generation ...,Superbabies: Baby Geniuses 2,2.0
15312,7,PG,"July 22, 1988",15313,When a crass new-money tycoon's membership app...,Caddyshack II,6.8
15313,6,PG,"March 12, 1999",15314,Two doctors (Turner and Lloyd) set out to domi...,Baby Geniuses,3.2
15320,1,PG,"August 22, 1987",15321,Dodger must confront the struggles of life as ...,The Garbage Pail Kids Movie,0.7


In [10]:
# O método notna de um DataFrame retorna uma série de valores booleanos em que todo elemento sem valor definido é False.
filmes_com_data = movies["release_date"].notna()
filmes_com_data


0        True
1        True
2        True
3        True
4        True
         ... 
15320    True
15321    True
15322    True
15323    True
15324    True
Name: release_date, Length: 15325, dtype: bool

In [11]:
# Depois podemos usar essa série para filtrar todos os filmes que tem data de lançamento definidos.
filmes_com_data = movies[filmes_com_data]
filmes_com_data


Unnamed: 0,metascore,rating,release_date,sort_no,summary,title,user_score
0,94,TV-14,"July 26, 1989",101,A young boy and his little sister struggle to ...,Grave of the Fireflies (1988),8.9
1,94,PG-13,"December 8, 2000",102,"In 19th century China, a magical sword given b...","Crouching Tiger, Hidden Dragon",8.2
2,94,G,"September 11, 1970",103,"In a French forest in 1798, a child is found w...",The Wild Child,6.5
3,94,TV-PG,"January 15, 1943",104,A young woman discovers her visiting uncle may...,Shadow of a Doubt,8.2
4,94,PG,"June 19, 2015",105,"Growing up can be a bumpy road, and it’s no ex...",Inside Out,8.7
...,...,...,...,...,...,...,...
15320,1,PG,"August 22, 1987",15321,Dodger must confront the struggles of life as ...,The Garbage Pail Kids Movie,0.7
15321,1,Not Rated,"June 5, 2015",15322,"Three men—Jules Rimet (Gérard Depardieu), Joao...",United Passions,0.7
15322,1,PG-13,"January 12, 1996",15323,Five brave scientists are forced to face life ...,Bio-Dome,7.5
15323,1,Not Rated,"August 12, 2005",15324,Quite definitely one of the most brutal displa...,Chaos,2.5


In [12]:
# Uma descrição dos dados numéricos pode ser obtida com o método abaixo
movies.describe()


Unnamed: 0,metascore,sort_no
count,15325.0,15325.0
mean,59.180555,7663.0
std,17.076007,4424.090773
min,1.0,1.0
25%,48.0,3832.0
50%,61.0,7663.0
75%,72.0,11494.0
max,100.0,15325.0
