<a href="https://colab.research.google.com/github/pedrohortencio/data-analysis-projects/blob/main/World%20Happiness%20Report/Pandas_e_Matplotlib_Uma_Introdu%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#_pandas_



_pandas_ é tanto uma forma resumida de _"panel data"_, que em estatística e econometria significa dados longitudinais e multidimensionais que representam medidas em relação ao tempo, quanto uma abreviação de _"Python data analysis"_.

A versão curta: a biblioteca é utilizada para manipulação de dados tabulares.

Já para uma versão não tão curta, é preciso buscar referências. Segundo a própria documentação do _pandas_, a biblioteca é utilizada em diversos casos:
* Importação e exportação de dados em diversos formatos (CSV, Excel, Hierarchical Data Format [(HDF5)](https://pt.wikipedia.org/wiki/Hierarchical_Data_Format#:~:text=Hierarchical%20Data%20Format%20(HDF%2C%20HDF4,grandes%20quantidades%20de%20dados%20num%C3%A9ricos.), estruturas do Python e arquivos de texto);
* Manipulação de dados;
* Alinhamento e limpeza de dados;
* Tratamento de grandes quantidades de dados;
* Agregação de dados;
* Todo o processo de [_data wrangling_](https://oestatistico.com.br/data-wrangling-dados/);

Ou seja: o _pandas_ abriga todo o processo de análise de dados, desde a importação dos dados, passando por todas as etapas de processamento, até a exportação final. Inclusive há suporte para a ingestão desses dados em sistemas de Big Data e de Machine Learning.

A biblioteca nasceu, em 2008, a partir da necessidade de cientistas de dados da empresa [AQR Capital Management](https://www.aqr.com/) terem ferramentas que automatizem certas tarefas (como, por exemplo, a manipulação de datasets que contenham [_missing values_](https://isitics.com/2018/10/05/o-que-sao-missing-values/)). Se tornou open source em 2010 e, hoje, conta com mais de 800 contribuidores. É praticamente uma linguagem por si só.

Um resumo do motivo da existência da biblioteca pode ser encontrado na sua "Missão", descrita na documentação:

> "_pandas_ tem o objetivo de ser o bloco de alto nível fundamental para a realização de análise de dados prática, no mundo real, com Python. Adicionalmente, há o objetivo mais geral de ser a ferrmanete open source de análise de dados mais flexível e poderosa em qualquer linguagem."

Premissas ambiciosas. Condizentes com a realidade, pois **não existe projeto de análise de dados em Python que não utilize a biblioteca _pandas_**.

## Básico


A primeira coisa a se ter em mente: a biblioteca é _extremamente_ densa. Existem diversas funções, vários métodos, extensas ferramentas para manipulação das duas estruturas de dados da biblioteca (_Series_ e _DataFrames_). A biblioteca possui, além disso, uma linguagem própria, com mecanismos próprios para executar determinadas ações.

Como se não bastasse, é uma característica do _pandas_ possuir métodos e funções com **vários** argumentos. Isso surgiu da necessidade de se adequar a dados com diferentes formatações, erros, missing values e características. Um exemplo é a função que lê um arquivo csv:

```pandas.read_csv(filepath_or_buffer, sep=<object object>, delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)```

Ou seja, é difícil (se não impossível) se tornar proficiente em _pandas_ sem prática. É necessário práticar com diferentes datasets, de diferentes fontes, para adquirir conhecimento sobre todas as funções do _pandas_.

Isso se torna algo fácil pelo seguinte ponto: _pandas_ é uma biblioteca com **muito** suporte. A documentação é extensa e conta com exemplos e a comunidade no Stack Overflow é uma das mais ativas da plataforma. É extremamente comum, inclusive, encontrar questões respondidas pelos próprios criadores do _pandas_, que ativamente prestam suporte ao uso da biblioteca.

In [1]:
# Uma convenção:
import pandas as pd

O pandas introduz dois tipos de estruturas de dados extremamente úteis: _Series_ e _DataFrames_. Um pode ser visto como complemento do outro.

### Séries

Series são objetos parecidos com arrays, de uma dimensão, que contém:

* values: sequencia de valores
* index: um array de labels para os valores

Ambos, obrigatoriamente, do mesmo comprimeiro.

In [2]:
serie1 = pd.Series([10, 73, 89, 1, 6, -20, -10, 8])
serie1

0    10
1    73
2    89
3     1
4     6
5   -20
6   -10
7     8
dtype: int64

In [3]:
# Como dito anteriormente, toda série tem uma sequência de valores:
serie1.values

array([ 10,  73,  89,   1,   6, -20, -10,   8])

In [4]:
# e um conjunto de labels:
serie1.index    # parecido com o range(8)

RangeIndex(start=0, stop=8, step=1)

> É possível criar uma série e fornecer um index específico

In [5]:
serie2 = pd.Series(['p', 'a', 'n', 'd', 'a', 's'], index=['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto', 'sexto'])
serie2

primeiro    p
segundo     a
terceiro    n
quarto      d
quinto      a
sexto       s
dtype: object

In [6]:
serie2.values

array(['p', 'a', 'n', 'd', 'a', 's'], dtype=object)

In [7]:
serie2.index

Index(['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto', 'sexto'], dtype='object')

### DataFrame

Um DataFrame pode ser pensado como um conjunto de ao menos 2 séries, todas compartilhando do mesmo Index.

Na prática, um DataFrame é uma tabela. Possui linhas, colunas e um índice. É possível, inclusive, ler tabelas em formato Excel e CSV com o _pandas_, transformando o arquivo em um DataFrame (e, assim, realizar as manipulações necessárias nos dados).

In [8]:
# Há várias formas de criar um DataFrame, vamos começar criando a partir de um dict:

data = {'Nome':['Pedro', 'Jorge', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman', 'Britney Spears'],
        'Idade':[22, 17, 13, 30, 52, 39],
        'Comida Preferida':['Todas', "McDonald's", 'Comida da Disney', 'Mexicana', 'Vinho e Queijo', 'Chocolate'],
        'País':['Brasil', 'Brasil', 'Brasil', 'EUA', 'EUA', 'EUA']}

df1 = pd.DataFrame(data)

In [9]:
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


In [10]:
df1.head(2)

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil


In [11]:
df1.tail(2)

Unnamed: 0,Nome,Idade,Comida Preferida,País
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


In [12]:
df1.sample(2)

Unnamed: 0,Nome,Idade,Comida Preferida,País
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA


In [13]:
df1.País

0    Brasil
1    Brasil
2    Brasil
3       EUA
4       EUA
5       EUA
Name: País, dtype: object

In [14]:
df1["País"]

0    Brasil
1    Brasil
2    Brasil
3       EUA
4       EUA
5       EUA
Name: País, dtype: object

In [15]:
print(type(df1.País))
print(type(df1['País']))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


> Há operações realizadas nos DataFrames (e em Séries também) que:
* Alteram o DataFrame _inplace_
* Retornam uma cópia do DataFrame, mantendo o original inalterado

In [16]:
df1['Nova Coluna'] = 'TESTE'
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Nova Coluna
0,Pedro,22,Todas,Brasil,TESTE
1,Jorge,17,McDonald's,Brasil,TESTE
2,Maria Joaquina,13,Comida da Disney,Brasil,TESTE
3,Emma Watson,30,Mexicana,EUA,TESTE
4,Hugh Jackman,52,Vinho e Queijo,EUA,TESTE
5,Britney Spears,39,Chocolate,EUA,TESTE


In [17]:
df1['Nova Coluna'] = 'DEU CERTO'
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Nova Coluna
0,Pedro,22,Todas,Brasil,DEU CERTO
1,Jorge,17,McDonald's,Brasil,DEU CERTO
2,Maria Joaquina,13,Comida da Disney,Brasil,DEU CERTO
3,Emma Watson,30,Mexicana,EUA,DEU CERTO
4,Hugh Jackman,52,Vinho e Queijo,EUA,DEU CERTO
5,Britney Spears,39,Chocolate,EUA,DEU CERTO


In [18]:
df1.drop("Nova Coluna", axis=1)

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


In [19]:
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Nova Coluna
0,Pedro,22,Todas,Brasil,DEU CERTO
1,Jorge,17,McDonald's,Brasil,DEU CERTO
2,Maria Joaquina,13,Comida da Disney,Brasil,DEU CERTO
3,Emma Watson,30,Mexicana,EUA,DEU CERTO
4,Hugh Jackman,52,Vinho e Queijo,EUA,DEU CERTO
5,Britney Spears,39,Chocolate,EUA,DEU CERTO


In [20]:
df1.drop("Nova Coluna", axis=1, inplace=True)
df1

# Uma alternativa:
#df1 = df1.drop("Nova Coluna", axis=1)
#df1

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


> É possível adicionar uma série a um DataFrame, como se fosse uma nova coluna:

In [21]:
cidade = pd.Series(['Goiânia', 'Goiânia', 'São Paulo'], index=[0, 1, 2])

df1['Cidade'] = cidade

df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Cidade
0,Pedro,22,Todas,Brasil,Goiânia
1,Jorge,17,McDonald's,Brasil,Goiânia
2,Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
3,Emma Watson,30,Mexicana,EUA,
4,Hugh Jackman,52,Vinho e Queijo,EUA,
5,Britney Spears,39,Chocolate,EUA,


> Sempre que houver valores não preenchidos (ou com valores inválidos), eles serão inseridos como NaN (Not a Number). É um padrão estabelecido pela biblioteca NumPy, usada para identificar missing values.

> Existem várias formas de checar missing values (entradas marcadas como NaN no DataFrame ou Serie), como [nesses exemplos](https://datatofish.com/check-nan-pandas-dataframe/).

In [22]:
# Retorna a quantidade de valores NaN para cada coluna do DataFrame
df1.isnull().sum()

Nome                0
Idade               0
Comida Preferida    0
País                0
Cidade              3
dtype: int64

In [23]:
# Retorna as linhas onde há valores NaN na coluna "Cidade" (mais detalhes na sessão "Querry")
df1[df1['Cidade'].isnull()]

Unnamed: 0,Nome,Idade,Comida Preferida,País,Cidade
3,Emma Watson,30,Mexicana,EUA,
4,Hugh Jackman,52,Vinho e Queijo,EUA,
5,Britney Spears,39,Chocolate,EUA,


In [24]:
df1.fillna(value='Desconhecido')

Unnamed: 0,Nome,Idade,Comida Preferida,País,Cidade
0,Pedro,22,Todas,Brasil,Goiânia
1,Jorge,17,McDonald's,Brasil,Goiânia
2,Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
3,Emma Watson,30,Mexicana,EUA,Desconhecido
4,Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
5,Britney Spears,39,Chocolate,EUA,Desconhecido


In [25]:
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Cidade
0,Pedro,22,Todas,Brasil,Goiânia
1,Jorge,17,McDonald's,Brasil,Goiânia
2,Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
3,Emma Watson,30,Mexicana,EUA,
4,Hugh Jackman,52,Vinho e Queijo,EUA,
5,Britney Spears,39,Chocolate,EUA,


In [26]:
df1.fillna(value='Desconhecido', inplace=True)
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País,Cidade
0,Pedro,22,Todas,Brasil,Goiânia
1,Jorge,17,McDonald's,Brasil,Goiânia
2,Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
3,Emma Watson,30,Mexicana,EUA,Desconhecido
4,Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
5,Britney Spears,39,Chocolate,EUA,Desconhecido


> Assim como uma Serie, um DF também tem métodos para exibir o Index e os valores. Há, também, método para exibir as colunas:

In [27]:
df1.values

array([['Pedro', 22, 'Todas', 'Brasil', 'Goiânia'],
       ['Jorge', 17, "McDonald's", 'Brasil', 'Goiânia'],
       ['Maria Joaquina', 13, 'Comida da Disney', 'Brasil', 'São Paulo'],
       ['Emma Watson', 30, 'Mexicana', 'EUA', 'Desconhecido'],
       ['Hugh Jackman', 52, 'Vinho e Queijo', 'EUA', 'Desconhecido'],
       ['Britney Spears', 39, 'Chocolate', 'EUA', 'Desconhecido']],
      dtype=object)

In [28]:
df1.index

RangeIndex(start=0, stop=6, step=1)

In [29]:
df1.columns

Index(['Nome', 'Idade', 'Comida Preferida', 'País', 'Cidade'], dtype='object')

> Sendo objetos análogos ao NumPy, tanto DataFrames quanto Series possuem o método .shape, que retorna o formato do DataFrame:

In [30]:
df1.shape

(6, 5)

In [31]:
# O método .describe() retorna estatísticas sobre as colunas que possuem valores numéricos:
df1.describe()

Unnamed: 0,Idade
count,6.0
mean,28.833333
std,14.688998
min,13.0
25%,18.25
50%,26.0
75%,36.75
max,52.0


In [32]:
# df['Coluna'].unique() retorna os valores que ocorrem ao menos uma vez naquela coluna
df1['País'].unique()

array(['Brasil', 'EUA'], dtype=object)

### Index

> Há várias operações envolvendo os Index.

In [33]:
# O método .set_index(new_index) é usado para atualizar o index de um DF
df1.set_index('Nome', inplace=True)     # transforma a coluna "Nome" em Index
df1

Unnamed: 0_level_0,Idade,Comida Preferida,País,Cidade
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Pedro,22,Todas,Brasil,Goiânia
Jorge,17,McDonald's,Brasil,Goiânia
Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
Emma Watson,30,Mexicana,EUA,Desconhecido
Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
Britney Spears,39,Chocolate,EUA,Desconhecido


In [34]:
df1.index

Index(['Pedro', 'Jorge', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears'],
      dtype='object', name='Nome')

In [35]:
df1.values

array([[22, 'Todas', 'Brasil', 'Goiânia'],
       [17, "McDonald's", 'Brasil', 'Goiânia'],
       [13, 'Comida da Disney', 'Brasil', 'São Paulo'],
       [30, 'Mexicana', 'EUA', 'Desconhecido'],
       [52, 'Vinho e Queijo', 'EUA', 'Desconhecido'],
       [39, 'Chocolate', 'EUA', 'Desconhecido']], dtype=object)

> O Index também pode ser atualizado por atribuição

In [36]:
df1.index = ['Pedro Hortêncio', 'Jorge Henrique', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1

Unnamed: 0,Idade,Comida Preferida,País,Cidade
Pedro Hortêncio,22,Todas,Brasil,Goiânia
Jorge Henrique,17,McDonald's,Brasil,Goiânia
Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
Emma Watson,30,Mexicana,EUA,Desconhecido
Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
Britney Spears,39,Chocolate,EUA,Desconhecido


> É possível alterar o nome do Index (e de colunas):

In [37]:
df1.index.names = ["NOME"]
df1

Unnamed: 0_level_0,Idade,Comida Preferida,País,Cidade
NOME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Pedro Hortêncio,22,Todas,Brasil,Goiânia
Jorge Henrique,17,McDonald's,Brasil,Goiânia
Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
Emma Watson,30,Mexicana,EUA,Desconhecido
Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
Britney Spears,39,Chocolate,EUA,Desconhecido


In [38]:
# Para colunas
df1 = df1.rename(columns={"País": "Região"})
df1

Unnamed: 0_level_0,Idade,Comida Preferida,Região,Cidade
NOME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Pedro Hortêncio,22,Todas,Brasil,Goiânia
Jorge Henrique,17,McDonald's,Brasil,Goiânia
Maria Joaquina,13,Comida da Disney,Brasil,São Paulo
Emma Watson,30,Mexicana,EUA,Desconhecido
Hugh Jackman,52,Vinho e Queijo,EUA,Desconhecido
Britney Spears,39,Chocolate,EUA,Desconhecido


## Querry

In [39]:
# Recriando o DataFrame de exemplo

data = {'Nome':['Pedro', 'Jorge', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman', 'Britney Spears'],
        'Idade':[22, 17, 13, 30, 52, 39],
        'Comida Preferida':['Todas', "McDonald's", 'Comida da Disney', 'Mexicana', 'Vinho e Queijo', 'Chocolate'],
        'País':['Brasil', 'Brasil', 'Brasil', 'EUA', 'EUA', 'EUA']}

df1 = pd.DataFrame(data)

In [40]:
df1.head(3)

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil


> Selecionar colunas

In [41]:
df1['Nome']

0             Pedro
1             Jorge
2    Maria Joaquina
3       Emma Watson
4      Hugh Jackman
5    Britney Spears
Name: Nome, dtype: object

In [42]:
df1[['Idade', 'Comida Preferida']]

Unnamed: 0,Idade,Comida Preferida
0,22,Todas
1,17,McDonald's
2,13,Comida da Disney
3,30,Mexicana
4,52,Vinho e Queijo
5,39,Chocolate


### Diferença entre loc e iloc

[Mais Detalhes](https://campus.datacamp.com/courses/intermediate-python/dictionaries-pandas?ex=17#:~:text=loc%20is%20label%2Dbased%2C%20which,did%20in%20the%20previous%20exercise.)

In [43]:
df1.loc[0]

Nome                 Pedro
Idade                   22
Comida Preferida     Todas
País                Brasil
Name: 0, dtype: object

In [44]:
df1.iloc[0]

Nome                 Pedro
Idade                   22
Comida Preferida     Todas
País                Brasil
Name: 0, dtype: object

In [45]:
df1.iloc[0:3]

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil


In [46]:
df1.loc[0:3]

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA


In [47]:
df1.index = ['Pedro Hortêncio', 'Jorge Henrique', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1.head(3)

Unnamed: 0,Nome,Idade,Comida Preferida,País
Pedro Hortêncio,Pedro,22,Todas,Brasil
Jorge Henrique,Jorge,17,McDonald's,Brasil
Maria Joaquina,Maria Joaquina,13,Comida da Disney,Brasil


In [48]:
df1.iloc[0]

Nome                 Pedro
Idade                   22
Comida Preferida     Todas
País                Brasil
Name: Pedro Hortêncio, dtype: object

In [49]:
#df1.loc[0]
df1.loc['Pedro Hortêncio']

Nome                 Pedro
Idade                   22
Comida Preferida     Todas
País                Brasil
Name: Pedro Hortêncio, dtype: object

> Diferença entre .at e .loc

> "[at is] Similar to loc, in that both provide label-based lookups. Use at if you only need to get or set a single value in a DataFrame or Series." [pandas.DataFrame.at Documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html)

In [50]:
# .at requer que seja fornecido, além do Index, a coluna. É uma forma otimizada de acessar valores específicos do DataFrame
df1.at['Pedro Hortêncio', 'Nome']

'Pedro'

In [51]:
df1.index = ['Pedro Hortêncio', 'Pedro Hortêncio', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1.head(3)

Unnamed: 0,Nome,Idade,Comida Preferida,País
Pedro Hortêncio,Pedro,22,Todas,Brasil
Pedro Hortêncio,Jorge,17,McDonald's,Brasil
Maria Joaquina,Maria Joaquina,13,Comida da Disney,Brasil


In [52]:
df1.at['Pedro Hortêncio', 'Nome']

Pedro Hortêncio    Pedro
Pedro Hortêncio    Jorge
Name: Nome, dtype: object

In [53]:
df1.loc['Pedro Hortêncio', 'Nome']

Pedro Hortêncio    Pedro
Pedro Hortêncio    Jorge
Name: Nome, dtype: object

> Reset do Index:

In [54]:
df1.reset_index(drop=True, inplace=True)
df1

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
1,Jorge,17,McDonald's,Brasil
2,Maria Joaquina,13,Comida da Disney,Brasil
3,Emma Watson,30,Mexicana,EUA
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


### Filtros Lógicos

É possível verar filtros lógicos de diversas formas no pandas:

In [55]:
df1['Idade'] > 20

0     True
1    False
2    False
3     True
4     True
5     True
Name: Idade, dtype: bool

In [61]:
df1['Nome'] == 'Pedro'

0     True
1    False
2    False
3    False
4    False
5    False
Name: Nome, dtype: bool

Um DataFrame pode aceitar esses filtros lógicos para retornar apenas uma seleção de linhas:

In [62]:
df1[df1['Idade'] > 20]

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil
3,Emma Watson,30,Mexicana,EUA
4,Hugh Jackman,52,Vinho e Queijo,EUA
5,Britney Spears,39,Chocolate,EUA


In [63]:
df1[df1['Nome'] == 'Pedro']

Unnamed: 0,Nome,Idade,Comida Preferida,País
0,Pedro,22,Todas,Brasil


##GroupBy

O mecanismo _GroupBy_ é, provavelmente, uma das ferramentas mais poderosas (e misteriosas) do _pandas_. 

Nasceu graças ao conceito de: _split-apply-combine_.

* Split: é a primeira etapa da operação. Os dados (tanto em uma Series quanto um DataFrame) são separados (_split_) com base em uma ou mais _keys_ passadas. São criados grupos com bases nessa separação.
* Apply: então, é aplicada uma função em cada um dos grupos gerados, produzindo um novo valor.
* Combine: por fim, os resultados das funções são combinados em um objeto resultante.

Como o nosso dataset de exemplo é muito simples, não há como exemplificar todas as funções do GroupBy.

In [68]:
# Um exemplo básico:
df1.groupby("País")["Nome"].count()

# É equivalente ao seguinte SQL:

#   SELECT País, count(Nome)
#   FROM df1
#   GROUP BY País
#   ORDER BY País

País
Brasil    3
EUA       3
Name: Nome, dtype: int64

Maiores informações sobre o GroupBy:

* [Pandas GroupBy: A Guide](https://realpython.com/pandas-groupby/)
* [Documentação GroupBy](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)
* Capítulo 10 do livro _Python for Data Analysis_ cobre funções de agrupamento no _pandas_, inclusive o GroupBy.

# Exemplo Prático

#Matplotlib

# Referências

* [Livro: Python for Data Science - 2nd Edition](https://www.amazon.com.br/Python-Data-Analysis-Wes-Mckinney/dp/1491957662) (Escrito pelo criador do pandas, Wes McKinney)
* [Cursos 1 e 2 da Especialização _Applied Data Science with Python_](https://www.coursera.org/specializations/data-science-python#courses)
* [Documentação Pandas](https://pandas.pydata.org/docs/user_guide/index.html)
* [Documentação Matplolib](https://matplotlib.org/)
* [Documentação Seaborn](https://seaborn.pydata.org/)