<a href="https://colab.research.google.com/github/pedrohortencio/data-analysis-projects/blob/main/World%20Happiness%20Report/Pandas_e_Matplotlib_Uma_Introdu%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#_pandas_



_pandas_ é tanto uma forma resumida de _"panel data"_, que em estatística e econometria significa dados longitudinais e multidimensionais que representam medidas em relação ao tempo, quanto uma abreviação de _"Python data analysis"_.

A versão curta: a biblioteca é utilizada para manipulação de dados tabulares.

Já para uma versão não tão curta, é preciso buscar referências. Segundo a própria documentação do _pandas_, a biblioteca é utilizada em diversos casos:
* Importação e exportação de dados em diversos formatos (CSV, Excel, Hierarchical Data Format [(HDF5)](https://pt.wikipedia.org/wiki/Hierarchical_Data_Format#:~:text=Hierarchical%20Data%20Format%20(HDF%2C%20HDF4,grandes%20quantidades%20de%20dados%20num%C3%A9ricos.), estruturas do Python e arquivos de texto);
* Manipulação de dados;
* Alinhamento e limpeza de dados;
* Tratamento de grandes quantidades de dados;
* Agregação de dados;
* Todo o processo de [_data wrangling_](https://oestatistico.com.br/data-wrangling-dados/);

Ou seja: o _pandas_ abriga todo o processo de análise de dados, desde a importação dos dados, passando por todas as etapas de processamento, até a exportação final. Inclusive há suporte para a ingestão desses dados em sistemas de Big Data e de Machine Learning.

A biblioteca nasceu, em 2008, a partir da necessidade de cientistas de dados da empresa [AQR Capital Management](https://www.aqr.com/) terem ferramentas que automatizem certas tarefas (como, por exemplo, a manipulação de datasets que contenham [_missing values_](https://isitics.com/2018/10/05/o-que-sao-missing-values/)). Se tornou open source em 2010 e, hoje, conta com mais de 800 contribuidores. É praticamente uma linguagem por si só.

Um resumo do motivo da existência da biblioteca pode ser encontrado na sua "Missão", descrita na documentação:

> "_pandas_ tem o objetivo de ser o bloco de alto nível fundamental para a realização de análise de dados prática, no mundo real, com Python. Adicionalmente, há o objetivo mais geral de ser a ferrmanete open source de análise de dados mais flexível e poderosa em qualquer linguagem."

Premissas ambiciosas. Condizentes com a realidade, pois **não existe projeto de análise de dados em Python que não utilize a biblioteca _pandas_**.

## Básico


A primeira coisa a se ter em mente: a biblioteca é _extremamente_ densa. Existem diversas funções, vários métodos, extensas ferramentas para manipulação das duas estruturas de dados da biblioteca (_Series_ e _DataFrames_). A biblioteca possui, além disso, uma linguagem própria, com mecanismos próprios para executar determinadas ações.

Como se não bastasse, é uma característica do _pandas_ possuir métodos e funções com **vários** argumentos. Isso surgiu da necessidade de se adequar a dados com diferentes formatações, erros, missing values e características. Um exemplo é a função que lê um arquivo csv:

```pandas.read_csv(filepath_or_buffer, sep=<object object>, delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, dialect=None, error_bad_lines=True, warn_bad_lines=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)```

Ou seja, é difícil (se não impossível) se tornar proficiente em _pandas_ sem prática. É necessário práticar com diferentes datasets, de diferentes fontes, para adquirir conhecimento sobre todas as funções do _pandas_.

Isso se torna algo fácil pelo seguinte ponto: _pandas_ é uma biblioteca com **muito** suporte. A documentação é extensa e conta com exemplos e a comunidade no Stack Overflow é uma das mais ativas da plataforma. É extremamente comum, inclusive, encontrar questões respondidas pelos próprios criadores do _pandas_, que ativamente prestam suporte ao uso da biblioteca.

In [None]:
# Uma convenção:
import pandas as pd

O pandas introduz dois tipos de estruturas de dados extremamente úteis: _Series_ e _DataFrames_. Um pode ser visto como complemento do outro.

### Séries

Series são objetos parecidos com arrays, de uma dimensão, que contém:

* values: sequencia de valores
* index: um array de labels para os valores

Ambos, obrigatoriamente, do mesmo comprimeiro.

In [None]:
serie1 = pd.Series([10, 73, 89, 1, 6, -20, -10, 8])
serie1

In [None]:
# Como dito anteriormente, toda série tem uma sequência de valores:
serie1.values

In [None]:
# e um conjunto de labels:
serie1.index    # parecido com o range(8)

> É possível criar uma série e fornecer um index específico

In [None]:
serie2 = pd.Series(['p', 'a', 'n', 'd', 'a', 's'], index=['primeiro', 'segundo', 'terceiro', 'quarto', 'quinto', 'sexto'])
serie2

In [None]:
serie2.values

In [None]:
serie2.index

### DataFrame

Um DataFrame pode ser pensado como um conjunto de ao menos 2 séries, todas compartilhando do mesmo Index.

Na prática, um DataFrame é uma tabela. Possui linhas, colunas e um índice. É possível, inclusive, ler tabelas em formato Excel e CSV com o _pandas_, transformando o arquivo em um DataFrame (e, assim, realizar as manipulações necessárias nos dados).

In [None]:
# Há várias formas de criar um DataFrame, vamos começar criando a partir de um dict:

data = {'Nome':['Pedro', 'Jorge', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman', 'Britney Spears'],
        'Idade':[22, 17, 13, 30, 52, 39],
        'Comida Preferida':['Todas', "McDonald's", 'Comida da Disney', 'Mexicana', 'Vinho e Queijo', 'Chocolate'],
        'País':['Brasil', 'Brasil', 'Brasil', 'EUA', 'EUA', 'EUA']}

df1 = pd.DataFrame(data)

In [None]:
df1

In [None]:
df1.head(2)

In [None]:
df1.tail(2)

In [None]:
df1.sample(2)

In [None]:
df1.País

In [None]:
df1["País"]

In [None]:
print(type(df1.País))
print(type(df1['País']))

> Há operações realizadas nos DataFrames (e em Séries também) que:
* Alteram o DataFrame _inplace_
* Retornam uma cópia do DataFrame, mantendo o original inalterado

In [None]:
df1['Nova Coluna'] = 'TESTE'
df1

In [None]:
df1['Nova Coluna'] = 'DEU CERTO'
df1

In [None]:
df1.drop("Nova Coluna", axis=1)

In [None]:
df1

In [None]:
df1.drop("Nova Coluna", axis=1, inplace=True)
df1

# Uma alternativa:
#df1 = df1.drop("Nova Coluna", axis=1)
#df1

> É possível adicionar uma série a um DataFrame, como se fosse uma nova coluna:

In [None]:
cidade = pd.Series(['Goiânia', 'Goiânia', 'São Paulo'], index=[0, 1, 2])

df1['Cidade'] = cidade

df1

> Sempre que houver valores não preenchidos (ou com valores inválidos), eles serão inseridos como NaN (Not a Number). É um padrão estabelecido pela biblioteca NumPy, usada para identificar missing values.

> Existem várias formas de checar missing values (entradas marcadas como NaN no DataFrame ou Serie), como [nesses exemplos](https://datatofish.com/check-nan-pandas-dataframe/).

In [None]:
# Retorna a quantidade de valores NaN para cada coluna do DataFrame
df1.isnull().sum()

In [None]:
# Retorna as linhas onde há valores NaN na coluna "Cidade" (mais detalhes na sessão "Querry")
df1[df1['Cidade'].isnull()]

In [None]:
df1.fillna(value='Desconhecido')

In [None]:
df1

In [None]:
df1.fillna(value='Desconhecido', inplace=True)
df1

> Assim como uma Serie, um DF também tem métodos para exibir o Index e os valores. Há, também, método para exibir as colunas:

In [None]:
df1.values

In [None]:
df1.index

In [None]:
df1.columns

> Sendo objetos análogos ao NumPy, tanto DataFrames quanto Series possuem o método .shape, que retorna o formato do DataFrame:

In [None]:
df1.shape

In [None]:
# O método .describe() retorna estatísticas sobre as colunas que possuem valores numéricos:
df1.describe()

In [None]:
# df['Coluna'].unique() retorna os valores que ocorrem ao menos uma vez naquela coluna
df1['País'].unique()

### Index

> Há várias operações envolvendo os Index.

In [None]:
# O método .set_index(new_index) é usado para atualizar o index de um DF
df1.set_index('Nome', inplace=True)     # transforma a coluna "Nome" em Index
df1

In [None]:
df1.index

In [None]:
df1.values

> O Index também pode ser atualizado por atribuição

In [None]:
df1.index = ['Pedro Hortêncio', 'Jorge Henrique', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1

> É possível alterar o nome do Index (e de colunas):

In [None]:
df1.index.names = ["NOME"]
df1

In [None]:
# Para colunas
df1 = df1.rename(columns={"País": "Região"})
df1

## Querry

In [None]:
# Recriando o DataFrame de exemplo

data = {'Nome':['Pedro', 'Jorge', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman', 'Britney Spears'],
        'Idade':[22, 17, 13, 30, 52, 39],
        'Comida Preferida':['Todas', "McDonald's", 'Comida da Disney', 'Mexicana', 'Vinho e Queijo', 'Chocolate'],
        'País':['Brasil', 'Brasil', 'Brasil', 'EUA', 'EUA', 'EUA']}

df1 = pd.DataFrame(data)

In [None]:
df1.head(3)

> Selecionar colunas

In [None]:
df1['Nome']

In [None]:
df1[['Idade', 'Comida Preferida']]

### Diferença entre loc e iloc

[Mais Detalhes](https://campus.datacamp.com/courses/intermediate-python/dictionaries-pandas?ex=17#:~:text=loc%20is%20label%2Dbased%2C%20which,did%20in%20the%20previous%20exercise.)

In [None]:
df1.loc[0]

In [None]:
df1.iloc[0]

In [None]:
df1.iloc[0:3]

In [None]:
df1.loc[0:3]

In [None]:
df1.index = ['Pedro Hortêncio', 'Jorge Henrique', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1.head(3)

In [None]:
df1.iloc[0]

In [None]:
#df1.loc[0]
df1.loc['Pedro Hortêncio']

> Diferença entre .at e .loc

> "[at is] Similar to loc, in that both provide label-based lookups. Use at if you only need to get or set a single value in a DataFrame or Series." [pandas.DataFrame.at Documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html)

In [None]:
# .at requer que seja fornecido, além do Index, a coluna. É uma forma otimizada de acessar valores específicos do DataFrame
df1.at['Pedro Hortêncio', 'Nome']

In [None]:
df1.index = ['Pedro Hortêncio', 'Pedro Hortêncio', 'Maria Joaquina', 'Emma Watson', 'Hugh Jackman',
       'Britney Spears']
df1.head(3)

In [None]:
df1.at['Pedro Hortêncio', 'Nome']

In [None]:
df1.loc['Pedro Hortêncio', 'Nome']

> Reset do Index:

In [None]:
df1.reset_index(drop=True, inplace=True)
df1

### Filtros Lógicos

É possível verar filtros lógicos de diversas formas no pandas:

In [None]:
df1['Idade'] > 20

In [None]:
df1['Nome'] == 'Pedro'

Um DataFrame pode aceitar esses filtros lógicos para retornar apenas uma seleção de linhas:

In [None]:
df1[df1['Idade'] > 20]

In [None]:
df1[df1['Nome'] == 'Pedro']

##GroupBy

O mecanismo _GroupBy_ é, provavelmente, uma das ferramentas mais poderosas (e misteriosas) do _pandas_. 

Nasceu graças ao conceito de: _split-apply-combine_.

* Split: é a primeira etapa da operação. Os dados (tanto em uma Series quanto um DataFrame) são separados (_split_) com base em uma ou mais _keys_ passadas. São criados grupos com bases nessa separação.
* Apply: então, é aplicada uma função em cada um dos grupos gerados, produzindo um novo valor.
* Combine: por fim, os resultados das funções são combinados em um objeto resultante.

Como o nosso dataset de exemplo é muito simples, não há como exemplificar todas as funções do GroupBy.

In [None]:
# Um exemplo básico:
df1.groupby("País")["Nome"].count()

# É equivalente ao seguinte SQL:

#   SELECT País, count(Nome)
#   FROM df1
#   GROUP BY País
#   ORDER BY País

Maiores informações sobre o GroupBy:

* [Pandas GroupBy: A Guide](https://realpython.com/pandas-groupby/)
* [Documentação GroupBy](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)
* Capítulo 10 do livro _Python for Data Analysis_ cobre funções de agrupamento no _pandas_, inclusive o GroupBy.

# Exemplo Prático

#Matplotlib

# Referências

* [Livro: Python for Data Science - 2nd Edition](https://www.amazon.com.br/Python-Data-Analysis-Wes-Mckinney/dp/1491957662) (Escrito pelo criador do pandas, Wes McKinney)
* [Cursos 1 e 2 da Especialização _Applied Data Science with Python_](https://www.coursera.org/specializations/data-science-python#courses)
* [Documentação Pandas](https://pandas.pydata.org/docs/user_guide/index.html)
* [Documentação Matplolib](https://matplotlib.org/)
* [Documentação Seaborn](https://seaborn.pydata.org/)