# Introdução à biblioteca __PANDAS__

## Sobre Pandas

É uma biblioteca para manipulação de dados, sendo a mais utilizada hoje em dia.

Criada em 2008, dentro do __AQR__ _Capital Management_ (empresa americana global de gestão de fundos de investimentos), por _Wes McKinney_ - programador americano fissurado em matemática e manipulação de dados.

Em 2009, __PANDAS__ se tornou _Open Source_ sob a licença __BSD__.

__PANDAS__ é um acrônimo para _PANEL DATA_, dataset de estruturas multidimensionais.

*__Curiosidade__* : A biblioteca foi escrita em C, Python e em Cython. Este último é um superset - _super conjunto_ - com a carinha e as características do python, mas com a performance do C.

O __PANDAS__ é adequado para taballhar com muitos tipos de dados:

* dados tabulares como uma tabela SQL ou uma planilha excel
* dados de série temporal ordenados ou não
* dados de matriz
* ou qualquer outro conjunto de dados observacionais ou estatísticos

__Principais extensões suportadas__ :

* CSV
* XLSX
* PARQUET
* HTML
* HDFS
* JSON
* SQL

__DICA__ : você pode ler esses dados de diversas fontes, como por exemplo, de arquivos CSV, planilhas Excel, tabelas SQL de arquivos HTML, arquivos JSON entre outros.

Depois de trabalhar com os dados, você pode __exportar__ para essas mesmas extensões. Isso é muito fácil e intuitivo com o pandas.


__PANDAS__ possui duas estruturas de dados primários que são as __Series__ e os __DataFrames__.

As __Series__ são um array _uni-dimensional_ de dados homogêneos.

Já os __DataFrames__ são um array _bi-dimensional_ mutável composto por linhas e colunas. Como se fosse uma __tabela__.

__OBS__ : você pode adicionar ou remover linhas e colunas em um _DataFrame_.

__DICA__ : pense nessa estrutura de dados como _contâiner_, ou seja, _DataFrame_ é um _container_ para _Series_ enquanto que as _Series_ são um _contâiner_ para dados escalares.

## Trabalhando com Pandas

Para trabalharmos com a manipulação de dados, primeiro devemos instalar a biblioteca __pandas__ através do comando `pip install pandas` dentro do seu ambiente virtual.

Se estiver utilizando o Google Colab, execute `!pip install pandas`, mas esta biblioteca já vem instalada.

Se estiver utilizando a plataforma de ciência de dados, __Anaconda__, essa biblioteca, também, já vem instalada.

Rode o comando a seguir, dentro do Google Colab, `pd.__version__` para ver a versão corrente do __pandas__ que o Colab está utilizando.

Uma vez que você possua uma massa de dados e precisa manipular esses dados, é preciso importar o __pandas__.

Rode o comando `import pandas as pd`.

Após carregar a biblioteca, estamos prontos para ler nossa massa de dados, que nesse caso, será um arquivo CSV com informações sobre o faturameto de vinhos da primeira quinzena de Novembro de uma pousada em Petrópolis.

Agora que o __pandas__ foi importado, é hora de carregar o _dataset_ de faturamento através da função __read_csv__.

In [None]:
import pandas as pd

In [None]:
faturamento = pd.read_csv('caminho_do_arquivo/arquivo.csv')

### Função read_csv( )

A função __read_csv( )__ tem muitos parâmetros, mas normalmente utilizamos, alguns com mais frequência:

* __sep__ : por padrão é a vírgula, mas podemos especificar outro caractere separador

* __skiprows__ : para pular linhas caso o arquivo apresente um cabeçalho

* __skipfooter__ : para não carregar linhas do rodapé

* __thousands__ : alterar o caractere de milhar. Útil para sistema brasileiro de numeração

* __decimal__ : alterar o caractere de decimal. Útil para o sistema brasileiro de numeração

* __encoding__ : para reconhecer caracteres especiais e caracteres acentuados

__ATENÇÃO__ : colocamos o `r` antes do nome do arquivo a ser lido, pois torna a _string_ como __raw string__ para que o python trate como uma string bruta e, assim, não querer interpretar contra-barras, barras, caracteres de escape e outras coisas.

__OBS__ : [clique aqui](https://docs.python.org/3/library/codecs.html#standard-encodings) para ver a lista completa dos encodings

## Primeiros passos

O 1º passo de toda a análise de dados é entender a base de dados com a qual se está trabalhando.

Para isso, utilizamos alguns comandos:

* __shape__ : este atributo retorna uma tupla com o número de linhas e colunas do _DataFrame_

* __columns__ : este atributo retorna uma array com o nome de todas as colunas do _DataFrame_

* __dtypes__ : este atributo retorna um _Pandas Series_ com as colunas e seus respectivos tipos de dados

* __info( )__ : este método nos fornece muitas informações do _DataFrame_ em questão como:

  * o número total de linhas (registros)
  * a quantidade de colunas 
  * o índice de cada coluna 
  * o nome das colunas
  * a quantidade de valores não nulos
  * o tipo de dado de cada coluna

* __head( )__ : este método retorna as 5 primeiras linhas do _DataFrame_ por padrão, mas podemos passar um número específico entre parêntesis

* __tail( )__ : este método retorna as 5 últimas linhas do _DataFrame_ por padrão, mas podemos passar um número específico entre parêntesis 

* __describe( )__ : este método apresenta um resumo sobre as __*Series*__ numéricas com as seguintes informações:

  * __count__ : mostra quantos registros / linhas há em nosso dataframe
  * __mean__ : mostra a média. Vale lembrar que a depender da coluna, esse valor pode não fazer muito sentido
  * __std__ : desvio padrão, este tópico é abordado na especialização em _Data Science_
  * __min__ : valor mínimo
  * quartis : 
      * __25%__ : 1º quadrante, significa que 25% dos dados estão abaixo de determinada quantidade mostrada em cada _Series_ específica
      * __50%__ : 2º quadrante, também conhecido como mediana. Metade dos registros do _DataFrame_ estão abaixo do valor mostrado em cada _Series_ específica
      * __75%__ : 3º quadrante, onde 75% dos registros do _DataFrame_ estão abaixo do valor mostrado em cada _Series_ específica
  * __max__ : valor máximo

__OBS__ : O _dtype_ object é como o pandas reconhece / especifica uma string. Os demais _dtypes_ são bem descritivos e intuitivos.

### Mais aplicações do método _describe( )_

Pode-se utilizar este método em uma _Series_ numérica específica e, também, numa _Series_ de strings, onde as informações retornadas são diferentes das __Series numéricas__.

Assim, obtemos os seguintes valores:

* __count__ : retorna quantas linhas há na _Series_ específica
* __unique__ : retorna os valores únicos encontrados nesta _Series_ específica
* __top__ : retorna o "_termo_" (string) encontrado com maior "frequência". Vale ressaltar que esta informação retornará a primeira ocorrência, caso haja, mais termos com a mesma frequência
* __freq__ : retorna o número de ocorrências do "_termo_" listado em _top_

## Estruturas principais

A biblioteca __PANDAS__ nos apresenta 2 estruturas principais que são as _Series_ e os _DataFrames_.

### Series

A _Series_ são estruturas unidimensionais e se assemelham as listas em Python, mas apresentam algumas coisas a mais.

Possuem 4 elementos principais:

* __valores__ : podem ser de qualquer tipo. Quando são do mesmo tipo, facilita a transformação interna para _Numpy arrays_ (__mais performance__).Passe como primeiro parâmetro ou como _named parameter_ "data"

* __índices__ : são parte __essencial__ da biblioteca __PANDAS__. É diferente das listas onde acessamos apenas posicionalmente. Podem ser de qualquer tipo, desde que sejam "_hasheáveis_", ou seja, com acesso direto. São obrigatórios e, mesmo se não especificarmos, o __PANDAS__ cria os índices de forma automática, começando sempre em 0

  __OBS__ : a diferença para lista é que podemos criar algo que não remeta à posiçao.

  __VALE LEMBRAR__ : 
  
   * os índices não precisam ser chaves (não precisam ser únicos)
   * podem ter valores iguais para mais de uma linha
   * quando buscamos pelo índice, ele traz todos os elementos "apontados" por aquele índice (todas as linhas que tem referência daquele índice)

* __tipo__ : as _Series possuem um tipo. Elas são derivadas dos tipos do _Numpy_ (dtypes). Se não for definido o tipo, o __PANDAS__ infere a partir dos dados. O tipo pode ser passado na criação pelo parâmetro _dtype_

* __nome__ : pode-se especificar um nome. Isto é muito útil nos _DataFrames_, pois cada coluna é uma _Serie_ com um nome


Para acessar os valores, índices, nomes e tipos de uma _Series_ (s1, por exemplo) em __PANDAS__, basta chamar seus atributos:

* _s1.values_
* _s1.index_
* _s1.name_
* _s1.dtype_


#### Exemplo 1

In [None]:
import pandas as pd

In [None]:
s1 = pd.Series(['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi'])
s2 = pd.Series(data=['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi'])

display(s1)

display(s2)

0       Guerra nas Estrelas
1    O Império Contra-Ataca
2         O Retorno de Jedi
dtype: object

0       Guerra nas Estrelas
1    O Império Contra-Ataca
2         O Retorno de Jedi
dtype: object

#### Exemplo 2

In [None]:
filmes = ['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi']
anos = [1977, 1980, 1983]

pd.Series(data=filmes, index=anos)

1977       Guerra nas Estrelas
1980    O Império Contra-Ataca
1983         O Retorno de Jedi
dtype: object

#### Exemplo 3

In [None]:
filmes = ['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi']
anos = ['Episódio 4', 'Episódio 5', 'Episódio 6']

pd.Series(data=filmes, index=anos)

Episódio 4       Guerra nas Estrelas
Episódio 5    O Império Contra-Ataca
Episódio 6         O Retorno de Jedi
dtype: object

#### Exemplo 4

In [None]:
filmes = ['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi']
anos = ['Década de 70', 'Década de 80', 'Década de 80']

trilogia = pd.Series(data=filmes, index=anos)
trilogia

Década de 70       Guerra nas Estrelas
Década de 80    O Império Contra-Ataca
Década de 80         O Retorno de Jedi
dtype: object

In [None]:
trilogia['Década de 80']

Década de 80    O Império Contra-Ataca
Década de 80         O Retorno de Jedi
dtype: object

#### Exemplo 5

In [None]:
s1 = pd.Series(['Python', 'Pandas', 'Pentest'])
s2 = pd.Series([1, 2, 3])
s3 = pd.Series([3.10, 1.4, 2.0])

print(s1.dtype)
print(s2.dtype)
print(s3.dtype)

object
int64
float64


#### Exemplo 6

In [None]:
s1 = pd.Series([1, 2, 3])
print(f'Antes da conversão: {s1.dtype}')

s1 = s1.astype(float)
print(f'Depois da conversão: {s1.dtype}')

Antes da conversão: int64
Depois da conversão: float64


#### Exemplo 7

In [None]:
filmes = ['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi']
anos = ['Episódio 4', 'Episódio 5', 'Episódio 6']

pd.Series(data=filmes, index=anos, name='Trilogia Clássica')

Episódio 4       Guerra nas Estrelas
Episódio 5    O Império Contra-Ataca
Episódio 6         O Retorno de Jedi
Name: Trilogia Clássica, dtype: object

#### Exemplo 8

In [None]:
s1 = pd.Series(
    data=['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi'],
    name='Trilogia Clássica',
    index=[1977, 1980, 1983]
)

print(s1.values)
print(s1.index)
print(s1.name)
print(s1.dtype)

['Guerra nas Estrelas' 'O Império Contra-Ataca' 'O Retorno de Jedi']
Int64Index([1977, 1980, 1983], dtype='int64')
Trilogia Clássica
object


### DataFrames

São uma estrutura bidimensional, uma coleção de _Series_.

Imagine como se fosse uma planilha Excel, mas com __SUPER PODERES__!

Principais características:

* __dados__ : são provenientes de uma lista, conjunto, dicionário ou da importação de um dos mais diversos tipos de formatos suportados pelo __PANDAS__.

* __índices__ : 

  * índices não são necessariamente números posicionais
  * podem ser de muitos tipos diferentes
  * as colunas tem nomes assim como as linhas

* __colunas__ : basicamente são os nomes das _Series_ que compõem o _DataFrame_

* __tipos__ : se cada coluna é uma _Series_ __PANDAS__, cada coluna pode ter um tipo diferente. Elas são derivadas dos tipos do _Numpy_ (dtypes) ou tipos básicos do python. Se não definirmos o tipo, o __PANDAS__ infere a partir dos dados

__DICA__ : para converter um tipo de dados de uma _Series_, basta chamarmos o método _astype_. Se for possível converter os dados, eles serão convertidos.

Os valores em um _DataFrame_ podem ser importados ou incluídos na crição. 

  * __Importação__ : suporta uma grande variedade de formatos

    * pd.read_csv('dataset.csv')
    * pd.read_excel('dataset.xlsx', sheet_name='Sheet 1')
    * pd.read_parquet('dataset.parquet')
    * __OBS__ : e muitos e muitos outros formatos...

  * __Inclusão__ : listas, conjuntos ou dicionários

Há 2 formas de acessar as colunas de um _DataFrame_:

* __df['coluna']__ : sintaxe de dicionário python
* __df.coluna__ : sintaxe do paradigma orientação à objetos

__OBS__ : Recomenda-se o uso da sintaxe de dicionário, pois pode haver colunas com nomes compostos (com espaços) e a sintaxe do paradigma orientado à objetos não funciona.

_OBS_ : é como se pudéssemos criar nomes para as linhas numa planilha excel

#### Exemplo 1

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame(
    data=[
          ['Guerra nas Estrelas', 1977],
          ['O Império Contra-Ataca', 1980],
          ['O Retorno de Jedi', 1983]
    ],
    index=['Episódio 4', 'Episódio 5', 'Episódio 6'],
    columns=['Filmes', 'Ano de Lançamento']
)

df

Unnamed: 0,Filmes,Ano de Lançamento
Episódio 4,Guerra nas Estrelas,1977
Episódio 5,O Império Contra-Ataca,1980
Episódio 6,O Retorno de Jedi,1983


#### Exemplo 2

##### Lista

In [None]:
filme = ['O', 'Império', 'Contra', 'Ataca']
pd.DataFrame(filme)

Unnamed: 0,0
0,O
1,Império
2,Contra
3,Ataca


##### Conjunto

In [None]:
filme = ['O', 'Império', 'Contra', 'Ataca']
conjunto = set(filme)
pd.DataFrame(conjunto)

Unnamed: 0,0
0,Ataca
1,Contra
2,O
3,Império


##### Dicionário

In [None]:
dicionario = {
    'Filmes': ['Guerra nas Estrelas', 'O Império Contra-Ataca', 'O Retorno de Jedi'],
    'Ano de Lançamento': [1977, 1980, 1983]
}

df = pd.DataFrame(dicionario)
df

Unnamed: 0,Filmes,Ano de Lançamento
0,Guerra nas Estrelas,1977
1,O Império Contra-Ataca,1980
2,O Retorno de Jedi,1983


#### Exemplo 3

In [None]:
dataset = r'https://raw.githubusercontent.com/rafaelpuyau/infinity_school/main/ds/datasets/faturamento_quinzena_nov2021.csv'
df = pd.read_csv(dataset, sep=';')
df.head()

Unnamed: 0,data,estilo,quantidade de garrafas,preço da garrafa,total
0,2021-11-01,tinto,7,150.0,1050.0
1,2021-11-01,branco,4,75.0,300.0
2,2021-11-01,espumante,5,75.89,379.45
3,2021-11-02,tinto,3,150.0,450.0
4,2021-11-02,branco,2,75.0,150.0


#### Exemplo 4

Acesse os atributos do _DataFrame_

* _df.shape_
* _df.values_
* _df.index_
* _df.columns_
* _df.dtypes_

In [None]:
df.shape

(45, 5)

In [None]:
# Slice pegando os 3 primeiros valores do dataframe
df.values[:3]

array([['2021-11-01', 'tinto', 7, 150.0, 1050.0],
       ['2021-11-01', 'branco', 4, 75.0, 300.0],
       ['2021-11-01', 'espumante', 5, 75.89, 379.45]], dtype=object)

In [None]:
df.index

RangeIndex(start=0, stop=45, step=1)

In [None]:
df.columns

Index(['data', 'estilo', 'quantidade de garrafas', 'preço da garrafa',
       'total'],
      dtype='object')

In [None]:
df.dtypes

data                       object
estilo                     object
quantidade de garrafas      int64
preço da garrafa          float64
total                     float64
dtype: object

#### Exemplo 5

Colunas de um _DataFrame_ nada mais são que _Series_ __PANDAS__

In [None]:
type(df['estilo'])

pandas.core.series.Series

## Hora de praticar!

Agora que já aprendeu como criar _Series_ e _DataFrames_, é a sua vez de praticar tudo que aprendeu nesta aula.

1. Crie _Series_ com parâmetro posicional e depois com parâmetro nomeado (named parameter)
2. Adicione index a sua _Series_ (mude o index para valores inteiros, depois para string e veja o resultado)
3. Adicione um nome à sua _Series_
4. Crie mais de uma! (__Lembre-se : É hora de praticar!__)
5. Crie uma _Series_ com um tipo de dado e depois mude para outro tipo usando o método astype( )
6. Crie um _DataFrame_ de 2 colunas usando um dicionário
7. Recrie este mesmo _DataFrame_ através de lista e com index e columns
8. Veja todos os exemplos e refaça-os utilizando seus próprios exemplos e valores

__OBS__ : Crie o hábito de utilizar as teclas de atalho do _Google Colab_ para inserir novas células antes e depois da autal e, também, para alternar entre código e texto (markdown)

# Terminamos por hoje!