<center>

<img src="https://www.infnet.edu.br/infnet/wp-content/uploads/sites/18/2021/10/infnet-30-horizontal-padrao@300x-8-1024x265.png" width="60%"/>
</center>

---

# Algoritmos de Inteligência Artificial para clusterização [25E4_2]
## MIT em Inteligência Artificial, Machine Learning e Deep Learning em Data Science

---

__Conteúdo:__

- Pandas - Parte I:
  - Visão Geral
  - Terminologia
  - Estruturas de Dados

## Referências de apoio:

* [pandas](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) é uma biblioteca para análise de dados em Python, de código aberto, licenciada por BSD, utiliza o conceito de dataframes que funcionam como uma matriz de dados, formada por linhas e colunas.

* Documentação da biblioteca [matplotlib](https://matplotlib.org/).

* Ciência de Dados com Reprodutibilidade usando Jupyter, disponível: https://doi.org/10.5753/sbc.6757.3.1

* Uma introdução à análise de dados usando pandas, matplotlib e seaborn, disponívei em: https://sol.sbc.org.br/index.php/eri-mt/article/view/31223

* Introdução à Análise Exploratória de Dados com Python, disponível em https://www.researchgate.net/publication/336778766_Introducao_a_Analise_Exploratoria_de_Dados_com_Python

### Bibliotecas necessárias

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
print("Numpy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("Matplotlib version:", plt.matplotlib.__version__)
print("Seaborn version:", sns.__version__)

Numpy version: 2.0.2
Pandas version: 2.2.2
Matplotlib version: 3.10.0
Seaborn version: 0.13.2


---
## Pandas - Parte I
---

O Pandas é uma biblioteca licenciada com código aberto que oferece estruturas de dados de alto desempenho e de fácil utilização voltado a análise de dados para a linguagem de programação Python.
- Transforma dados de entrada em uma tabela de dados
- Componentes chave
  - Series (Séries)
  - DataFrame

### Séries (Series)
- Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices), criado sobre o numpy
- Se um índice não for informado explicitamente, Pandas cria um automaticamente (equivalente a `range(N)`, sendo N é o tamanho dos seus dados)
- O índice é usado para implementar buscas rápidas, alinhamento de dados e operações de junção (como join em SQL)
- Suporta índices hierárquicos, onde cada label é uma tupla

In [3]:
my_series = pd.Series([1, 3, 5, 7, 6, 8])
print(my_series)

0    1
1    3
2    5
3    7
4    6
5    8
dtype: int64


In [4]:
other_series = pd.Series([1, 3, 5, 7, 6, 8], index=['a', 'b', 'c', 'd', 'e', 'f'])
print(other_series)

a    1
b    3
c    5
d    7
e    6
f    8
dtype: int64


- Conteúdos podem ser acessados via um ou mais índices

In [5]:
my_series[0]

np.int64(1)

In [6]:
other_series['d']

np.int64(7)

- slicing funciona para índices numéricos e nominais

In [7]:
my_series

Unnamed: 0,0
0,1
1,3
2,5
3,7
4,6
5,8


In [8]:
my_series[2:4]

Unnamed: 0,0
2,5
3,7


In [9]:
my_series[1:3]

Unnamed: 0,0
1,3
2,5


In [10]:
other_series['a':'c']

Unnamed: 0,0
a,1
b,3
c,5


In [11]:
my_series[2:]

Unnamed: 0,0
2,5
3,7
4,6
5,8


In [12]:
my_series[:4]

Unnamed: 0,0
0,1
1,3
2,5
3,7


- máscaras boolenas também podem ser usadas

In [13]:
new_series = pd.Series([i for i in range(10, 60, 3)])
new_series

Unnamed: 0,0
0,10
1,13
2,16
3,19
4,22
5,25
6,28
7,31
8,34
9,37


In [14]:
mask = new_series > 30
mask

Unnamed: 0,0
0,False
1,False
2,False
3,False
4,False
5,False
6,False
7,True
8,True
9,True


In [15]:
new_series[mask]

Unnamed: 0,0
7,31
8,34
9,37
10,40
11,43
12,46
13,49
14,52
15,55
16,58


In [16]:
new_series[~mask]

Unnamed: 0,0
0,10
1,13
2,16
3,19
4,22
5,25
6,28


In [18]:
new_series % 2 == 0

Unnamed: 0,0
0,True
1,False
2,True
3,False
4,True
5,False
6,True
7,False
8,True
9,False


In [19]:
other_mask = (new_series >= 20) & (new_series % 2 == 0)
new_series[other_mask]

Unnamed: 0,0
4,22
6,28
8,34
10,40
12,46
14,52
16,58


- reindex
  - modifica o valor do índice, adiciona valores faltantes ou preenche valores faltantes

In [20]:
series_1 = pd.Series(range(5, 25, 5))
series_1

Unnamed: 0,0
0,5
1,10
2,15
3,20


In [21]:
series_1.reindex([3,4,0,2,5,6])

Unnamed: 0,0
3,20.0
4,
0,5.0
2,15.0
5,
6,


In [22]:
series_1.reindex([3,4,0,2,5,6], fill_value=100)

Unnamed: 0,0
3,20
4,100
0,5
2,15
5,100
6,100


- Operações aritméticas (realizada de acordo com o "match" dos indices)

In [23]:
series_1 = pd.Series([1, 2, 3, 4, 5])
series_2 = pd.Series([10, 20, 30, 40, 50])

series_1 + series_2

Unnamed: 0,0
0,11
1,22
2,33
3,44
4,55


- é possívle organizar os elementos de uma série pelo índice ou pelos valores

In [26]:
series_3 = pd.Series(np.random.randn(5), index=['e', 'c', 'a', 'b', 'd'])
series_3

Unnamed: 0,0
e,-0.323926
c,-0.590191
a,-0.019997
b,0.302371
d,-0.273592


In [27]:
series_3.sort_index()

Unnamed: 0,0
a,-0.019997
b,0.302371
c,-0.590191
d,-0.273592
e,-0.323926


In [28]:
series_3.sort_values()

Unnamed: 0,0
c,-0.590191
e,-0.323926
d,-0.273592
a,-0.019997
b,0.302371


In [30]:
series_3.sort_values(ascending=False)

Unnamed: 0,0
b,0.302371
a,-0.019997
d,-0.273592
e,-0.323926
c,-0.590191


- Há muitos métodos implementados para operar nos valores. Alguns exemplo, são:
  - unique()
  - value_counts()
  - isin()
  - ...(muito mais na parte II, próxima aula)

In [32]:
s = pd.Series(['c', 'a', 'a', 'd', 'e', 'e', 'e', 'd'])
s

Unnamed: 0,0
0,c
1,a
2,a
3,d
4,e
5,e
6,e
7,d


In [33]:
s.unique()

array(['c', 'a', 'd', 'e'], dtype=object)

In [34]:
s.value_counts()

Unnamed: 0,count
e,3
a,2
d,2
c,1


In [35]:
s.isin(['a', 'e'])

Unnamed: 0,0
0,False
1,True
2,True
3,False
4,True
5,True
6,True
7,False


In [36]:
s[s.isin(['a', 'e'])]

Unnamed: 0,0
1,a
2,a
4,e
5,e
6,e


In [None]:
help(s)

In [38]:
help(s.unique)

Help on method unique in module pandas.core.series:

unique() -> 'ArrayLike' method of pandas.core.series.Series instance
    Return unique values of Series object.

    Uniques are returned in order of appearance. Hash table-based unique,
    therefore does NOT sort.

    Returns
    -------
    ndarray or ExtensionArray
        The unique values returned as a NumPy array. See Notes.

    See Also
    --------
    Series.drop_duplicates : Return Series with duplicate values removed.
    unique : Top-level unique method for any 1-d array-like object.
    Index.unique : Return Index with unique values from an Index object.

    Notes
    -----
    Returns the unique values as a NumPy array. In case of an
    extension-array backed Series, a new
    :class:`~api.extensions.ExtensionArray` of that type with just
    the unique values is returned. This includes

        * Categorical
        * Period
        * Datetime with Timezone
        * Datetime without Timezone
        * Timedelta
 

In [40]:
help(dir)

Help on built-in function dir in module builtins:

dir(...)
    dir([object]) -> list of strings

    If called without an argument, return the names in the current scope.
    Else, return an alphabetized list of names comprising (some of) the attributes
    of the given object, and of attributes reachable from it.
    If the object supplies a method named __dir__, it will be used; otherwise
    the default dir() logic is used and returns:
      for a module object: the module's attributes.
      for a class object:  its attributes, and recursively the attributes
        of its bases.
      for any other object: its attributes, its class's attributes, and
        recursively the attributes of its class's base classes.



In [39]:
dir(s)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__bool__',
 '__class__',
 '__column_consortium_standard__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__

In [41]:
type(s)

### DataFrames
Dataframe é uma estrutura de dados tabular bidimensional e mutável em tamanho, potencialmente heterogênea, com eixos rotulados (linhas e colunas).
- Possui índices de linhas e colunas
- Pode ser interpretado como um dicionário de Séries (cada série em uma linha) em que todas as Séries compartilham o mesmo conjunto de índices (os índices das colunas)

Dataframes podem ser criados de muitas maneiras diferentes:
- __2-D NumPy array:__ Uma matriz de dados, podendo passar os índices de linha e coluna
- __Dict of arrays, lists, or tuples:__ Cada sequência se torna uma coluna. As sequências devem ter o mesmo número de elementos
- __Dict of Series:__ Cada séries se torna uma coluna. Índices de cada séries são unidos para formar o índice das linhas
- __Dict of dicts:__ Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os índices das linhas
- __List of dicts or Series:__ Cada item se torna uma linha no DataFrame. A unidão das chaves (para dicionário) ou índices (para Séries) gera o índice das colunas
- __List of lists or tuples:__	Similar a uma matriz do numpy
- __DataFrame:__ O índice do DataFrame é mantido a não ser que um novo seja fornecido
- __NumPy masked array:__ Matriz de dados em que valores falso se tornam NaN


**Atenção:** Duas funções são muito úteis para analisar rapidamente um novo DataFrame: df.head() e df.dtypes()

#### Manipulando e Acessando Colunas

- Colunas podem ser acessadas:
  - usando seus rótulos dentro de []
  - usando rótulo como atributo
  - usando lista de rótulos dentro de [] (acessa várias colunas)

- Colunas podem ser criadas simplesmente criando um novo rótulo
- Colunas podem ser removidas usando o método `drop` ou `del`

#### Manipulando e Acessando Linhas

- linhas podem ser acessadas usando:
  - iloc: manipula o DataFrame como uma matriz com índices inteiros, assim como no Numpy
  - loc: seleciona linhas pelos rótulos (índices) ou por máscara booleana

- Assim como nas Séries, também é possível ordernar por índice, mas ao ordernar por valor é necessário definir a coluna

**Atenção:** sort_values, gera uma cópia. Para modificar o DataFrame, deve-se passar o parâmetro `inplace = True`

## Carregando arquivos
Pandas permite diversas maneiras de carregas arquivos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

---

__Licensa__

![](https://drive.google.com/uc?export=view&id=1Uq7UxJPT9ytP0ABv8hYNWo9ciDZB7guX)

*This work is licensed under the Creative Commons Attribution-NonCommercial 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-nc/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.*