# Módulo de Programação Python

# Trilha Python - Aula 14: Utilizando Pandas - Introdução

<img align="center" style="padding-right:10px;" src="Figuras/aula-14_fig_01.png">

__Objetivo__:   Trabalhar com pacotes e módulos disponíveis em __Python__: __Pandas__: Discutir a importância de obter, carregar e organizar grandes volumes de dados. Apresentar Pandas e suas funcionalidades e características básicas. 

## Contextualização

Até aqui discutimos sobre a importância de trabalhar com estruturas de dados eficientes para armazenar grandes volumes de dados. Nas aulas anteriores foram apresentados os arrays de tipo fixo implementados na forma de _ndarrays_ da __NumPy__. 

Ainda que muito eficientes para armazenar e processar dados numéricos, os _ndarrays_ apresentam limitações para análise da dados não numéricos. 

Imaginem, no exemplo  que construímos na aula anterior, que queremos adicionar uma etiqueta ou rótulo a cada aluno com o nome ou o e-mail. 

O Pandas, e em particular seus objetos ``Series`` e ``DataFrame``, baseia-se no uso de _ndarrays_ de __NumPy__ e fornece acesso eficiente a esses tipos de tarefas de "gestão de dados" que ocupam muito do tempo de um cientista de dados.

Vamos abordar então em como utilizar  ``Series``, ``DataFrame`` e estruturas relacionadas de forma eficaz.

No ambiente virtual que utilizamos até qui temos os pacotes e módulos para rodar o _jupyter notebook_ e __NumPY__. Vamos começar então por instalar __Pandas__

In [1]:
#pip list
#pip freeze > requirements.txt
#cat requirements.txt
#pip install pandas

In [2]:
import numpy as np
import pandas as pd
print("Numpy version: ", np.__version__)
print("Pandas bersion: ", pd.__version__)

Numpy version:  1.26.2
Pandas bersion:  2.1.4


Os objetos Pandas podem ser considerados versões aprimoradas de matrizes _ndarrays_ de __NumPy__ nas quais as linhas e colunas são identificadas com rótulos em vez de simples índices inteiros. 

Da mesma forma que __NumPy__, ___Pandas__ fornece, além das estruturas de dados, uma série de ferramentas, métodos e funcionalidades úteis .

Vamos começar aprestando as estruturas básicas de __Pandas__.

In [3]:
from random import uniform
lista = [uniform(4, 10) for _ in range(5)]
for val in lista:
    print(f"{val:.2f}", end=" ")

8.61 7.07 5.29 4.47 7.08 

### __Pandas__ ``Series``

Uma ``Series`` __Pandas__ é uma matriz unidimensional de dados indexados. 

De forma simples um objeto da classe ``Series`` pode ser criado a partir de uma lista ou de um _ndarray_.

In [4]:
dSerie = pd.Series(lista)
dSerie

0    8.609825
1    7.068353
2    5.288375
3    4.467969
4    7.084139
dtype: float64

In [5]:
npArray = np.array(lista)
dSerie = pd.Series(npArray)
dSerie

0    8.609825
1    7.068353
2    5.288375
3    4.467969
4    7.084139
dtype: float64

Reparem que um objeto ``Series`` consiste em uma sequência de valores e sua correspondente sequência de índices, que podemos acessar com os atributos  ``values`` e ``index``.

In [6]:
print(dSerie.values)
print(type(dSerie.values))

[8.60982455 7.06835273 5.28837487 4.46796915 7.08413936]
<class 'numpy.ndarray'>


Já o tributo ``index`` é um objeto semelhante a um _ndarray_, de tipo ``pd.Index``.

In [7]:
print(dSerie.index)
print(type(dSerie.index))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


Os elementos de ``dSerie`` podem ser acessado via indexação.

In [8]:
dSerie[0]

8.609824548937056

In [9]:
dSerie[1:3]

1    7.068353
2    5.288375
dtype: float64

Pode parecer que um objeto da classe ``Sreies`` é semelhante a um _ndarrays_, podendo usar um o outro. Mas ...

In [11]:
print(dSerie.values[-1])
try:
    print(dSerie[-1])
except Exception as e:
    print(e)

7.08413936032588
-1


Entretanto, enquanto o _ndarray_ de __NumPy__ possui um índice inteiro, definido implicitamente, usado para acessar os valores, os objetos ``Series`` de __Pandas__ possuem um índice definido explicitamente, associado ao conjunto de valores.

Essa definição explícita de índice fornece recursos adicionais como, por exemplo, o fato de que o índice não precisa ser um número inteiro, mas pode consistir em valores de qualquer tipo desejado. 

Por exemplo, se desejarmos, podemos usar strings como índice:

In [13]:
dSerie = pd.Series(lista, index=['alpha', 'beta', 'gamma', 'delta', 'epsilon'])
dSerie

alpha      8.609825
beta       7.068353
gamma      5.288375
delta      4.467969
epsilon    7.084139
dtype: float64

In [14]:
print(dSerie.values[-1])
print(dSerie['epsilon'])

7.08413936032588
7.08413936032588


Podemos inclusive usar índices inteiros não contíguos ou não sequenciais.

In [15]:
dSerie = pd.Series(lista, index=[99, 87, 65, 43, 21])
dSerie

99    8.609825
87    7.068353
65    5.288375
43    4.467969
21    7.084139
dtype: float64

In [16]:
print(dSerie.values[-1])
print(dSerie[21])

7.08413936032588
7.08413936032588


In [17]:
dSerie = pd.Series(lista, index=[0.1, 0.01, 0.001, 0.0001, 0.00001])
dSerie

0.10000    8.609825
0.01000    7.068353
0.00100    5.288375
0.00010    4.467969
0.00001    7.084139
dtype: float64

Podemos então pensar as ``Sreies`` __Pandas__ como uma forma particular e específica de dicionário __Python__. 

* Um dicionário __Python__ é uma estrutura que mapeia chaves arbitrárias para um conjunto de valores arbitrários
* Um objeto ``Series`` é uma estrutura que mapeia chaves de tipo fixo para um conjunto de valores de tipo fixo. 

O fato de tratar de chaves e valores tipados é importante: assim como o código compilado, específico de cada tipo, por trás de um _ndarray_ __NumPy__, o torna mais eficiente do que uma lista __Python__ para determinadas operações, as informações de tipo de um ``Series`` __Pandas__ o tornam muito mais eficiente do que os dicionários __Python__ para determinadas operações.

A analogia da série como dicionário pode ficar ainda mais evidente quando constatamos que podemos construir um objeto ``Series`` diretamente de um dicionário __Python__:

In [18]:
popPorEstadoDic = { 'São Paulo': 44411238, 'Minas Gerais':20538718, 'Rio de Janeiro':16054524,	
                'Bahia':14141626, 'Paraná':11444380, 'Rio Grande do Sul':10882965, 
                'Pernambuco':9058931, 'Ceará':8794957}
popPorEstadoSer = pd.Series(popPorEstadoDic)
popPorEstadoSer

São Paulo            44411238
Minas Gerais         20538718
Rio de Janeiro       16054524
Bahia                14141626
Paraná               11444380
Rio Grande do Sul    10882965
Pernambuco            9058931
Ceará                 8794957
dtype: int64

Nesta construção é criada um objeto ``Series`` onde o índice é extraído das chaves do dicionário.

Uma vez criado o acesso aos elementos repete a sintaxes típica dos dicionário __Python__.

In [19]:
print("A população da Bahia, segundo o IBGE, é de", popPorEstadoSer['Bahia'], "habitantes")

A população da bahia, segundo o IBGE, é de 14141626 habitantes


Por outro lado, diferente de um dicionário, ``Series`` também suportam operações no estilo array, como _slicing_.

In [20]:
print(popPorEstadoSer['Bahia':'Pernambuco'])

Bahia                14141626
Paraná               11444380
Rio Grande do Sul    10882965
Pernambuco            9058931
dtype: int64


Vamos explorar então as formas de ciar ``Series``. Já vimos que podemos passar um conjunto de dados, na forma de uma lista ou de um _ndarray_. Neste caso os índices são criados como de forma sequencial como inteiros que correspondem aos índices do _ndarray_. 

In [21]:
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]
brasileirão = pd.Series(títulos)
brasileirão

0     12
1      8
2      8
3      7
4      6
5      4
6      4
7      4
8      3
9      3
10     2
11     2
12     2
13     1
14     1
15     1
16     1
dtype: int64

Mas podemos acrescentar os índices na forma de uma lista.

In [22]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
₢

Palmeiras        12
Santos            8
Flamengo          8
Corinthians       7
São Paulo         6
Cruzeiro          4
Fluminense        4
Vasco             4
Internacional     3
Atlético-MG       3
Bahia             2
Botafogo          2
Grêmio            2
Athletico-PR      1
Coritiba          1
Guarani           1
Sport             1
dtype: int64


Quando a lista de índices é fornecida o valor pode ser apenas um escalar. Neste caso o valor é repetido para cada índice.

In [24]:
brasileirão = pd.Series(1, index=campBrasileiros)
brasileirão

Palmeiras        1
Santos           1
Flamengo         1
Corinthians      1
São Paulo        1
Cruzeiro         1
Fluminense       1
Vasco            1
Internacional    1
Atlético-MG      1
Bahia            1
Botafogo         1
Grêmio           1
Athletico-PR     1
Coritiba         1
Guarani          1
Sport            1
dtype: int64

Como já vimos, os dados podem ser fornecidos na forma de um dicionário __Python__.

In [31]:
dicBrasileirao = {2:'Santos', 4:'Corinthians', 3:'Flamengo',  1:'Palmeiras'}
brasileirão = pd.Series(dicBrasileirao)
print(brasileirão)
print(type(brasileirão.values))

2         Santos
4    Corinthians
3       Flamengo
1      Palmeiras
dtype: object
<class 'numpy.ndarray'>


Mesmo quando fornecido um dicionário podemos escolher apenas um subconjunto dos elementos especificando uma lista de iíndices. 

In [32]:
brasileirão = pd.Series(dicBrasileirao, index=[2,3,4])
print(brasileirão)


2         Santos
3       Flamengo
4    Corinthians
dtype: object


In [None]:
Palmeiras	12	1960, 1967, 1967, 1969, 1972, 1973, 1993, 1994, 2016, 2018, 2022 e 2023
Santos	8	1961, 1962, 1963, 1964, 1965, 1968, 2002 e 2004
Flamengo	8	1980, 1982, 1983, 1987, 1992, 2009, 2019 e 2020
Corinthians	7	1990, 1998, 1999, 2005, 2011, 2015 e 2017
São Paulo	6	1977, 1986, 1991, 2006, 2007 e 2008
Cruzeiro	4	1993, 1996, 2000, 2003, 2017 e 2018
Fluminense	4	1970, 1984, 2010 e 2012
Vasco	4	1974, 1989, 1997 e 2000
Internacional	3	1975, 1976 e 1979
Atlético-MG	3	1937, 1971 e 2021
Bahia	2	1959 e 1988
Botafogo	2	1968 e 1995
Grêmio	2	1981 e 1996
Athletico-PR	1	2001
Coritiba	1	1985
Guarani	1	1978
Sport	1	1987

### __Pandas__ ``DataFrame``

Da mesma forma que os objetos ``Series``, o ``DataFrame`` pode ser pensado como uma generalização de um _ndarray_ __NumPy__ ou como uma especialização de um dicionário __Python__.

Se um objeto ``Series`` é análogo a uma matriz unidimensional com índices flexíveis, ``um DataFrame`` pode ser visto como uma estrutura análoga a uma matriz bidimensional com índices de linha e nomes de colunas flexíveis. Você pode pensar em um ``DataFrame`` como uma sequência de objetos ``Series`` alinhados. Aqui, por “alinhado” queremos dizer que eles compartilham o mesmo índice.

In [33]:
torcidas= {'Flamengo':46953599, 'Corinthians':30444799, 'Palmeiras':20225600, 'Santos':6646400}
torcidaSer = pd.Series(torcidas)
torcidaSer 

Flamengo       46953599
Corinthians    30444799
Palmeiras      20225600
Santos          6646400
dtype: int64

In [35]:
dicBrasileirao = {'Santos':8, 'Corinthians':7, 'Flamengo':8,  'Palmeiras':12}
brasileirão = pd.Series(dicBrasileirao)
brasileirão

Santos          8
Corinthians     7
Flamengo        8
Palmeiras      12
dtype: int64

In [36]:
times = pd.DataFrame({'Títulos':brasileirão, 'Torcida':torcidaSer})
times

Unnamed: 0,Títulos,Torcida
Corinthians,7,30444799
Flamengo,8,46953599
Palmeiras,12,20225600
Santos,8,6646400


Assim como o objeto ``Series``, o ``DataFrame`` possui um atributo de índice que dá acesso aos rótulos das linhas.

In [37]:
times.index

Index(['Corinthians', 'Flamengo', 'Palmeiras', 'Santos'], dtype='object')

Além disso, o ``DataFrame`` possui um atributo ``columns``, que é um objeto Index que contém os rótulos das colunas.

In [38]:
times.columns

Index(['Títulos', 'Torcida'], dtype='object')

Desta forma, o ``DataFrame`` pode ser pensado como uma generalização de um _ndarray_ __NumPy__ bidimensional, onde tanto as linhas quanto as colunas possuem um índice generalizado para acessar os dados.

O primeiro exemplo mostrou como criar um ``DataFrame`` a partir de dois ``Series``. Também podemos construir um ``DataFrame`` a partir de uma lista de dicionários.



In [40]:
dicBrasileirao = {'Santos':8, 'Corinthians':7, 'Flamengo':8,  'Palmeiras':12}
torcidas= {'Flamengo':46953599, 'Corinthians':30444799, 'Palmeiras':20225600, 'Santos':6646400}

times = pd.DataFrame([torcidas, dicBrasileirao], index=['Torcida', 'Títulos'])
times

Unnamed: 0,Flamengo,Corinthians,Palmeiras,Santos
Torcida,46953599,30444799,20225600,6646400
Títulos,8,7,12,8


No caso de faltarem algumas chaves nos dicionários, o __Pandas__ irá preenchê-las com valores __NaN__.

In [42]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco da Gama', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]

for time, titulo in zip(campBrasileiros, títulos):
    dicBrasileirao[time] = titulo

times = ['Flamengo', 'Corinthians', 'São Paulo', 'Palmeiras', 'Vasco da Gama', 'Cruzeiro', 
         'Grêmio', 'Atlético-MG', 'Bahia', 'Internacional', 'Fluminense', 'Santos', 'Botafogo', 'Sport']

torcida = [46953599, 30444799, 22225800, 20225600, 13292800, 13078400, 9862400, 9219199, 
           7718400, 7504000, 7289600, 6646400, 4288000, 4073600]

for time, torc in zip(times, torcida):
    torcidas[time] = torc

times = pd.DataFrame([torcidas, dicBrasileirao], index=['Torcida', 'Títulos'])
times

Unnamed: 0,Flamengo,Corinthians,Palmeiras,Santos,São Paulo,Vasco da Gama,Cruzeiro,Grêmio,Atlético-MG,Bahia,Internacional,Fluminense,Botafogo,Sport,Athletico-PR,Coritiba,Guarani
Torcida,46953599,30444799,20225600,6646400,22225800,13292800,13078400,9862400,9219199,7718400,7504000,7289600,4288000,4073600,,,
Títulos,8,7,12,8,6,4,4,2,3,2,3,4,2,1,1.0,1.0,1.0


Podemos utilizar também dicionários de ``Series``.

In [43]:
campBrasileiros = ['Palmeiras', 'Santos', 'Flamengo', 'Corinthians', 'São Paulo', 
                   'Cruzeiro', 'Fluminense', 'Vasco da Gama', 'Internacional', 'Atlético-MG',
                    'Bahia', 'Botafogo', 'Grêmio', 'Athletico-PR', 'Coritiba', 'Guarani', 'Sport']
títulos = [12, 8, 8, 7, 6, 4, 4, 4, 3, 3, 2, 2, 2, 1, 1, 1, 1]

for time, titulo in zip(campBrasileiros, títulos):
    dicBrasileirao[time] = titulo

timTitulos = pd.Series(dicBrasileirao)

times = ['Flamengo', 'Corinthians', 'São Paulo', 'Palmeiras', 'Vasco da Gama', 'Cruzeiro', 
         'Grêmio', 'Atlético-MG', 'Bahia', 'Internacional', 'Fluminense', 'Santos', 'Botafogo', 'Sport']

torcida = [46953599, 30444799, 22225800, 20225600, 13292800, 13078400, 9862400, 9219199, 
           7718400, 7504000, 7289600, 6646400, 4288000, 4073600]

for time, torc in zip(times, torcida):
    torcidas[time] = torc

timTorcida = pd.Series(torcidas)

times = pd.DataFrame({'Títulos':timTitulos, 'Torcida':timTorcida})
times

Unnamed: 0,Títulos,Torcida
Athletico-PR,1,
Atlético-MG,3,9219199.0
Bahia,2,7718400.0
Botafogo,2,4288000.0
Corinthians,7,30444799.0
Coritiba,1,
Cruzeiro,4,13078400.0
Flamengo,8,46953599.0
Fluminense,4,7289600.0
Grêmio,2,9862400.0


E, pensando num ``DataFrame`` como um generalização de um _ndarray_ __NumPy__ bidimensional, podemos construir um ``DataFrame`` usando uma _ndarray_.

In [45]:
títulos = [12, 8, 8, 7]
torcida = [20225600, 6646400, 46953599, 30444799]
tittor = np.array([títulos, torcida])
print(tittor.T)
tittor = pd.DataFrame(tittor.T, columns=['Títulos', 'Torcida'], 
                      index=['Palmeiras', 'Santos', 'Flamengo', 'Corinthians'])

print(tittor)

[[      12 20225600]
 [       8  6646400]
 [       8 46953599]
 [       7 30444799]]
             Títulos   Torcida
Palmeiras         12  20225600
Santos             8   6646400
Flamengo           8  46953599
Corinthians        7  30444799
