<p style ="text-align:center">
    <img src="http://epecora.com.br/DataFiles/PPGOLD_PPGMNE.png" width="700" alt="PPGOLD/PPGMNE Python:INTRO"  />
</p>

# Introdução ao Pandas
### Prof. Eduardo Pécora, Ph.D.

Aula 01

* Pandas Series
* Métodos
* Atributos
* Index

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'2.1.4'

## Tipos em Pandas

In [3]:
# Isto é uma lista
frutas = ["Maçã", "Banana", "Graviola", "Umbu", "Carambola", "Jaca"] # Lista
print(type(frutas))

#Mas, isto é uma série Pandas
pd.Series(frutas)

<class 'list'>


0         Maçã
1       Banana
2     Graviola
3         Umbu
4    Carambola
5         Jaca
dtype: object

In [4]:
#Mesmo princípio se aplica para listas numéricas
megaSena = [3, 12, 27, 30, 45, 59]
pd.Series(megaSena)

0     3
1    12
2    27
3    30
4    45
5    59
dtype: int64

In [5]:
#Mesmo princípio se aplica para listas booleanas
evento = [True, False, True, True, True, False, False]
pd.Series(evento)

0     True
1    False
2     True
3     True
4     True
5    False
6    False
dtype: bool

In [6]:
#Mesmo princípio se aplica para listas reais (float)
volume = [12.3, 45, 23.6, 92.2,0]
pd.Series(volume)

0    12.3
1    45.0
2    23.6
3    92.2
4     0.0
dtype: float64

In [7]:
#Mesmo princípio se aplica para dicionários
time = {
    "Athletico Paranaense": "PR",
    "Flamengo": "RJ",
    "São Paulo": "SP"
}
print(type(time))
pd.Series(time)

<class 'dict'>


Athletico Paranaense    PR
Flamengo                RJ
São Paulo               SP
dtype: object

## Métodos em Pandas

Em Pandas, os métodos são funções que podem ser aplicadas a objetos DataFrame ou Series para realizar diversas operações de manipulação e análise de dados. Estes são alguns dos principais métodos em Pandas:

* `head()` e `tail()`: Retornam as primeiras ou últimas linhas do DataFrame, respectivamente.
* `info()`: Fornece informações sobre o DataFrame, incluindo o tipo de dados de cada coluna e se há valores nulos.
* `sum()`: Retorna a soma dos valores
* `mean()`: retorna a média dos valores
* `describe()`: Gera estatísticas descritivas resumidas para colunas numéricas do DataFrame, como média, desvio padrão e quartis.
* `unique()`: Retorna os valores únicos em uma Series.
* `value_counts()`: Conta a frequência de cada valor único em uma Series.
* `groupby()`: Agrupa os dados com base em uma ou mais colunas e permite a aplicação de funções agregadas.
* `pivot_table()`: Cria uma tabela dinâmica a partir dos dados do DataFrame.
* `drop_duplicates()`: Remove linhas duplicadas do DataFrame.

Esses são apenas alguns exemplos dos métodos mais comuns em Pandas. Existem muitos outros métodos disponíveis para realizar uma variedade de operações de manipulação e análise de dados. Para mais informações veja a documentação do Pandas.

De modo genérico um método é uma função aplicada em um objeto. Seguem alguns exemplos de métodos em String e Listas.

In [8]:
# Método em STRING
"hello".upper()

'HELLO'

In [9]:
# Método em Listas
values = [1,2,3]
values.append(4)
values

[1, 2, 3, 4]

In [10]:
# Métodos em Pandas
preços = pd.Series([1.99, 3.00, 5.31])

In [11]:
preços.sum()

10.3

In [12]:
preços.mean()

3.4333333333333336

## Atributos em Pandas

Os atributos são características dos objetos DataFrame ou Series que fornecem informações sobre seus dados. Aqui estão alguns atributos comuns em Pandas, juntamente com exemplos de uso:

* `shape`: Retorna uma tupla representando a forma (número de linhas, número de colunas) do DataFrame.
* `columns`: Retorna uma lista dos rótulos das colunas do DataFrame.
* `index`: Retorna o índice (rótulos de linha) do DataFrame.
* `is_unique`: Retorna valor `True` caso não existam elementos repetidos e `False` caso contrário. 
* `dtypes`: Retorna uma série com os tipos de dados das colunas do DataFrame.
* `values`: Retorna uma matriz NumPy que representa os dados contidos no DataFrame.
* `empty`: Retorna True se o DataFrame estiver vazio (sem linhas ou colunas), caso contrário, retorna False.
* `size`: Retorna o número total de elementos no DataFrame (número de células).

Esses são apenas alguns exemplos de atributos em Pandas que podem ser úteis para obter informações sobre seus dados.

In [13]:
adjetivos = pd.Series(["inteligente", "lindo", "charmoso", "brilante", "honesto", "modesto"])
adjetivos

0    inteligente
1          lindo
2       charmoso
3       brilante
4        honesto
5        modesto
dtype: object

In [14]:
type(adjetivos)

pandas.core.series.Series

In [15]:
adjetivos.size

6

In [16]:
adjetivos.is_unique

True

In [17]:
adjetivos = pd.Series(["inteligente", "lindo", "charmoso", "brilante", "honesto", "modesto", "modesto"])
adjetivos.is_unique

False

In [18]:
adjetivos.shape

(7,)

In [19]:
adjetivos.values

array(['inteligente', 'lindo', 'charmoso', 'brilante', 'honesto',
       'modesto', 'modesto'], dtype=object)

In [20]:
type(adjetivos.values)

numpy.ndarray

In [21]:
adjetivos.index

RangeIndex(start=0, stop=7, step=1)

In [22]:
adjetivos.dtype

dtype('O')

## Index

Em Pandas, os índices são os rótulos associados às linhas e colunas de um DataFrame ou Series. Eles são essenciais para identificar e acessar os dados armazenados nos objetos Pandas. Existem dois tipos principais de índices em Pandas:

* Índice de Linha (Index)
* Índice de Coluna (Column Index)

In [23]:
frutas = ["Maçã", "Banana", "Graviola", "Umbu", "Carambola", "Jaca", "Laranja"]
diasSemana = ["Segunda-feira","Terça-feira","Quarta-feira","Quinta-feira","Sexta-feira","Sabado","Domingo"]

In [24]:
pd.Series()

Series([], dtype: object)

In [25]:
a=pd.Series(frutas, diasSemana)

In [26]:
print(a)
print(type(a))
print(len(a))
print(a.iloc[0])
print(a["Segunda-feira"])

Segunda-feira         Maçã
Terça-feira         Banana
Quarta-feira      Graviola
Quinta-feira          Umbu
Sexta-feira      Carambola
Sabado                Jaca
Domingo            Laranja
dtype: object
<class 'pandas.core.series.Series'>
7
Maçã
Maçã


In [27]:
b=pd.Series(diasSemana, frutas)

In [28]:
print(b)
print(type(b))
print(len(b))
print(b.iloc[0])
print(b["Graviola"])

Maçã         Segunda-feira
Banana         Terça-feira
Graviola      Quarta-feira
Umbu          Quinta-feira
Carambola      Sexta-feira
Jaca                Sabado
Laranja            Domingo
dtype: object
<class 'pandas.core.series.Series'>
7
Segunda-feira
Quarta-feira


In [29]:
c=pd.Series(index = diasSemana, data = frutas)

In [35]:
print(c)
print(type(c))
print(len(c))
print(c.iloc[0])
print(c["Jaca"]) #erro

Segunda-feira         Maçã
Terça-feira         Banana
Quarta-feira      Graviola
Quinta-feira          Umbu
Sexta-feira      Carambola
Sabado                Jaca
Domingo            Laranja
dtype: object
<class 'pandas.core.series.Series'>
7
Maçã


KeyError: 'Jaca'

## Erro de dimensões

In [36]:
frutas = ["Maçã", "Banana", "Graviola", "Umbu", "Carambola", "Jaca", "Laranja"]
diasSemana = ["Segunda-feira","Terça-feira","Quarta-feira","Quinta-feira","Sexta-feira","Sabado"]

In [37]:
len(frutas)

7

In [38]:
len(diasSemana)

6

In [39]:
pd.Series(index = diasSemana, data = frutas)

ValueError: Length of values (7) does not match length of index (6)

## Referências

* https://pandas.pydata.org/docs/

## Autor

<a href="https://www.linkedin.com/in/eduardopecora/" target="_blank">Eduardo Pecora</a>

## Log de modificações

| Data | Versão | Modificado por | Descrição |
| ----------------- | ------- | ---------- | ---------------------------------- |
| 07-05-2024       | 1.0     | Eduardo Pecora    | Inicial               |

<hr>

## <h3 align="center"> (c) Eduardo Pécora/ UFPR 2024. All rights reserved. <h3/>

