# Pandas

A biblioteca pandas prepara/organiza0 os dados
Este processo é chamado também de Data Muning
Tem uma boa integração com o Numpy

Dois conceitos principais:
- Series
- DataFrame

Site oficial: https://pandas.pydata.org/

Comando de intalação: pip install pandas

In [1]:
# Importando a biblioteca pandas
import pandas as pd

# Series

Series são Arraus unidimencionais que contém uma lista de dados e outra lista de índices

In [2]:
# Criação de Series com geração automatica de indices

series_1 = pd.Series([14, 10, 4, 1])
print(series_1)

0    14
1    10
2     4
3     1
dtype: int64


In [3]:
#  Criação de Series definindo os indices

series_2 = pd.Series([14, 10, 4, 1], index=['a', 'b', 'c', 'd'])
print(series_2)

a    14
b    10
c     4
d     1
dtype: int64


In [4]:
# Retorna apenas os valores da Series

print(series_2.values)

[14 10  4  1]


In [5]:
# Retorna apenas os indices da Series

print(series_2.index)

Index(['a', 'b', 'c', 'd'], dtype='object')


In [6]:
# Retorna o valor correspondente ao indice 'b'

print(series_2['b'])

10


In [7]:
# Retorna uma Series contendos os valoes superiosres a 5

print(series_2[series_2>5])

a    14
b    10
dtype: int64


In [8]:
# Criando uma Series através de dicionário

dicionario_1 = {'a': 14, 'b':10, 'c':4, 'd':1}
series_3 = pd.Series(dicionario_1)
print(series_3)

a    14
b    10
c     4
d     1
dtype: int64


In [9]:
# Alterando o series_3 para um novo Series com um indice a mais 
# neste caso, não possui valor correspondente a este indice (NaN - Not a Number)

series_4 = pd.Series(series_3, index=['a', 'b', 'c', 'd', 'e'])
print(series_4)

a    14.0
b    10.0
c     4.0
d     1.0
e     NaN
dtype: float64


In [10]:
# Verifca quais posições se encontra nulos (NaN) - retornando True neste caso

print(pd.isnull(series_4))

a    False
b    False
c    False
d    False
e     True
dtype: bool


In [11]:
# Verifca quais posições se encontra não nulos - retornando True neste caso

print(pd.notnull(series_4))

a     True
b     True
c     True
d     True
e    False
dtype: bool


In [12]:
# Nomeando uma Series

series_4.name = 'Aula'
print(series_4)

a    14.0
b    10.0
c     4.0
d     1.0
e     NaN
Name: Aula, dtype: float64


# DataFrame

- Estrutura semelhante a uma planilha do Excel
- Possui colunas e linhas

In [13]:
dicionario_2 = {
    'Dias': ['Segunda', 'Terça', 'Quarta'],
    '7h': ['POO', 'BD', 'algoritimo'],
    '8h': ['Análise', 'Back End', 'Front End']
}

In [14]:
dataframe_1 = pd.DataFrame(dicionario_2)
print(dataframe_1)

      Dias          7h         8h
0  Segunda         POO    Análise
1    Terça          BD   Back End
2   Quarta  algoritimo  Front End


In [17]:
# Jeito errado de escrevar uma tabela
valores = [
    ['Segunda', 'Terça', 'Quarta'],
    ['POO', 'BD', 'algoritimo'],
    ['Análise', 'Back End', 'Front End']
]
colunas = ['Dias', '7h', '8h']
indices = ['a', 'b', 'c']
dataframe_2 = pd.DataFrame(valores, columns=colunas, index=indices)
print(dataframe_2)

      Dias        7h          8h
a  Segunda     Terça      Quarta
b      POO        BD  algoritimo
c  Análise  Back End   Front End


In [21]:
# Importando a biblioteca pandas
import pandas as pd

In [25]:
# Jeito certo de escrevar uma tabela
colunas = ['Disciplinas', 'CH', 'Dia']
valores = [
    ['Algoritimos', 80, 'Segunda'],
    ['P.Orientadas a Objetos', 80, 'Terça'],
    ['Banco de dados', 40, 'Quarta']
]
indices = ['ALG','POO','BD']
dataframe_3 = pd.DataFrame(valores, columns=colunas, index=indices)
print(dataframe_3)

# Esse so funciona no jupyter, não funciona no VScode
dataframe_3

                Disciplinas  CH      Dia
ALG             Algoritimos  80  Segunda
POO  P.Orientadas a Objetos  80    Terça
BD           Banco de dados  40   Quarta


Unnamed: 0,Disciplinas,CH,Dia
ALG,Algoritimos,80,Segunda
POO,P.Orientadas a Objetos,80,Terça
BD,Banco de dados,40,Quarta


In [28]:
# Inserindo o nome da coluna, é retornado um DataFrame(tabelaPanda) com os valores apenas desta coluna
print(dataframe_3['Disciplinas'])
dataframe_3['Disciplinas']

ALG               Algoritimos
POO    P.Orientadas a Objetos
BD             Banco de dados
Name: Disciplinas, dtype: object


ALG               Algoritimos
POO    P.Orientadas a Objetos
BD             Banco de dados
Name: Disciplinas, dtype: object

In [30]:
print(dataframe_3['Dia'])

ALG    Segunda
POO      Terça
BD      Quarta
Name: Dia, dtype: object


In [32]:
# Subistituindo todos os valores de uma coluna (nest exeplo: CH)
novas_ch = [120, 120, 80]
dataframe_3['CH'] = novas_ch

dataframe_3

Unnamed: 0,Disciplinas,CH,Dia
ALG,Algoritimos,120,Segunda
POO,P.Orientadas a Objetos,120,Terça
BD,Banco de dados,80,Quarta


In [33]:
# O slicing por padrão funciona por linha. No exemplo a seguir, imprime as duas primeiras linhas das colunas.


print(dataframe_3[0:2])

                Disciplinas   CH      Dia
ALG             Algoritimos  120  Segunda
POO  P.Orientadas a Objetos  120    Terça


In [34]:
# Imprime a primeira e a terceira linha
print(dataframe_3[0:3:2])

        Disciplinas   CH      Dia
ALG     Algoritimos  120  Segunda
BD   Banco de dados   80   Quarta


In [46]:
# slicing por coluna, imprimindo de Disciplina até CH
# Precisa usar a propriedade "loc"

print(dataframe_3.loc[:,'Disciplinas':'CH'])

dataframe_3.loc[:,'Disciplinas':'CH']

                Disciplinas   CH
ALG             Algoritimos  120
POO  P.Orientadas a Objetos  120
BD           Banco de dados   80


Unnamed: 0,Disciplinas,CH
ALG,Algoritimos,120
POO,P.Orientadas a Objetos,120
BD,Banco de dados,80


In [47]:
# Imprime Disciplina e CH
dataframe_3.loc[:,:'CH']

Unnamed: 0,Disciplinas,CH
ALG,Algoritimos,120
POO,P.Orientadas a Objetos,120
BD,Banco de dados,80


In [48]:
# Retorna um DataFrame da coluna CH até dia 

print(dataframe_3.loc[:,'CH':'Dia'])

dataframe_3.loc[:,'CH':'Dia']

      CH      Dia
ALG  120  Segunda
POO  120    Terça
BD    80   Quarta


Unnamed: 0,CH,Dia
ALG,120,Segunda
POO,120,Terça
BD,80,Quarta


In [49]:
# A propriedade "iloc" permite fazer slicing de colunas atraves de indices
dataframe_3.iloc[:,1:3]

Unnamed: 0,CH,Dia
ALG,120,Segunda
POO,120,Terça
BD,80,Quarta


In [51]:
dataframe_3['CH'].describe()

count      3.000000
mean     106.666667
std       23.094011
min       80.000000
25%      100.000000
50%      120.000000
75%      120.000000
max      120.000000
Name: CH, dtype: float64