# Pandas

A biblioteca pandas prepara/organiza os dados
Este processo é chamado também de Data Muning
Tem uma boa integração com o Numpy

Dois conceitos principais:
- Series
- DataFrames

Site oficial: https://pandas.pydata.org/

Comando para Instalação: pip install pandas

In [1]:
#importando a biblioteca Pandas
import pandas as pd

# Series

Series são Arrays unidimensionais que contém uma lista de dadps e outra lista de índices

In [2]:
#criação de Series com geração automática de índices 
series_1 = pd.Series([14, 10, 4, 1])
print(series_1)

0    14
1    10
2     4
3     1
dtype: int64


In [3]:
#Criação de Series definindo os índices
series_2 = pd.Series([14, 10, 4, 1], index=['a', 'b', 'c', 'd'])
print(series_2)

a    14
b    10
c     4
d     1
dtype: int64


In [4]:
#retorna apenas os valores da Series
print(series_2.values)

[14 10  4  1]


In [5]:
#retorna apenas os índices da Series
print(series_2.index)

Index(['a', 'b', 'c', 'd'], dtype='object')


In [6]:
#retorna o valor correspondente ao índice 'b'
print(series_2['b'])

10


In [7]:
#Retorna uma Series contando apenas os valores superiores a 5
print(series_2[series_2>5])

a    14
b    10
dtype: int64


In [8]:
#Criando uma Series através de dicionário
dicionario_1 = {'a':14, 'b':10, 'c':4, 'd':1}
series_3 = pd.Series(dicionario_1)
print(series_3)

a    14
b    10
c     4
d     1
dtype: int64


In [15]:
#alteração do series_3 para um novo Series com um índice a mais
#neste caso, não possui valor correspondente a este índice (NaN - Not a Number)
series_4 = pd.Series(series_3, index=['a', 'b', 'c', 'd', 'e'])
print(series_4)

a    14.0
b    10.0
c     4.0
d     1.0
e     NaN
dtype: float64


In [16]:
#verifica quais posições possuem valores nulos (NaN)- retornando True neste caso
print(pd.isnull(series_4))

a    False
b    False
c    False
d    False
e     True
dtype: bool


In [17]:
#verifica quais posições possuem valores não nulos - retornando True neste caso
print(pd.notnull(series_4))

a     True
b     True
c     True
d     True
e    False
dtype: bool


In [18]:
#nomeando uma Series
series_4.name = 'Aula'
print(series_4)

a    14.0
b    10.0
c     4.0
d     1.0
e     NaN
Name: Aula, dtype: float64


# Dataframe

- Estrutura semelhante a uma planilha do Excel
- Possui colunas e linhas

In [19]:
dicionario_2 = {
    'Dias': ['Segunda', 'Terça', 'Quarta'],
    '7h': ['POO', 'BD', 'Algoritmos'],
    '8h': ['Análise', 'Back End', 'Front-End']
}

In [20]:
dataframe_1 = pd.DataFrame(dicionario_2)
print(dataframe_1)

      Dias          7h         8h
0  Segunda         POO    Análise
1    Terça          BD   Back End
2   Quarta  Algoritmos  Front-End


In [21]:
valores = [
    ['Segunda', 'Terça', 'Quarta'],
    ['POO', 'BD', 'Algoritmos'],
    ['Análise', 'Back End', 'Front-End']
]

colunas = ['Dias', '7h', '8h']

indices = ['a', 'b', 'c']

dataframe_2 = pd.DataFrame(valores, columns=colunas, index=indices)
print(dataframe_2)

      Dias        7h          8h
a  Segunda     Terça      Quarta
b      POO        BD  Algoritmos
c  Análise  Back End   Front-End


In [1]:
#importando a biblioteca Pandas
import pandas as pd

In [3]:
colunas = ['Disciplina', 'CH', 'Dia']

valores = [
    ['Algoritmos', 80, 'Segunda'],
    ['P. Orientadas a Objetos', 80, 'Terça'],
    ['Banco de dados', 40, 'Quarta']
]

indices = ['ALG', 'POO', 'BD']

dataframe_3 = pd.DataFrame(valores, columns=colunas, index=indices)

dataframe_3

Unnamed: 0,Disciplina,CH,Dia
ALG,Algoritmos,80,Segunda
POO,P. Orientadas a Objetos,80,Terça
BD,Banco de dados,40,Quarta


# Slicing em DataFrames

In [7]:
#Inserindo o nome de uma coluna, é retornando um DataFrame com 
#os valores apenas desta coluna
print(dataframe_3['Disciplina'])

ALG                 Algoritmos
POO    P. Orientadas a Objetos
BD              Banco de dados
Name: Disciplina, dtype: object


In [12]:
print(dataframe_3['Dia'])

ALG    Segunda
POO      Terça
BD      Quarta
Name: Dia, dtype: object


In [15]:
#Substituindo todos os valores de uma coluna (neste exemplo: CH)
novas_ch = [120, 120, 80]
dataframe_3['CH'] = novas_ch

dataframe_3

Unnamed: 0,Disciplina,CH,Dia
ALG,Algoritmos,120,Segunda
POO,P. Orientadas a Objetos,120,Terça
BD,Banco de dados,80,Quarta


In [20]:
'''
O slicing por padrão funciona por linha. No exemplo a seguir, imprime as
duas primeiras linhas.
'''
print(dataframe_3[0:2])

                  Disciplina   CH      Dia
ALG               Algoritmos  120  Segunda
POO  P. Orientadas a Objetos  120    Terça


In [21]:
#Imprime a primeira e a terceira linha
print(dataframe_3[0:3:2])

         Disciplina   CH      Dia
ALG      Algoritmos  120  Segunda
BD   Banco de dados   80   Quarta


In [30]:
#Slicing por coluna, imprimindo de Disciplina até CH
#Precisa usar a propriedade loc
dataframe_3.loc[:,'Disciplina':'CH']

Unnamed: 0,Disciplina,CH
ALG,Algoritmos,120
POO,P. Orientadas a Objetos,120
BD,Banco de dados,80


In [31]:
#Imprime todas as colunas até CH
dataframe_3.loc[:,:'CH']

Unnamed: 0,Disciplina,CH
ALG,Algoritmos,120
POO,P. Orientadas a Objetos,120
BD,Banco de dados,80


In [32]:
#Retorna um DataFrame da coluna CH até Dia
dataframe_3.loc[:,'CH':'Dia']

Unnamed: 0,CH,Dia
ALG,120,Segunda
POO,120,Terça
BD,80,Quarta


In [34]:
#a propriedade iloc permite fazer slicing de colunas através de índices
dataframe_3.iloc[:,1:3]

Unnamed: 0,CH,Dia
ALG,120,Segunda
POO,120,Terça
BD,80,Quarta


In [35]:
dataframe_3['CH'].describe()

count      3.000000
mean     106.666667
std       23.094011
min       80.000000
25%      100.000000
50%      120.000000
75%      120.000000
max      120.000000
Name: CH, dtype: float64