Disciplina: Ciência de Dados

Professor: Wilson Castello Branco Neto

Aula 1 - Exemplo 3: Pandas

Nome: Patriki de Oliveira Góss

Pandas é uma biblioteca que contém estruturas de dados e funções para trabalhar com dados tabulares. Ela facilita o processo de pré-processamento e limpeza dos dados. Suas principais estruturas são:

Series
Dataframe
Em geral é usada em conjunto com o NumPy, a principal diferença é que ela aceita dados heterogêneos enquanto o NumPy trabalha com dados homogêneos.

Para usá-lo em um programa Python, deve-se importar o módulo no início do programa.

In [2]:
import pandas as pd
import numpy as np

Series

Uma series é uma estrutura do tipo array unidimensional, contendo uma sequência de valores semelhante ao NumPy, e um array associado com os rótulos (labels) dos dados, que é chamado de índice.

Embora os dados na series criada com o Pandas e do ndarray criado com o NumPy sejam os mesmos e possam ser acessados da mesma forma, percebe-se que a series já apresenta os índices automaticamente. Neste caso de uma series simples, eles são os mesmos índices usados no ndarray do NumPy ou em uma lista em Python

In [3]:
a = pd.Series([1,2,3,4])
print("Series criada com o Pandas")
print(a)
print(a[1])

b = np.array([1,2,3,4])
print("ndarray criado com o NumPy")
print(b)
print(b[1])

Series criada com o Pandas
0    1
1    2
2    3
3    4
dtype: int64
2
ndarray criado com o NumPy
[1 2 3 4]
2


A utilização de uma series torna-se mais interessante quando desejamos usar valores diferentes, inclusive strings, para indexar cada valor.

In [4]:
a = pd.Series([5,7,10,1],index=['Maria','João','Paulo','Pedro'])
print("Series com os nomes dos alunos e suas notas")
print(a)
print("Nota do Paulo:",a['Paulo'])


print("Nota da Maria e do João: ")
print(a[['Maria','João']])

Series com os nomes dos alunos e suas notas
Maria     5
João      7
Paulo    10
Pedro     1
dtype: int64
Nota do Paulo: 10
Nota da Maria e do João: 
Maria    5
João     7
dtype: int64


É possível usar slices em series Pandas. Diferente do fatiamento de uma lista ou de um vetor NumPy, no fatiamento de uma series o último valor também é apresentado.

In [5]:
a = pd.Series([5,7,10,1],index=['Maria','João','Paulo','Pedro'])

print("Notas dos três primeiros alunos")
print(a['Maria':'Paulo'])

Notas dos três primeiros alunos
Maria     5
João      7
Paulo    10
dtype: int64


É possível usar operações e funções do NumPy em uma series do Pandas

In [6]:
a = pd.Series([5,7,10,1],index=['Maria','João','Paulo','Pedro'])

b = a * 2
print("Notas multiplicadas por 2:")
print(b,"\n")

c = np.sqrt(a)
print("Raiz quadrada das notas:")
print(c,"\n")

aprovados = a[a >= 7]
print("Lista de aprovados")
print(aprovados)

Notas multiplicadas por 2:
Maria    10
João     14
Paulo    20
Pedro     2
dtype: int64 

Raiz quadrada das notas:
Maria    2.236068
João     2.645751
Paulo    3.162278
Pedro    1.000000
dtype: float64 

Lista de aprovados
João      7
Paulo    10
dtype: int64


Uma series do Pandas tem comportamento semelhante aos dicionários e pode ser gerada automaticamente a patir de um deles.

In [7]:
dic = {'111':'João', '112': 'Maria', '237': 'Paulo', '538': 'José'}
print("Dicionário")
print(dic,"\n")

serie = pd.Series(dic)
print("Series")
print(serie,"\n")

Dicionário
{'111': 'João', '112': 'Maria', '237': 'Paulo', '538': 'José'} 

Series
111     João
112    Maria
237    Paulo
538     José
dtype: object 



In [8]:
nomes=['Maria','João','Paulo','Pedro']
notas = [5,7,10,np.nan]
a = pd.Series(notas,index = nomes)
print("Series criada sem a nota do Pedro")
print(a,"\n")

b = pd.isnull(a)
print("Verificação dos valores nulos")
print(b,"\n")

c = pd.notnull(a)
print("Verificação dos valores NÃO nulos")
print(c,"\n")

d = pd.isnull(a).sum()
print("Funções estatísticas podem ser usadas para resumir os dados nulos ou não nulos")
print("Quantidade de nulos:",d,"\n")

e = a.dropna()
print("DataFrame sem as linhas com valores nulos")
print(e)

Series criada sem a nota do Pedro
Maria     5.0
João      7.0
Paulo    10.0
Pedro     NaN
dtype: float64 

Verificação dos valores nulos
Maria    False
João     False
Paulo    False
Pedro     True
dtype: bool 

Verificação dos valores NÃO nulos
Maria     True
João      True
Paulo     True
Pedro    False
dtype: bool 

Funções estatísticas podem ser usadas para resumir os dados nulos ou não nulos
Quantidade de nulos: 1 

DataFrame sem as linhas com valores nulos
Maria     5.0
João      7.0
Paulo    10.0
dtype: float64


Dataframe

Um dataframe é uma estrutura bidimensional (uma tabela) com várias colunas, que permite o armazenamento de dados heterogêneos. Ele possui índices para suas colunas e para suas linhas. Ele pode ser visto como um dicionário de series.

Existem diferentes maneiras de criar um Dataframe, inclusive por meio da leitura de arquivos csv. Uma abordagem simples é por meio de um dicionário de listas.

In [9]:
dados = {'nome': ['Maria','João','Paulo','Pedro'],
         'nota1': [8,7,5,2],
         'nota2': [5,19,4,10],
         'nota3': [6,8,14,9]  };

print("Dicionário com os nomes e as notas de cada aluno")
print(dados)

df = pd.DataFrame(dados)
print("\nDataFrame com os nomes e as notas de cada aluno")
print(df)

Dicionário com os nomes e as notas de cada aluno
{'nome': ['Maria', 'João', 'Paulo', 'Pedro'], 'nota1': [8, 7, 5, 2], 'nota2': [5, 19, 4, 10], 'nota3': [6, 8, 14, 9]}

DataFrame com os nomes e as notas de cada aluno
    nome  nota1  nota2  nota3
0  Maria      8      5      6
1   João      7     19      8
2  Paulo      5      4     14
3  Pedro      2     10      9


Podemos fazer com que qualquer uma das colunas do Dataframe torne-se o índice de suas linhas, o que facilita consultas futuras.

In [10]:
df = df.set_index('nome')

print("Dataframe com a coluna nome como índice")
print(df)

Dataframe com a coluna nome como índice
       nota1  nota2  nota3
nome                      
Maria      8      5      6
João       7     19      8
Paulo      5      4     14
Pedro      2     10      9


Para gerar uma series a partir de uma coluna de um DataFrame, basta indicar o seu índice.

In [11]:
notas = df['nota2']
print("Series gerada com uma coluna do DataFrame")
print(notas)

Series gerada com uma coluna do DataFrame
nome
Maria     5
João     19
Paulo     4
Pedro    10
Name: nota2, dtype: int64


loc e iloc

Para acessar os dados de uma linha ou de uma célula específica do Dataframe, pode-se usar as seguintes funções:

loc: retorna uma linha a partir do seu índice.
iloc: retorna uma linha a partir de sua posição.

In [12]:
linha = df.loc['João']
print("Todos os dados da linha do aluno João")
print(linha)
print("Nota na primeira prova do aluno João:",linha['nota1'])

Todos os dados da linha do aluno João
nota1     7
nota2    19
nota3     8
Name: João, dtype: int64
Nota na primeira prova do aluno João: 7


In [13]:
linha = df.iloc[1]
print("Todos os dados da linha do aluno 1")
print(linha)
print("Nota na primeira prova do aluno 1:",linha['nota1'])

Todos os dados da linha do aluno 1
nota1     7
nota2    19
nota3     8
Name: João, dtype: int64
Nota na primeira prova do aluno 1: 7


In [14]:
nota1 = df.loc['João']['nota1']

print("Nota na primeira prova do aluno 1:",nota1)

Nota na primeira prova do aluno 1: 7


In [15]:
nota1 = df.iloc[1]['nota1']

print("Nota na primeira prova do aluno 1:",nota1)

Nota na primeira prova do aluno 1: 7


In [16]:
df.loc['João']['nota1'] = 10

print(df)

       nota1  nota2  nota3
nome                      
Maria      8      5      6
João      10     19      8
Paulo      5      4     14
Pedro      2     10      9


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df.loc['João']['nota1'] = 10


In [None]:
df.iloc[1]['nota1'] = 8

print(df)

É possível gerar um novo DataFrame selecionando apenas algumas das colunas.

In [17]:
lista = df[['nota1','nota2']]
print(lista)

       nota1  nota2
nome               
Maria      8      5
João      10     19
Paulo      5      4
Pedro      2     10


Pode-se usar indexação booleana para alterar ou apresentar todos os valores que satisfazem uma determinada condição.

In [18]:
df[df>10]=10

print("DataFrame com as notas maiores que 10 alteradas para 10")
print(df)

print("Apresenta apenas as notas maiores ou iguais a 7. Nos demais casos apresenta Nan")
print(df[df>=7])

DataFrame com as notas maiores que 10 alteradas para 10
       nota1  nota2  nota3
nome                      
Maria      8      5      6
João      10     10      8
Paulo      5      4     10
Pedro      2     10      9
Apresenta apenas as notas maiores ou iguais a 7. Nos demais casos apresenta Nan
       nota1  nota2  nota3
nome                      
Maria    8.0    NaN    NaN
João    10.0   10.0    8.0
Paulo    NaN    NaN   10.0
Pedro    NaN   10.0    9.0


Para incluir uma nova coluna no DataFrame, basta referenciá-la e atribuir um valor a ela, que pode ser um valor fixo ou o resultado de alguma operação aritmética ou lógica.

In [19]:
df['faltas'] = 0
df['media'] = (df['nota1'] + df['nota2'] + df['nota3']) / 3
df['aprovado'] = df['media'] >=7
print(df)

       nota1  nota2  nota3  faltas     media  aprovado
nome                                                  
Maria      8      5      6       0  6.333333     False
João      10     10      8       0  9.333333      True
Paulo      5      4     10       0  6.333333     False
Pedro      2     10      9       0  7.000000      True


Para excluir linhas ou colunas basta usar a função drop. Para excluir uma coluna deve-se passar o valor 1 para o atributo axis, para excluir uma linha pode-se passar o valor 0 para este parâmetro ou simplesmente não passar nenhum valor para ele.

In [20]:
novo = df.drop('Pedro')

print("Dataframe após excluir o aluno Pedro")
print(novo)

Dataframe após excluir o aluno Pedro
       nota1  nota2  nota3  faltas     media  aprovado
nome                                                  
Maria      8      5      6       0  6.333333     False
João      10     10      8       0  9.333333      True
Paulo      5      4     10       0  6.333333     False


In [None]:
novo = df.drop('faltas',axis=1)

print("Dataframe criado após a exclusão da coluna faltas")
print(novo)

Pode-se realizar as alterações diretamente no DataFrame, passando True para o parâmetro inplace.

In [21]:
print("Dataframe original")
print(df)

df.drop('Pedro', inplace=True)
df.drop('faltas',axis=1,inplace=True)

print("\nDataframe alterado")
print(df)

Dataframe original
       nota1  nota2  nota3  faltas     media  aprovado
nome                                                  
Maria      8      5      6       0  6.333333     False
João      10     10      8       0  9.333333      True
Paulo      5      4     10       0  6.333333     False
Pedro      2     10      9       0  7.000000      True

Dataframe alterado
       nota1  nota2  nota3     media  aprovado
nome                                          
Maria      8      5      6  6.333333     False
João      10     10      8  9.333333      True
Paulo      5      4     10  6.333333     False


Leitura de arquivos

O Pandas possui diversas funções que leem dados de arquivos e salvam em um DataFrame. Uma das mais comuns é a função read_csv que faz a leitura de aruivos csv.

Quando se está usando um notebook Jupyter no Google Colab, deve-se montar o drive para que o notebook encontre o arquivo na pasta do Google Drive onde o Colab está armazenado.
Montagem do Drive, ao executar esta célula, o usuário precisará entrar com as informações de login de sua conta.


A função read_csv recebe como primeiro parâmetro o caminho do arquivo (o caminho /content/gdrive/MyDrive/ aponta para a pasta raiz do drive, o restante refere-se às subpastas criadas). Opcionalmente pode-se indicar o separador usado no arquivo csv (neste caso o ;). Caso o parâmetro delimiter não seja definido, por padrão o pandas considera a , (vírgula) como separador.

Depois que os dados do arquivo csv foram armazenados em um DataFrame, qualquer uma das funções do Pandas podem ser usadas.

In [23]:
dados = pd.read_csv('Aula1_Ex3_Pandas.csv',delimiter =';')
print(dados)

    Nota1  Nota2  Nota3
0       2      5      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5


É preciso tomar cuidado com a criação de cópias de um dataframe. Ao usar o operador de atribuição, a cópia não é efetivamente realizada, apenas uma nova referência para o mesmo dataset é criada.

In [24]:
dados2 = dados
print(dados2)

    Nota1  Nota2  Nota3
0       2      5      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5


In [25]:
dados.iloc[0]['Nota1'] = 10

dados2.iloc[0]['Nota2'] = 8

print(dados)

print(dados2)

    Nota1  Nota2  Nota3
0      10      8      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5
    Nota1  Nota2  Nota3
0      10      8      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  dados.iloc[0]['Nota1'] = 10
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, bec

Para que uma cópia do dataframe seja efetivamente feita, deve-se utilizar o método copy.

In [26]:
dados2 = dados.copy()

print(dados)

print(dados2)

    Nota1  Nota2  Nota3
0      10      8      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5
    Nota1  Nota2  Nota3
0      10      8      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5


In [27]:
dados.iloc[0]['Nota1'] = 9

dados2.iloc[0]['Nota2'] = 7

print(dados)

print(dados2)

    Nota1  Nota2  Nota3
0       9      8      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5
    Nota1  Nota2  Nota3
0      10      7      1
1       9      5      9
2      10      8      6
3       6      7      4
4       7      3      4
5       3      7      7
6       4      6      6
7       1      6      7
8       6      9      5
9       1      7      4
10      8      5      6
11      7      8      3
12      9      4      2
13     10      6      8
14      4      6      5
15      9      6      5


You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  dados.iloc[0]['Nota1'] = 9
You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, beca