# Pandas

**Sumário**

* Pandas: por que e como usar?
* O que é um pandas.Dataframe, pro que importa?
* O que é um pandas.Series, por que importa?
* Operações básicas: describe, mean, sum.
* Acessando e manipulando dados: índices e labels.
* Acessando e manipulando dados: colunas, masks e slices.
* Dados ausentes e duplicados.
* Operações com colunas e vetorização.
* Conclusão e recursos adicionais. 

In [17]:
import pandas as pd
# Aqui temos uma estrutura de um dataframe sem utilzar o pandas
ex_dict = {"Nome": ["Aluno1", "Aluno2", "Aluno3", "Aluno4"], "P1": [1.6, 7.5, 9, 5.5], "P2": ["-", 6.5, 8, 8]}

print(ex_dict)

{'Nome': ['Aluno1', 'Aluno2', 'Aluno3', 'Aluno4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}


In [18]:
# Agora veremos um dataframe utilizando o pandas apartir de um dicionário.

dataframe = pd.DataFrame.from_dict(ex_dict)
print(dataframe)

     Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8


In [19]:
# Gerando um dataframe apartir de uma lista de litas.

lista = [["Aluno1", 1.6, "-"], ["Aluno2", 7.5, 6.5], ["Aluno3", 9, 8], ["Aluno4", 5.5, 8]]

dataframe2 = pd.DataFrame(lista, columns= ["Nome", "P1", "P2"])
print(dataframe2)

     Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8


In [20]:
# Um series pode ser gerado apartir do comando pandas.Series()

#Esse comando retornara os valores da coluna que for explicitado como parâmetro.

series = pd.Series(ex_dict["P1"])
print(series)

0    1.6
1    7.5
2    9.0
3    5.5
dtype: float64


In [21]:
# Abrindo um arquivo externo de planilhas com o comando .read_csv

df = pd.read_csv('ex_pandas_csv.csv', sep= ";")

# Este comando mostra a quantidade de linhas e de colunas.

print(df.shape)

(16, 5)


In [22]:
# Geralmente os DataFrames que são importados de terceiros vem com uma quantidade enorme de dados, então se usa este comando para que assim possa aparecer uma pequena porção deste dados, no caso deste comando como padrão ele mostra as cinco primeiras linhas do DataFrame ou o valor explicitado entre parênteses. 

print(df.head())

     Nome       Sexo   P1   P2 Frequência
0  Aluno1  Masculino  1,6    -        50%
1  Aluno2   Feminino  7,5  6,5        80%
2  Aluno3  Masculino    9    8        90%
3  Aluno4  Masculino  5,5    8        70%
4  Aluno5  Masculino    7    8       100%


In [23]:
# De forma similar ao comando exemplificado anteriormente, o comando .tail ira mostrar as cinco ultimas linhas do DataFrame ou a quantidade que for solicitada como parãmetro. 

print(df.tail())

       Nome       Sexo   P1 P2 Frequência
11  Aluno12   Feminino   10  -        70%
12  Aluno13  Masculino  9,5  9       100%
13  Aluno14   Feminino    8  9        80%
14  Aluno15   Feminino    7  7        80%
15  Aluno15   Feminino    7  7        80%


In [24]:
#O comoando .columns ira mostrar os nomes das colunas do DataFrame e tipo de dados dela.

print(df.columns)

Index(['Nome', 'Sexo', 'P1', 'P2', 'Frequência'], dtype='object')


In [25]:
# Os  comandos são interessantes pois podemos analisar se temos dados duplicados ou faltando, uma vez que ele nos retornar a contagem de dados presente em cada coluna, utilizando dos seguintes identificadores:

# count: Esta linha mostra a contagem de valores não nulos em cada coluna. No seu caso, há 16 observações em todas as colunas,
# o que significa que não há valores ausentes (NaN) em nenhuma das colunas.

# unique: Esta linha mostra o número de valores exclusivos em cada coluna. Por exemplo, na coluna "Nome", há 15 valores exclusivos,
# o que significa que um nome se repete, e na coluna "Sexo", há 2 valores exclusivos (Masculino e Feminino).

# top: Esta linha mostra o valor mais frequente em cada coluna. Por exemplo, na coluna "Nome", "Aluno15" é o valor mais frequente,
# aparecendo duas vezes, e na coluna "Sexo", "Masculino" é o valor mais frequente, aparecendo oito vezes.

# freq: Esta linha mostra a contagem da frequência do valor mais frequente em cada coluna. Por exemplo, na coluna "Nome", "Aluno15" aparece duas vezes,
# e na coluna "Sexo", "Masculino" aparece oito vezes.


print(df.describe())

           Nome       Sexo  P1  P2 Frequência
count        16         16  16  16         16
unique       15          2  10   9          5
top     Aluno15  Masculino   7   8        80%
freq          2          8   4   3          6


In [26]:
# Aqui nos iremos nos deparar com uum problema, pois este comando é o comando que de somar os dados do nosso DataFrame, no entanto por muitas vzes acontecer de recebermos DataFrame de terceiros seus valores podem vir em formato de string, de modo que, ao invés de somar ele ira concatenar os valores. 

print(df.sum())

Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                                    1,67,595,57854578109,5877
P2                                     -6,588875,53,547,59-9977
Frequência    50%80%90%70%100%80%90%90%70%80%70%70%100%80%80...
dtype: object


In [27]:
# Trasnormando os valores string em númerais.

# Nestes dois trechos de códigos, trocaremos as vírgulas por pontos com o comando replace junto ao parâmetro regex=True para que substitua dentro de todas as strings e após isto usamos o comando astype para trasnformar os os valores que até então eram strings em valores floats, usando o parâmetro errors="ignore", para ignorar possiveis erros gerados na conversão da string para floats.  

df["P1"] = df["P1"].str.replace(",", ".", regex=True).astype("float", errors="ignore")
df["P2"] = df["P2"].str.replace(",", ".", regex=True).astype("float", errors="ignore")

# Aqui transformaremos todos os valores da coluna P2 e valores númericos e onde não tiver número será completo com o alor NaN(none as numric)
df["P2"] = pd.to_numeric(df["P2"], errors="coerce")

# Na coluna Frequência usarmemos o comando .strip para removermos os símbolo de porcentagem, em seguida os transformaremos em floats e dividiriremos por 100 para continuar a operação dee porcentagem.  
df["Frequência"] = df["Frequência"].str.strip("%").astype("float", errors="ignore") / 100
print(df)
print("-" * 60)
print(df.sum())


       Nome       Sexo    P1   P2  Frequência
0    Aluno1  Masculino   1.6  NaN         0.5
1    Aluno2   Feminino   7.5  6.5         0.8
2    Aluno3  Masculino   9.0  8.0         0.9
3    Aluno4  Masculino   5.5  8.0         0.7
4    Aluno5  Masculino   7.0  8.0         1.0
5    Aluno6   Feminino   8.0  7.0         0.8
6    Aluno7  Masculino   5.0  5.5         0.9
7    Aluno8  Masculino   4.0  3.5         0.9
8    Aluno9   Feminino   5.0  4.0         0.7
9   Aluno10   Feminino   7.0  7.5         0.8
10  Aluno11  Masculino   8.0  9.0         0.7
11  Aluno12   Feminino  10.0  NaN         0.7
12  Aluno13  Masculino   9.5  9.0         1.0
13  Aluno14   Feminino   8.0  9.0         0.8
14  Aluno15   Feminino   7.0  7.0         0.8
15  Aluno15   Feminino   7.0  7.0         0.8
------------------------------------------------------------
Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                           

In [28]:
# O comando .mean(numeric_only=True) retorna a média entre os dados númericos.
print(df.mean(numeric_only=True))

P1            6.818750
P2            7.071429
Frequência    0.800000
dtype: float64


# índices e localização dos dados no Dataframe.

Podemos localizar um dado especifico no DataFrame apartir do índice referente a linha desejada, ou do nome de sua coluna.

In [29]:
print(df)

       Nome       Sexo    P1   P2  Frequência
0    Aluno1  Masculino   1.6  NaN         0.5
1    Aluno2   Feminino   7.5  6.5         0.8
2    Aluno3  Masculino   9.0  8.0         0.9
3    Aluno4  Masculino   5.5  8.0         0.7
4    Aluno5  Masculino   7.0  8.0         1.0
5    Aluno6   Feminino   8.0  7.0         0.8
6    Aluno7  Masculino   5.0  5.5         0.9
7    Aluno8  Masculino   4.0  3.5         0.9
8    Aluno9   Feminino   5.0  4.0         0.7
9   Aluno10   Feminino   7.0  7.5         0.8
10  Aluno11  Masculino   8.0  9.0         0.7
11  Aluno12   Feminino  10.0  NaN         0.7
12  Aluno13  Masculino   9.5  9.0         1.0
13  Aluno14   Feminino   8.0  9.0         0.8
14  Aluno15   Feminino   7.0  7.0         0.8
15  Aluno15   Feminino   7.0  7.0         0.8


In [30]:
# Os dados de uma coluna podem serem acessado da seguinte maneira nome_dataframe["nome coluna"] retornando assim um series.

df["P1"]

0      1.6
1      7.5
2      9.0
3      5.5
4      7.0
5      8.0
6      5.0
7      4.0
8      5.0
9      7.0
10     8.0
11    10.0
12     9.5
13     8.0
14     7.0
15     7.0
Name: P1, dtype: float64

In [31]:
# Desta forma podemos trabalhar com operações somente desta coluna do dataframe se for preciso. Por exemplo calculando a média desta coluna com o comando .mean e o seu desvio padrão com o comando .std 

media_col1 = df["P1"].mean()
print(media_col1, type(media_col1))

desvio_padrao_col1 = df["P1"].std()
print("A média da prova 1 foi de {:.2f} e o desvio padrão de {:.2f}".format(media_col1, desvio_padrao_col1))


6.81875 <class 'numpy.float64'>
A média da prova 1 foi de 6.82 e o desvio padrão de 2.17


In [32]:
# O mesmo pode ser feito na coluna P2.

media_col2 = df["P2"].mean()
print(media_col2, type(media_col2))

desvio_padrao_col2 = df["P2"].std()
print("A média da prova 2 foi de {:.2f} e o desvio padrão de {:.2f}".format(media_col2, desvio_padrao_col2))


7.071428571428571 <class 'numpy.float64'>
A média da prova 2 foi de 7.07 e o desvio padrão de 1.73


In [33]:
# Pode-se acessar também mais de uma coluna de uma só vez. 
# Da seguinte maneira: nome_dataframe[[lista com os nomes das colunas]]

print(df[["P1", "P2"]])

      P1   P2
0    1.6  NaN
1    7.5  6.5
2    9.0  8.0
3    5.5  8.0
4    7.0  8.0
5    8.0  7.0
6    5.0  5.5
7    4.0  3.5
8    5.0  4.0
9    7.0  7.5
10   8.0  9.0
11  10.0  NaN
12   9.5  9.0
13   8.0  9.0
14   7.0  7.0
15   7.0  7.0


In [34]:
# Podemos também renomear os nomes das colunas quando  se fazer necessário.
# Para isto utilizamos uma estrutura semelhante a de um dicionário.

# Nome_datafram.rename(columns={"nome_antigo_coluna1" : "nome_novo_coluna1", "nome_antigo_coluna2" : "nome_novo_coluna2"})

dados = df.rename(columns={"Frequência" : "Freq."})
print(dados.head(4))

     Nome       Sexo   P1   P2  Freq.
0  Aluno1  Masculino  1.6  NaN    0.5
1  Aluno2   Feminino  7.5  6.5    0.8
2  Aluno3  Masculino  9.0  8.0    0.9
3  Aluno4  Masculino  5.5  8.0    0.7
