<h1> <span style="color:#F0D24C"> <b>Pandas I</b></span></h1>

<h3> Sumário </h3>
<ul>
    <li>Pandas: por que e como usar?</li>   
<li>O que é um <em> pandas.Dataframe</em>, por que importa?</li>   
<li>O que é um <em> pandas.Series</em>, por que importa?</li>   
<li>Operações básicas: <em>describe</em>, <em>mean</em>, <em>sum</em></li>      
<li>Acessando e manipulando dados: índices e <em>labels</em></li>   
<li>Acessando e manipulando dados: colunas, <em>masks</em> e <em>slices</em></li>   
<li>Dados ausentes e duplicados</li>   
<li>Operações com colunas e vetorização</li>   
<li>Conclusão e recursos adicionais</li> 

## Introdução  
### Pandas: por que e como usar?  

O Pandas é uma biblioteca que permite a organização, análise e manipulação de dados tabulares com ótimo desempenho.  
  
É bastante intuitivo, fácil de usar e dialoga com diversas outras bibliotecas do Python, como **Numpy** e **Matplotlib**, ou programas de planilhas.  
  
Sua versatilidade e eficiência o têm tornado uma ferramenta essencial para Análise de Dados.  
  
No Pandas, essa tabela ou planilha é chamada de ***Dataframe***.

|Nome|Sexo|P1|P2|Frequência|
|---|---|---|---|---|
|Aluno1|Masculino|1,6|4,5|50%|
|Aluno2|Feminino|7,5|6,5|80%|
|Aluno3|Masculino|9|8|90%|

In [2]:
#Instalando o Pandas

!pip install pandas


Defaulting to user installation because normal site-packages is not writeable



[notice] A new release of pip is available: 23.2.1 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [10]:
#Importar pandas toda vez que for utilizar

#Comando import + "nome da biblioteca" (as "apelido")

import pandas as pd




### *Series* e *Dataframe*: a estrutura geral do Pandas

In [11]:
#Vamos analisar a organização de dados
# e estrutura de um dataframe

ex_dict = {'Nome': ['Aluno1', 'Aluno2', 'Aluno3', 'Aluno4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}

print(ex_dict)

{'Nome': ['Aluno1', 'Aluno2', 'Aluno3', 'Aluno4'], 'P1': [1.6, 7.5, 9, 5.5], 'P2': ['-', 6.5, 8, 8]}


In [12]:
#É possível gerar um dataframe a partir de dicionários

#Note o pd de pandas

dataframe = pd.DataFrame.from_dict(ex_dict)
print(dataframe)




     Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8


Note a estrutura dos dados no dicionário e depois no dataframe.  
Nós temos cada coluna, contendo as linhas com as informações.

In [13]:
#Outra forma é gerar a partir de uma lista de listas

listao = [['Aluno1', 1.6, '-'], ['Aluno2', 7.5, 6.5], ['Aluno3', 9, 8],['Aluno4', 5.5, 8]]

dataframe2 = pd.DataFrame(listao, columns=['Nome', 'P1', 'P2'])
print(dataframe2)


     Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8


In [14]:
print(f'Dataframe gerado a partir de dicionário\n\n{dataframe}\n\nDataframe gerado a partir de lista de listas\n\n {dataframe2}')

Dataframe gerado a partir de dicionário

     Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8

Dataframe gerado a partir de lista de listas

      Nome   P1   P2
0  Aluno1  1.6    -
1  Aluno2  7.5  6.5
2  Aluno3  9.0    8
3  Aluno4  5.5    8


**Series**: é um conjunto unidimensional contendo dados em diversas formas (int, float, objetos, etc.). É bastante similar ao numpy.array.  
  
**Dataframe**: é um conjunto bidimensional de dados. Pode ser entendido como um conjunto de *Series*.
  

##### **Series**
Estrutura semelhante a um array. Uma única coluna.

In [15]:
#Um series pode ser gerado a partir do comando pandas.Series()

#Note a numeração das linhas e compare com a 
# estrutura de um array de numpy, por exemplo

series = pd.Series(ex_dict['P1'])
print(series)


0    1.6
1    7.5
2    9.0
3    5.5
dtype: float64


### Entendendo a estrutura e organização dos dados: operações básicas

In [22]:
#Importar arquivo
#Lembrando que o csv é um arquivo "comma-separated" comum em programas de planilha

df = pd.read_csv('ex_pandas_csv.csv', sep=";")


FileNotFoundError: [Errno 2] No such file or directory: 'ex_pandas_csv.csv'

In [None]:
#Primeiro, vamos ter uma ideia geral dos dados...

#O comando DataFrame.shape retorna o número de linhas e colunas
print(df.shape)



(16, 5)


In [None]:
#O comando DataFrame.head() imprime as linhas iniciais do dataframe
print(df.head())

     Nome       Sexo   P1   P2 Frequência
0  Aluno1  Masculino  1,6    -        50%
1  Aluno2   Feminino  7,5  6,5        80%
2  Aluno3  Masculino    9    8        90%
3  Aluno4  Masculino  5,5    8        70%
4  Aluno5  Masculino    7    8       100%


In [None]:
#E dos dados finais...

# O comando DataFrame.tail() imprime as linhas finais do dataframe
print(df.tail(6))

       Nome       Sexo   P1 P2 Frequência
10  Aluno11  Masculino    8  9        70%
11  Aluno12   Feminino   10  -        70%
12  Aluno13  Masculino  9,5  9       100%
13  Aluno14   Feminino    8  9        80%
14  Aluno15   Feminino    7  7        80%
15  Aluno15   Feminino    7  7        80%


In [None]:
#Vendo quais colunas existem no dataset todo

print(df.columns)

Index(['Nome', 'Sexo', 'P1', 'P2', 'Frequência'], dtype='object')


In [None]:
#O comando DataFrame.describe() traz informações de cada coluna

print(df.describe())

           Nome       Sexo  P1  P2 Frequência
count        16         16  16  16         16
unique       15          2  10   9          5
top     Aluno15  Masculino   7   8        80%
freq          2          8   4   3          6


In [None]:
#O comando DataFrame.sum() traz a soma dos dados

# Lembre que,no Python, a operação de soma (+) de strings concatena as palavras

print(df.sum())

Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                                    1,67,595,57854578109,5877
P2                                     -6,588875,53,547,59-9977
Frequência    50%80%90%70%100%80%90%90%70%80%70%70%100%80%80...
dtype: object


In [None]:
#Parece que todos os valores foram lidos como string
# Mas sabemos que algumas colunas seriam numéricas (integers e floats)

#Iremos retornar na estrutura das operações a seguir
# por ora, veja que com apenas uma linha de código
# resolvemos todas as questões para cada coluna

#Substituimos a vírgula por ponto.
# Regex=true permite que a vírgula seja substituída mesmo no interior da string

#astype() converte toda a coluna para o 


df['P1'] = df['P1'].str.replace(',','.', regex=True).astype('float', errors='ignore')
df['P2'] = df['P2'].str.replace(',','.', regex=True).astype('float', errors='ignore')

#Como a coluna P2 contém ainda dados ausentes, preenchidos por texto,
# iremos subtituir substituí-los por NaN (not a number)
# "erros = coerce", como parâmetro, faz com que formatos não numéricos sejam preenchidos com NaN

df['P2'] = pd.to_numeric(df['P2'], errors='coerce')

#Agora removemos o símbolo de porcentagem (%)
# e transformamos os dados em float

df['Frequência'] = df['Frequência'].str.rstrip('%').astype('float', errors='ignore') / 100.0


In [None]:
#Retornando à operação anterior...
#Vamos tentar usar DataFrame.sum()

print(df.sum())

Nome          Aluno1Aluno2Aluno3Aluno4Aluno5Aluno6Aluno7Alun...
Sexo          MasculinoFemininoMasculinoMasculinoMasculinoFe...
P1                                                        109.1
P2                                                         99.0
Frequência                                                 12.8
dtype: object


In [None]:
#Uma outra forma de entender a estrutura dos dados númericos é ver sua média
#A média pode ser calculada com o comando DataFrame.mean()

#Tentar usar mean em todas as colunas, incluindo não numéricas,
# retorna um aviso

print(df.mean())



P1            6.818750
P2            7.071429
Frequência    0.800000
dtype: float64


  print(df.mean())


In [None]:
#Para limitar nossa análise apenas aos dados numéricos
print(df.mean(numeric_only=True))

P1            6.818750
P2            7.071429
Frequência    0.800000
dtype: float64


In [None]:
#Vamos ver como está o dataframe agora
print(df.head(16))

       Nome       Sexo    P1   P2  Frequência
0    Aluno1  Masculino   1.6  NaN         0.5
1    Aluno2   Feminino   7.5  6.5         0.8
2    Aluno3  Masculino   9.0  8.0         0.9
3    Aluno4  Masculino   5.5  8.0         0.7
4    Aluno5  Masculino   7.0  8.0         1.0
5    Aluno6   Feminino   8.0  7.0         0.8
6    Aluno7  Masculino   5.0  5.5         0.9
7    Aluno8  Masculino   4.0  3.5         0.9
8    Aluno9   Feminino   5.0  4.0         0.7
9   Aluno10   Feminino   7.0  7.5         0.8
10  Aluno11  Masculino   8.0  9.0         0.7
11  Aluno12   Feminino  10.0  NaN         0.7
12  Aluno13  Masculino   9.5  9.0         1.0
13  Aluno14   Feminino   8.0  9.0         0.8
14  Aluno15   Feminino   7.0  7.0         0.8
15  Aluno15   Feminino   7.0  7.0         0.8


### Índices e localização dos dados no *Dataframe*


De forma similar às listas, os dados num Dataframe podem ser acessados por um localizador.  
É um endereço para indicar a linha e a coluna em que os dados se encontram.  
No geral, as linhas são indicadas por um índice que aparece no canto esquerdo da impressão do dataframe.
Já as colunas, costumam estar associadas a algum nome.
  

In [None]:
print(df)

       Nome       Sexo    P1   P2  Frequência
0    Aluno1  Masculino   1.6  NaN         0.5
1    Aluno2   Feminino   7.5  6.5         0.8
2    Aluno3  Masculino   9.0  8.0         0.9
3    Aluno4  Masculino   5.5  8.0         0.7
4    Aluno5  Masculino   7.0  8.0         1.0
5    Aluno6   Feminino   8.0  7.0         0.8
6    Aluno7  Masculino   5.0  5.5         0.9
7    Aluno8  Masculino   4.0  3.5         0.9
8    Aluno9   Feminino   5.0  4.0         0.7
9   Aluno10   Feminino   7.0  7.5         0.8
10  Aluno11  Masculino   8.0  9.0         0.7
11  Aluno12   Feminino  10.0  NaN         0.7
12  Aluno13  Masculino   9.5  9.0         1.0
13  Aluno14   Feminino   8.0  9.0         0.8
14  Aluno15   Feminino   7.0  7.0         0.8
15  Aluno15   Feminino   7.0  7.0         0.8


Os dados de uma coluna (ou uma lista de colunas) podem ser acessados da seguinte forma:

<h4>nome_dataframe<span style="color:#6FCA10">[</span><span style="color:#B5340F">'Nome da coluna'</span><span style="color:#6FCA10">]</span></h4>


In [None]:
df['P1']

0      1.6
1      7.5
2      9.0
3      5.5
4      7.0
5      8.0
6      5.0
7      4.0
8      5.0
9      7.0
10     8.0
11    10.0
12     9.5
13     8.0
14     7.0
15     7.0
Name: P1, dtype: float64

In [None]:
#Podemos calcular as estatísticas vistas anteriormente em colunas isoladas

#Preste atenção na estrutura do código para acessar os dados da coluna

# DataFrame.mean() retorna a média aritmética como float (número com decimais)

media_col1 = df['P1'].mean()
print(media_col1, type(media_col1))

# DataFrame.std() retorna desvio padrão como float (número com decimais)
dp_col1 = df['P1'].std()

print(f'A prova 1 teve média {media_col1:.2f} e desvio padrão de {dp_col1:.2f}')


6.81875 <class 'float'>
A prova 1 teve média 6.82 e desvio padrão de 2.17


In [None]:
#Fazemos o mesmo para a P2

media_col2 = df['P2'].mean()
dp_col2 = df['P2'].std()

print(f'A prova 2 teve média {media_col2:.2f} e desvio padrão de {dp_col2:.2f}')

A prova 2 teve média 7.07 e desvio padrão de 1.73


In [None]:
#Para acessar um conjunto de colunas, usamos a estrutura a seguir

#Note que a lista deve estar dentro de seu próprio parênteses
#nome_dataframe[[lista do nome das colunas]]

print(df[['P1', 'P2']])

      P1   P2
0    1.6  NaN
1    7.5  6.5
2    9.0  8.0
3    5.5  8.0
4    7.0  8.0
5    8.0  7.0
6    5.0  5.5
7    4.0  3.5
8    5.0  4.0
9    7.0  7.5
10   8.0  9.0
11  10.0  NaN
12   9.5  9.0
13   8.0  9.0
14   7.0  7.0
15   7.0  7.0


In [None]:
#Para facilitar, podemos alterar os nomes das colunas por abreviações
#Os novos nomes devem ser inseridos numa estrutura de dicionário, como segue:

# DataFrame.rename(columns={'nome_antigo1': 'novo_nome1', 'nome_antigo2': 'novo_nome2'})

dados = df.rename(columns={'Frequência':'Freq'})
print(dados.head(4))

     Nome       Sexo   P1   P2  Freq
0  Aluno1  Masculino  1.6  NaN   0.5
1  Aluno2   Feminino  7.5  6.5   0.8
2  Aluno3  Masculino  9.0  8.0   0.9
3  Aluno4  Masculino  5.5  8.0   0.7


In [None]:
#Também é comum utilizar slicing para retornar um subconjunto de linhas

#Note que os dados se iniciam na posição 0 e o último item
# (aqui indicado pela posição 2) não é incluído

print(dados[0:3])

     Nome       Sexo   P1   P2  Freq
0  Aluno1  Masculino  1.6  NaN   0.5
1  Aluno2   Feminino  7.5  6.5   0.8
2  Aluno3  Masculino  9.0  8.0   0.9


In [None]:
# Deixamos em branco depois do ":" para indicar que todos os dados serão incluídos

print(dados[5:])
print(dados[:3])



       Nome       Sexo    P1   P2  Freq
5    Aluno6   Feminino   8.0  7.0   0.8
6    Aluno7  Masculino   5.0  5.5   0.9
7    Aluno8  Masculino   4.0  3.5   0.9
8    Aluno9   Feminino   5.0  4.0   0.7
9   Aluno10   Feminino   7.0  7.5   0.8
10  Aluno11  Masculino   8.0  9.0   0.7
11  Aluno12   Feminino  10.0  NaN   0.7
12  Aluno13  Masculino   9.5  9.0   1.0
13  Aluno14   Feminino   8.0  9.0   0.8
14  Aluno15   Feminino   7.0  7.0   0.8
15  Aluno15   Feminino   7.0  7.0   0.8
     Nome       Sexo   P1   P2  Freq
0  Aluno1  Masculino  1.6  NaN   0.5
1  Aluno2   Feminino  7.5  6.5   0.8
2  Aluno3  Masculino  9.0  8.0   0.9


In [None]:
#Também podemos excluir alguma coluna não necessária
# Usamos Dataframe.drop()

#O argumento inplace mantém o objeto "dados", apenas remove as colunas dele
# axis indica se devem ser removidas linhas ou colunas, 0 é para linhas e 1, colunas

dados.drop(['Nome', 'Sexo'], axis=1, inplace=True)
print(dados)

      P1   P2  Freq
0    1.6  NaN   0.5
1    7.5  6.5   0.8
2    9.0  8.0   0.9
3    5.5  8.0   0.7
4    7.0  8.0   1.0
5    8.0  7.0   0.8
6    5.0  5.5   0.9
7    4.0  3.5   0.9
8    5.0  4.0   0.7
9    7.0  7.5   0.8
10   8.0  9.0   0.7
11  10.0  NaN   0.7
12   9.5  9.0   1.0
13   8.0  9.0   0.8
14   7.0  7.0   0.8
15   7.0  7.0   0.8


In [None]:
#Um último recurso importante é o conceito de máscaras (ou masks)
# Máscara é uma condição que retornar verdadeiro ou falso e permite 
# retirar um subconjunto dos dados

#Vamos ver o subconjunto de notas que foram maiores que 7 na P1
mask = dados['P1'] > 7
print(dados[mask])

      P1   P2  Freq
1    7.5  6.5   0.8
2    9.0  8.0   0.9
5    8.0  7.0   0.8
10   8.0  9.0   0.7
11  10.0  NaN   0.7
12   9.5  9.0   1.0
13   8.0  9.0   0.8


In [None]:
# E agora, aquele com as notas maiores que 5 na P1 E na P2

#O operador "&" entre as condições indica intersecção, 
#. ou seja, ambos devem ser verdadeiros

mask = (dados['P1'] > 7)&(dados['P2'] > 7)
print(dados[mask])

     P1   P2  Freq
2   9.0  8.0   0.9
10  8.0  9.0   0.7
12  9.5  9.0   1.0
13  8.0  9.0   0.8


### Dados ausentes e duplicados

In [None]:
#Procuramos por dados ausentes com isna() e isnull()

df.isna() #retorna dados ausentes

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,False,False,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [None]:
df.isnull() #retorna dados nulos

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,False,False,False,True,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
5,False,False,False,False,False
6,False,False,False,False,False
7,False,False,False,False,False
8,False,False,False,False,False
9,False,False,False,False,False


In [None]:
#Podemos eliminar esses dados de nossas análises
# Usamos dropna()

sem_na = df.dropna()
print(sem_na)

       Nome       Sexo   P1   P2  Frequência
1    Aluno2   Feminino  7.5  6.5         0.8
2    Aluno3  Masculino  9.0  8.0         0.9
3    Aluno4  Masculino  5.5  8.0         0.7
4    Aluno5  Masculino  7.0  8.0         1.0
5    Aluno6   Feminino  8.0  7.0         0.8
6    Aluno7  Masculino  5.0  5.5         0.9
7    Aluno8  Masculino  4.0  3.5         0.9
8    Aluno9   Feminino  5.0  4.0         0.7
9   Aluno10   Feminino  7.0  7.5         0.8
10  Aluno11  Masculino  8.0  9.0         0.7
12  Aluno13  Masculino  9.5  9.0         1.0
13  Aluno14   Feminino  8.0  9.0         0.8
14  Aluno15   Feminino  7.0  7.0         0.8
15  Aluno15   Feminino  7.0  7.0         0.8


In [None]:
#Ou, substituí-los por algum valor

df.fillna(0, inplace=True)

In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,Aluno1,Masculino,1.6,0.0,0.5
1,Aluno2,Feminino,7.5,6.5,0.8
2,Aluno3,Masculino,9.0,8.0,0.9
3,Aluno4,Masculino,5.5,8.0,0.7
4,Aluno5,Masculino,7.0,8.0,1.0
5,Aluno6,Feminino,8.0,7.0,0.8
6,Aluno7,Masculino,5.0,5.5,0.9
7,Aluno8,Masculino,4.0,3.5,0.9
8,Aluno9,Feminino,5.0,4.0,0.7
9,Aluno10,Feminino,7.0,7.5,0.8


In [None]:
#Outro ponto importante a checar é a presença de valores duplicados
df.duplicated()

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15     True
dtype: bool

In [None]:
#A estrutura dataframe[ condição ] permite retornar dados específicos

print(df[df.duplicated()])

       Nome      Sexo   P1   P2  Frequência
15  Aluno15  Feminino  7.0  7.0         0.8


In [None]:
#Então podemos remover a linha duplicada

df.drop_duplicates(inplace=True)

In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência
0,Aluno1,Masculino,1.6,0.0,0.5
1,Aluno2,Feminino,7.5,6.5,0.8
2,Aluno3,Masculino,9.0,8.0,0.9
3,Aluno4,Masculino,5.5,8.0,0.7
4,Aluno5,Masculino,7.0,8.0,1.0
5,Aluno6,Feminino,8.0,7.0,0.8
6,Aluno7,Masculino,5.0,5.5,0.9
7,Aluno8,Masculino,4.0,3.5,0.9
8,Aluno9,Feminino,5.0,4.0,0.7
9,Aluno10,Feminino,7.0,7.5,0.8


### Operações com colunas e vetorização

In [None]:
#Podemos criar novas colunas baseadas nas existentes
#Note a estrutura:
#    dataframe['Nome da nova coluna'] = operação

df['Média Final'] = (df['P1']+df['P2'])/2

In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final
0,Aluno1,Masculino,1.6,0.0,0.5,0.8
1,Aluno2,Feminino,7.5,6.5,0.8,7.0
2,Aluno3,Masculino,9.0,8.0,0.9,8.5
3,Aluno4,Masculino,5.5,8.0,0.7,6.75
4,Aluno5,Masculino,7.0,8.0,1.0,7.5
5,Aluno6,Feminino,8.0,7.0,0.8,7.5
6,Aluno7,Masculino,5.0,5.5,0.9,5.25
7,Aluno8,Masculino,4.0,3.5,0.9,3.75
8,Aluno9,Feminino,5.0,4.0,0.7,4.5
9,Aluno10,Feminino,7.0,7.5,0.8,7.25


In [None]:
#Vetorização é uma operação com toda a coluna, em conjunto

#Já havíamos utilizado anteriormente
#Vamos analisar a estrutura
#   df['P2'] = df['P2'].str.replace(',','.', regex=True).astype('float', errors='ignore')

#df['P2'].str contém um conjunto de funções aplicáveis a string para toda a coluna
#.astype() converte todos os valores em conjunto

import math

#Series.apply() é outra função que permite modificar colunas inteiras
#.round() é usada da mesma forma
df['N_P2'] = df['P2'].apply(lambda x: math.sqrt(x * 9+4)).round(1)

In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5


In [None]:
df['Nova média'] = (df['P1']+df['N_P2'])/2

In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2,Nova média
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0,1.8
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9,7.7
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7,8.85
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7,7.1
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7,7.85
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2,8.1
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3,6.15
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0,5.0
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3,5.65
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5,7.75


In [None]:

#Podemos utilizar outras funções para problemas mais complexos

#Usamos numpy.select() para atribuir um valor a cada condição
# Escrevemos a condição para aprovação
# média final acima de 5 e frequência maior que 70% como:
# (df['Média Final'] >= 5)&(df['Frequência']>= 0.7)
# O "&" indica "e", intersecção...ou seja, as duas condições devem ser satisfeitas
# Já (df['Média Final']<5) indica atribui a qualquer valor abaixo de 5
# na média final o string 'Reprovado' para a nova coluna "Resultado"

import numpy as np

condicao = [(df['Nova média'] >= 5)&(df['Frequência']>= 0.7), (df['Nova média']<5), df['Frequência']< 0.7]
valores = ['Aprovado', 'Reprovado', 'Reprovado']


df['Resultado'] = np.select(condicao, valores)


In [None]:
df

Unnamed: 0,Nome,Sexo,P1,P2,Frequência,Média Final,N_P2,Nova média,Resultado
0,Aluno1,Masculino,1.6,0.0,0.5,0.8,2.0,1.8,Reprovado
1,Aluno2,Feminino,7.5,6.5,0.8,7.0,7.9,7.7,Aprovado
2,Aluno3,Masculino,9.0,8.0,0.9,8.5,8.7,8.85,Aprovado
3,Aluno4,Masculino,5.5,8.0,0.7,6.75,8.7,7.1,Aprovado
4,Aluno5,Masculino,7.0,8.0,1.0,7.5,8.7,7.85,Aprovado
5,Aluno6,Feminino,8.0,7.0,0.8,7.5,8.2,8.1,Aprovado
6,Aluno7,Masculino,5.0,5.5,0.9,5.25,7.3,6.15,Aprovado
7,Aluno8,Masculino,4.0,3.5,0.9,3.75,6.0,5.0,Aprovado
8,Aluno9,Feminino,5.0,4.0,0.7,4.5,6.3,5.65,Aprovado
9,Aluno10,Feminino,7.0,7.5,0.8,7.25,8.5,7.75,Aprovado


<h3> <span style="color:#F0D24C"> <b>Recapitulando...</b></span></h3>

<ul>
    <li><b>Pandas</b>: versatilidade e eficiência na análise e manipulação de dados</li>   
<li>Series: formato unidimensional, diversos tipos de dados</li>   
<li>Dataframe: bidimensional - linhas e colunas</li>   
<li>Operações básicas: <em>.shape( ), <em>.describe( )</em>, <em>.mean( )</em>, <em>.sum( )</em>, <em>.columns</em></li>      
<li>Índices e labels: os endereços dos dados</li>   
<li>Coluna: Dataframe['Nome']</li>
<li>Linhas: Dataframe[0:4]</li>   
<li>Dados ausentes - .isnull( ), .isna( ) e .dropna()</li>   
<li>Dados duplicados - .duplicated( ) e .drop_duplicates( )</li>   
<li>Vetorização: operando com toda a coluna</li>
</ul>

<h3> <span style="color:#F0D24C"> <b>Recursos adicionais...</b></span></h3>




[Guia do Usuário - Pandas (em inglês)](https://pandas.pydata.org/docs/user_guide/index.html)