# Conhecendo o Jupyter

    Falando sobre nossa ferramenta de trabalho no curso, o Jupyter,
    analise as seguintes afirmações:
    
    1) Para acessarmos a documentação de uma biblioteca a partir do
    Jupyter, utilizamos as teclas SHIFT+TAB.
    
    2) Para modificarmos uma célula do notebook para o tipo Code, basta
    pressionar as teclas ESC+C.
    
    3) Uma das formas de se executar o código de uma célula do notebook
    é pressionando as teclas SHIFT+ENTER.

As afirmativas 1 e 3 estão corretas.
 

# Informações de um DataFrame

## Considere o seguinte código Python no Jupyter:

In [1]:
import pandas as pd

In [2]:
data = [['Fulano', 12, 7.0, True],
        ['Sicrano', 15, 3.5, False],
        ['Beltrano', 18, 9.3, True]]

In [3]:
dados = pd.DataFrame(data, columns = ['Aluno', 'idade', 'Nota', 'Aprovado'])

    Executando este código, obtemos o DataFrame abaixo:

In [4]:
dados

Unnamed: 0,Aluno,idade,Nota,Aprovado
0,Fulano,12,7.0,True
1,Sicrano,15,3.5,False
2,Beltrano,18,9.3,True


In [5]:
dados.dtypes

Aluno        object
idade         int64
Nota        float64
Aprovado       bool
dtype: object

    Desenvolver um código para melhorar o visual do resultado do 
    código acima, e mostrar como um Dataframe:

In [6]:
tipos_de_dados = pd.DataFrame(dados.dtypes, columns=['Tipos de Dados'])

In [7]:
tipos_de_dados.columns.name = 'Variáveis'

In [8]:
tipos_de_dados

Variáveis,Tipos de Dados
Aluno,object
idade,int64
Nota,float64
Aprovado,bool


# Utilizando métodos no pandas

    O pandas disponibiliza um método de DataFrame para remoção de
    linhas duplicadas. Este método é o drop_duplicates(), que apresenta
    um conjunto de argumentos de configuração. Considerando o código abaixo:

In [9]:
import pandas as pd

In [10]:
dados = pd.DataFrame([1, 1, 2, 3, 3, 4, 4], columns = ['X'])

In [11]:
dados

Unnamed: 0,X
0,1
1,1
2,2
3,3
4,3
5,4
6,4


In [12]:
dados.drop_duplicates(inplace = True)

In [13]:
dados

Unnamed: 0,X
0,1
2,2
3,3
5,4


Configurando o parâmetro inplace como True,
a modificação é realizada a partir da aplicação do próprio
método, sem necessidade de criar um DataFrame para armazenar
o resultado.

# Índice das linhas de um DataFrame

    Nem sempre é indicado, mas existem várias formas de se modificar o
    index de umas estrutura de dados no pandas. Assumindo que df é um
    DataFrame qualquer, indique a opção que mostra uma forma correta
    de se modificar o index de um DataFrame.

df.index = range(df.shape[0])

# Conhecendo melhor as estruturas de dados

    Avalie as afirmações abaixo:
    
    1) Um DataFrame é uma estrutura de dados tabular formada por um
    conjunto de Series.
    
    2) É possível criar uma Series a partir de duas colunas de um 
    DataFrame.
    
    3) Não é possível realizar operações aritméticos entre estruturas de 
    dados do pandas.

## Somente a 1 está correta, pois um DataFrame é um conjunto de Series. É possível criar uma Series a partir de uma coluna, e é possível realizar operações aritméticas entre estruturas de dados do pandas.

# Formas de criação de um DataFrame

    Avalie os itens abaixo e selecione as saídas (Out) corretas!
    

In [14]:
df1 = pd.DataFrame({'A': {'X': 1}, 'B': {'X': 2}})

df2 = pd.DataFrame({'C': {'X': 3}, 'D': {'X': 4}})

pd.concat([df1, df2])

Unnamed: 0,A,B,C,D
X,1.0,2.0,,
X,,,3.0,4.0


In [15]:
dados = [('A', 'B'), ('C', 'D')]
df = pd.DataFrame(dados, columns = ['L1', 'L2'], index = ['C1', 'C2'])

df

Unnamed: 0,L1,L2
C1,A,B
C2,C,D


In [16]:
dados = [[1, 2, 3], [4, 5, 6]]
index = 'X,Y'.split(',')
columns = list('CBA')[::-1]
df = pd.DataFrame(dados, index, columns)
df

Unnamed: 0,A,B,C
X,1,2,3
Y,4,5,6


In [17]:
dados = {'A': {'X': 1, 'Y': 3}, 'B': {'X': 2, 'Y': 4}}
df = pd.DataFrame(dados)
df

Unnamed: 0,A,B
X,1,2
Y,3,4


# Determinado Seleções

    Veja o código que cria um DataFrame de letras e números.

In [18]:
import pandas as pd

numeros = [i for i in range(11)]
letras = [chr(i + 65) for i in range(11)]
nome_coluna = ['N']

df = pd.DataFrame(data = numeros, index = letras, columns = nome_coluna)

In [19]:
df

Unnamed: 0,N
A,0
B,1
C,2
D,3
E,4
F,5
G,6
H,7
I,8
J,9


    E baseado nesse dataframe geramos uma selecao para filtrar os dados:

In [20]:
selecao = df['N'].isin([i for i in range(11) if i % 2 == 0])
df = df[selecao]
df

Unnamed: 0,N
A,0
C,2
E,4
G,6
I,8
K,10


    O código acima cria um DataFrame com uma coluna chamada N e atribui os números de 0 até 10. Com o método isin(), selecionamos somente os números pares de N.

# Revisando o que aprendemos

    Julgue os itens abaixo:
    
    1) A função export_csv() cria um arquivo CSV a partir de um DataFrame do pandas.
    
    2) O método isin() retorna uma série booleana a partir de uma coluna de um DataFrame.
    
    3) A função read_csv() lê um arquivo CSV e cria uma Series.

Somente a 2 está correta. DataFrames ou Series booleanas são bastante utilizados em processos de seleções.

# O funcionamento do sort_index

    Considere o seguinte DataFrame nomeado como df:

In [21]:
data = [[1,2,3], [4,5,6], [7,8,9]]
data

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [22]:
df = pd.DataFrame(data, list('ZYX'), list('CBA'))
df

Unnamed: 0,C,B,A
Z,1,2,3
Y,4,5,6
X,7,8,9


    Após executar o seguinte conjunto de rotinas:
    
        df.sort_index()
        df.sort_index(axis = 1)
        df

In [23]:
df.sort_index()
df.sort_index(axis = 1)
df

Unnamed: 0,C,B,A
Z,1,2,3
Y,4,5,6
X,7,8,9


Para que o método sort_index() modifique o DataFrame, o argumento inplace deve ser modificado para True.

# Mais sobre classificações

    Observe o esquema abaixo:

In [24]:
df_a = pd.DataFrame([('Ary','M', 21),
       ('Cátia','F', 19),
        ('Carlos','M', 50),
        ('Beto','M', 29),
        ('Bruna','F', 31),
        ('Ana','F', 42)
                    ])
df_a

Unnamed: 0,0,1,2
0,Ary,M,21
1,Cátia,F,19
2,Carlos,M,50
3,Beto,M,29
4,Bruna,F,31
5,Ana,F,42


In [25]:
df_b = pd.DataFrame([('Ana','F', 42),
       ('Bruna','F', 31),
        ('Cátia','F', 19),
        ('Ary','M', 21),
        ('Beto','M', 29),
        ('Carlos','M', 50)
                    ])
df_b

Unnamed: 0,0,1,2
0,Ana,F,42
1,Bruna,F,31
2,Cátia,F,19
3,Ary,M,21
4,Beto,M,29
5,Carlos,M,50


Como transformar df_a em df_b?

TypeError: sort_index() got an unexpected keyword argument 'by'

In [27]:
df_b = df_a.sort_values(by = [1, 0]) 

In [28]:
df_b

Unnamed: 0,0,1,2
5,Ana,F,42
4,Bruna,F,31
1,Cátia,F,19
0,Ary,M,21
3,Beto,M,29
2,Carlos,M,50


Consulte a documentação para aprender mais sobre o método sort_values()

# DataFrame para os próximos exercícios

## Considere o seguinte DataFrame para responder os próximos exercícios:

In [32]:
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6], 
                        'Aprovado': [True, False, False, True, True, True, False, False]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas', 'Aprovado'])

In [33]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


    Crie um DataFrame somente com os alunos aprovados.

In [34]:
selecao = alunos['Aprovado'] == True
aprovados = alunos[selecao]
aprovados

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


    Crie um DataFrame somente com as alunas aprovadas.

In [36]:
selecao = (alunos.Aprovado == True) & (alunos.Sexo == 'F')
aprovadas = alunos[selecao]
aprovadas

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


    Crie apenas uma vizualização dos alunos com idade entre 10 e 20 anos ou com idade maior ou igual a 40 anos.

In [44]:
selecao = ((alunos.Idade > 10) & (alunos.Idade < 20)) | (alunos.Idade >= 40)
alunos[selecao]


Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
2,Denis,56,M,5.0,False
4,Bruna,42,F,8.2,True
6,Carlos,19,M,6.0,False


    Crie um DataFrame somente com os alunos reprovados e matenha
    neste DataFrame apenas as colunas Nome, Sexo e Idade, nesta ordem.
    Há duas maneiras de fazer:

In [45]:
selecao = alunos['Aprovado'] == False
reprovados = alunos.loc[selecao, ['Nome', 'Sexo', 'Idade']]
reprovados

Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


In [48]:
selecao = alunos['Aprovado'] == False
reprovados = alunos[['Nome', 'Sexo', 'Idade']][selecao]
reprovados

Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


    Crie uma visualização com os três alunos mais novos.

In [49]:
alunos.sort_values(by = ['Idade'], inplace = True)
alunos.iloc[:3]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
6,Carlos,19,M,6.0,False
5,Dara,21,F,7.0,True
