<strong><font size = "4" color = "black">Introdução à Ciência de Dados</font></strong><br>
<font size = "3" color = "gray">Prof. Valter Moreno</font><br>
<font size = "3" color = "gray">2022</font><br>  

<hr style="border:0.1px solid gray"> </hr>
<font size = "5" color = "black">Introdução ao Python</font><p>
<font size = "5" color = "black">Aula 7: Pandas - parte 1</font>
<hr style="border:0.1px solid gray"> </hr>

`pandas` é o pacote que se tornou o padrão em Python para a manipulação de dados tabulares, ou seja, no formato de tabelas. As estruturas de dados do pandas são as **séries** (*series*) e os **DataFrames**. 

*Series* correspondem às colunas de uma tabela. Cada série deve conter um único tipo de dado.

*DataFrames* correspondem às tabelas em si. Eles podem ser compostos por séries, cada uma contendo o seu próprio tipo de dado.

*Series* e *DataFrames* têm **índices** (*indexes*) que identificam univocamente seus elementos e linhas, respectivamente. Pode-se definir os valores usados como índices em *series* e *DataFrames*

O website do `pandas` (https://pandas.pydata.org/) inclui uma variedade de recursos para se aprender como usar o pacote. Em particular, a página [Getting Started](https://pandas.pydata.org/docs/getting_started/index.html#getting-started) contém links para tutoriais sobre as principais funcionalidades do pacote. Para uma abordagem mais detalhada, recomenda-se o livro **"Python for Data Analysis"**, de Wes McKinney.

# Criação de *DataFrames*

*DataFrames* e *series* podem ser criadas a partir de outros objetos, como dicionários, listas e tuplas, ou com funções que lêem dados diretamente de arquivos ou da internet.

In [1]:
meus_dados = {"Nome": ["João", "Maria", "José"],
              "Sobrenome": ["Cunha", "Silveira", "da Silva"],
              "Idade": [34, 23, 24],
              "Matriculado": [True, False, False]}
meus_dados

{'Nome': ['João', 'Maria', 'José'],
 'Sobrenome': ['Cunha', 'Silveira', 'da Silva'],
 'Idade': [34, 23, 24],
 'Matriculado': [True, False, False]}

In [2]:
import pandas as pd

In [3]:
sr = pd.Series(meus_dados.get("Nome"))

print(sr)
print()
print("Tipo do objeto sr:", type(sr))

0     João
1    Maria
2     José
dtype: object

Tipo do objeto sr: <class 'pandas.core.series.Series'>


Note acima que os índices (0, 1, 2) foram criados automaticamente, e são apresentados juntamente com a série.

In [4]:
df = pd.DataFrame(meus_dados)

print(df)
print()
print("Tipo do objeto df:", type(df))

    Nome Sobrenome  Idade  Matriculado
0   João     Cunha     34         True
1  Maria  Silveira     23        False
2   José  da Silva     24        False

Tipo do objeto df: <class 'pandas.core.frame.DataFrame'>


Como para a série, os índices do *DataFrame* foram criados automaticamente, usando uma sequência de números ineiros.

Note que o Jupyter Notebook apresenta *DataFrames* num formato mais agradável, quando não se usa a função `print` para exibi-los.

In [5]:
df

Unnamed: 0,Nome,Sobrenome,Idade,Matriculado
0,João,Cunha,34,True
1,Maria,Silveira,23,False
2,José,da Silva,24,False


Os índices de *series* e *DataFrames* podem ser definidos durante ou após a sua criação.

In [6]:
df = pd.DataFrame(meus_dados, index = ["aluno " + str(i) for i in range(3)])
df

Unnamed: 0,Nome,Sobrenome,Idade,Matriculado
aluno 0,João,Cunha,34,True
aluno 1,Maria,Silveira,23,False
aluno 2,José,da Silva,24,False


In [7]:
df.index = ["candidato_" + str(i) for i in range(3)]
df

Unnamed: 0,Nome,Sobrenome,Idade,Matriculado
candidato_0,João,Cunha,34,True
candidato_1,Maria,Silveira,23,False
candidato_2,José,da Silva,24,False


Os índices de um *DataFrame* podem ser transformados em colunas, assim como uma coluna pode ser transformada em índices. 

In [8]:
df.reset_index()

Unnamed: 0,index,Nome,Sobrenome,Idade,Matriculado
0,candidato_0,João,Cunha,34,True
1,candidato_1,Maria,Silveira,23,False
2,candidato_2,José,da Silva,24,False


Note que o método `reset_index` retorna por padrão uma cópia do *DataFrame* original.

In [9]:
df

Unnamed: 0,Nome,Sobrenome,Idade,Matriculado
candidato_0,João,Cunha,34,True
candidato_1,Maria,Silveira,23,False
candidato_2,José,da Silva,24,False


Podemos usar o argumento *inplace* para fazer com que o próprio *DataFrame* seja alterado. Esse argumento está disponível em diversos métodos do `pandas` 

In [10]:
df.reset_index(inplace = True)
df

Unnamed: 0,index,Nome,Sobrenome,Idade,Matriculado
0,candidato_0,João,Cunha,34,True
1,candidato_1,Maria,Silveira,23,False
2,candidato_2,José,da Silva,24,False


O método `set_index` transforma o conteúdo de uma coluna nos índices do *DataFrame*. Ele também usa o argumento *inplace*.

In [11]:
df.set_index("Nome", inplace = True)
df

Unnamed: 0_level_0,index,Sobrenome,Idade,Matriculado
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
João,candidato_0,Cunha,34,True
Maria,candidato_1,Silveira,23,False
José,candidato_2,da Silva,24,False


As boas práticas em análise de dados sugerem que dados que identifiquem univocamente as linhas num *DataFrame* sejam armazenados em sua própria coluna (ex., o CPF de uma pessoa). Dessa forma, raramente usaremos índices como o principal identificador de um registro (ou linha) de uma tabela de dados (ou *DataFrame*).

# Leitura e gravação

Há diversas funções no `pandas` para a importação de dados armazenados em diferentes formatos. De forma geral, seus nomes seguem o formato `read_tipo`, onde *tipo* se refere ao tipo de arquivo sendo lido.

Os dados da base [Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) criada pelo estatístico Ronald Fisher em 1936 foram baixados e armazenados no diretório `./Dados` em diferentes formatos.

In [12]:
import os  # O pacote os implementa várias funcionalidades relacionadas 
           # ao sistema operacional do computador

print("Arquivos no diretório ./Dados:")
os.listdir("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados")

Arquivos no diretório ./Dados:


['.git',
 '.ipynb_checkpoints',
 'insurance.csv',
 'iris.csv',
 'iris.pkl',
 'iris.tab',
 'iris.xlsx',
 'titanic-sem-indice.csv',
 'titanic.csv']

In [13]:
arquivo = os.path.join("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados",
                       "iris.csv")

with open(arquivo, "r") as f:
    for i in range(5):
        print(f.readline().replace("\n", ""))

"Sepal Length", "Sepal Width, "Petal Length", "Petal Width", "Species"
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa


In [14]:
pd.read_csv(arquivo)  # Dados separados por vírgula

Unnamed: 0,Sepal Length,"""Sepal Width","""Petal Length""","""Petal Width""","""Species"""
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [15]:
arquivo = os.path.join("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados",
                       "iris.tab")
pd.read_table(arquivo)  # Dados separados por tabulação

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,51.0,35.0,14.0,2.0,Iris-setosa
1,49.0,30.0,14.0,2.0,Iris-setosa
2,47.0,32.0,13.0,2.0,Iris-setosa
3,46.0,31.0,15.0,2.0,Iris-setosa
4,50.0,36.0,14.0,2.0,Iris-setosa
...,...,...,...,...,...
146,63.0,25.0,50.0,19.0,Iris-virginica
147,65.0,30.0,52.0,20.0,Iris-virginica
148,62.0,34.0,54.0,23.0,Iris-virginica
149,59.0,30.0,51.0,18.0,Iris-virginica


In [16]:
arquivo = os.path.join("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados",
                       "iris.xlsx")
pd.read_excel(arquivo)  # Dados no formato do MS Excel

Unnamed: 0,Sepal Length,Sepal Width,Petal Length,Petal Width,Species
0,51,35,14,2,Iris-setosa
1,49,30,14,2,Iris-setosa
2,47,32,13,2,Iris-setosa
3,46,31,15,2,Iris-setosa
4,50,36,14,2,Iris-setosa
...,...,...,...,...,...
145,67,30,52,23,Iris-virginica
146,63,25,50,19,Iris-virginica
147,65,30,52,20,Iris-virginica
148,62,34,54,23,Iris-virginica


In [17]:
arquivo = os.path.join("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados",
                       "iris.pkl")
pd.read_pickle(arquivo)  # Dados no formato pickle

Unnamed: 0,Sepal Length,"""Sepal Width","""Petal Length""","""Petal Width""","""Species"""
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Podemos ler os arquivos diretamente da internet.

In [18]:
# Dados da base Titanic obtidos em https://gist.github.com/fyyying:
url = "https://gist.githubusercontent.com/fyyying/4aa5b471860321d7b47fd881898162b7/raw/6907bb3a38bfbb6fccf3a8b1edfb90e39714d14f/titanic_dataset.csv"

dados = pd.read_csv(url)
dados

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Os dados de *DataFrames* e *series* podem ser gravados em arquivos de diferentes formatos. Para isso, usamos funções cujos nomes seguem a estrutura `to_tipo`, com *tipo* correspondendo ao formato desejado. 

Vamos gravar os dados baixados da internet no formato CSV.

In [19]:
arquivo = os.path.join("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados",
                       "titanic.csv")
dados.to_csv(arquivo)

In [20]:
print("Conteúdo do diretório ./Dados:")
os.listdir("C:\\Users\\valte\\OneDrive\\Trabalho\\UERJ\\DEIN\\IntroDSci\\Python\\Dados")

Conteúdo do diretório ./Dados:


['.git',
 '.ipynb_checkpoints',
 'insurance.csv',
 'iris.csv',
 'iris.pkl',
 'iris.tab',
 'iris.xlsx',
 'titanic-sem-indice.csv',
 'titanic.csv']

Para evitar que o índice do *DataFrame* seja gravado como uma coluna, usamos o argumento *index*.

In [21]:
dados.to_csv(arquivo,
             index = False)

Para ler tabelas de websites, `pandas` inclui a função `read_html`. Para usá-la, pode ser necessário instalar os seguintes pacotes:

 - lxml 
 - htmllib5
 - BeautifulSoup4
 
O Jupter Notebook precisa ser reinicializado após a instalação.

Vamos ler os dados do IDH dos municípios do Brasil contidos no website do [PNUD](https://www.br.undp.org/content/brazil/pt/home/idh0/rankings/idhm-municipios-2010.html).

A função `read_html` procura as tabelas contidas na URL fornecida e as armazena numa lista. Cada tabela pode ser então convertida em um *DataFrame*.

In [22]:
url = "https://www.br.undp.org/content/brazil/pt/home/idh0/rankings/idhm-municipios-2010.html"

html = pd.read_html(url)
print("Tipo do objeto gerado: ", type(html))

Tipo do objeto gerado:  <class 'list'>


In [23]:
idh = pd.DataFrame(html[0])
idh

Unnamed: 0,Ranking IDHM 2010,Município,IDHM 2010,IDHM Renda 2010,IDHM Longevidade 2010,IDHM Educação 2010
0,1 º,São Caetano do Sul (SP),862,0891,0887,811
1,2 º,Águas de São Pedro (SP),854,0849,0890,825
2,3 º,Florianópolis (SC),847,0870,0873,800
3,4 º,Balneário Camboriú (SC),845,0854,0894,789
4,4 º,Vitória (ES),845,0876,0855,805
...,...,...,...,...,...,...
5560,5560 º,Uiramutã (RR),453,0439,0766,276
5561,5562 º,Marajá do Sena (MA),452,0400,0774,299
5562,5563 º,Atalaia do Norte (AM),450,0481,0733,259
5563,5564 º,Fernando Falcão (MA),443,0417,0728,286


A página [IO tools (text, CSV, HDF5, …)](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io) do site oficial do `pandas` descreve todas as funções de leitura e gravação implementadas no pacote.

# Informações básicas e estatísticas descritivas

Há métodos e atributos implementados no `pandas` para se obter informações básicas sobre *DataFrames* e *series*. Seguem exemplos.

In [24]:
dados.shape  # Número de linhas e colunas

(891, 12)

In [25]:
dados.index  # Índices do DataFrame (se houvesse nomes, eles seriam mostrados)

RangeIndex(start=0, stop=891, step=1)

In [26]:
dados.columns  # Nomes das colunas

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [27]:
dados.dtypes  # Tipos das colunas do DataFrame
              # Note que colunas com strings aparecem como "object", 
              # assim como o próprio DataFrame  

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [28]:
dados.head(3)  # Mostra as 3 primeiras linhas do DataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [29]:
dados.tail(3)  # Mostra as 3 últimas linhas do DataFrame

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [30]:
dados.info()  # Exibe informações técnicas sobre o objeto, incluindo o número de 
              # linhas com dados (non-null) em cada coluna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


A função `isna` pode ser usada para verificar se o valor está presente ou não num *DataFrame*.

In [31]:
dados.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [32]:
dados.isna().sum()  # Somamos os valores lógicos por coluna para obter
                     # o total de dados faltando

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [33]:
dados.isna().mean().round(2)  # Se usarmos a média, obtemos a proporção de dados faltando

PassengerId    0.00
Survived       0.00
Pclass         0.00
Name           0.00
Sex            0.00
Age            0.20
SibSp          0.00
Parch          0.00
Ticket         0.00
Fare           0.00
Cabin          0.77
Embarked       0.00
dtype: float64

Com o método `any`, podemos identificar e selecionar colunas com dados faltando.

In [34]:
dados.isna().any()

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

In [35]:
dados.columns[dados.isna().any()]

Index(['Age', 'Cabin', 'Embarked'], dtype='object')

In [36]:
dados[dados.columns[dados.isna().any()]]

Unnamed: 0,Age,Cabin,Embarked
0,22.0,,S
1,38.0,C85,C
2,26.0,,S
3,35.0,C123,S
4,35.0,,S
...,...,...,...
886,27.0,,S
887,19.0,B42,S
888,,,S
889,26.0,C148,C


Podemos usar `notna` para identificar os dados presentes

In [37]:
dados.notna().sum()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

Há também métodos específicos para a geração de estatísticas descritivas para as colunas de um *DataFrame*.

In [38]:
dados.describe().round(2)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.38,2.31,29.7,0.52,0.38,32.2
std,257.35,0.49,0.84,14.53,1.1,0.81,49.69
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.12,0.0,0.0,7.91
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.45
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.33


In [39]:
dados.describe().round(2).transpose()  # Troca de colunas por linhas (índices)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
PassengerId,891.0,446.0,257.35,1.0,223.5,446.0,668.5,891.0
Survived,891.0,0.38,0.49,0.0,0.0,0.0,1.0,1.0
Pclass,891.0,2.31,0.84,1.0,2.0,3.0,3.0,3.0
Age,714.0,29.7,14.53,0.42,20.12,28.0,38.0,80.0
SibSp,891.0,0.52,1.1,0.0,0.0,0.0,1.0,8.0
Parch,891.0,0.38,0.81,0.0,0.0,0.0,0.0,6.0
Fare,891.0,32.2,49.69,0.0,7.91,14.45,31.0,512.33


In [40]:
dados["Fare"].median()

14.4542

O método `agg` permite que se defina quais estatísticas descritivas devem ser calculadas para cada coluna.

In [41]:
dados[["Age", "SibSp", "Parch"]]. \
    agg(
        {"Age": ["min", "max", "median", "skew"],
         "SibSp": ["min", "max", "median", "mean"],
         "Parch": ["min", "max", "median"]}). \
    round(2)

Unnamed: 0,Age,SibSp,Parch
min,0.42,0.0,0.0
max,80.0,8.0,6.0
median,28.0,0.0,0.0
skew,0.39,,
mean,,0.52,


Note nos resultados que os valores não calculados foram preenchicos com `NaN`. O rótulo indica que o valor está ausente. Sua interpretação é, portanto, diferente do rótulo `nan` do pacote `numpy`.

Podemos usar aplicar funções que não são nativas do `pandas` usando o método `apply`.

In [42]:
import numpy as np

dados[["Age", "Fare"]].apply(np.sqrt, 
                             axis = 1,
                             result_type = "expand")

Unnamed: 0,Age,Fare
0,4.690416,2.692582
1,6.164414,8.442944
2,5.099020,2.815138
3,5.916080,7.286975
4,5.916080,2.837252
...,...,...
886,5.196152,3.605551
887,4.358899,5.477226
888,,4.842520
889,5.099020,5.477226


In [43]:
dados[["Age", "Fare"]].apply(lambda x: round(np.log(x), 2), 
                             axis = 1,
                             result_type = "expand") 

  result = getattr(ufunc, method)(*inputs, **kwargs)


Unnamed: 0,Age,Fare
0,3.09,1.98
1,3.64,4.27
2,3.26,2.07
3,3.56,3.97
4,3.56,2.09
...,...,...
886,3.30,2.56
887,2.94,3.40
888,,3.15
889,3.26,3.40


Por fim, destaca-se a função `pivot_table`, que possibilita a construção de tabelas de referência cruzada ou tabelas-pivot.

In [44]:
pd.pivot_table(dados, 
               values = "Age",
               index = ["Survived", "Sex"], 
               columns = ["Pclass"],
               aggfunc = ["count"],
               dropna = True)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,count,count
Unnamed: 0_level_1,Pclass,1,2,3
Survived,Sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
0,female,3,6,55
0,male,61,84,215
1,female,82,68,47
1,male,40,15,38


In [45]:
pd.pivot_table(dados, 
               values = "Age",
               index = ["Survived", "Sex"], 
               columns = ["Pclass"],
               aggfunc = ["mean", "std"],
               dropna = True) \
    .round(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,std,std,std
Unnamed: 0_level_1,Pclass,1,2,3,1,2,3
Survived,Sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
0,female,25.67,36.0,23.82,24.01,12.92,12.83
0,male,44.58,33.37,27.26,14.46,12.16,12.14
1,female,34.94,28.08,19.33,13.22,12.76,12.3
1,male,36.25,16.02,22.27,14.94,19.55,11.56


# Seleção e alteração de valores

A seleção de elementos de um *DataFrame* é similar à de *arrays* do `numpy`.

In [46]:
dados.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [47]:
sel = dados["Sex"]
print(sel)
print("\nTipo do resultado:", type(sel))

0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

Tipo do resultado: <class 'pandas.core.series.Series'>


In [48]:
dados["Sex"].unique()  # Valores distintos numa coluna

array(['male', 'female'], dtype=object)

In [49]:
dados["Sex"].nunique()  # Número de valores distintos na coluna

2

In [50]:
sel = dados[["Sex", "Age"]]
print(sel)
print("\nTipo do resultado:", type(sel))

        Sex   Age
0      male  22.0
1    female  38.0
2    female  26.0
3    female  35.0
4      male  35.0
..      ...   ...
886    male  27.0
887  female  19.0
888  female   NaN
889    male  26.0
890    male  32.0

[891 rows x 2 columns]

Tipo do resultado: <class 'pandas.core.frame.DataFrame'>


É possível usar condições para selecionar os elementos de um *DataFrame*.

In [51]:
dados[dados["Sex"] == "female"].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


A concatenação de condições deve ser feita, no entanto, com os operadores `&` e `|`, em vez de `and` e `or`.

In [52]:
dados[(dados["Sex"] == "female") & (dados["Age"] > 50)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S
195,196,1,1,"Lurette, Miss. Elise",female,58.0,0,0,PC 17569,146.5208,B80,C
268,269,1,1,"Graham, Mrs. William Thompson (Edith Junkins)",female,58.0,0,1,PC 17582,153.4625,C125,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S


In [53]:
dados[(dados["Sex"] == "female") | (dados["Age"] < 10)].head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S


Operações de seleção podem ser encadeadas, mas isso não é aconselhável. O problema está relacionado com uma certa falta de consistência do `pandas` quanto ao tipo do resultado gerado em cada etapa (*view* ou cópia do *DataFrame*). Para mais detalhes, veja a página [Views and Copies in pandas](https://www.practicaldatascience.org/html/views_and_copies_in_pandas.html).

In [54]:
dados[dados["Sex"] == "female"][dados["Age"] == 25][dados["Survived"] == 1]

  dados[dados["Sex"] == "female"][dados["Age"] == 25][dados["Survived"] == 1]


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
580,581,1,2,"Christy, Miss. Julie Rachel",female,25.0,1,1,237789,30.0,,S
880,881,1,2,"Shelley, Mrs. William (Imanita Parrish Hall)",female,25.0,0,1,230433,26.0,,S


Essa inconsistência é ainda mais problemática quando se deseja alterar elementos de um *DataFrame*.

In [94]:
df = pd.DataFrame({"Var1": [1, 2, 3, 4, 5], "Var2": list("abcde"), "Var3": [1.5, 2.5, 3.5, 4.5, 5.5]})
df

Unnamed: 0,Var1,Var2,Var3
0,1,a,1.5
1,2,b,2.5
2,3,c,3.5
3,4,d,4.5
4,5,e,5.5


In [56]:
parte = df[df["Var1"] % 2 == 1][df["Var3"] > 2.]
parte[:] = 0
parte

  parte = df[df["Var1"] % 2 == 1][df["Var3"] > 2.]


Unnamed: 0,Var1,Var2,Var3
2,0,0,0
4,0,0,0


O procedimento de seleção condicional encadeada anterior gerou uma cópia do *DataFrame* original, com um aviso de que foi necessário reindexar o resultado. Note que a alteração dos elementos da parte selecionada não modificou os valores anteriores do *DataFrame*.

In [57]:
df

Unnamed: 0,Var1,Var2,Var3
0,1,a,1.5
1,2,b,2.5
2,3,c,3.5
3,4,d,4.5
4,5,e,5.5


Em outras situações, no entanto, o encadeamento poderia ter criado um *view*, ou seja uma janela para os dados do próprio *DataFrame*, que seriam, portanto, modificados.

Recomenda-se que a seleção condicional seja feita por meio de uma única expressão, não encadeada, e sempre por meio do método `loc`. 

In [58]:
df.loc[(df["Var1"] % 2 == 1) & (df["Var3"] > 2.)] = 0
df

Unnamed: 0,Var1,Var2,Var3
0,1,a,1.5
1,2,b,2.5
2,0,0,0.0
3,4,d,4.5
4,0,0,0.0


O método `copy` pode ser usado para criar explicitamente uma cópia da seleção desejada. Abaixo, criamos uma cópia de duas colunas cujas linhas atendem a uma condição aplicada a uma outra coluna. 

In [59]:
df_sel = df.loc[df["Var1"] > 0, ["Var2", "Var3"]].copy()
df_sel

Unnamed: 0,Var2,Var3
0,a,1.5
1,b,2.5
3,d,4.5


O método `:` pode ser empregado para selecionar sequências de linhas e colunas. Note que ele funciona de forma diferente da que temos no Python básico.

In [60]:
dados.loc[10:15, "Survived":"Age"]

Unnamed: 0,Survived,Pclass,Name,Sex,Age
10,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0
11,1,1,"Bonnell, Miss. Elizabeth",female,58.0
12,0,3,"Saundercock, Mr. William Henry",male,20.0
13,0,3,"Andersson, Mr. Anders Johan",male,39.0
14,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0
15,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0


Vetores de valores lógicos podem ser usados explicitamene no método `loc` para selecionar linhas e colunas. Nos exemplos anteriores, os vetores estavam sendo criados e usados de forma implícita.

In [61]:
cols = [col in ["SibSp", "Age", "Ticket"] for col in dados.columns]  # Lista de valores lógicos
cols

[False,
 False,
 False,
 False,
 False,
 True,
 True,
 False,
 True,
 False,
 False,
 False]

In [62]:
dados.loc[:, cols]  # Apenas as colunas correspondentes a True foram selecionadas

Unnamed: 0,Age,SibSp,Ticket
0,22.0,1,A/5 21171
1,38.0,1,PC 17599
2,26.0,0,STON/O2. 3101282
3,35.0,1,113803
4,35.0,0,373450
...,...,...,...
886,27.0,0,211536
887,19.0,0,112053
888,,1,W./C. 6607
889,26.0,0,111369


In [63]:
# Uma forma mais simples usando o método `isin`:
dados.loc[:, dados.columns.isin(["SibSp", "Age", "Ticket"])]

Unnamed: 0,Age,SibSp,Ticket
0,22.0,1,A/5 21171
1,38.0,1,PC 17599
2,26.0,0,STON/O2. 3101282
3,35.0,1,113803
4,35.0,0,373450
...,...,...,...
886,27.0,0,211536
887,19.0,0,112053
888,,1,W./C. 6607
889,26.0,0,111369


In [64]:
# Vamos selecionar agora apenas as linhas com valores de "Age" preenchidos:
dados.loc[dados["Age"].notna(), dados.columns.isin(["SibSp", "Age", "Ticket"])]

Unnamed: 0,Age,SibSp,Ticket
0,22.0,1,A/5 21171
1,38.0,1,PC 17599
2,26.0,0,STON/O2. 3101282
3,35.0,1,113803
4,35.0,0,373450
...,...,...,...
885,39.0,0,382652
886,27.0,0,211536
887,19.0,0,112053
889,26.0,0,111369


Os métodos da classe *string* são bastante úteis para selecionar colunas de um *DataFrame* com base em seus nomes, ou linhas, com base no conteúdo de colunas do tipo *object*. 

In [65]:
dados.loc[:5, dados.columns.str.startswith("S")]

Unnamed: 0,Survived,Sex,SibSp
0,0,male,1
1,1,female,1
2,1,female,0
3,1,female,1
4,0,male,0
5,0,male,0


A seguir, um vetor de valores lógicos é usado explicitamente para selecionar linhas. 

In [66]:
linhas = dados['Age'] < 10
linhas

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

In [67]:
dados.loc[linhas, cols]

Unnamed: 0,Age,SibSp,Ticket
7,2.00,3,349909
10,4.00,1,PP 9549
16,2.00,4,382652
24,8.00,3,349909
43,3.00,1,SC/Paris 2123
...,...,...,...
827,1.00,0,S.C./PARIS 2079
831,0.83,1,29106
850,4.00,4,347082
852,9.00,1,2678


O método `iloc` seleciona linhas com base no valor dos índices do *DataFrame*.

In [68]:
dados.loc[linhas, cols].iloc[[7, 10, 16]]

Unnamed: 0,Age,SibSp,Ticket
63,4.0,3,347088
147,9.0,2,W./C. 6608
183,1.0,2,230136


Note no exemplo acima que as linhas selecionadas não correspondem às com índices 7, 10 e 16 selecionadas com o método `loc`. O encadeamento de métodos reindexou implicitamente o resultado da primeira seleção.

In [69]:
sel = dados.loc[linhas, cols]
sel.reset_index(drop = True, inplace = True)
sel

Unnamed: 0,Age,SibSp,Ticket
0,2.00,3,349909
1,4.00,1,PP 9549
2,2.00,4,382652
3,8.00,3,349909
4,3.00,1,SC/Paris 2123
...,...,...,...
57,1.00,0,S.C./PARIS 2079
58,0.83,1,29106
59,4.00,4,347082
60,9.00,1,2678


In [70]:
sel.iloc[[7, 10, 16]]

Unnamed: 0,Age,SibSp,Ticket
7,4.0,3,347088
10,9.0,2,W./C. 6608
16,1.0,2,230136


In [71]:
sel.iloc[3:7]  # Valores gerados com o método : também podem ser usados para selecionar linhas
               # No método iloc, no entanto, ele funciona como no Python básico.

Unnamed: 0,Age,SibSp,Ticket
3,8.0,3,349909
4,3.0,1,SC/Paris 2123
5,7.0,4,3101295
6,5.0,1,C.A. 34651


In [72]:
sel.iloc[(sel.index % 3 == 0) & (sel.index % 5 == 0)]  # O mesmo vale para expressões
                                                       # que geram vetores lógicos

Unnamed: 0,Age,SibSp,Ticket
0,2.0,3,349909
15,9.0,4,347077
30,1.0,5,CA 2144
45,0.75,2,2666
60,9.0,1,2678


In [73]:
(sel.index % 3 == 0) & (sel.index % 5 == 0)

array([ True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False,  True, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
        True, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False,  True, False])

O método `iloc` também pode ser usado para selecionar colunas com base em sua posição no *DataFrame*.

In [74]:
sel.iloc[:5, 1:3]

Unnamed: 0,SibSp,Ticket
0,3,349909
1,1,PP 9549
2,4,382652
3,3,349909
4,1,SC/Paris 2123


O método `drop_duplicates` permite que selecionemos apenas linhas com combinações distintas de valores.

In [75]:
linhas = sel.shape[0]
print(f"Há {linhas} linhas na seleção.")

Há 62 linhas na seleção.


In [76]:
linhas_únicas = sel \
    .drop_duplicates(subset = ["Age", "SibSp"], 
                    keep = "first") \
    .shape[0]

print(f"Das linhas originais, há {linhas_únicas} linhas " + 
      "com combinações de 'Age' e 'SibSp' distintas na seleção.")

Das linhas originais, há 41 linhas com combinações de 'Age' e 'SibSp' distintas na seleção.


O método `dropna` nos ajuda a eliminar linhas com dados faltando.

In [77]:
print(f"Total de linhas nos dados: {dados.shape[0]}")

Total de linhas nos dados: 891


In [78]:
print(f"Total de linhas sem dados faltando: {dados.dropna(axis = 0).shape[0]}")

Total de linhas sem dados faltando: 183


O mesmo método pode ser usado para descartar colunas com dados faltando.

In [79]:
dados.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [80]:
dados.dropna(axis = 1).head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,SibSp,Parch,Ticket,Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,1,0,A/5 21171,7.25
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,1,0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,0,0,STON/O2. 3101282,7.925


O argumento *thresh* permite que seja definido um número mínimo de valores presentes na coluna para que ela não seja descartada.

In [81]:
dados.shape[0] - dados.isna().sum()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [82]:
dados.dropna(axis = 1, thresh = 300).columns.to_list()

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Embarked']

<font size = "3" color = "blue"><strong><u>Recomendações</u>:</strong></font> 
  - cuidado com encadeamentos no `pandas`
  - explicite as operações que você deseja fazer com o `pandas`
  - use os métodos `loc` e `iloc` para selecionar partes de um *DataFrame*, especialmente quando desejar atribuir novos valores
  - deixe claro quando você quiser criar uma cópia de um resultado, usando o método `copy`
  - consulte os recursos disponíveis, especialmente na internet, antes de "reinventar a roda"; o próprio `pandas` tem uma variedade de métodos e funções para os mais variados fins!