# Engenharia de Software para Ciência de Dados - PUC-Rio

### Introdução à Análise Exploratória de Dados com a Biblioteca Pandas
Marcos Kalinowski e Tatiana Escovedo

## Pandas

https://pandas.pydata.org/ 

Biblioteca para manipulação de dados estruturados ou tabulares, que oferece funcionalidade de indexação que permite o "slice and dice", agregações e seleção de subsets de dados.

É excelente para pré-processamento e análise de dados e tem como estruturas principais *series* e *dataframes*.

In [None]:
# imports necessários
import numpy as np
import pandas as pd

In [None]:
# importando dados uma url para um dataframe

# url a importar
url_dados = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

# labels dos atributos do dataset
atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']

# carga do dataset através da url - há diversos parâmetros no read_csv que podem ser interessantes, como sep, usecols e header
iris = pd.read_csv(url_dados, names=atributos)

In [None]:
# verificando que iris é um dataframe
type(iris)

pandas.core.frame.DataFrame

In [None]:
# verificando os tipos de cada coluna do dataframe
iris.dtypes

comprimento_sepala    float64
largura_sepala        float64
comprimento_petala    float64
largura_petala        float64
especie                object
dtype: object

In [None]:
# exibindo as primeiras linhas
iris.head()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# exibindo as últimas linhas
iris.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [None]:
# exibindo as primeiras 10 linhas
iris.head(10)

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


In [None]:
# exibindo os nomes das colunas
iris.columns

Index(['comprimento_sepala', 'largura_sepala', 'comprimento_petala',
       'largura_petala', 'especie'],
      dtype='object')

In [None]:
# exibindo as dimensões do dataset
iris.shape

(150, 5)

In [None]:
# exibindo a quantidade de linhas por coluna
iris.count()

comprimento_sepala    150
largura_sepala        150
comprimento_petala    150
largura_petala        150
especie               150
dtype: int64

In [None]:
# exibindo um sumário estatístico
iris.describe()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [None]:
# exibindo informações sobre colunas e uso de memória
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   comprimento_sepala  150 non-null    float64
 1   largura_sepala      150 non-null    float64
 2   comprimento_petala  150 non-null    float64
 3   largura_petala      150 non-null    float64
 4   especie             150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [None]:
# ordenando o dataframe por uma coluna
# obs: retorna apenas o resultado da query. 
# Se quisermos alterar a ordenação do dataframe em si, teríamos que fazer por exemplo iris = iris.sort_values(by='largura_sepala')
iris.sort_values(by='largura_sepala')

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
60,5.0,2.0,3.5,1.0,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
119,6.0,2.2,5.0,1.5,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
41,4.5,2.3,1.3,0.3,Iris-setosa
...,...,...,...,...,...
16,5.4,3.9,1.3,0.4,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
32,5.2,4.1,1.5,0.1,Iris-setosa
33,5.5,4.2,1.4,0.2,Iris-setosa


In [None]:
# ordenando por uma coluna de ordem descendente
iris.sort_values(by='largura_sepala', ascending=False)

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
15,5.7,4.4,1.5,0.4,Iris-setosa
33,5.5,4.2,1.4,0.2,Iris-setosa
32,5.2,4.1,1.5,0.1,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
...,...,...,...,...,...
87,6.3,2.3,4.4,1.3,Iris-versicolor
62,6.0,2.2,4.0,1.0,Iris-versicolor
68,6.2,2.2,4.5,1.5,Iris-versicolor
119,6.0,2.2,5.0,1.5,Iris-virginica


In [None]:
# selecionando uma coluna específica
iris['largura_sepala']

0      3.5
1      3.0
2      3.2
3      3.1
4      3.6
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: largura_sepala, Length: 150, dtype: float64

In [None]:
# selecionando um subconjunto de linhas consecutivas
iris[7:11]

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa


In [None]:
# selecionando um subconjunto de colunas para todas as linhas
iris.loc[:, ['largura_sepala', 'largura_petala', 'especie']]

Unnamed: 0,largura_sepala,largura_petala,especie
0,3.5,0.2,Iris-setosa
1,3.0,0.2,Iris-setosa
2,3.2,0.2,Iris-setosa
3,3.1,0.2,Iris-setosa
4,3.6,0.2,Iris-setosa
...,...,...,...
145,3.0,2.3,Iris-virginica
146,2.5,1.9,Iris-virginica
147,3.0,2.0,Iris-virginica
148,3.4,2.3,Iris-virginica


In [None]:
# selecionando um subconjunto linhas e colunas
iris.loc[7:11, ['largura_sepala', 'largura_petala', 'especie']]

Unnamed: 0,largura_sepala,largura_petala,especie
7,3.4,0.2,Iris-setosa
8,2.9,0.2,Iris-setosa
9,3.1,0.1,Iris-setosa
10,3.7,0.2,Iris-setosa
11,3.4,0.2,Iris-setosa


In [None]:
# selecionando linhas segundo um critério
iris[iris['largura_sepala'] > 3.5]

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa
14,5.8,4.0,1.2,0.2,Iris-setosa
15,5.7,4.4,1.5,0.4,Iris-setosa
16,5.4,3.9,1.3,0.4,Iris-setosa
18,5.7,3.8,1.7,0.3,Iris-setosa
19,5.1,3.8,1.5,0.3,Iris-setosa
21,5.1,3.7,1.5,0.4,Iris-setosa
22,4.6,3.6,1.0,0.2,Iris-setosa


In [None]:
# criando um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


In [None]:
# eliminando linhas que tenham ALGUM valor missing

df = df.dropna(how='any')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [None]:
# criando (novamente) um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


In [None]:
# adicionando uma nova linha com todos os valores missing para o próximo exemplo
df = df.append({}, ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa
151,,,,,


In [None]:
# eliminando linhas que tenham TODOS os valores missing
df = df.dropna(how='all')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


In [None]:
# definindo valores para o preenchimento de missings
values = {'comprimento_sepala': iris['comprimento_sepala'].median(), 
          'largura_sepala': 4.0, 'comprimento_petala': 5.0, 
          'largura_petala': 0.4, 'especie': 'Iris-setosa'}
df = df.fillna(value=values)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [None]:
# exibindo a média de cada atributo, agrupado por espécie
iris.groupby('especie').mean()

Unnamed: 0_level_0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala
especie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,5.006,3.418,1.464,0.244
Iris-versicolor,5.936,2.77,4.26,1.326
Iris-virginica,6.588,2.974,5.552,2.026


In [None]:
# se tivéssemos duas colunas categóricas, poderiamos fazer subgrupos...

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo','foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three', 'one', 'two', 'one', 'three'],
                   'C': np.random.randn(12), # gera 12 números aleatórios
                   'D': np.random.randn(12)})
df

Unnamed: 0,A,B,C,D
0,foo,one,0.521391,-0.171915
1,bar,one,2.289365,0.902892
2,foo,two,-0.517301,-0.7461
3,bar,three,-0.967692,0.9358
4,foo,two,1.825405,1.748789
5,bar,two,-0.80205,-0.999248
6,foo,one,0.948957,-1.460718
7,foo,three,0.043594,-0.021101
8,foo,one,-0.185943,0.417237
9,bar,two,0.270929,-0.411001


In [None]:
# ... e exibir sua soma...
df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2.289365,0.902892
bar,three,-1.234481,3.588285
bar,two,-0.531122,-1.410249
foo,one,1.64833,-1.696429
foo,three,0.043594,-0.021101
foo,two,1.308105,1.002689


In [None]:
# ... ou sua média/mediana
df.groupby(['A', 'B']).mean()
# df.groupby(['A', 'B']).median()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,2.289365,0.902892
bar,three,-0.617241,1.794142
bar,two,-0.265561,-0.705125
foo,one,0.412082,-0.424107
foo,three,0.043594,-0.021101
foo,two,0.654052,0.501344


In [None]:
# adicionando uma nova coluna ao dataframe (não tenho ideia se essa métrica faz sentido!)
iris['razao'] = (iris['comprimento_petala'] * iris['comprimento_sepala'])
iris.head()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie,razao,cat_razao
0,5.1,3.5,1.4,0.2,Iris-setosa,7.14,Pequena
1,4.9,3.0,1.4,0.2,Iris-setosa,6.86,Pequena
2,4.7,3.2,1.3,0.2,Iris-setosa,6.11,Pequena
3,4.6,3.1,1.5,0.2,Iris-setosa,6.9,Pequena
4,5.0,3.6,1.4,0.2,Iris-setosa,7.0,Pequena


In [None]:
# exibindo o conteúdo da nova coluna
iris['razao'].head()

0    7.14
1    6.86
2    6.11
3    6.90
4    7.00
Name: razao, dtype: float64

In [None]:
# criando uma função para processamento de dados.
def categoriza_razao(razao):
    if razao >= 40:
        return 'Grande'
    elif razao >= 15:
        return 'Média'
    else:
        return 'Pequena'


In [None]:
# adicionando uma nova coluna ao dataframe a partir do processamento realizado com a função que criamos
iris['cat_razao'] = iris['razao'].apply(categoriza_razao)
iris.head(10)

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie,razao,cat_razao
0,5.1,3.5,1.4,0.2,Iris-setosa,7.14,Pequena
1,4.9,3.0,1.4,0.2,Iris-setosa,6.86,Pequena
2,4.7,3.2,1.3,0.2,Iris-setosa,6.11,Pequena
3,4.6,3.1,1.5,0.2,Iris-setosa,6.9,Pequena
4,5.0,3.6,1.4,0.2,Iris-setosa,7.0,Pequena
5,5.4,3.9,1.7,0.4,Iris-setosa,9.18,Pequena
6,4.6,3.4,1.4,0.3,Iris-setosa,6.44,Pequena
7,5.0,3.4,1.5,0.2,Iris-setosa,7.5,Pequena
8,4.4,2.9,1.4,0.2,Iris-setosa,6.16,Pequena
9,4.9,3.1,1.5,0.1,Iris-setosa,7.35,Pequena


In [None]:
# exibindo o conteúdo do dataframe com as novas colunas
iris.head()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie,razao,cat_razao
0,5.1,3.5,1.4,0.2,Iris-setosa,7.14,Pequena
1,4.9,3.0,1.4,0.2,Iris-setosa,6.86,Pequena
2,4.7,3.2,1.3,0.2,Iris-setosa,6.11,Pequena
3,4.6,3.1,1.5,0.2,Iris-setosa,6.9,Pequena
4,5.0,3.6,1.4,0.2,Iris-setosa,7.0,Pequena


In [None]:
# exibindo a distribuicao da nova coluna
pd.value_counts(iris['cat_razao'])

Média      87
Pequena    50
Grande     13
Name: cat_razao, dtype: int64

In [None]:
# excluindo colunas do dataframe
## OBS1: a opção axis=1 define que iremos excluir uma coluna (0 para linha - default)
## OBS2: inplace=True define que a alteração irá modificar o dataframe em memória, sem necessidade de reatribuí-lo a uma nova variável

iris.drop(['razao', 'cat_razao'], axis=1, inplace=True)

# para excluir apenas uma coluna, faríamos: iris.drop(['razao'], axis=1, inplace=True)

In [None]:
# exibindo o conteúdo do dataframe com a exclusão das colunas
iris.head()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## 4 maneiras de trabalhar com datasets

OBS: Dependendo da forma de importar, o cabeçalho das colunas (nome das caractetísticas) pode ser diferente.

In [None]:
# 1) Importando dados de uma url para um dataframe

# imports necessários
import pandas as pd

# url a importar
url_dados = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

# labels dos atributos do dataset
atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']

# carga do dataset através do csv
iris = pd.read_csv(url_dados, names=atributos)

# verifica o tipo de iris
print(type(iris))

# exibe as 5 primeiras linhas
iris.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# 2. Importando dados de um dataset do Scikit-Learn para um dataframe
# https://scikit-learn.org/stable/datasets/toy_dataset.html

# imports necessários
import pandas as pd
from sklearn import datasets

# carga do dataset através do scikit-learn
iris = datasets.load_iris()

# verifica o tipo de iris
print(type(iris))

# conversão para dataframe
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

# adição da coluna target
iris_df['target'] = iris.target

# verifica o tipo de iris_df
print(type(iris_df))

# exibe as 5 primeiras linhas
iris_df.head()

<class 'sklearn.utils.Bunch'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [None]:
# 3. Importando dados de um arquivo .csv local

# imports necessários
import pandas as pd

# carga do dataset através de um arquivo
filename = "iris.csv" # este arquivo deve estar dentro da aba "Arquivos" do Colab
atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']
iris = pd.read_csv(filename,names = atributos, delimiter = ';', skiprows = 1) # se o cabeçalho estiver sendo importado como dados, use o parâmetro skiprows = 1 na função read_csv

# verifica o tipo de iris
print(type(iris))

# exibe as 5 primeiras linhas
iris.head()


<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,4.1,4.2,1.3,0.2,Iris-setosa
1,4.0,3.5,1.5,0.3,Iris-setosa
2,5.3,3.8,1.6,0.1,Iris-setosa
3,3.8,3.5,1.8,0.3,Iris-setosa
4,3.7,3.2,1.2,0.2,Iris-setosa


In [None]:
# 4. Importando dados de um arquivo .csv no Google Drive

# imports necessários
import pandas as pd
from google.colab import drive

# monta o drive
drive.mount("/content/drive") # neste momento poderá aparecer uma autorização para conectar o GoogleDrive no Colab

# carga do dataset através de um arquivo
atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']
iris = pd.read_csv("drive/MyDrive/datasets/iris.csv", delimiter = ';' , names = atributos, skiprows = 1) # este arquivo deve estar dentro da pasta "datasets" do seu GoogleDrive

# verifica o tipo de iris
print(type(iris))

# exibe as 5 primeiras linhas
iris.head()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
0,4.1,4.2,1.3,0.2,Iris-setosa
1,4.0,3.5,1.5,0.3,Iris-setosa
2,5.3,3.8,1.6,0.1,Iris-setosa
3,3.8,3.5,1.8,0.3,Iris-setosa
4,3.7,3.2,1.2,0.2,Iris-setosa


## Exercício com o dataset Diabetes

In [None]:
# 1) importe o dataset diabetes. Dicas:

# url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# cabeçalho das colunas
# colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

url_dados = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# labels dos atributos do dataset
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# carga do dataset através do csv
indians = pd.read_csv(url_dados, names=colunas)

# verifica o tipo de iris
print(type(indians))

# exibe as 5 primeiras linhas
indians.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# 2) Exiba:

# a. As dimensões do dataset
indians.shape

# b. As 10 primeiras linhas
indians.head(10)

# c. As 10 últimas linhas
indians.tail(10)

# d. o tipo de cada atributo
indians.dtypes

# e. O resumo estatístico
indians.describe()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [None]:
# 3) Ordene o dataset em ordem descrescente por idade
indians.sort_values(by='age', ascending=False)


Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
459,9,134,74,33,60,25.9,0.460,81,0
453,2,119,0,0,0,19.6,0.832,72,0
666,4,145,82,18,0,32.5,0.235,70,1
123,5,132,80,0,0,26.8,0.186,69,0
684,5,136,82,0,0,0.0,0.640,69,0
...,...,...,...,...,...,...,...,...,...
240,1,91,64,24,0,29.2,0.192,21,0
136,0,100,70,26,50,30.8,0.597,21,0
382,1,109,60,8,182,25.4,0.947,21,0
392,1,131,64,14,415,23.7,0.389,21,0


In [None]:
# 4) Exiba apenas as linhas com 'age' maior do que 50
indians[indians['age'] > 50]


Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1
12,10,139,80,0,0,27.1,1.441,57,0
13,1,189,60,23,846,30.1,0.398,59,1
14,5,166,72,19,175,25.8,0.587,51,1
...,...,...,...,...,...,...,...,...,...
719,5,97,76,27,0,35.6,0.378,52,1
734,2,105,75,0,0,23.3,0.560,53,0
757,0,123,72,0,0,36.3,0.258,52,1
759,6,190,92,0,0,35.5,0.278,66,1


## Gabarito

In [None]:
# Gabarito

# 1) importe o dataset diabetes

# Carrega arquivo csv usando Pandas usando uma URL

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=0, delimiter=',')

In [None]:
# 2) Exiba:
# a. As dimensões do dataset
# b. As 10 primeiras linhas
# c. As 10 últimas linhas
# d. o tipo de cada atributo
# e. O resumo estatístico

# Mostra as dimensões do dataset
print(dataset.shape)

# Mostra as 10 primeiras linhas do dataset
print(dataset.head(10))

# Mostra as 10 últimas linhas do dataset
print(dataset.tail(10))

# Verifica o tipo de cada atributo do dataset
print(dataset.dtypes)

# Faz um resumo estatístico do dataset (média, desvio padrão, mínimo, máximo e os quartis)
dataset.describe()

In [None]:
# 3) Ordene o dataset em ordem descrescente por idade

# ordenando por uma coluna de ordem descendente
dataset.sort_values(by='age', ascending=False)

In [None]:
# 4) Exiba apenas as linhas com 'age' maior do que 50

# selecionando linhas segundo um critério
dataset[dataset['age'] > 50]

## Links interessantes

* https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
* https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook
* https://github.com/donnemartin/data-science-ipython-notebooks#pandas
* http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3
* https://github.com/donnemartin/data-science-ipython-notebooks#pandas - Coletânea de notebooks Jupyter que abordam profundamente várias ferramentas e casos de uso do Pandas
* https://github.com/guipsamora/pandas_exercises - Exercícios de Pandas com soluções, separados por temas