<h1 id="data_acquisition">Aquisição de Dados</h1>
<p>
Existem vários formatos para um conjunto de dados: .csv, .json, .xlsx etc. O conjunto de dados pode ser armazenado em diferentes lugares, em sua máquina local ou às vezes online.
    
Nete exemplo, aprenderemos como carregar um conjunto de dados em nosso Jupyter Notebook.

No nosso caso, o Automobile Dataset é uma fonte online e está no formato CSV (valores separados por vírgula). Vamos usar este conjunto de dados como um exemplo para praticar a leitura de dados.

<ul>
    <li>Fonte dos Dados: <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2021-01-01" target="_blank">https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data</a></li>
    <li>Tipo dos Dados: csv</li>
</ul>
A Biblioteca Pandas é uma ferramenta útil que nos permite ler vários conjuntos de dados em um dataframe; nossas plataformas de notebook Jupyter têm uma biblioteca Pandas integrada, de modo que tudo o que precisamos fazer é importar o Pandas sem instalar.
</p>

In [1]:
# imports

import pandas as pd
import numpy as np

<h2>Lendo os Dados</h2>
<p>
Usamos a função <code>pandas.read_csv()</code> para ler o arquivo .csv. Entre colchetes, colocamos o caminho do arquivo entre aspas para que o pandas leia o arquivo em um dataframe daquele endereço. O caminho do arquivo pode ser um URL ou o endereço do arquivo local.<br>

Como os dados não incluem cabeçalhos, podemos adicionar um argumento <code>headers = None</code> dentro do método <code>read_csv()</code> para que o pandas não defina automaticamente a primeira linha como cabeçalho.<br>

Você também pode atribuir o conjunto de dados a qualquer variável que criar.

</p>

In [2]:
# Lendo o arquivo online pela URL abaixo e atribuindo-o à variável "df"

other_path = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DA0101EN-SkillsNetwork/labs/Data%20files/auto.csv"
df = pd.read_csv(other_path, header=None)

Depois de ler o conjunto de dados, podemos usar o método <code>dataframe.head(n)</code> para verificar as n primeiras linhas do dataframe, onde n é um inteiro. Ao contrário de <code>dataframe.head(n)</code>, <code>dataframe.tail(n)</code> mostrará as n linhas inferiores do dataframe.

In [3]:
# mostrando as primeiras 5 linhas usando o método dataframe.head ()

print("As 5 primeiras linhas do dataframe") 
df.head(5)

As 5 primeiras linhas do dataframe


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


<h3>Adicionando Cabeçalhos</h3>
<p>
Dê uma olhada em nosso conjunto de dados. O Pandas define automaticamente o cabeçalho com um inteiro começando em 0.
</p>
<p>
Para descrever melhor nossos dados, podemos apresentar um cabeçalho. Essas informações estão disponíveis em: <a href="https://archive.ics.uci.edu/ml/datasets/Automobile?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2021-01-01" target="_blank">https://archive.ics.uci.edu/ml/datasets/Automobile</a>.
</p>
<p>
Portanto, temos que adicionar cabeçalhos manualmente.
</p>
<p>
Primeiro, criamos uma lista de "cabeçalhos" que inclui todos os nomes de colunas em ordem. Em seguida, usamos <code>dataframe.columns = headers</code> para substituir os cabeçalhos pela lista que criamos.
</p>

In [4]:
# criar lista de cabeçalhos
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", headers)

headers
 ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Substituímos os cabeçalhos e verificamos novamente nosso dataframe:

In [5]:
df.columns = headers
df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


Precisamos substituir o "?" por NaN para que o dropna () possa remover os valores ausentes:

In [6]:
df1=df.replace('?',np.NaN)
df1.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450.0
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250.0
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710.0
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920.0
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875.0
9,0,,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,


Podemos descartar os valores ausentes ao longo da coluna "price" da seguinte maneira:

In [7]:
df=df1.dropna(subset=["price"], axis=0)
df.head(20)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


<h2>Salvando o Dataset</h2>
<p>
Da mesma forma, o Pandas nos permite salvar o conjunto de dados em csv. Usando o método <code>dataframe.to_csv()</code> você pode adicionar o caminho e o nome do arquivo junto com as aspas e entre colchetes.
</p>
<p>
Por exemplo, se você deseja salvar o dataframe <b>df</b> como <b>automobile.csv</b> em sua máquina local, pode usar a sintaxe abaixo, onde <code>index = False</code> significa que os nomes das linhas não serão gravados.
</p>

Também podemos ler e salvar outros formatos de arquivo. Podemos usar funções semelhantes como **`pd.read_csv ()`** e **`df.to_csv ()`** para outros formatos de dados. As funções estão listadas na seguinte tabela:

<h2>Lendo/Salvando em outros formatos:</h2>

|   Formato    |        Lendo      |     Salvando    |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |

<h1 id="basic_insight">Visão Básica do Conjunto de Dados</h1>
<p>
Depois de ler os dados no dataframe do Pandas, é hora de explorarmos o conjunto de dados.<br>

Existem várias maneiras de obter insights essenciais dos dados para nos ajudar a entender melhor nosso conjunto de dados.

</p>

<h2>Tipos de Dados</h2>
<p>
Os dados têm uma variedade de tipos.<br>

Os principais tipos armazenados nos dataframes do Pandas são <b>object</b>, <b>float</b>, <b>int</b>, <b>bool</b> e <b>datetime64</b>. Para conhecer melhor cada atributo, é sempre bom sabermos o tipo de dado de cada coluna. Em Pandas:

</p>

In [8]:
# verifique o tipo de dados do quadro de dados "df" por .dtypes

print(df.dtypes)

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object


Uma série com o tipo de dados de cada coluna é retornada.

<p>
Como mostrado acima, é claro ver que os tipos de dados de "symboling" e "curb-weight" são <code>int64</code>, "normalized-losses" é <code>object</code>, e "wheel-base" é <code>float64</code>, etc.
</p>
<p>
Esses tipos de dados podem ser alterados; aprenderemos como fazer isso posteriormente.
</p>


<h2>Describe</h2>

Se desejarmos obter um resumo estatístico de cada coluna, por exemplo, contagem, valor médio da coluna, desvio padrão da coluna, etc., usamos o método **`describe`**:

In [9]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,0.840796,98.797015,174.200995,65.889055,53.766667,2555.666667,126.875622,10.164279,25.179104,30.686567
std,1.254802,6.066366,12.322175,2.101471,2.447822,517.296727,41.546834,4.004965,6.42322,6.81515
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.8,64.1,52.0,2169.0,98.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.5,66.6,55.5,2926.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.0,59.8,4066.0,326.0,23.0,49.0,54.0


<p>
Isso mostra o resumo estatístico de todas as colunas digitadas numérico (int, float).<br>

Por exemplo, para o atributo "symboling" contamos 205 valores, o valor médio desta coluna é 0,83, o desvio padrão é 1,25, o valor mínimo é -2, 25º percentil é 0, 50º percentil é 1, 75º percentil é 2 e o valor máximo é 3. <br>

E se também quisermos verificar todas as colunas, incluindo aquelas que são do tipo object? <br><br>

Você pode adicionar um argumento <code>include = "all"</code> dentro dos colchetes. Vamos tentar novamente.

</p>

In [10]:
# descreve todas as colunas em "df"

df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,164.0,201,201,201,199,201,201,201,201.0,...,201.0,201,197.0,197.0,201.0,199.0,199.0,201.0,201.0,201.0
unique,,51.0,22,2,2,2,5,3,2,,...,,8,38.0,36.0,,58.0,22.0,,,186.0
top,,161.0,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,7898.0
freq,,11.0,32,181,165,113,94,118,198,,...,,92,23.0,19.0,,19.0,36.0,,,2.0
mean,0.840796,,,,,,,,,98.797015,...,126.875622,,,,10.164279,,,25.179104,30.686567,
std,1.254802,,,,,,,,,6.066366,...,41.546834,,,,4.004965,,,6.42322,6.81515,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,98.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


<p>
Agora ele fornece o resumo estatístico de todas as colunas, incluindo atributos do tipo object.<br>

Agora podemos ver quantos valores únicos existem, qual é o valor superior e a frequência do valor superior nas colunas do tipo object.<br>

Alguns valores da tabela acima aparecem como "NaN". Isso ocorre porque esses números não estão disponíveis em relação a um tipo de coluna específico.<br>

</p>

<h2>Info</h2>

Outro método que você pode usar para verificar seu conjunto de dados é:

In [11]:
# Veja as informações de "df"

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       199 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non

Ele fornece um resumo conciso do seu DataFrame.

Este método imprime informações sobre um DataFrame incluindo o índice dtype e colunas, valores não nulos e uso de memória.

**Laboratório 01 do Curso de Análise de Dados com Python - Coursera - IBM - Capgemini**

Cézar Augusto Meira Carmo - https://www.linkedin.com/in/cezarcarmo/