<a href="https://colab.research.google.com/github/ljcotica/DataScience/blob/main/Importing_Datasets_with_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aquisição dos dados



Existem vários formatos para um conjunto de dados, .csv, .json, .xlsx etc. O conjunto de dados pode ser armazenado em diferentes lugares, em sua máquina local ou às vezes online.
Nesta exemplo, carregaremos um conjunto de dados em nosso Jupyter Notebook.
No nosso caso, o Automobile Dataset é uma fonte online e está no formato CSV (valores separados por vírgula). Vamos usar este conjunto de dados como um exemplo para praticar a leitura de dados.

*   fonte de dados: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
*   tipo de dados: csv

A Biblioteca Pandas é uma ferramenta útil que nos permite ler vários conjuntos de dados em um quadro de dados.

Adicionando a biblioteca:

In [1]:
# Importa as biblioteca Pandas e Numpy
import pandas as pd
import numpy as np

# Lendo os dados

Usamos a função *pandas.read_csv()* para ler o arquivo csv. Entre colchetes, colocamos o caminho do arquivo junto com uma aspa, para que o Pandas leia o arquivo em um quadro de dados daquele endereço. O caminho do arquivo pode ser um URL ou o endereço do arquivo local.
Como os dados não incluem cabeçalhos, podemos adicionar um argumento *headers = None* dentro do método* read_csv()*, para que o Pandas não defina automaticamente a primeira linha como cabeçalho.
Você também pode atribuir o conjunto de dados a qualquer variável que criar.

In [2]:
# Lê o arquivo online que está na URL definida abaixo e atribui os valores a uma variável chamada "df"
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(url, header = None)

Depois de ler o conjunto de dados, podemos usar o método *dataframe.head(n)* para verificar as primeiras n linhas do dataframe; onde n é um número inteiro. Ao contrário de *dataframe.head(n)*, *dataframe.tail(n)* mostrará as n linhas inferiores do dataframe.

In [3]:
# mostra as 5 primeiras linhas usando o método dataframe.head()
print("As 5 primeiras linhas do dataframe") 
df.head(5)

As 5 primeiras linhas do dataframe


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [4]:
# mostra as 5 últimas linhas usando o método dataframe.head()
print("As 5 últimas linhas do dataframe") 
df.tail(5)

As 5 últimas linhas do dataframe


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,55.5,2952,ohc,four,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,188.8,68.8,55.5,3049,ohc,four,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,188.8,68.9,55.5,3012,ohcv,six,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,188.8,68.9,55.5,3217,ohc,six,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,188.8,68.9,55.5,3062,ohc,four,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


# Adicionando cabeçalho

Dê uma olhada em nosso conjunto de dados; O Pandas define automaticamente o cabeçalho como um inteiro começando por 0.

Para descrever melhor nossos dados, podemos apresentar um cabeçalho, essa informação está disponível em: https://archive.ics.uci.edu/ml/datasets/Automobile

Portanto, temos que adicionar cabeçalhos manualmente.

Em primeiro lugar, criamos uma lista de "cabeçalhos" que inclui todos os nomes das colunas em ordem. Em seguida, usamos dataframe.columns = headers para substituir os cabeçalhos pela lista que criamos.



In [5]:
# cria uma lista de cabeçalho
headers=["symboling","normalized-losses","make","fuel-type","aspiration","num-of-doors","body-style","drive-wheels","engine-location","wheel-base","length","width","height","curb-weight","engine-type","num-of-cylinders","engine-size","fuel-system","bore","stroke","compression-ratio","horsepower","peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", headers)

headers
 ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Substituímos os cabeçalhos e verificamos novamente nosso dataframe

In [6]:
df.columns = headers
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Descrição das colunas:

1. symboling:                -3, -2, -1, 0, 1, 2, 3.
2. normalized-losses:        continuous from 65 to 256.
3. make:                     alfa-romero, audi, bmw, chevrolet, dodge, honda,isuzu, jaguar, mazda, mercedes-benz, mercury, mitsubishi, nissan, peugot, plymouth, porsche,renault, saab, subaru, toyota, volkswagen, volvo
4. fuel-type:                diesel, gas.
5. aspiration:               std, turbo.
6. num-of-doors:             four, two.
7. body-style:               hardtop, wagon, sedan, hatchback, convertible.
8. drive-wheels:             4wd, fwd, rwd.
9. engine-location:          front, rear.
10. wheel-base:               continuous from 86.6 120.9.
11. length:                   continuous from 141.1 to 208.1.
12. width:                    continuous from 60.3 to 72.3.
13. height:                   continuous from 47.8 to 59.8.
14. curb-weight:              continuous from 1488 to 4066.
15. engine-type:              dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. num-of-cylinders:         eight, five, four, six, three, twelve, two.
17. engine-size:              continuous from 61 to 326.
18. fuel-system:              1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. bore:                     continuous from 2.54 to 3.94.
20. stroke:                   continuous from 2.07 to 4.17.
21. compression-ratio:        continuous from 7 to 23.
22. horsepower:               continuous from 48 to 288.
23. peak-rpm:                 continuous from 4150 to 6600.
24. city-mpg:                 continuous from 13 to 49.
25. highway-mpg:              continuous from 16 to 54.
26. price:                    continuous from 5118 to 45400.

Precisamos substituir o *"?"* símbolo com NaN para que o *dropna()* possa remover os valores ausentes

In [7]:
df1=df.replace('?',np.NaN)

Podemos descartar os valores ausentes da coluna "preço" da seguinte maneira

In [8]:
df=df1.dropna(subset=["price"], axis=0)
df.head(20)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,168.8,64.1,48.8,2548,dohc,four,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,171.2,65.5,52.4,2823,ohcv,six,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,176.6,66.2,54.3,2337,ohc,four,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,176.6,66.4,54.3,2824,ohc,five,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,177.3,66.3,53.1,2507,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,192.7,71.4,55.7,2844,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,192.7,71.4,55.7,2954,ohc,five,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,192.7,71.4,55.9,3086,ohc,five,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,176.8,64.8,54.3,2395,ohc,four,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


Agora, lemos com sucesso o conjunto de dados e adicionamos os cabeçalhos corretos.

# Salvando o dataset

Da mesma forma, o Pandas nos permite salvar o conjunto de dados em csv usando o método *dataframe.to_csv()*, você pode adicionar o caminho e o nome do arquivo junto com as aspas entre colchetes.

Por exemplo, se você deseja salvar o dataframe *df* como *automovel.csv* em sua máquina local, você pode usar a sintaxe abaixo:

In [9]:
df.to_csv("automovel.csv", index=False)

Também podemos ler e salvar outros formatos de arquivo, podemos usar funções semelhantes a *pd.read_csv()* e *df.to_csv()* para outros formatos de dados, as funções estão listadas na tabela a seguir:

# Ler/Salvar outros formatos

<h2>Read/Save Other Data Formats</h2>

| Data Formate |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |

# Insight básico do dataset

Depois de ler os dados no dataframe do Pandas, é hora de explorarmos o conjunto de dados.<br>
Existem várias maneiras de obter insights essenciais dos dados para nos ajudar a entender melhor nosso conjunto de dados.


## Tipos de dados

Os dados têm vários tipos. <br>
Os principais tipos armazenados nos dataframes do Pandas são object, float, int, bool e datetime64. Para conhecer melhor cada atributo, é sempre bom sabermos o tipo de dado de cada coluna. Em Pandas:

In [10]:
# verifica o tipo de dados do dataframe "df"
print(df.dtypes)

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object


Retorna uma série com o tipo de dados de cada coluna. <br>
Como resultado, conforme mostrado acima, é claro ver que o tipo de dados de "symboling" e "curb-weight" são int64, "normalized-losses" é object e "wheel-base" é float64, etc. <br>

Esses tipos de dados podem ser alterados.

# Descrição

Se quisermos obter um resumo estatístico de cada coluna, como contagem, valor médio da coluna, desvio padrão da coluna, etc. Usamos o método *describe*:

*dataframe.describe()*

Este método fornecerá várias estatísticas resumidas, excluindo os valores NaN (not a number). 

In [11]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0,201.0
mean,0.840796,98.797015,174.200995,65.889055,53.766667,2555.666667,126.875622,10.164279,25.179104,30.686567
std,1.254802,6.066366,12.322175,2.101471,2.447822,517.296727,41.546834,4.004965,6.42322,6.81515
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.8,64.1,52.0,2169.0,98.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.5,66.6,55.5,2926.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.0,59.8,4066.0,326.0,23.0,49.0,54.0


Isso mostra o resumo estatístico de todas as colunas de tipo numérico (int, float).<br>
Por exemplo, o atributo "symboling" tem 205 contagens, o valor médio desta coluna é 0.83, o desvio padrão é 1.25, o valor mínimo é -2, 25º percentil é 0, 50º percentil é 1, 75º percentil é 2 e o valor máximo é 3.<br>
No entanto, se também quisermos verificar todas as colunas, incluindo aquelas que são do tipo objeto.
Você pode adicionar um argumento *include = "all"* dentro do colchete. Vamos tentar novamente.

In [12]:
# descreve todas as colunas no"df" 
df.describe(include = "all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,length,width,height,curb-weight,engine-type,num-of-cylinders,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,201.0,164.0,201,201,201,199,201,201,201,201.0,201.0,201.0,201.0,201.0,201,201,201.0,201,197.0,197.0,201.0,199.0,199.0,201.0,201.0,201.0
unique,,51.0,22,2,2,2,5,3,2,,,,,,6,7,,8,38.0,36.0,,58.0,22.0,,,186.0
top,,161.0,toyota,gas,std,four,sedan,fwd,front,,,,,,ohc,four,,mpfi,3.62,3.4,,68.0,4800.0,,,8921.0
freq,,11.0,32,181,165,113,94,118,198,,,,,,145,157,,92,23.0,19.0,,19.0,36.0,,,2.0
mean,0.840796,,,,,,,,,98.797015,174.200995,65.889055,53.766667,2555.666667,,,126.875622,,,,10.164279,,,25.179104,30.686567,
std,1.254802,,,,,,,,,6.066366,12.322175,2.101471,2.447822,517.296727,,,41.546834,,,,4.004965,,,6.42322,6.81515,
min,-2.0,,,,,,,,,86.6,141.1,60.3,47.8,1488.0,,,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,166.8,64.1,52.0,2169.0,,,98.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,173.2,65.5,54.1,2414.0,,,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,183.5,66.6,55.5,2926.0,,,141.0,,,,9.4,,,30.0,34.0,


Agora, ele fornece o resumo estatístico de todas as colunas, incluindo atributos digitados por objeto.<br>
Agora podemos ver quantos valores únicos, que é o valor superior e a frequência do valor superior nas colunas digitadas por objeto.<br>
Alguns valores na tabela acima são mostrados como "NaN", porque esses números não estão disponíveis para um tipo de coluna específico.

Você pode selecionar as colunas de um quadro de dados, indicando o nome de cada coluna, por exemplo, você pode selecionar as três colunas da seguinte forma:
<br><br>
dataframe [['coluna 1', coluna 2 ',' coluna 3 ']]
<br><br>
Onde "coluna" é o nome da coluna, você pode aplicar o método *".describe ()"* para obter as estatísticas dessas colunas da seguinte maneira:
<br><br>
dataframe [['coluna 1', coluna 2 ',' coluna 3 ']] .describe ()


In [13]:
#Aplicando o método ".describe()" às colunas 'length' e 'compression-ratio'.
df[['length','compression-ratio']].describe()

Unnamed: 0,length,compression-ratio
count,201.0,201.0
mean,174.200995,10.164279
std,12.322175,4.004965
min,141.1,7.0
25%,166.8,8.6
50%,173.2,9.0
75%,183.5,9.4
max,208.1,23.0


## Informações

Outro método que você pode usar para verificar seu conjunto de dados é:

*dataframe.info()*

Ele fornece um resumo conciso do seu Dataframe.
<br>
Este método imprime informações sobre um Dataframe incluindo o índice dtype e colunas, valores não nulos e uso de memória.

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 201 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  164 non-null    object 
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       199 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non