# Data Loading 

Escolha o dataset que deseja utilizar, rode o script referente a ele e os dados estarão salvos no diretório. Lembre-se de alterar os notebooks para que leiam os dados corretos (ex: se você rodou o script de carregar o dataset 1, altere o notebook para ler o dataset 1). Vamos utilizar, aqui, datasets disponíveis no UCI Machine Learning Repository, um repositório com uma coleção de bases de dados abertas para a comunidade de Machine Learning.

In [1]:
try: 
    import requests
except ModuleNotFoundError:
    %pip install requests --quiet

In [2]:
try:
    import ucimlrepo
except ModuleNotFoundError:
    %pip install ucimlrepo --quiet

Note: you may need to restart the kernel to use updated packages.


In [19]:
import pandas as pd
from ucimlrepo import fetch_ucirepo
import os
import requests

PATH = os.getcwd()

### Dataset 1: Adult
Dataset com dados de 48842 pessoas, com 14 atributos cada. O objetivo é prever se a renda de uma pessoa é maior ou menor que 50k dólares por ano. Se trata de um problema de classificação. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/2/adult).

Créditos:

Becker,Barry and Kohavi,Ronny. (1996). Adult. UCI Machine Learning Repository. https://doi.org/10.24432/C5XW20.

In [6]:
adult = fetch_ucirepo(id=2) 
  
X = adult.data.features 
y = adult.data.targets 

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/adult'):
    os.makedirs(PATH + '/adult')
df.to_csv(PATH + '/adult/adult.csv', index=False)

### Dataset 2: Spambase

Dataset com dados de 4601 emails, com 57 atributos cada. O objetivo é prever se um email é spam ou não. Se trata de um problema de classificação. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/94/spambase).

Créditos:

Hopkins,Mark, Reeber,Erik, Forman,George, and Suermondt,Jaap. (1999). Spambase. UCI Machine Learning Repository. https://doi.org/10.24432/C53G6X.

In [7]:
spambase = fetch_ucirepo(id=94) 
  
X = spambase.data.features 
y = spambase.data.targets

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/spambase'):
    os.makedirs(PATH + '/spambase')
df.to_csv(PATH + '/spambase/spambase.csv', index=False)

### Dataset 3: Mushroom

Dataset com dados de 8124 cogumelos, com 22 atributos cada. O objetivo é prever se um cogumelo é venenoso ou não. Se trata de um problema de classificação. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/73/mushroom).

Créditos:

Mushroom. (1987). UCI Machine Learning Repository. https://doi.org/10.24432/C5959T.

In [8]:
mushroom = fetch_ucirepo(id=73) 

X = mushroom.data.features 
y = mushroom.data.targets 

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/mushroom'):
    os.makedirs(PATH + '/mushroom')
df.to_csv(PATH + '/mushroom/mushroom.csv', index=False)

### Dataset 4: Statlog (German Credit Data)

Dataset com dados de 1000 pessoas, com 20 atributos cada. O objetivo é prever se um cliente é bom ou mau pagador. Se trata de um problema de classificação. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/144/statlog+german+credit+data).

Créditos:

Hofmann,Hans. (1994). Statlog (German Credit Data). UCI Machine Learning Repository. https://doi.org/10.24432/C5NC77.

In [9]:
statlog_german_credit_data = fetch_ucirepo(id=144) 

X = statlog_german_credit_data.data.features 
y = statlog_german_credit_data.data.targets

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/stat_credit'):
    os.makedirs(PATH + '/stat_credit')
df.to_csv(PATH + '/stat_credit/stat_credit.csv', index=False)

### Dataset 5: Abalone

Dataset com dados de 4177 abalones, com 8 atributos cada. O objetivo é prever a idade de um abalone. Se trata de um problema de regressão. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/1/abalone).

Créditos:

Nash,Warwick, Sellers,Tracy, Talbot,Simon, Cawthorn,Andrew, and Ford,Wes. (1995). Abalone. UCI Machine Learning Repository. https://doi.org/10.24432/C55C7W.

In [10]:
abalone = fetch_ucirepo(id=1) 
  
X = abalone.data.features 
y = abalone.data.targets 

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/abalone'):
    os.makedirs(PATH + '/abalone')
df.to_csv(PATH + '/abalone/abalone.csv', index=False)

### Dataset 6: Auto MPG

Dataset com dados de 398 carros, com 7 atributos cada. O objetivo é prever a eficiência de combustível de um carro. Se trata de um problema de regressão. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/9/auto+mpg).

Créditos:

Quinlan,R.. (1993). Auto MPG. UCI Machine Learning Repository. https://doi.org/10.24432/C5859H.

In [11]:
auto_mpg = fetch_ucirepo(id=9) 
  
X = auto_mpg.data.features 
y = auto_mpg.data.targets 

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/auto_mpg'):
    os.makedirs(PATH + '/auto_mpg')
df.to_csv(PATH + '/auto_mpg/auto_mpg.csv', index=False)

### Dataset 7: Liver Disorders

Dataset com dados de 345 pacientes, com 5 atributos cada. O objetivo é prever quanto álcool um paciente consumiu. Se trata de um problema de regressão. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/60/liver+disorders). Vale notar que a variável "selector" é um atributo criado pelos pesquisadores para realizar o `train test split` dos dados, e não deve ser utilizada.

Créditos:

Liver Disorders. (1990). UCI Machine Learning Repository. https://doi.org/10.24432/C54G67.

In [12]:
liver_disorders = fetch_ucirepo(id=60) 
  
X = liver_disorders.data.features 
y = liver_disorders.data.targets 

df = pd.concat([X, y], axis=1)
if not os.path.exists(PATH + '/liver'):
    os.makedirs(PATH + '/liver')
df.to_csv(PATH + '/liver/liver.csv', index=False)

### Dataset Desafio: Forest Fires

Dataset com dados de 517 incêndios florestais. O objetivo é prever a área queimada por um incêndio. Se trata de um problema de regressão. Encontre mais informações sobre o dataset [aqui](https://archive.ics.uci.edu/dataset/162/forest+fires).

Créditos:

Cortez,Paulo and Morais,Anbal. (2008). Forest Fires. UCI Machine Learning Repository. https://doi.org/10.24432/C5D88D.

In [16]:
import zipfile, io
r = requests.get('https://archive.ics.uci.edu/static/public/162/forest+fires.zip')
z = zipfile.ZipFile(io.BytesIO(r.content))

if not os.path.exists(PATH + '/forest_fires'):
    os.makedirs(PATH + '/forest_fires')

z.extractall(PATH + '/forest_fires')

**Nota:**

Caso encontre algum outro Dataset que julgar interessante e que não esteja na lista, sinta-se livre para utilizá-lo. Os datasets listados são apenas sugestões para facilitar o processo de escolha. Não esqueça de citar a fonte do dataset utilizado. Pode verificar, inclusive, outros repositórios, como [Kaggle](https://www.kaggle.com/datasets) e [Google Dataset Search](https://datasetsearch.research.google.com/).