# Modulo 1: Importando datasets

### Objetivos de aprendizado para esse módulo

* Analisar dados em Python usando um dataset
* Identificar três bibliotecas do Python e descrever sua utilidade
* Ler dados usando o pacote Pandas
* Demonstrar como importar e exportar dados em Python

**Por que analisar dados?**
* Porque dados estão em toda parte
* Porque análise de dados/ciência de dados nos ajuda a responder perguntas sobr pree dados
    * Descobrindo informações úteis
    * Fazer predições sobre o futuro
    
***

### Estudo guidado

Digamos que alguém queira vender seu carro, mas não sabe precificar o seu veículo. Mesmo querendo ganhar mais pelo seu carro, ele precisa ajustar o valor de acordo com a realidade.

Um analista de dados/cientista de dados poderia se perguntar:
* Existem dados disponíveis de carros, seus preços e caracteristicas?
* Que características influenciam o preço de veículos? 

O dataset utilizado nesse curso é público e pode ser encontrado aqui: https://archive.ics.uci.edu/ml/datasets/Automobile

***

### Bibliotecas do Python para análise de dados

**Bibliotecas de computação científica**
* Pandas
* Numpy
* SciPy

**Bibliotecas de visualização de dados**
* Matplotlib
* Seaborn

**Bibliotecas de algoritmos**
* Scikit-learn
* Statsmodels

***

**Importando dados**

Ao importar dados temos de observar o **formato** em que esses dados estão gravados e o **caminho (path)** até o arquivo de dados.

* Formato
    * .csv; .xlsx; .json; ...
* Caminho
    * Computador: /Desktop/dataset.csv
    * Internet: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/

***

Para importar dados utilizamos o Pandas. Criamos a variavel `df` e atribuimos a ela a saída do método pandas que realiza a leitura de arquivos .csv, o qual iremos manipular. `read_csv` toma como argumento o arquivo de dados do tipo .csv e possui ainda um parâmetro `header`, que é opcional e serve para sinalizar para a função a existência, ou não, de cabeçalho nessa tabela. Por padrão o método interpreta que o dataset possui cabeçalho, como sabemos que esse não é o caso para esse dataset, atribuímos a `header` o valor `None`.

In [3]:
import pandas as pd # importa pandas, que pode ser lido como 'pd'

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data" # string que recebe a localização do dataset

df = pd.read_csv(url, header = None) # método que lê o dataset

Observe que `df` é agora um objeto do tipo pandas

In [4]:
type(df)

pandas.core.frame.DataFrame

E como objeto pandas ele herda todos os métodos disponíveis dessa classe. Tal como o método `head` que retorna as primeiras "n" linhas que o usuário desejar.

In [5]:
df.head(5) # imprime as primeiras cinco linhas do dataset

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


O método `tail` faz o inverso.

In [6]:
df.tail(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


Como podemos ver, o cabeçalho foi substituido por números inteiros, mas isso é pouco prático e, como sabemos através da documentação disponivel o que cada coluna representa e sua ordem de aparição podemos atribuir os nomes das colunas atribuindo uma lista de strings ao parâmetro `columns` do objeto pandas.

In [7]:
header = ["symboling", "normalized", "make", "fuel-type", "aspiration", "num-of-doors", "body-style", "drive-wheels",
          "engine-location", "wheel-base", "length", "width", "height", "curb-weight", "engine-type", 
          "num-of-cylinders", "engine-size", "fuel-system", "bore", "stroke", "compression-ratio", "horsepower", 
          "peak-rpm", "city-mpg","highway-mpg", "price"]

df.columns = header

Conferindo...

In [8]:
df.head(5)

Unnamed: 0,symboling,normalized,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Agora, se quisermos salvar o objeto pandas que contem o nosso dataset em um arquivo local, utilizamos o método `to_csv(path)`. O argumento `path`

***

É importante conhecer o dataset antes de partir para a análise e reconhecer os tipos de dados que o compoem. Isso evita surpresas ao rodar funções matematicas em dados do tipo string, por exemplo. E também pode nos ajudar a assegurar que o tipo correto de dados aparece como esperado nas colunas. Para verificar os tipos de dados no dataset o pandas fornece o método `dtypes`.

In [9]:
df.dtypes

symboling              int64
normalized            object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

Importante salientar que o tipo `object` é uma versão `string` do módulo pandas. Observe que `price`, por exemplo está como tipo `object` quando naturalmente esperariamos um tipo numerico como `float` ou `int`. No módulo seguinte aprenderemos a lidar com essas situações.

Por hora, cabe mencionar o método `describe` que apresenta estatísticas descritivas de cada coluna.

In [10]:
df.describe()

Unnamed: 0,symboling,wheel-base,length,width,height,curb-weight,engine-size,compression-ratio,city-mpg,highway-mpg
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,10.142537,25.219512,30.75122
std,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,3.97204,6.542142,6.886443
min,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,7.0,13.0,16.0
25%,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,8.6,19.0,25.0
50%,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,9.0,24.0,30.0
75%,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,9.4,30.0,34.0
max,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,23.0,49.0,54.0


Note que apenas as colunas com colunas do tipo numérico são representadas. Se quisermos a representação de todas as colunas, incluindo aquelas de tipo `object`, atribuimos ao parametro opcional de `describe` o valor `all`.

In [14]:
df.describe(include="all")

Unnamed: 0,symboling,normalized,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,205.0,205,205,205,205,205,205,205,205,205.0,...,205.0,205,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205
unique,,52,22,2,2,3,5,3,2,,...,,8,39.0,37.0,,60.0,24.0,,,187
top,,?,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,?
freq,,41,32,185,168,114,96,120,202,,...,,94,23.0,20.0,,19.0,37.0,,,4
mean,0.834146,,,,,,,,,98.756585,...,126.907317,,,,10.142537,,,25.219512,30.75122,
std,1.245307,,,,,,,,,6.021776,...,41.642693,,,,3.97204,,,6.542142,6.886443,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


A inclusão de colunas de tipo `object` retorna novas observações descritivas, como `unique`, `top` e `freq`. O valor `NaN` significa _Not a Number_.

Por fim, outro método útil para visualizar um resumo do dataset é o método `info`.

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized         205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

***

### Acessando base de dados com Python

Para acessar base de dados normalmente utilizamos chamadas de APIs que retornam dados de nosso interesse guardados na base de dados. Esse curso introduz algumas funções do Python para trabalharmos com SQL.

Python possui um conjunto de operações que fazem a interface com base de dados. Os dois principais conceitos por de trás desse protocolo são: 

* Objetos de conexão (connection objects)
    * conexão com a base de dados
    * gerenciam as transações
* Objeto cursor
    * rodam queries
    * funcionam como um cursor de rolagem de texto

| Métodos de Conexão | Descrição                                                                |
|:------------------:|--------------------------------------------------------------------------|
| cursor()           | Retorna um objeto cursor                                                 |
| commit()           | Insere trnsações pendentes na base de dados                              |
| rollback()         | retorna a a base de dados ao estado anterior a ultima transação pendente |
| close()            | encerra a conexão com a base de dados                                    |

