# Retrieving Data

## CSV
**Comma-separeted values (CSV)** sono dei file dove i dati sono organizzati in righe, dove ogni valore è separato da un altro tramite una virgola.

### Leggere i file CSV

In [None]:
import pandas as pd
filepath = 'data/iris_data.csv'

# Import dei dati
data = pd.read_csv(filepath)

#Print delle prime 5 righe
data.head() # oppure print(data.iloc[:5])

### Argomenti Utili

* `data = pd.read_csv(filepath, sep='\t')` se i valori sono separati da `tab` (.tsv).
* `data = pd.read_csv(filepath, delim_whitespace=True)` se i valori sono separati da uno spazio.
* `data = pd.read_csv(filepath, header=None)` per non usare la prima riga dove sono scritti i nomi delle colonne.
* `data = pd.read_csv(filepath, names=['Column1','Column2'])` per specificare i nomi delle colonne
*  `data = pd.read_csv(filepath, na_values=['NA',99])` per definire quale valore impostare per indicare che un valore è NULL.

## JSON

I files **JavaScript Object Notation (JSON)**, sono uno standard per immagazzinare dati tra piattaforme. I file JSON sono molto simili alle strutture dei dizionari in Python.

Esempio di file JSON con una sola entry:

`[{"id": 7267, "name": "10pin Bowling Lounge","address";"330 N State Street", "city":"Chicago","state":"IL","area":"Chicago / Illinois", "postal_code":"60610","country":"US","phone":"3126440300x","lat":41.888634,"lng":-87.628091,"price":4}]`

### Leggere e scrivere i File JSON ine Python

In [None]:
# Leggere un file JSON come un dataframe
data = pd.read_json(filepath)

# Scrivere un dataframe in un JSON
data.to_json('outputfile,json')

## Database SQL

**Structured Query Language (SQL)** rappresenta un insieme di database relazionali con degli schemi fissi. Ci sono diversi tipi di database SQL, che funzionano in modo simile (con delle leggere differenze nella sintassi). 

Esempi di database SQL sono:

* Microsoft SQL Server
* Postgres
* MySQL
* AWS Redshift
* Oracle DB
* Db2 Family

### Eseguire una query

In [None]:
# In questo esempio usiamo sqlite3, ci sono diversi altri packages disponibili.

# SQL Data Imports
import sqlite3 as sq3
import pandas as pd

# Inizializzazzione del path al database SQLite
path = 'data/classick_rock.db'

# Crea una connessione col database SQL
con = sq3.Connection(path)

# Scrittura di una query. 
query = '''SELECT * FROM rock_songs'''

# Esecuzione della query
data = pd.read_sql(query,con)

## Database NoSQL

I database **Not-only SQL (NoSQL)** non sono molto relazionali in quanto variano molto in struttura. In base all'applicazione, potrebbe avere delle performance in termini di velocità migliori e ridurre l'overhead. La maggior parte dei database NoSQL salva i dati in formato JSON.

Alcuni esempi di database NoSQL:
* **Document databases**: mongoDB, couchDB. Questo tipo di database contengono dei documenti, dove ogni documento rappresenta una osservazione. Per esempio un file JSON è effettivamente un documento
* **key-value store**s: RIak, Voldemort, Redis. I dati sono immagazzinati come coppia chiave-valore. La chiave serve per cercare il dato.
* **Graph databases**: Neo4j, HyperGraph. Utili per effettuare network analysis e ottimo per mantenere le relazioni. 
* **Wide-column stores**: Cassandra, HBase. Ci sono raggruppamenti di colonne in famiglie di colonne.

### Leggere dati NoSQL

In [None]:
# Questo esempio usa il modulo pymongo per leggere i file salvati
# in MongoDB, anche se ci sono anche altri packages disponibili.


# SQL Data Imports
from pymongo import MongoClient

# Cra una connessione Mongo (MongoDB deve essere già in esecuzione)
con = MongoClient ()

# Scegli il database (con.list_database_names())
# mostrerà i database disponibili
db = con.database_name

# Crea un oggetto cursore usando una query. La query deve essere una
# query per MongoDB (oppure {} per selezionare tutto). 
# Il cursore è un oggetto generatore con tutti i documenti JSON al suo interno
cursor = db.collection_name.find(query)

# list(cursor) ci restituisce
# una lista di dizionari Python. Passiamo tale lista alla
# funzione DataFrame per costruire il nostro dataframe.  
df = pd.DataFrame(list(cursor))


## Accesso ai dati su Cloud ed API

In [None]:
# Una grande varietà di data providers, rendono i dati disponibili via API
# (Application Programming Interfaces (APIs), che rendono semplice
# accedere a tali dati via Python. Per esempio possiamo usare le API di twitter
# per reperire i Tweet. Oppure possiamo fare lo stesso estrendo dati di marketing da Amazon.

# Ci sono anche molti data set disponibili online in diversi formati
# Qui di seguito vediamo un data base disponibile online "UC Irvine Machine Learning Library"

import pandas as pd
#UCI Cars data set - url location
data_url='http://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data'

#Leggi i dati in Pandas
df=pd.read_csv(data_url, header=None)
