# Tutorial Julia for Data Science

## 1 Data

Questa parte riguarda lettura/scrittura dataframe via julia  
iniziamo dichiarando pacchetti da usare e creando cartelle per ordinare dati scaricati/creati

In [11]:
#=
using Pkg
Pkg.add("DataFrames")
Pkg.add("DelimitedFiles")
Pkg.add("CSV")
Pkg.add("XLSX")
=#
using BenchmarkTools
using DataFrames
using DelimitedFiles
using CSV
using XLSX

mkdir("downloads")
mkdir("out")

"out"

Per comodità scarichiamo dati con funzione download(source::string,destination::string)

In [12]:
mkpath("downloads")
P = download("https://raw.githubusercontent.com/nassarhuda/easy_data/master/programming_languages.csv",
    "downloads/programming_languages.csv")

"downloads/programming_languages.csv"

## DelimitedFiles

Leggiamo ora i dati (un file csv) utilizzando package DelimitedFiles  
metodo: readdlm(source,separatore::char;header::bool)  
header= true notifica che prima riga del filem contiene i titoli delle colonne  

In [32]:
P,H = readdlm("downloads/programming_languages.csv",',';header=true)

(Any[1951 "Regional Assembly Language"; 1952 "Autocode"; … ; 2012 "Julia"; 2014 "Swift"], AbstractString["year" "language"])

Delimitedfiles è da usare per file complessi, per semplici .csv meglio usare direttamente CSV  

Vediamo ora scrittura dati, sempre con delimitedfiles:  
metodo: writedlm(output, input, separatore::char)

In [14]:
writedlm("out/programminglanguages_dlm.txt", P, '-')

## CSV

Vediamo ora lettura file csv via CSV  
metodo CSV.read(source)

In [18]:
C = CSV.read("downloads/programming_languages.csv")

Unnamed: 0_level_0,year,language
Unnamed: 0_level_1,Int64,String
1,1951,Regional Assembly Language
2,1952,Autocode
3,1954,IPL
4,1955,FLOW-MATIC
5,1957,FORTRAN
6,1957,COMTRAN
7,1958,LISP
8,1958,ALGOL 58
9,1959,FACT
10,1959,COBOL


Possiamo sciegliere di vedere solo parti del dataframe completo,  
eg: per vedere solo le prime 10 righe, senza delimitare per colonna:

In [20]:
@show typeof(C)
C[1:10,:]
# nota, il : come colonna significa che non restringo per colonna

typeof(C) = DataFrame


Unnamed: 0_level_0,year,language
Unnamed: 0_level_1,Int64,String
1,1951,Regional Assembly Language
2,1952,Autocode
3,1954,IPL
4,1955,FLOW-MATIC
5,1957,FORTRAN
6,1957,COMTRAN
7,1958,LISP
8,1958,ALGOL 58
9,1959,FACT
10,1959,COBOL


Possiamo anche idicizzare a un dato usando il nome stesso della colonna

In [27]:
C[1:4,:year]

4-element Array{Int64,1}:
 1951
 1952
 1954
 1955

I nomi delle colonne sono anche visibili con funzione names

In [28]:
names(C)

2-element Array{String,1}:
 "year"
 "language"

Describe è utile per ottenere informazioni base sul db

In [29]:
describe(C)

Unnamed: 0_level_0,variable,mean,min,median,max,nunique,nmissing,eltype
Unnamed: 0_level_1,Symbol,Union…,Any,Union…,Any,Union…,Nothing,DataType
1,year,1982.99,1951,1986.0,2014,,,Int64
2,language,,ALGOL 58,,dBase III,73.0,,String


Come per delimitedfiles, vediamo come scrivere dati usando _CSV

In [31]:
P,H = readdlm("downloads/programming_languages.csv",',';header=true);
CSV.write("out/programming_languages_CSV.csv",DataFrame(P)) 

"out/programming_languages_CSV.csv"

NB: abbiamo usato DataFrame() per convertire l'iterabile (matrici sono iterabili) in un dataframe al volo

## File Excel con XLSX

come prima iniziamo scaricando un file excel, è un pò pesantuccio quindi potrebbe impiegarci un pò  
questo dataset riporta il numero di vendite di case, per annata, per stato americano

In [33]:
file = download("https://github.com/JuliaAcademy/DataScience/blob/master/data/zillow_data_download_april2020.xlsx?raw=true",
    "downloads/zillow_data_download_april2020.xlsx")

"downloads/zillow_data_download_april2020.xlsx"

Vediamo ora come usare pacchetto XLSX per leggerne i contenuti  
usiamo il metodo XLSX.readdata(source,nome foglio,range di celle)  
NB: importante mettere un range di celle o la funzione rimarrà a cercare dati dispersi nel file

In [38]:
T = XLSX.readdata("downloads/zillow_data_download_april2020.xlsx", 
    "Sale_counts_city", 
    "A1:F9"     )

9×6 Array{Any,2}:
      "RegionID"  "RegionName"    …      "2008-03"      "2008-04"
  6181            "New York"             missing        missing
 12447            "Los Angeles"      1446           1705
 39051            "Houston"          2926           3121
 17426            "Chicago"          2910           3022
  6915            "San Antonio"   …  1479           1529
 13271            "Philadelphia"     1609           1795
 40326            "Phoenix"          1310           1519
 18959            "Las Vegas"        1618           1856

Se non abbiamo un cell range, possiamo altrimenti usare readtables dallo stesso pacchetto:

In [40]:
G = XLSX.readtable("downloads/zillow_data_download_april2020.xlsx", #file name
    "Sale_counts_city");

Il metodo ritorna una tupla di due elementi  
il primo elemento è un vettore contenente vettori, ognuno dei quali rappresentante una colonna dei dati  
il seconod elemento è un header contenente i nomi delle colonne  

Possiamo indicizzare direttamente sulla tupla risultante:  
eg: vogliamo i primi 10 elementi della seconda colonna, quindi    
G[1] per andare sui dati    
G[1][2] perchè seconda colonna  
infine G[1][2][1:10] per seleziuonare i primi 10 risultati  

alleghiamoci il nome della colonna da cui prendiamo i dati con  
G[2][2]


In [43]:
@show G[2][2]
G[1][2][1:10]

(G[2])[2] = :RegionName


10-element Array{Any,1}:
 "New York"
 "Los Angeles"
 "Houston"
 "Chicago"
 "San Antonio"
 "Philadelphia"
 "Phoenix"
 "Las Vegas"
 "San Diego"
 "Dallas"

Trasformiamo adesso il ricavato in un DataFrame, per cui ci servono matrice di valore i array di headers.  
G contiene entrambi, diamolo quindi alla funzione DataFrames() unwrappando i suoi elementi con ... :

In [45]:
Df = DataFrame(G[1],G[2]);
Df[1:10,:]

Unnamed: 0_level_0,RegionID,RegionName,StateName,SizeRank,2008-03,2008-04,2008-05,2008-06
Unnamed: 0_level_1,Any,Any,Any,Any,Any,Any,Any,Any
1,6181,New York,New York,1,missing,missing,missing,missing
2,12447,Los Angeles,California,2,1446,1705,1795,1890
3,39051,Houston,Texas,3,2926,3121,3220,3405
4,17426,Chicago,Illinois,4,2910,3022,2937,3224
5,6915,San Antonio,Texas,5,1479,1529,1582,1761
6,13271,Philadelphia,Pennsylvania,6,1609,1795,1709,1914
7,40326,Phoenix,Arizona,7,1310,1519,1654,1743
8,18959,Las Vegas,Nevada,8,1618,1856,1961,2022
9,54296,San Diego,California,9,772,1057,1195,1115
10,38128,Dallas,Texas,10,1158,1232,1240,1236


## Da 0 a DataFrame

vediamo ora come creare  un dataframe partendo da dati inseriti direttamente in Julia  

Prima creiamo due dataframe divisi contenenti calorie e prezzi delle stesse cose

In [46]:
foods = ["apple", "cucumber", "tomato", "banana"]
calories = [105,47,22,105]
prices = [0.85,1.6,0.8,0.6,]
dataframe_calories = DataFrame(item=foods,calories=calories)
dataframe_prices = DataFrame(item=foods,price=prices)

Unnamed: 0_level_0,item,price
Unnamed: 0_level_1,String,Float64
1,apple,0.85
2,cucumber,1.6
3,tomato,0.8
4,banana,0.6


Dopodichè uniamo il tutto nello stesso DF  

Importante aver specificato il nome delle colonne: altrimenti Julia non avrebbe saputo come fare l'unione

In [48]:
DF = innerjoin(dataframe_calories,dataframe_prices,on=:item)

Unnamed: 0_level_0,item,calories,price
Unnamed: 0_level_1,String,Int64,Float64
1,apple,105,0.85
2,cucumber,47,1.6
3,tomato,22,0.8
4,banana,105,0.6


Possiamo anche dar direttamente una matrice a DataFrame()

In [49]:
DataFrame(T)

Unnamed: 0_level_0,x1,x2,x3,x4,x5,x6
Unnamed: 0_level_1,Any,Any,Any,Any,Any,Any
1,RegionID,RegionName,StateName,SizeRank,2008-03,2008-04
2,6181,New York,New York,1,missing,missing
3,12447,Los Angeles,California,2,1446,1705
4,39051,Houston,Texas,3,2926,3121
5,17426,Chicago,Illinois,4,2910,3022
6,6915,San Antonio,Texas,5,1479,1529
7,13271,Philadelphia,Pennsylvania,6,1609,1795
8,40326,Phoenix,Arizona,7,1310,1519
9,18959,Las Vegas,Nevada,8,1618,1856


Non avendo specificato nomi colonne, df defasulterà a x1, x2, etc

## Operazioni su DataFrame in Julia

avendo importato/crteato un dataframe, vogliamo ora provare a fare qualche operazione  
ritorniamo al nostro DataFrame descrivente in che anno sono stati creati i vari linguaggi di programmazione e scriviamo una semplice query che ritorni l'anno in cui un determinato linguaggio è stato creato:  

In [53]:
function year_created_handle_error(P,language::String)
    loc = findfirst(P[:,2] .== language)
    !isnothing(loc) && return P[loc,1]
    error("Error: Language not found.")
end
year_created_handle_error(P,"Julia")

year_created_handle_error (generic function with 1 method)

Da notare error handling: findfirst, se non trova nulla, risponde con nothing,  
che non è un Int, e quindi non può essere usato nell indicizzare P[loc,1]   

