<a href="https://colab.research.google.com/github/simonebugo/Big_Data/blob/main/3b_Pandas_ManagingData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Loading, Storage

In [None]:
import numpy as np
import pandas as pd

In [None]:
# You have to upload the data by using the Files function on your dashboard
#come importare i dati di un csv in un dataframe di pandas.
#occorre inanzitutto caricarli su colab. (dove c'è l'icona della cartella a sinistra)
#ATTENZIONE! se riavvii la sessione run time i file scompaiono, non venogno salvati, occorre importarli nuovamente

## Reading and Writing Data in Text Format

Two methods:
- *read_csv*: Read a comma-separated values (csv) file into DataFrame. Also supports optionally iterating or breaking of the file into chunks.
- *to_csv*: Write object to a comma-separated values (csv) file.

### Reading Text Files

In [16]:
!cat "ex1.csv"

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [17]:
#funzion read_sve permette di importare tutto il contenuto del csv in un dataframe. il csv è un file dove i diversi dati sono seprati da un carattere speciali
#di default è la , ma si può fare ocn altri separatori che nel caso si indicano nel campo sep, se non scfivo nulla di default usa la ,
df = pd.read_csv("ex1.csv", sep=',')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [18]:
type(df)

#### Define separator value and header

In [21]:
# define the table sepator value
#se indico il separatore sbagliato le varie colonne non saranno separate correttamente quindi tutto il contenuto della riga viene inserito in un
#unica colonna
df = pd.read_csv('ex1.csv', sep='\t')
df

Unnamed: 0,"a,b,c,d,message"
0,"1,2,3,4,hello"
1,"5,6,7,8,world"
2,"9,10,11,12,foo"


In [None]:
!cat "ex2.csv"

In [None]:
# define if the table header exists
#il file solitamnte ha un header e poi i dati, solitamente quando creo  il dataframe l'header è preso come nome di colonna e i dai sono separati correttamente
#potrebbe esseere che l'header non ci sia nel fil eoriginario. se non c'è occorre speciicarlo nel campo header in modo da indicare che la prima riga del
#csv sia interpretata come riga di dati e si imposta un header di default ovvero i numeri da 0 a n-1

pd.read_csv('ex2.csv', sep=',', header=None)

#### Define column name and/or index name

In [19]:
# define column name
#se non ho l0header
#se voglio specificare i nomi di colonna nel momento in cui creo il mio dataframe uso il campo names e gli indico la lista dei nomi delle colonne
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [20]:
# define index name
#se voglo che una delle colonne diventi indice di riga specifico indec_col. così facendo i valori della colonna diventano l'indice delle righe corrispondenti
#definisco così l'indice di righe e di colonna
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


#### Skip a list of row

In [22]:
!cat "ex4.csv"

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [None]:
# you can skip a list of row
#potrebbe essere necessario skippare alcune righe del file. specifico l'indice delle righe che voglio schippare
pd.read_csv('ex4.csv', skiprows=[0, 2, 3]) #schippo la prima riga la terza e la quarta

#### Handle null values

In [None]:
!cat ex5.csv

In [None]:
result = pd.read_csv('ex5.csv')
result

In [None]:
pd.isnull(result)

define *na_values*

In [None]:
!cat ex5.csv

In [None]:
result = pd.read_csv('ex5.csv', na_values=['one', 'foo'])
result

In [None]:
sentinels = {'message': ['foo'], 'something': ['two']}
pd.read_csv('ex5.csv', na_values=sentinels)

### Reading Text Files in Pieces

#### Read only a fixed number of rows

In [None]:
pd.read_csv('ex6.csv', nrows=5)

#### Read Text Files in chunks

In [None]:
chunker = pd.read_csv('ex6.csv', chunksize=1000)
chunker

In [None]:
chunk = next(chunker)
chunk.head(5)

In [None]:
for i, chunk in enumerate(chunker):
  print("chunk #{} size: {}".format(i, chunk.shape))

### Writing Data to Text Format

In [None]:
data = pd.read_csv('ex5.csv')
data

In [None]:
data.iloc[0,0] = 999

In [None]:
data

In [None]:
data.to_csv('out.csv')

In [None]:
!cat out.csv

In [None]:
data.to_csv('out.csv',index=False)

In [None]:
!cat out.csv

In [None]:
pd.read_csv('out.csv', sep=',')

In [None]:
data.to_csv('out.csv', index=False, sep='#')

In [None]:
!cat out.csv

In [None]:
pd.read_csv('out.csv', sep='#')

### Reading and Writing Microsoft Excel Files

Read option 1: Using *ExcelFile* class

In [None]:
xlsx = pd.ExcelFile('ex1.xlsx')

In [None]:
xlsx

Read option 2: Using *read_excel* method

In [None]:
frame = pd.read_excel('ex1.xlsx', 'Sheet1')
frame

Write: using *to_excel* method

In [None]:
frame.to_excel('ex2_out.xlsx')

### Optional: Working with Delimited Formats

In [None]:
!cat ex7.csv

In [None]:
import csv
f = open('ex7.csv')

reader = csv.reader(f)

In [None]:
for line in reader:
    print(line)

In [None]:
with open('ex7.csv') as f:
    lines = list(csv.reader(f))

In [None]:
header, values = lines[0], lines[1:]

In [None]:
header

In [None]:
values

In [None]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

## Optional

In [None]:
with open('ex3.txt', 'r') as f:
  lines = f.readlines()
lines

In [None]:
columns = [val.strip() for val in lines[0].split(' ') if val != '']
columns

In [None]:
data = []
for row in lines[1:]:
  res = [val.strip() for val in row.split(' ') if val != '']
  data.append(res)

In [None]:
data

In [None]:
columns

In [None]:
columns.insert(0, 'index')
columns

In [None]:
ds = pd.DataFrame(data, columns=columns)
ds

In [None]:
ds.set_index('index')