# QUICK RECAP
   
    Nella scorsa lezione abbiamo visto:
    - Come gestire le celle di tipo MarkDown
    - Array indexing e slicing di vettori e matrici: come accedere a singoli elementi di array
    - Rudimenti di algebra delle matrici: somma, prodotto per scalare, prodotto scalare tra vettori e matrici
    - Come calcolare il determinante di una matrice

In [2]:
# vediamo alcuni esempi
import numpy as np
a = np.random.randint(0,100, (10,10))

In [3]:
a[1:4,:]

array([[94,  8, 26, 67,  4, 13, 78, 73, 21, 72],
       [80, 64, 45, 83, 52,  2,  5, 67, 93,  9],
       [97, 60, 89, 68, 49, 27, 57, 80, 70, 32]])

# LA LIBRERIA PANDAS
Nelle lezioni precedenti abbiamo visto la libreria NumPy e il tipo ndarray che consente di manipolare efficacemente array di numeri. Pandas è una libreria più recente, basata su NumPy, che fornisce un nuovo tipo di oggetto, il **DataFrame**. I DataFrame sono essenzialmente matrici multidimensionali che però hanno una "etichette" sulle righe e sulle colonne e possono ospitare tipi eterogenei (gli ndarray di numpy possono ospitare dati dello stesso tipo) e/o dati mancanti.I dataframe sono quindi comodi per la gestione dei dati.

Importiamo ora la libreria Pandas

In [3]:
import pandas as pd

# BANCHE DATI
La libreria Pandas consente di manipolare banche dati. 
Possiamo creare banche dati direttamente, come abbiamo fatto con la creazione degli array di Numpy, ma proviamo ad importare in Pandas una banca dati esistente.

In particolare importeremo i dati di un file che contiene i dettagli dei terremoti avvenuti tra il -2150 a.C. e il 2023 d.C. Questo file contiene varie informazioni sui terremoti quali la posizione geografica, il momento in cui si è verificato, il numero di persone morte, feriti, descrizione dei danni e case distrutte. Poiché nel file ci sono dati storici, i primi dati incompleti.

### FONTI
National Geophysical Data Center / World Data Service (NGDC/WDS): NCEI/WDS Global Significant Earthquake Database. NOAA National Centers for Environmental Information. doi:10.7289/V5TD9V7K

Scaricabile da:
https://www.kaggle.com/

### FORMATO DEL FILE
Il formato del file è CSV che rappresenta uno dei modi più semplici per rappresentare dati in forma tabellare all'interno di un semplice file di testo.

In [4]:
# Caricamento del file CSV
df = pd.read_csv('./data/earthquakes.csv')

# **Nota per chi usa Google Colab**

Il modo più semplice per caricare un file CSV in Google Colab è da un repository GitHub. Nel repository, fare clic sul file di dati, quindi fare clic su Visualizza Raw. Copia l'url che vedi nel browser e inseriscilo nel notebook Colab in una variabile denominata url, come mostrato di seguito. Utilizza quindi read_csv di Pandas per importare il file in un dataframe.

url = 'inserisci qui la stringa dell'url copiata in github' 

df1 = pd.read_csv(url)

In [5]:
# PER CHI USA GITHUB: scommentare le seguenti due righe 
url = 'https://raw.githubusercontent.com/giandopal/Artificial-Intelligence-with-Python/main/data/earthquakes.csv'
df = pd.read_csv(url)

In [6]:
type(df)

pandas.core.frame.DataFrame

# Notiamo il tipo DATAFRAME: è l'oggetto fondamentale della libreria PANDAS

In [8]:
# vediamo cosa abbiamo caricato
df

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
0,,,,,,,,,,,...,,,,,,,,,,
1,-2150.0,,,,,0.0,,,"JORDAN: BAB-A-DARAA,AL-KARAK",31.100,...,,,,,,,,,,
2,-2000.0,,,,,,1.0,,SYRIA: UGARIT,35.683,...,,,,,,,,,,
3,-2000.0,,,,,,,,TURKMENISTAN: W,38.000,...,,,,,,1.0,,1.0,,
4,-1610.0,,,,,,3.0,1351.0,GREECE: THERA ISLAND (SANTORINI),36.400,...,,,,,,3.0,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6345,2023.0,1.0,28.0,18.0,14.0,45.0,,,IRAN: KHVOY (KHOY),38.424,...,,,1017.0,4.0,,3.0,370.0,3.0,,4.0
6346,2023.0,2.0,6.0,1.0,17.0,35.0,5873.0,,TURKEY; SYRIA,37.166,...,,,206300.0,4.0,,4.0,100000.0,4.0,,4.0
6347,2023.0,2.0,6.0,10.0,24.0,49.0,,,TURKEY; SYRIA,38.024,...,,,,,,,,,,
6348,2023.0,2.0,9.0,6.0,28.0,0.0,,,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,-2.635,...,,,,,,1.0,15.0,1.0,28.0,1.0


Il DataFrame ha un attributo indice che da accesso alle RIGHE

In [9]:
df.index

RangeIndex(start=0, stop=6350, step=1)

Il DataFrame ha un attributo columns che da accesso alle COLONNE

In [10]:
df.columns


Index(['Year', 'Mo', 'Dy', 'Hr', 'Mn', 'Sec', 'Tsu', 'Vol', 'Location Name',
       'Latitude', 'Longitude', 'Focal Depth (km)', 'Mag', 'MMI Int', 'Deaths',
       'Death Description', 'Missing', 'Missing Description', 'Injuries',
       'Injuries Description', 'Damage ($Mil)', 'Damage Description',
       'Houses Destroyed', 'Houses Destroyed Description', 'Houses Damaged',
       'Houses Damaged Description', 'Total Deaths', 'Total Death Description',
       'Total Missing', 'Total Missing Description', 'Total Injuries',
       'Total Injuries Description', 'Total Damage ($Mil)',
       'Total Damage Description', 'Total Houses Destroyed',
       'Total Houses Destroyed Description', 'Total Houses Damaged',
       'Total Houses Damaged Description'],
      dtype='object')

Mentre con Numpy non possiamo apporrre delle "Etichette" alle righe e alle colonne, con Pandas lo possiamo fare.

Proviamo a cambiare l'etichetta delle righe

In [11]:
# i seguenti comandi sono un po' complicati, per ora limitatevi ad eseguirli 
new_index = [f'T_{i}' for i in range(len(df.index))]
df = df.rename(index=dict(zip(df.index, new_index)))

In [12]:
# osserviamo ora come ogni riga ha un'etichetta diversa
df

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_0,,,,,,,,,,,...,,,,,,,,,,
T_1,-2150.0,,,,,0.0,,,"JORDAN: BAB-A-DARAA,AL-KARAK",31.100,...,,,,,,,,,,
T_2,-2000.0,,,,,,1.0,,SYRIA: UGARIT,35.683,...,,,,,,,,,,
T_3,-2000.0,,,,,,,,TURKMENISTAN: W,38.000,...,,,,,,1.0,,1.0,,
T_4,-1610.0,,,,,,3.0,1351.0,GREECE: THERA ISLAND (SANTORINI),36.400,...,,,,,,3.0,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_6345,2023.0,1.0,28.0,18.0,14.0,45.0,,,IRAN: KHVOY (KHOY),38.424,...,,,1017.0,4.0,,3.0,370.0,3.0,,4.0
T_6346,2023.0,2.0,6.0,1.0,17.0,35.0,5873.0,,TURKEY; SYRIA,37.166,...,,,206300.0,4.0,,4.0,100000.0,4.0,,4.0
T_6347,2023.0,2.0,6.0,10.0,24.0,49.0,,,TURKEY; SYRIA,38.024,...,,,,,,,,,,
T_6348,2023.0,2.0,9.0,6.0,28.0,0.0,,,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,-2.635,...,,,,,,1.0,15.0,1.0,28.0,1.0


# Come possiamo avere una visione complessiva della nostra tabella?

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6350 entries, T_0 to T_6349
Data columns (total 38 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Year                                6349 non-null   float64
 1   Mo                                  5939 non-null   float64
 2   Dy                                  5783 non-null   float64
 3   Hr                                  4300 non-null   float64
 4   Mn                                  4095 non-null   float64
 5   Sec                                 4390 non-null   float64
 6   Tsu                                 1958 non-null   float64
 7   Vol                                 77 non-null     float64
 8   Location Name                       6348 non-null   object 
 9   Latitude                            6297 non-null   float64
 10  Longitude                           6297 non-null   float64
 11  Focal Depth (km)                    3384 non

In [14]:
# Proviamo a estrarre una COLONNA
df['Year']

T_0          NaN
T_1      -2150.0
T_2      -2000.0
T_3      -2000.0
T_4      -1610.0
           ...  
T_6345    2023.0
T_6346    2023.0
T_6347    2023.0
T_6348    2023.0
T_6349    2023.0
Name: Year, Length: 6350, dtype: float64

In [15]:
# Proviamo a estrarre due COLONNE

df[['Location Name','Year']]

Unnamed: 0,Location Name,Year
T_0,,
T_1,"JORDAN: BAB-A-DARAA,AL-KARAK",-2150.0
T_2,SYRIA: UGARIT,-2000.0
T_3,TURKMENISTAN: W,-2000.0
T_4,GREECE: THERA ISLAND (SANTORINI),-1610.0
...,...,...
T_6345,IRAN: KHVOY (KHOY),2023.0
T_6346,TURKEY; SYRIA,2023.0
T_6347,TURKEY; SYRIA,2023.0
T_6348,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,2023.0


Facciamo attenzione a non confonderci con gli ndarray

In [16]:
a = np.random.randint(0,100, (10,10))
a[0]
# in questo caso estraggo la prima riga

array([63, 65, 39, 39, 79, 19, 92, 41,  6, 13])

Come possiamo accedere ad un singolo elemento del DataFrame?
Come per gli ndarray possiamo utilizzare la notazione [x,y], utilizzando il metodo iloc. Ricordiamo che la numerazione parte da [0,0]

In [17]:
df.iloc[1,0]

-2150.0

Possiamo utilizzare lo slicing [:,1:4]

In [18]:
# estraiamo la seconda riga
df.iloc[5500,:]

Year                                           2007.0
Mo                                               11.0
Dy                                                6.0
Hr                                                9.0
Mn                                               38.0
Sec                                               5.7
Tsu                                               NaN
Vol                                               NaN
Location Name                         INDIA:  GUJARAT
Latitude                                       21.181
Longitude                                      70.724
Focal Depth (km)                                 10.0
Mag                                               5.1
MMI Int                                           NaN
Deaths                                            1.0
Death Description                                 1.0
Missing                                           NaN
Missing Description                               NaN
Injuries                    

In [19]:
# estraiamo la seconda nona colonna
df.iloc[:,8]

T_0                                               NaN
T_1                     JORDAN:  BAB-A-DARAA,AL-KARAK
T_2                                    SYRIA:  UGARIT
T_3                                  TURKMENISTAN:  W
T_4                 GREECE:  THERA ISLAND (SANTORINI)
                             ...                     
T_6345                            IRAN:  KHVOY (KHOY)
T_6346                                  TURKEY; SYRIA
T_6347                                  TURKEY; SYRIA
T_6348    INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA
T_6349                                  TURKEY; SYRIA
Name: Location Name, Length: 6350, dtype: object

In [20]:
# estraiamo dalla 3a alla 7a riga e dalla 9a alla 10a colonna
df.iloc[2:6,8:10]

Unnamed: 0,Location Name,Latitude
T_2,SYRIA: UGARIT,35.683
T_3,TURKMENISTAN: W,38.0
T_4,GREECE: THERA ISLAND (SANTORINI),36.4
T_5,ISRAEL: ARIHA (JERICHO),31.5


In [21]:
df.iloc[[2,5,7],[3,4,9]]

Unnamed: 0,Hr,Mn,Latitude
T_2,,,35.683
T_5,,,31.5
T_7,,,35.683


Posso anche utilizzare le label delle colonne

In [22]:
# estraggo dalla colonna Latitude le righe da 2 a 3
df['Latitude'][1:3]

T_1    31.100
T_2    35.683
Name: Latitude, dtype: float64

Le colonne del dataframe sono anche FIELD dell'oggetto dataframe.
Possiamo quindi utilizzare il comando df.fields

In [23]:
df.Latitude

T_0          NaN
T_1       31.100
T_2       35.683
T_3       38.000
T_4       36.400
           ...  
T_6345    38.424
T_6346    37.166
T_6347    38.024
T_6348    -2.635
T_6349    36.109
Name: Latitude, Length: 6350, dtype: float64

## ORA PROVA TU
- Estrai dalla tabella le righe che vanno da 1500 a 1520
- Estrai dalla tabella la colonna 'Latitude' e 'Death'
- Estrai le righe da 4500 a 4700 delle colonne 'Latitude' e 'Death'
- Estrai tutte le righe dalla colonna 4a alla fine
- estra tutte le informazioni corrispondenti alla riga 4200

## Vediamo ora come eseguire filtri sul dataframe per estrarre qualche informazione dalla tabella 

In [24]:
df.columns

Index(['Year', 'Mo', 'Dy', 'Hr', 'Mn', 'Sec', 'Tsu', 'Vol', 'Location Name',
       'Latitude', 'Longitude', 'Focal Depth (km)', 'Mag', 'MMI Int', 'Deaths',
       'Death Description', 'Missing', 'Missing Description', 'Injuries',
       'Injuries Description', 'Damage ($Mil)', 'Damage Description',
       'Houses Destroyed', 'Houses Destroyed Description', 'Houses Damaged',
       'Houses Damaged Description', 'Total Deaths', 'Total Death Description',
       'Total Missing', 'Total Missing Description', 'Total Injuries',
       'Total Injuries Description', 'Total Damage ($Mil)',
       'Total Damage Description', 'Total Houses Destroyed',
       'Total Houses Destroyed Description', 'Total Houses Damaged',
       'Total Houses Damaged Description'],
      dtype='object')

In [25]:
# Proviamo a prendere una sola colonna
year = df['Year']

In [26]:
year

T_0          NaN
T_1      -2150.0
T_2      -2000.0
T_3      -2000.0
T_4      -1610.0
           ...  
T_6345    2023.0
T_6346    2023.0
T_6347    2023.0
T_6348    2023.0
T_6349    2023.0
Name: Year, Length: 6350, dtype: float64

In [27]:

# Osserviamo il tipo di una colonna
type(year)

pandas.core.series.Series

## Il tipo di una singola colonna è **Series**

## estraiamo una decina di RIGHE


In [28]:
# estraiamo una decina di RIGHE
b = year.iloc[1000:1010]

In [29]:
b

T_1000    1674.0
T_1001    1675.0
T_1002    1676.0
T_1003    1677.0
T_1004    1677.0
T_1005    1677.0
T_1006    1677.0
T_1007    1677.0
T_1008    1678.0
T_1009    1678.0
Name: Year, dtype: float64

## voglio controllare quali righe hanno il valore 1677

In [30]:
b == 1677

T_1000    False
T_1001    False
T_1002    False
T_1003     True
T_1004     True
T_1005     True
T_1006     True
T_1007     True
T_1008    False
T_1009    False
Name: Year, dtype: bool

# noto che il controllo mi restituisce TRUE su ogni riga in cui è verificata la condizione. 

## Chiaramente posso utilizzare gli operatori logici

In [31]:
b 

T_1000    1674.0
T_1001    1675.0
T_1002    1676.0
T_1003    1677.0
T_1004    1677.0
T_1005    1677.0
T_1006    1677.0
T_1007    1677.0
T_1008    1678.0
T_1009    1678.0
Name: Year, dtype: float64

In [32]:
(1676 < b) & (b < 1678)

T_1000    False
T_1001    False
T_1002    False
T_1003     True
T_1004     True
T_1005     True
T_1006     True
T_1007     True
T_1008    False
T_1009    False
Name: Year, dtype: bool

## La cosa interessante è che se applico il filtro all'intero dataframe, ottengo il filtro sulla tabella

In [33]:
year = df['Year']
filtro = year == 2023

In [34]:
filtro

T_0       False
T_1       False
T_2       False
T_3       False
T_4       False
          ...  
T_6345     True
T_6346     True
T_6347     True
T_6348     True
T_6349     True
Name: Year, Length: 6350, dtype: bool

In [35]:
df_filtrato = df[filtro]
df_filtrato

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_6343,2023.0,1.0,9.0,17.0,47.0,35.0,5871.0,,INDONESIA: BANDA SEA,-7.049,...,,,,,,2.0,37.0,1.0,327.0,3.0
T_6344,2023.0,1.0,24.0,8.0,58.0,32.0,,,INDIA: UTTAR PRADESH; NEPAL: SUDURPASHCHIM PRO...,29.597,...,,,,1.0,,2.0,,1.0,42.0,1.0
T_6345,2023.0,1.0,28.0,18.0,14.0,45.0,,,IRAN: KHVOY (KHOY),38.424,...,,,1017.0,4.0,,3.0,370.0,3.0,,4.0
T_6346,2023.0,2.0,6.0,1.0,17.0,35.0,5873.0,,TURKEY; SYRIA,37.166,...,,,206300.0,4.0,,4.0,100000.0,4.0,,4.0
T_6347,2023.0,2.0,6.0,10.0,24.0,49.0,,,TURKEY; SYRIA,38.024,...,,,,,,,,,,
T_6348,2023.0,2.0,9.0,6.0,28.0,0.0,,,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,-2.635,...,,,,,,1.0,15.0,1.0,28.0,1.0
T_6349,2023.0,2.0,20.0,17.0,4.0,29.0,,,TURKEY; SYRIA,36.109,...,,,200.0,3.0,,,,,,


##  Possiamo utilizzare anche una sintassi più accorpata

In [36]:
df_filtrato = df[df['Year']==1677]
df_filtrato

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_1003,1677.0,4.0,13.0,,,,321.0,,JAPAN: SANRIKU,40.0,...,,,,,,1.0,,1.0,,
T_1004,1677.0,9.0,,,,,,,CHINA: GANSU PROVINCE,33.4,...,,,,,,1.0,,,,
T_1005,1677.0,11.0,4.0,,,,322.0,,JAPAN: OFF SE. BOSO PENINSULA,35.0,...,,,,,,3.0,1001.0,4.0,,
T_1006,1677.0,12.0,7.0,11.0,30.0,,323.0,,"PHILIPPINES: LUZON: CENTRAL,S",14.5,...,,,,3.0,,1.0,,,,1.0
T_1007,1677.0,,,,,0.0,,,JAMAICA: PORT ROYAL,17.6,...,,,,,,,,,,


In [37]:
# Operatore and
df_filtrato = df[(df['Year']>1675)&(df['Year']<1680)]
df_filtrato

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_1002,1676.0,7.0,12.0,,,0.0,,,JAPAN: TUWANO,34.5,...,,,,,,,,,,
T_1003,1677.0,4.0,13.0,,,,321.0,,JAPAN: SANRIKU,40.0,...,,,,,,1.0,,1.0,,
T_1004,1677.0,9.0,,,,,,,CHINA: GANSU PROVINCE,33.4,...,,,,,,1.0,,,,
T_1005,1677.0,11.0,4.0,,,,322.0,,JAPAN: OFF SE. BOSO PENINSULA,35.0,...,,,,,,3.0,1001.0,4.0,,
T_1006,1677.0,12.0,7.0,11.0,30.0,,323.0,,"PHILIPPINES: LUZON: CENTRAL,S",14.5,...,,,,3.0,,1.0,,,,1.0
T_1007,1677.0,,,,,0.0,,,JAMAICA: PORT ROYAL,17.6,...,,,,,,,,,,
T_1008,1678.0,2.0,3.0,,,0.0,,,IRAN: LAHIJAN,37.1,...,,,,,,,,,,
T_1009,1678.0,2.0,11.0,14.0,,0.0,,,CUBA: SANTIAGO DE CUBA,20.0,...,,,,,,,,,,
T_1010,1678.0,2.0,23.0,,,0.0,,,IRAN: GONABAD,34.2,...,,,,,,,,,,
T_1011,1678.0,6.0,18.0,1.0,45.0,,325.0,,"PERU: LIMA,SALINAS-HUAURA,LIMA,CALLAO,CHANCAY",-9.0,...,,,,,,3.0,,3.0,,


In [38]:
# operatore OR
df_filtrato = df[(df['Year']==1677) | (df['Year']==1679)]
df_filtrato

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_1003,1677.0,4.0,13.0,,,,321.0,,JAPAN: SANRIKU,40.0,...,,,,,,1.0,,1.0,,
T_1004,1677.0,9.0,,,,,,,CHINA: GANSU PROVINCE,33.4,...,,,,,,1.0,,,,
T_1005,1677.0,11.0,4.0,,,,322.0,,JAPAN: OFF SE. BOSO PENINSULA,35.0,...,,,,,,3.0,1001.0,4.0,,
T_1006,1677.0,12.0,7.0,11.0,30.0,,323.0,,"PHILIPPINES: LUZON: CENTRAL,S",14.5,...,,,,3.0,,1.0,,,,1.0
T_1007,1677.0,,,,,0.0,,,JAMAICA: PORT ROYAL,17.6,...,,,,,,,,,,
T_1014,1679.0,6.0,4.0,,,0.0,,,TURKEY; ARMENIA: DVINA,40.1,...,,,,,,,,,,
T_1015,1679.0,9.0,2.0,,,,,,CHINA: HEBEI PROVINCE,40.0,...,,,,,,4.0,,4.0,,
T_1016,1679.0,9.0,21.0,,,,,4969.0,YEMEN: AL MUKHA,13.3,...,,,,,,1.0,,,,
T_1017,1679.0,12.0,16.0,,,,,,CHINA: JIANGSU PROVINCE,31.4,...,,,,,,1.0,,1.0,,


# ORA PROVA TU
- Estrai dalla tabella le righe dell'anno 1948
- Estrai dalla tabella le righe dagli anni 2000 al 2015
- Estrai dalla tabella le righe che hanno un numero di morti (colonna Death) maggiore di 1000
- Estrai dalla tabella le righe che hanno un numero di morti maggiore di 1000 tra gli anni 2000 e 2015

In [39]:
df1 = df[(df['Year']<2024) & (df['Year']>2000)]

In [40]:
df2 = df1[df['Deaths']>1000]

  df2 = df1[df['Deaths']>1000]


In [41]:
df2[['Year','Deaths','Location Name']]

Unnamed: 0,Year,Deaths,Location Name
T_5091,2001.0,20005.0,"INDIA: GUJARAT: BHUJ, AHMADABAD, RAJOKOT; PA..."
T_5197,2003.0,2287.0,"ALGERIA: ALGIERS, BOUMERDES, REGHIA, THENIA"
T_5245,2003.0,31000.0,"IRAN: SOUTHEASTERN: BAM, BARAVAT"
T_5324,2004.0,1001.0,INDONESIA: SUMATRA: ACEH: OFF WEST COAST
T_5346,2005.0,1303.0,INDONESIA: SUMATERA: SW
T_5372,2005.0,76213.0,"PAKISTAN: MUZAFFARABAD, URI, ANANTNAG, BARAMULA"
T_5411,2006.0,5749.0,"INDONESIA: JAVA: BANTUL, YOGYAKARTA"
T_5542,2008.0,87652.0,CHINA: SICHUAN PROVINCE
T_5634,2009.0,1117.0,INDONESIA: SUMATRA: PADANG
T_5659,2010.0,316000.0,HAITI: PORT-AU-PRINCE


## proviamo con una nazione: voglio estrarre tutte le righe che si riferiscono all'Italia

In [42]:
df['Location Name']

T_0                                               NaN
T_1                     JORDAN:  BAB-A-DARAA,AL-KARAK
T_2                                    SYRIA:  UGARIT
T_3                                  TURKMENISTAN:  W
T_4                 GREECE:  THERA ISLAND (SANTORINI)
                             ...                     
T_6345                            IRAN:  KHVOY (KHOY)
T_6346                                  TURKEY; SYRIA
T_6347                                  TURKEY; SYRIA
T_6348    INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA
T_6349                                  TURKEY; SYRIA
Name: Location Name, Length: 6350, dtype: object

## Sembra più complicato perchè abbiamo a che fare con delle stringhe

Prendiamo per esempio una riga 

In [43]:
# prendo il contenuto della riga 1000 della colonna 'Location Name'
stringa = df['Location Name'][1000]

In [44]:
stringa

'ECUADOR:  CHIMBORAZO,BOLIVAR,QUITO'

In [45]:
type(stringa)

str

Come faccio a controllare se una parola è nella stringa ? uso **in**

In [46]:
"ECUADOR" in stringa

True

Però non funziona con il dataframe

In [47]:
"ECUADOR" in df['Location Name']

False

Utilizzo il metodo str.contains

In [48]:
filtro_italy = df['Location Name'].str.contains("ITALY")

In [49]:
filtro_italy

T_0         NaN
T_1       False
T_2       False
T_3       False
T_4       False
          ...  
T_6345    False
T_6346    False
T_6347    False
T_6348    False
T_6349    False
Name: Location Name, Length: 6350, dtype: object

Ancora non va bene perchè abbiamo NaN... Ma cosa è NaN?

## NaN: Not A Number 

Il valore NaN è utilizzato in Pandas per rappresentare un valore mancante. 
Ci sono diversi metodi tra cui riportiamo:

- ``isnull()``: crea una maschera booleana mettendo in evidenza i NaN con True
- ``notnull()``: l'opposto di ``isnull()``
- ``dropna()``: restituisce una versione filtrata del dataframe senza NaN
- ``fillna()``: restituisce una copia del dataframe con i dati NaN sostituiti da altri valori


In [50]:
df.isnull()

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_0,True,True,True,True,True,True,True,True,True,True,...,True,True,True,True,True,True,True,True,True,True
T_1,False,True,True,True,True,False,True,True,False,False,...,True,True,True,True,True,True,True,True,True,True
T_2,False,True,True,True,True,True,False,True,False,False,...,True,True,True,True,True,True,True,True,True,True
T_3,False,True,True,True,True,True,True,True,False,False,...,True,True,True,True,True,False,True,False,True,True
T_4,False,True,True,True,True,True,False,False,False,False,...,True,True,True,True,True,False,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_6345,False,False,False,False,False,False,True,True,False,False,...,True,True,False,False,True,False,False,False,True,False
T_6346,False,False,False,False,False,False,False,True,False,False,...,True,True,False,False,True,False,False,False,True,False
T_6347,False,False,False,False,False,False,True,True,False,False,...,True,True,True,True,True,True,True,True,True,True
T_6348,False,False,False,False,False,False,True,True,False,False,...,True,True,True,True,True,False,False,False,False,False


In [51]:
df.fillna("0")

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
T_1,-2150.0,0,0,0,0,0.0,0,0,"JORDAN: BAB-A-DARAA,AL-KARAK",31.1,...,0,0,0,0,0,0,0,0,0,0
T_2,-2000.0,0,0,0,0,0,1.0,0,SYRIA: UGARIT,35.683,...,0,0,0,0,0,0,0,0,0,0
T_3,-2000.0,0,0,0,0,0,0,0,TURKMENISTAN: W,38.0,...,0,0,0,0,0,1.0,0,1.0,0,0
T_4,-1610.0,0,0,0,0,0,3.0,1351.0,GREECE: THERA ISLAND (SANTORINI),36.4,...,0,0,0,0,0,3.0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_6345,2023.0,1.0,28.0,18.0,14.0,45.0,0,0,IRAN: KHVOY (KHOY),38.424,...,0,0,1017.0,4.0,0,3.0,370.0,3.0,0,4.0
T_6346,2023.0,2.0,6.0,1.0,17.0,35.0,5873.0,0,TURKEY; SYRIA,37.166,...,0,0,206300.0,4.0,0,4.0,100000.0,4.0,0,4.0
T_6347,2023.0,2.0,6.0,10.0,24.0,49.0,0,0,TURKEY; SYRIA,38.024,...,0,0,0,0,0,0,0,0,0,0
T_6348,2023.0,2.0,9.0,6.0,28.0,0.0,0,0,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,-2.635,...,0,0,0,0,0,1.0,15.0,1.0,28.0,1.0


## Ora possiamo eliminare i NaN sostituendo un valore più trattabile. Mettiamo la stringa "0"

In [52]:
newdf = df.fillna("0")

In [53]:
newdf

Unnamed: 0,Year,Mo,Dy,Hr,Mn,Sec,Tsu,Vol,Location Name,Latitude,...,Total Missing,Total Missing Description,Total Injuries,Total Injuries Description,Total Damage ($Mil),Total Damage Description,Total Houses Destroyed,Total Houses Destroyed Description,Total Houses Damaged,Total Houses Damaged Description
T_0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
T_1,-2150.0,0,0,0,0,0.0,0,0,"JORDAN: BAB-A-DARAA,AL-KARAK",31.1,...,0,0,0,0,0,0,0,0,0,0
T_2,-2000.0,0,0,0,0,0,1.0,0,SYRIA: UGARIT,35.683,...,0,0,0,0,0,0,0,0,0,0
T_3,-2000.0,0,0,0,0,0,0,0,TURKMENISTAN: W,38.0,...,0,0,0,0,0,1.0,0,1.0,0,0
T_4,-1610.0,0,0,0,0,0,3.0,1351.0,GREECE: THERA ISLAND (SANTORINI),36.4,...,0,0,0,0,0,3.0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
T_6345,2023.0,1.0,28.0,18.0,14.0,45.0,0,0,IRAN: KHVOY (KHOY),38.424,...,0,0,1017.0,4.0,0,3.0,370.0,3.0,0,4.0
T_6346,2023.0,2.0,6.0,1.0,17.0,35.0,5873.0,0,TURKEY; SYRIA,37.166,...,0,0,206300.0,4.0,0,4.0,100000.0,4.0,0,4.0
T_6347,2023.0,2.0,6.0,10.0,24.0,49.0,0,0,TURKEY; SYRIA,38.024,...,0,0,0,0,0,0,0,0,0,0
T_6348,2023.0,2.0,9.0,6.0,28.0,0.0,0,0,INDONESIA: NEW GUINEA: IRIAN JAYA: JAYAPURA,-2.635,...,0,0,0,0,0,1.0,15.0,1.0,28.0,1.0


## Ora mettiamo il filtro sulla nazione Italia

In [54]:
filtro_italy = newdf['Location Name'].str.contains("ITALY")
filtro_italy

T_0       False
T_1       False
T_2       False
T_3       False
T_4       False
          ...  
T_6345    False
T_6346    False
T_6347    False
T_6348    False
T_6349    False
Name: Location Name, Length: 6350, dtype: bool

In [55]:
earthquake_italy.info()

NameError: name 'earthquake_italy' is not defined

In [None]:
earthquake_italy = newdf[filtro_italy]
earthquake_italy.tail(30)

In [None]:
earthquake_italy

# ORA PROVA TU: 
- Estrai dalla tabella in che anni c'è stato un terremoto in TURCHIA (TURKEY)
- Estrai dalla tabella sopra i terremoti del 2023

In [None]:
filtro_turkey= (newdf['Location Name'].str.contains("TURK")) 
newdf[filtro_turkey]['Year']


In [None]:
tab_turchia=newdf[filtro_turkey]
#tab_turchia[newdf['Year']==2023]


Voglio calcolare il numero totali di morti a causa di un terremoto in Turchia

In [None]:
a3= tab_turchia['Deaths']

In [None]:
a3.sum()

Abbiamo un errore perchè nella colonna "Deaths" ho numeri in formato stringa. Devo convertirli

In [None]:
tab_turchia['Deaths'][20]

In [None]:
aa4 =tab_turchia['Deaths'].astype(float) 

In [None]:
aa4.sum()

## Voglio ora plottare il n. di morti per anno

In [None]:
tab_turchia

In [None]:
worktable = tab_turchia[['Year','Deaths']]

In [None]:
worktable

In [None]:
worktable.info()

In [None]:
# le colonne sono di tipo object. Le converto in int
worktable['Deaths'] = worktable['Deaths'].astype(float)
worktable['Year'] = worktable['Year'].astype(float)


In [None]:
worktable.info()

In [None]:
worktable

## Ora possiamo utilizzare il comando groupby

In [None]:
work2 = worktable.groupby('Year')['Deaths'].sum()

In [None]:
work2

In [None]:
import matplotlib.pyplot as plt

In [None]:
# impostiamo una dimensione di 10 pollici di larghezza per 5 pollici di altezza
plt.figure(figsize=(15,10))

plt.plot(work2)

plt.xlim(1900,2023)
plt.ylim(0,100000)

plt.xlabel('Year')
plt.ylabel('Death')
plt.title('Number of Deaths in Turkey')

In [56]:
df.columns

Index(['Year', 'Mo', 'Dy', 'Hr', 'Mn', 'Sec', 'Tsu', 'Vol', 'Location Name',
       'Latitude', 'Longitude', 'Focal Depth (km)', 'Mag', 'MMI Int', 'Deaths',
       'Death Description', 'Missing', 'Missing Description', 'Injuries',
       'Injuries Description', 'Damage ($Mil)', 'Damage Description',
       'Houses Destroyed', 'Houses Destroyed Description', 'Houses Damaged',
       'Houses Damaged Description', 'Total Deaths', 'Total Death Description',
       'Total Missing', 'Total Missing Description', 'Total Injuries',
       'Total Injuries Description', 'Total Damage ($Mil)',
       'Total Damage Description', 'Total Houses Destroyed',
       'Total Houses Destroyed Description', 'Total Houses Damaged',
       'Total Houses Damaged Description'],
      dtype='object')

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6350 entries, T_0 to T_6349
Data columns (total 38 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Year                                6349 non-null   float64
 1   Mo                                  5939 non-null   float64
 2   Dy                                  5783 non-null   float64
 3   Hr                                  4300 non-null   float64
 4   Mn                                  4095 non-null   float64
 5   Sec                                 4390 non-null   float64
 6   Tsu                                 1958 non-null   float64
 7   Vol                                 77 non-null     float64
 8   Location Name                       6348 non-null   object 
 9   Latitude                            6297 non-null   float64
 10  Longitude                           6297 non-null   float64
 11  Focal Depth (km)                    3384 non