# Exploració i transformació de les dades "Incidència de la COVID-19 a Catalunya"

### Importació de llibreríes i càrrega del dataset des de fitxer CSV

In [1]:
# Importem les llibreries
import numpy as np
import pandas as pd

In [2]:
# Per mostrar multiples sortides
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [3]:
# Llegim les dades
cov_cat = pd.read_csv('Incid_ncia_de_la_COVID-19_a_Catalunya.csv', sep=",")

### Exploració de les dades generals

In [4]:
# Informació general: nombre de files i columnes, tipus de dades, ...
cov_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Data                          212 non-null    object 
 1   Nous casos diaris confirmats  187 non-null    float64
 2   Defuncions diàries            188 non-null    float64
 3   Altes diàries                 58 non-null     float64
 4   Total de casos confirmats     212 non-null    int64  
 5   Total de defuncions           212 non-null    int64  
 6   Total d'altes                 59 non-null     float64
dtypes: float64(4), int64(2), object(1)
memory usage: 11.7+ KB


In [5]:
# Mostrem els 3 primers i els 3 ultims registres
cov_cat.head(3)
cov_cat.tail(3)

Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
0,22/09/2020,146.0,10.0,,133751,5823,
1,21/09/2020,125.0,4.0,,132700,5808,
2,20/09/2020,127.0,2.0,,132024,5802,


Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
209,26/02/2020,1.0,0.0,,3,0,
210,25/02/2020,1.0,0.0,,2,0,
211,24/02/2020,1.0,0.0,,1,0,


In [6]:
# Substituïm els valors NaN per zeros
cov_cat = cov_cat.fillna(0)

In [7]:
# Imprimim un resum estadístic
cov_cat.describe()

Unnamed: 0,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
count,212.0,212.0,212.0,212.0,212.0,212.0
mean,297.858491,31.570755,148.235849,59431.929245,4477.141509,3967.863208
std,481.699341,54.299849,293.584839,35447.044996,2085.790572,7679.965126
min,0.0,0.0,0.0,1.0,0.0,0.0
25%,17.0,0.0,0.0,39536.25,3873.0,0.0
50%,90.0,4.0,0.0,59265.0,5666.0,0.0
75%,248.5,37.0,89.25,79324.0,5706.75,1379.75
max,2616.0,262.0,1566.0,133751.0,6701.0,26172.0


In [8]:
# Convertim la columna 'Data' en tipus datetime
cov_cat['Data'] =pd.to_datetime(cov_cat.Data, dayfirst=True)

In [9]:
# Revisem que la info ha canviat
print("Tipus de la variable 'Data': ",cov_cat["Data"].dtypes)

Tipus de la variable 'Data':  datetime64[ns]


In [10]:
# Ordenem per data (1a columna)
cov_cat = cov_cat.sort_values(by='Data')
cov_cat.head(3)

Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
211,2020-02-24,1.0,0.0,0.0,1,0,0.0
210,2020-02-25,1.0,0.0,0.0,2,0,0.0
209,2020-02-26,1.0,0.0,0.0,3,0,0.0


In [11]:
# Resetejem els indexs resultat de la reordenació
cov_cat.reset_index(drop=True, inplace=True)
cov_cat.head(3)

Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
0,2020-02-24,1.0,0.0,0.0,1,0,0.0
1,2020-02-25,1.0,0.0,0.0,2,0,0.0
2,2020-02-26,1.0,0.0,0.0,3,0,0.0


In [12]:
# Sumem les dades dièries per setmanes
op = {'Data': 'first', 'Nous casos diaris confirmats': 'sum', 'Defuncions diàries': 'sum', 'Altes diàries': 'sum',
    'Total de casos confirmats': 'last', 'Total de defuncions': 'last', 'Total d\'altes': 'last'}

cov_cat = cov_cat.groupby(cov_cat.index // 7).agg(op)

In [13]:
# Descartem la ultima fila que només conté la suma de 2 díes
cov_cat.drop(cov_cat.tail(1).index,inplace=True)

In [14]:
# Reanomenem les variables setmanals
cov_cat = cov_cat.rename(columns={'Nous casos diaris confirmats': 'Nous casos setmanals confirmats',
                                 'Defuncions diàries': 'Defuncions setmanals',
                                 'Altes diàries': 'Altes setmanals'})

In [15]:
# Reformatem la data
cov_cat['Data'] = cov_cat.Data.dt.strftime('%d/%m/%Y')

In [16]:
# Revisem
cov_cat.head(4)

Unnamed: 0,Data,Nous casos setmanals confirmats,Defuncions setmanals,Altes setmanals,Total de casos confirmats,Total de defuncions,Total d'altes
0,24/02/2020,14.0,0.0,0.0,14,0,0.0
1,02/03/2020,68.0,1.0,0.0,82,1,0.0
2,09/03/2020,821.0,11.0,0.0,903,12,0.0
3,16/03/2020,5022.0,233.0,646.0,5925,245,728.0


### Desament subset a nou fitxer CSV

In [17]:
# Guardem les dades en un fitxer CSV
cov_cat.to_csv('COVID-19_Catalunya_setmanal.csv', index=False)