# Exploració i transformació de les dades "Incidència de la COVID-19 a Catalunya"

### Importació de llibreríes i càrrega del dataset des de fitxer CSV

In [1]:
# Importem les llibreries
import numpy as np
import pandas as pd

In [2]:
# Per mostrar multiples sortides
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [3]:
# Llegim les dades
cov_cat = pd.read_csv('Incid_ncia_de_la_COVID-19_a_Catalunya.csv', sep=",")

### Exploració de les dades generals

In [4]:
# Informació general: nombre de files i columnes, tipus de dades, ...
cov_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Data                          212 non-null    object 
 1   Nous casos diaris confirmats  187 non-null    float64
 2   Defuncions diàries            188 non-null    float64
 3   Altes diàries                 58 non-null     float64
 4   Total de casos confirmats     212 non-null    int64  
 5   Total de defuncions           212 non-null    int64  
 6   Total d'altes                 59 non-null     float64
dtypes: float64(4), int64(2), object(1)
memory usage: 11.7+ KB


In [5]:
# Mostrem els 3 primers i els 3 ultims registres
cov_cat.head(3)
cov_cat.tail(3)

Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
0,22/09/2020,146.0,10.0,,133751,5823,
1,21/09/2020,125.0,4.0,,132700,5808,
2,20/09/2020,127.0,2.0,,132024,5802,


Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
209,26/02/2020,1.0,0.0,,3,0,
210,25/02/2020,1.0,0.0,,2,0,
211,24/02/2020,1.0,0.0,,1,0,


In [6]:
# Convertim la columna 'Data' en tipus datetime
cov_cat['Data'] =pd.to_datetime(cov_cat.Data, dayfirst=True)

# Revisem que la info ha canviat
cov_cat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 212 entries, 0 to 211
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   Data                          212 non-null    datetime64[ns]
 1   Nous casos diaris confirmats  187 non-null    float64       
 2   Defuncions diàries            188 non-null    float64       
 3   Altes diàries                 58 non-null     float64       
 4   Total de casos confirmats     212 non-null    int64         
 5   Total de defuncions           212 non-null    int64         
 6   Total d'altes                 59 non-null     float64       
dtypes: datetime64[ns](1), float64(4), int64(2)
memory usage: 11.7 KB


In [7]:
# Ordenem per data (1a columna)
cov_cat = cov_cat.sort_values(by='Data')

In [8]:
# Resetejem els indexs resultat de la reordenació
cov_cat.reset_index(drop=True, inplace=True)

In [9]:
# Mostrem els 5 primers i els 5 ultims registres
cov_cat.head(5)
cov_cat.tail(5)

Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
0,2020-02-24,1.0,0.0,,1,0,
1,2020-02-25,1.0,0.0,,2,0,
2,2020-02-26,1.0,0.0,,3,0,
3,2020-02-27,0.0,0.0,,3,0,
4,2020-02-28,3.0,0.0,,6,0,


Unnamed: 0,Data,Nous casos diaris confirmats,Defuncions diàries,Altes diàries,Total de casos confirmats,Total de defuncions,Total d'altes
207,2020-09-18,,,,128901,5797,
208,2020-09-19,,,,128901,5797,
209,2020-09-20,127.0,2.0,,132024,5802,
210,2020-09-21,125.0,4.0,,132700,5808,
211,2020-09-22,146.0,10.0,,133751,5823,


In [10]:
# Sumem les dades dièries per setmanes
op = {'Data': 'first', 'Nous casos diaris confirmats': 'sum', 'Defuncions diàries': 'sum', 'Altes diàries': 'sum',
    'Total de casos confirmats': 'last', 'Total de defuncions': 'last', 'Total d\'altes': 'last'}

cov_cat = cov_cat.groupby(cov_cat.index // 7).agg(op)

In [11]:
# Descartem la ultima fila que només conté la suma de 2 díes
cov_cat.drop(cov_cat.tail(1).index,inplace=True)

In [12]:
# Reanomenem les variables setmanals
cov_cat = cov_cat.rename(columns={'Nous casos diaris confirmats': 'Nous casos setmanals confirmats',
                                 'Defuncions diàries': 'Defuncions setmanals',
                                 'Altes diàries': 'Altes setmanals'})

In [13]:
# Reformatem la data
cov_cat['Data'] = cov_cat.Data.dt.strftime('%d-%m-%Y')

In [14]:
# Revisem
cov_cat.head(4)
cov_cat.tail(4)

Unnamed: 0,Data,Nous casos setmanals confirmats,Defuncions setmanals,Altes setmanals,Total de casos confirmats,Total de defuncions,Total d'altes
0,24-02-2020,14.0,0.0,0.0,14,0,
1,02-03-2020,68.0,1.0,0.0,82,1,
2,09-03-2020,821.0,11.0,0.0,903,12,
3,16-03-2020,5022.0,233.0,646.0,5925,245,728.0


Unnamed: 0,Data,Nous casos setmanals confirmats,Defuncions setmanals,Altes setmanals,Total de casos confirmats,Total de defuncions,Total d'altes
26,24-08-2020,690.0,25.0,0.0,110017,5741,
27,31-08-2020,589.0,37.0,0.0,118233,5769,
28,07-09-2020,554.0,26.0,0.0,123393,5780,
29,14-09-2020,634.0,26.0,0.0,132024,5802,


### Desament subset a nou fitxer CSV

In [15]:
# Guardem les dades en un fitxer CSV
cov_cat.to_csv('COVID-19_Catalunya_setmanal.csv', index=False)