# Ejemplo paso a paso

Vamos a hacer un ejercicio con datos de verdad

###  1. Importamos las librerías de Pandas y Numpy

In [1]:
import pandas as pd
import numpy as np

### 2. Leemos el fichero

Si es un documento online, podremos leerlo directamente, si es un fichero, tendremos que guardarlo en esta misma carpeta o, si lo guardamos en otra, especificar la ruta en la que se encuentre cuando lo leamos.

Esto lo veremos en la siguiente clase, donde aprenderemos a leer datos de varias fuentes.


In [31]:
url = 'https://opendata.ecdc.europa.eu/covid19/casedistribution/csv'
covid = pd.read_csv(url, sep=',')

### 3. Tomamos una muestra del fichero para ver sus datos

Una vez tenemos un dataset, lo primero que haremos será ver qué pinta tienen los datos, para lo que imprimiremos sus primeras filas. Para ello, tenemos varias opciones, como las que se muestran a continuación:

  - Podríamos leerlo con ``.iloc[n]`` para acceder a las primeras ``n`` posiciones (tenga el index que tenga):

In [32]:
covid.iloc[:5]

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
0,23/10/2020,23,10,2020,116,4,Afghanistan,AF,AFG,38041757.0,Asia,2.452568
1,22/10/2020,22,10,2020,135,2,Afghanistan,AF,AFG,38041757.0,Asia,2.350049
2,21/10/2020,21,10,2020,88,2,Afghanistan,AF,AFG,38041757.0,Asia,2.173927
3,20/10/2020,20,10,2020,87,5,Afghanistan,AF,AFG,38041757.0,Asia,2.105581
4,19/10/2020,19,10,2020,59,4,Afghanistan,AF,AFG,38041757.0,Asia,2.258045


Otra opción es utilizar el método ``.head(n)``, cuya misión es mostrar las primeras ``n`` filas (por defecto n=5):

In [33]:
covid.head()

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
0,23/10/2020,23,10,2020,116,4,Afghanistan,AF,AFG,38041757.0,Asia,2.452568
1,22/10/2020,22,10,2020,135,2,Afghanistan,AF,AFG,38041757.0,Asia,2.350049
2,21/10/2020,21,10,2020,88,2,Afghanistan,AF,AFG,38041757.0,Asia,2.173927
3,20/10/2020,20,10,2020,87,5,Afghanistan,AF,AFG,38041757.0,Asia,2.105581
4,19/10/2020,19,10,2020,59,4,Afghanistan,AF,AFG,38041757.0,Asia,2.258045


### 4. Obtener el número de registros y de columnas:

Una opción podría ser imprimir el DataFrame tal cual, ya que al final nos lo indicará:

In [34]:
covid

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000
0,23/10/2020,23,10,2020,116,4,Afghanistan,AF,AFG,38041757.0,Asia,2.452568
1,22/10/2020,22,10,2020,135,2,Afghanistan,AF,AFG,38041757.0,Asia,2.350049
2,21/10/2020,21,10,2020,88,2,Afghanistan,AF,AFG,38041757.0,Asia,2.173927
3,20/10/2020,20,10,2020,87,5,Afghanistan,AF,AFG,38041757.0,Asia,2.105581
4,19/10/2020,19,10,2020,59,4,Afghanistan,AF,AFG,38041757.0,Asia,2.258045
...,...,...,...,...,...,...,...,...,...,...,...,...
50827,25/03/2020,25,3,2020,0,0,Zimbabwe,ZW,ZWE,14645473.0,Africa,
50828,24/03/2020,24,3,2020,0,1,Zimbabwe,ZW,ZWE,14645473.0,Africa,
50829,23/03/2020,23,3,2020,0,0,Zimbabwe,ZW,ZWE,14645473.0,Africa,
50830,22/03/2020,22,3,2020,1,0,Zimbabwe,ZW,ZWE,14645473.0,Africa,


Pero podemos utilizar otras como el atributo ``.shape``, compartido con los arrays, que nos devolverá una tupla donde el primer valor será el número de filas, y el segundo, el de columnas):

In [35]:
covid.shape

(50832, 12)

O podríamos hacerlo mediante ``len``, contando el tamaño de sus índices (index y columns):

In [36]:
n_filas = len(covid.index)
print("Nº de filas: " + str(n_filas))

n_cols = len(covid.columns)
print("Nº de columnas: " + str(n_cols))

Nº de filas: 50832
Nº de columnas: 12


### 5. Sacar el nombre de las columnas

In [37]:
cols = list(covid.columns)
cols

['dateRep',
 'day',
 'month',
 'year',
 'cases',
 'deaths',
 'countriesAndTerritories',
 'geoId',
 'countryterritoryCode',
 'popData2019',
 'continentExp',
 'Cumulative_number_for_14_days_of_COVID-19_cases_per_100000']

Al ser poquitas, podemos verlas por pantalla. Sin embargo, al aumentar en tamaño, probablemente no se mostrarán todas. Esto no significa que no estén bien guardadas, el objeto index al que accedemos con el atributo ``.columns`` siempre devuelve todas las columnas, lo único que significa el que no se mostrasen todas las columnas sería que son demasiadas y el notebook no nos quiere volver locos.

No obstante, en el caso que quisiéramos imprimir todas y cada una de las columnas, siempre podríamos recurrir a varias cosas como, por ejemplo, hacer un print de cada columna recorriéndolas con un for:

In [38]:
for col in covid.columns:
    print(col)

dateRep
day
month
year
cases
deaths
countriesAndTerritories
geoId
countryterritoryCode
popData2019
continentExp
Cumulative_number_for_14_days_of_COVID-19_cases_per_100000


### 6. Creando nuevas variables

Para crearnos una nueva columna podemos utiliar otras de ``DataFrame``, pero deberemos trabajar a nivel de columna:

In [39]:
covid['deathsByCase'] = covid['deaths']/covid['cases']

Si quisiéramos seleccionar una columna en concreto:

  - Para trabajar con ella a nivel columna:

In [40]:
covid['deathsByCase']

0        0.034483
1        0.014815
2        0.022727
3        0.057471
4        0.067797
           ...   
50827         NaN
50828         inf
50829         NaN
50830    0.000000
50831    0.000000
Name: deathsByCase, Length: 50832, dtype: float64

  - Para trabajar con ella a nivel DataFrame:

In [41]:
covid[['deathsByCase']]

Unnamed: 0,deathsByCase
0,0.034483
1,0.014815
2,0.022727
3,0.057471
4,0.067797
...,...
50827,
50828,inf
50829,
50830,0.000000


### 7. Seleccionando columnas (filtrando por columna):

Fíjate que hay un doble corchete: uno para seleccionar algo del ``DataFrame`` y el otro para pasarle una lista de columnas:

In [42]:
covid[['cases', 'deaths', 'deathsByCase']]

Unnamed: 0,cases,deaths,deathsByCase
0,116,4,0.034483
1,135,2,0.014815
2,88,2,0.022727
3,87,5,0.057471
4,59,4,0.067797
...,...,...,...
50827,0,0,
50828,0,1,inf
50829,0,0,
50830,1,0,0.000000


### 8. Filtrando por registro

Normalmente, no queremos usar el ``DataFrame`` entero, sino solo una parte. Para ello, podemos filtrar tanto por columnas (paso anterior) como por filas, aplicando condiciones.

Si queremos quedarnos con aquellos registros de España, tendremos que filtrar que la columna ``countriesAndTerritories`` sea igual a ``Spain``:

In [43]:
covid[covid['countriesAndTerritories'] == 'Spain']

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000,deathsByCase
43360,22/10/2020,22,10,2020,20986,155,Spain,ES,ESP,46937060.0,Europe,379.139639,0.007386
43361,21/10/2020,21,10,2020,16973,156,Spain,ES,ESP,46937060.0,Europe,360.896060,0.009191
43362,20/10/2020,20,10,2020,13873,218,Spain,ES,ESP,46937060.0,Europe,347.086077,0.015714
43363,19/10/2020,19,10,2020,37889,217,Spain,ES,ESP,46937060.0,Europe,343.091365,0.005727
43364,18/10/2020,18,10,2020,0,0,Spain,ES,ESP,46937060.0,Europe,312.392809,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
43652,04/01/2020,4,1,2020,0,0,Spain,ES,ESP,46937060.0,Europe,,
43653,03/01/2020,3,1,2020,0,0,Spain,ES,ESP,46937060.0,Europe,,
43654,02/01/2020,2,1,2020,0,0,Spain,ES,ESP,46937060.0,Europe,,
43655,01/01/2020,1,1,2020,0,0,Spain,ES,ESP,46937060.0,Europe,,


Algunas veces nos interesará aplicar más de un filtro, para lo que nos basamos en el enmascaramiento, donde ponemos en la condición cada una de las condiciones que queremos que se cumpla con operadores lógicos que actúan elemento a elemento (``|`` para OR, ``&`` para AND y ``~`` para NOT).

Por ejemplo, si queremos quedarnos saber qué pasó en España el día 8 de Marzo:

In [44]:
covid[(covid['countriesAndTerritories'] == 'Spain') & (covid['dateRep'] == '08/03/2020')]

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000,deathsByCase
43588,08/03/2020,8,3,2020,330,0,Spain,ES,ESP,46937060.0,Europe,2.32652,0.0


Si quisiéramos obtener el valor concreto de los casos, sería acceder por columna sobre el registro anterior:

In [54]:
covid[(covid['countriesAndTerritories'] == 'Spain') & (covid['dateRep'] == '09/03/2020')]['cases']

43587    433
Name: cases, dtype: int64

Como estamos viendo, obtenemos un ``Series``. Si quisiéramos el valor, podríamos hacerlo de varias formas. La más genérica, válida también si tenemos más de un registro, sería acceder a ellos mediante el atributo ``.values``:

In [53]:
valores = covid[(covid['countriesAndTerritories'] == 'Spain') & (covid['dateRep'] == '08/03/2020')]['cases'].values
valores
# covid[(covid['countriesAndTerritories'] == 'Spain') & (covid['dateRep'] == '08/03/2020')]['cases'].values[0]

array([330], dtype=int64)

### 9. Aplicando funciones

También hemos visto que podemos aplicar funciones a un ``DataFrame``.

Imaginemos que nos han dicho que los datos de los días 21 y 22 de Septiembre están mal. Que estos días se ha añadido el valor de los casos del día 10 de Septiembre:

In [56]:
casos_10 = covid[(covid['countriesAndTerritories'] == 'Spain') & (covid['dateRep'] == '10/09/2020')]['cases'].iloc[0]
casos_10

10764

Usamos el ``.iloc`` para acceder por posición, ya que no sabemos qué índice tiene

In [88]:
covid_change = covid[(covid['countriesAndTerritories'] == 'Spain') & ((covid_spain['dateRep']=='21/09/2020') | (covid_spain['dateRep']=='22/09/2020'))]
covid_change

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000,deathsByCase
43210,22/09/2020,22,9,2020,10799,241,Spain,ES,ESP,46937060.0,Europe,314.791766,0.022317
43211,21/09/2020,21,9,2020,31428,168,Spain,ES,ESP,46937060.0,Europe,310.882275,0.005346


In [89]:
# covid_change['cases'] = covid_change['cases'] - casos_10
covid_change.loc[:, 'cases'] = covid_change.loc[:, 'cases'] - casos_10
covid_change

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self.obj[item] = s


Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000,deathsByCase
43210,22/09/2020,22,9,2020,35,241,Spain,ES,ESP,46937060.0,Europe,314.791766,0.022317
43211,21/09/2020,21,9,2020,20664,168,Spain,ES,ESP,46937060.0,Europe,310.882275,0.005346


In [94]:
covid.loc[covid_change.index] = covid_change

# Comprobamos:
covid.loc[[43210, 43211]]

Unnamed: 0,dateRep,day,month,year,cases,deaths,countriesAndTerritories,geoId,countryterritoryCode,popData2019,continentExp,Cumulative_number_for_14_days_of_COVID-19_cases_per_100000,deathsByCase
43210,22/09/2020,22,9,2020,35,241,Spain,ES,ESP,46937060.0,Europe,314.791766,0.022317
43211,21/09/2020,21,9,2020,20664,168,Spain,ES,ESP,46937060.0,Europe,310.882275,0.005346


## + Pandas no solo llega aquí, podremos hacer muchas más cosas, como agrupaciones, sustitución de valores... En cuanto avancemos, veremos casos muy interesantes 