<a href="https://colab.research.google.com/github/AlejandroVillazonG/ayudantias_MAT281/blob/main/ayudantias_2023/Ayud3_MAT281_pandas_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><img src="https://matematica.usm.cl/wp-content/themes/dmatUSM/assets/img/logoDMAT2.png" title="Title text" width= 800 /></center>
<hr style="height:2px;border:none"/>
<h1 align='center'> Ayudantía 3: Introducción a la librería Pandas</h1>

<H3 align='center'> MAT281 2023-2 </H3>

<H3 align='center'> Ayud. Alejandro Villazón G. </H3>
<hr style="height:2px;border:none"/>

El principal objetivo de esta ayudantía es introducir la biblioteca de análisis de datos __pandas__, la cual agrega mayor flexibilidad y opciones que Numpy, sin embargo el costo de esto se traduce en pérdida de rendimiento y eficiencia. Conocer los elementos básicos de pandas permite manejar desde pocos datos en un archivo _excel_ hasta miles y millones de registros de una base de datos.

Desde de la [página oficial](https://pandas.pydata.org/) de Pandas puedes encontrar diversos [tutoriales](https://pandas.pydata.org/docs/getting_started/intro_tutorials/).

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.__version__

'1.5.3'

## Series

Arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python.

In [3]:
# Ejecuta para ver la documentación sobre pd.Series
pd.Series?

Para crear una instancia de una serie existen muchas opciones, las más comunes son:

* A partir de una lista.
* A partir de un _numpy.array_.
* A partir de un diccionario.
* A partir de un archivo (por ejemplo un csv).

In [4]:
my_serie = pd.Series(range(3, 33, 3))
my_serie

0     3
1     6
2     9
3    12
4    15
5    18
6    21
7    24
8    27
9    30
dtype: int64

In [5]:
type(my_serie)

pandas.core.series.Series

Las series son arreglos unidimensionales que constan de _data_ e _index_.

In [6]:
# Data
my_serie.values

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30])

In [7]:
type(my_serie.values)

numpy.ndarray

In [8]:
# Index
my_serie.index

RangeIndex(start=0, stop=10, step=1)

In [9]:
type(my_serie.index)

pandas.core.indexes.range.RangeIndex

Nota que el index es de otra clase!!

A diferencia de Numpy, pandas ofrece más flexibilidad para los valores e índices.

In [10]:
my_serie_2 = pd.Series(range(3, 33, 3), index=list('abcdefghij'))
my_serie_2

a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

### Acceder a los valores

In [11]:
my_serie_2['b']

6

In [12]:
my_serie_2.loc['b']

6

In [13]:
my_serie_2.iloc[1]

6

```loc```?? ```iloc```?? ¿Qué es eso?

A modo de resumen:

* ```loc``` es un método que hace referencia a las etiquetas (*labels*) del objeto .
* ```iloc``` es un método que hace referencia posicional del objeto.

**Consejo**: Si quieres editar valores siempre utiliza ```loc``` y/o ```iloc```.

In [14]:
my_serie_2.iloc[2] = 10

In [15]:
my_serie_2

a     3
b     6
c    10
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

¿Y si quiero escoger más de un valor?

In [16]:
my_serie_2.loc["b":"e"]  # A diferencia de las listas, retorna el último valor!

b     6
c    10
d    12
e    15
dtype: int64

In [17]:
my_serie_2.iloc[1:5]

b     6
c    10
d    12
e    15
dtype: int64

También puedes filtrar según condiciones!

En la mayoría de los tutoriales en internet encontrarás algo como lo siguiente:

In [18]:
my_serie_2.loc[my_serie_2 % 2 == 0]

b     6
c    10
d    12
f    18
h    24
j    30
dtype: int64

Lo siguiente se conoce como _mask_, y se basa en el siguiente hecho:

In [19]:
my_serie_2 % 2 == 0  # Retorna una serie con valores booleanos pero los mismos index!

a    False
b     True
c     True
d     True
e    False
f     True
g    False
h     True
i    False
j     True
dtype: bool

Si es una serie resultante de otra operación, tendrás que guardarla en una variable para así tener el nombre y luego acceder a ella. La siguiente manera puede que sea un poco más verboso, pero te otorga más flexibilidad.

In [20]:
my_serie_2.loc[lambda s: (s>=7) & (s<20)] #le aplicamos la función lambda a cada elemento.

c    10
d    12
e    15
f    18
dtype: int64

In [21]:
my_serie_2.loc[(my_serie_2 < 5) | (my_serie_2 > 25)]

a     3
i    27
j    30
dtype: int64

Veamos otros ejemplos de como filtrar usando _mask_.

In [22]:
my_serie_3 = pd.Series(np.random.choice(['Perro', 'Gato', 'Pato', 'Conejo', 'Orangutan'], 30))
my_serie_3

0          Pato
1          Pato
2          Gato
3         Perro
4          Pato
5         Perro
6          Gato
7         Perro
8     Orangutan
9          Pato
10        Perro
11         Pato
12    Orangutan
13       Conejo
14       Conejo
15         Pato
16         Pato
17    Orangutan
18         Pato
19        Perro
20       Conejo
21       Conejo
22         Pato
23         Gato
24         Pato
25         Pato
26    Orangutan
27       Conejo
28        Perro
29    Orangutan
dtype: object

In [23]:
my_serie_3.loc[my_serie_3.str.len()<5]

0     Pato
1     Pato
2     Gato
4     Pato
6     Gato
9     Pato
11    Pato
15    Pato
16    Pato
18    Pato
22    Pato
23    Gato
24    Pato
25    Pato
dtype: object

In [24]:
my_serie_3.loc[my_serie_3.str.contains('e')]

3      Perro
5      Perro
7      Perro
10     Perro
13    Conejo
14    Conejo
19     Perro
20    Conejo
21    Conejo
27    Conejo
28     Perro
dtype: object

### Importar datos

Para importar datos de un archivo, la función más usada es ```pd.read_csv```. [Revisa su documentación](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

El argumento `filepath_or_buffer` puede ser una dirección de un archivo local, o un enlace a un archivo.

In [25]:
path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv'

df = pd.read_csv(path)
df

Unnamed: 0,Date,Temp
0,1981-01-01,20.7
1,1981-01-02,17.9
2,1981-01-03,18.8
3,1981-01-04,14.6
4,1981-01-05,15.8
...,...,...
3645,1990-12-27,14.0
3646,1990-12-28,13.6
3647,1990-12-29,13.5
3648,1990-12-30,15.7


Nota que pandas descargó los datos con sus argumentos por defecto. Sin embargo, nosotros sabemos que en este archivo 'Date' es la columna de índices.

Cada vez que leas un archivo debes asegurarte de hacerlo de forma correcta, por ejemplo, si el separador del archivo es especial (;), viene incluida una columna con índices, hay datos decimales con punto decimal ',' envés de '.', etc.

Aquí va un ejemplo de como se pudo importar el mismo conjunto de datos, modificando los argumentos más usados de la función `pd.read_csv()`.

In [26]:
pd.read_csv(path,
            sep = ',', # Separador de los datos en el archivo: podría ser ';' '.'
            header = None, # Cabecera del conjunto de datos, nombres de las columnas (si no son especificadas)
            names = list('ab'), # Nombre de las columnas (variables)
            index_col = 'b', # Por defecto crea índices numerados, podemos decirle que columna considerar como índices
            decimal = ',', # Caracter a reconocer como punto decimal, por defecto es '.' pero podríamos tener valores 3,1232 en nuestro archivo
            # etc ...
)

Unnamed: 0_level_0,a
b,Unnamed: 1_level_1
Temp,Date
20.7,1981-01-01
17.9,1981-01-02
18.8,1981-01-03
14.6,1981-01-04
...,...
14.0,1990-12-27
13.6,1990-12-28
13.5,1990-12-29
15.7,1990-12-30


### Trabajar con fechas

Descarguemos el archivo de forma correcta.

In [27]:
temperature = pd.read_csv(
    'https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-min-temperatures.csv',
    index_col = 'Date'
)

In [28]:
temperature.head(7) # Ver las primeras 7 filas de datos

Unnamed: 0_level_0,Temp
Date,Unnamed: 1_level_1
1981-01-01,20.7
1981-01-02,17.9
1981-01-03,18.8
1981-01-04,14.6
1981-01-05,15.8
1981-01-06,15.8
1981-01-07,15.8


In [29]:
temperature.tail(10) # Ver las últimas 10 filas de datos

Unnamed: 0_level_0,Temp
Date,Unnamed: 1_level_1
1990-12-22,13.2
1990-12-23,13.9
1990-12-24,10.0
1990-12-25,12.9
1990-12-26,14.6
1990-12-27,14.0
1990-12-28,13.6
1990-12-29,13.5
1990-12-30,15.7
1990-12-31,13.0


In [30]:
temperature.index

Index(['1981-01-01', '1981-01-02', '1981-01-03', '1981-01-04', '1981-01-05',
       '1981-01-06', '1981-01-07', '1981-01-08', '1981-01-09', '1981-01-10',
       ...
       '1990-12-22', '1990-12-23', '1990-12-24', '1990-12-25', '1990-12-26',
       '1990-12-27', '1990-12-28', '1990-12-29', '1990-12-30', '1990-12-31'],
      dtype='object', name='Date', length=3650)

**OJO!** Los valores del Index son _strings_ (_object_ es una generalización).

**Solución:** Transformar el tipo de dato con la función ```pd.to_datetime()```. Muy útil cuando trabajamos con series de tiempo, por ejemplo en MAT267 ;)

In [31]:
# pd.to_datetime?

In [32]:
temperature.index = pd.to_datetime(temperature.index, format='%Y-%m-%d')

In [33]:
temperature.index

DatetimeIndex(['1981-01-01', '1981-01-02', '1981-01-03', '1981-01-04',
               '1981-01-05', '1981-01-06', '1981-01-07', '1981-01-08',
               '1981-01-09', '1981-01-10',
               ...
               '1990-12-22', '1990-12-23', '1990-12-24', '1990-12-25',
               '1990-12-26', '1990-12-27', '1990-12-28', '1990-12-29',
               '1990-12-30', '1990-12-31'],
              dtype='datetime64[ns]', name='Date', length=3650, freq=None)

Para otros tipos de _parse_ puedes visitar la documentación [aquí](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).


La idea de los elementos de fecha es poder realizar operaciones que resulten naturales para el ser humano. Por ejemplo:

In [34]:
temperature.index.min()

Timestamp('1981-01-01 00:00:00')

In [35]:
temperature.index.max()

Timestamp('1990-12-31 00:00:00')

In [36]:
temperature.index.max() - temperature.index.min()

Timedelta('3651 days 00:00:00')

Volviendo a la Serie, podemos trabajar con todos sus elementos, por ejemplo, determinar rápidamente la máxima tendencia.

In [37]:
max_temperature = temperature['Temp'].max()

max_temperature

26.3

Para determinar el _index_ correspondiente al valor máximo usualmente se utilizan dos formas:

* Utilizar una máscara (*mask*)
* Utilizar métodos ya implementados

In [38]:
# Mask
mask = temperature['Temp'] == max_temperature

temperature[mask]

Unnamed: 0_level_0,Temp
Date,Unnamed: 1_level_1
1982-02-15,26.3


In [39]:
# Built-in method
temperature.idxmax()

Temp   1982-02-15
dtype: datetime64[ns]

## DataFrames

Arreglo bidimensional y extensión natural de una serie. Podemos pensarlo como la generalización de un numpy.array.

Para motivar utilizaremos los datos de COVID-19 disponibilizados por el Ministerio de Ciencias, Tecnología, Conocimiento e Innovación de Chile. En particular, los casos totales por comuna, puedes leer más detalles en el [repositorio oficial](https://github.com/MinCiencia/Datos-COVID19/tree/master/output/producto1).

In [40]:
covid = pd.read_csv("https://raw.githubusercontent.com/MinCiencia/Datos-COVID19/master/output/producto1/Covid-19_std.csv")
covid.head()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,30-03-2020,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,30-03-2020,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,30-03-2020,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,30-03-2020,0.0
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,30-03-2020,


In [41]:
covid.tail()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
104613,Magallanes,12,Rio Verde,12103.0,211.0,09-01-2023,50.0
104614,Magallanes,12,San Gregorio,12104.0,681.0,09-01-2023,146.0
104615,Magallanes,12,Timaukel,12303.0,282.0,09-01-2023,55.0
104616,Magallanes,12,Torres del Paine,12402.0,1021.0,09-01-2023,120.0
104617,Magallanes,12,Desconocido Magallanes,,,09-01-2023,58.0


In [42]:
type(covid)

pandas.core.frame.DataFrame

In [43]:
covid.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104618 entries, 0 to 104617
Data columns (total 7 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   Region             104618 non-null  object 
 1   Codigo region      104618 non-null  int64  
 2   Comuna             104618 non-null  object 
 3   Codigo comuna      99994 non-null   float64
 4   Poblacion          99994 non-null   float64
 5   Fecha              104618 non-null  object 
 6   Casos confirmados  104199 non-null  float64
dtypes: float64(3), int64(1), object(3)
memory usage: 5.6+ MB


In [44]:
covid.shape

(104618, 7)

In [45]:
covid.dtypes

Region                object
Codigo region          int64
Comuna                object
Codigo comuna        float64
Poblacion            float64
Fecha                 object
Casos confirmados    float64
dtype: object

Puedes pensar que un dataframe es una colección de series

In [46]:
covid['Casos confirmados']

0           6.0
1           0.0
2           0.0
3           0.0
4           NaN
          ...  
104613     50.0
104614    146.0
104615     55.0
104616    120.0
104617     58.0
Name: Casos confirmados, Length: 104618, dtype: float64

In [47]:
type(covid['Casos confirmados'])

pandas.core.series.Series

### Exploración

In [48]:
covid.describe()

Unnamed: 0,Codigo region,Codigo comuna,Poblacion,Casos confirmados
count,104618.0,99994.0,99994.0,104199.0
mean,8.78453,9034.99711,56237.890173,6098.37653
std,3.879129,3812.644949,88817.783565,13344.991012
min,1.0,1101.0,137.0,0.0
25%,6.0,6109.0,9546.0,254.0
50%,8.0,8313.5,19770.0,1437.0
75%,13.0,13103.0,56058.0,5150.5
max,16.0,16305.0,645909.0,165038.0


In [49]:
covid.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Region,104618.0,16.0,Metropolitana,15317.0,,,,,,,
Codigo region,104618.0,,,,8.78453,3.879129,1.0,6.0,8.0,13.0,16.0
Comuna,104618.0,362.0,Arica,289.0,,,,,,,
Codigo comuna,99994.0,,,,9034.99711,3812.644949,1101.0,6109.0,8313.5,13103.0,16305.0
Poblacion,99994.0,,,,56237.890173,88817.783565,137.0,9546.0,19770.0,56058.0,645909.0
Fecha,104618.0,289.0,30-03-2020,362.0,,,,,,,
Casos confirmados,104199.0,,,,6098.37653,13344.991012,0.0,254.0,1437.0,5150.5,165038.0


In [50]:
covid.max()

Region                    Ñuble
Codigo region                16
Comuna                 Zapallar
Codigo comuna           16305.0
Poblacion              645909.0
Fecha                31-12-2021
Casos confirmados      165038.0
dtype: object

Para extraer elementos lo más recomendable es el método loc.

In [51]:
covid.loc[19271, ['Region', 'Comuna', 'Poblacion']]

Region         Valparaíso
Comuna       Vina del Mar
Poblacion        361371.0
Name: 19271, dtype: object

Evita acceder con doble corchete

In [52]:
covid[19271]['Region']

KeyError: ignored

Aunque en ocasiones funcione, no se asegura que sea siempre así. [Más info aquí.](https://pandas.pydata.org/pandas-docs/stable/indexing.html#why-does-assignment-fail-when-using-chained-indexing)

In [53]:
covid['Region'].value_counts()

Metropolitana         15317
Valparaíso            11271
O’Higgins              9826
Biobío                 9826
Araucanía              9537
Maule                  8959
Los Lagos              8959
Ñuble                  6358
Coquimbo               4624
Los Ríos               3757
Magallanes             3468
Aysén                  3179
Antofagasta            2890
Atacama                2890
Tarapacá               2312
Arica y Parinacota     1445
Name: Region, dtype: int64

### Valores perdidos/nulos

Lo primero que debes hacer al explorar un nuevo conjunto de datos es revisar si posee valores nulos. Esto se conoce como limpieza de datos.

Pandas ofrece herramientas para trabajar con valores nulos, pero es necesario conocerlas y saber aplicarlas. Por ejemplo, el método ```isnull()``` entrega un booleano si algún valor es nulo.

__Ejemplo:__ ¿Qué registros tienen casos confirmados nulos?

In [54]:
covid.index.shape

(104618,)

In [55]:
covid.loc[covid['Casos confirmados'].isnull()]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,30-03-2020,
12,Tarapacá,1,Desconocido Tarapaca,,,30-03-2020,
22,Antofagasta,2,Desconocido Antofagasta,,,30-03-2020,
32,Atacama,3,Desconocido Atacama,,,30-03-2020,
48,Coquimbo,4,Desconocido Coquimbo,,,30-03-2020,
...,...,...,...,...,...,...,...
9344,Araucanía,9,Desconocido Araucania,,,15-06-2020,
9357,Los Ríos,14,Desconocido Los Rios,,,15-06-2020,
9388,Los Lagos,10,Desconocido Los Lagos,,,15-06-2020,
9399,Aysén,11,Desconocido Aysen,,,15-06-2020,


Si deseamos encontrar todas las filas que contengan por lo menos un valor nulo.

In [56]:
covid.isnull()

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,True,True,False,True
...,...,...,...,...,...,...,...
104613,False,False,False,False,False,False,False
104614,False,False,False,False,False,False,False
104615,False,False,False,False,False,False,False
104616,False,False,False,False,False,False,False


In [57]:
rows_null_mask = covid.isnull().any(axis=1)  # axis=1 hace referencia a las filas.
rows_null_mask.head()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [58]:
covid[rows_null_mask]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,,,30-03-2020,
12,Tarapacá,1,Desconocido Tarapaca,,,30-03-2020,
22,Antofagasta,2,Desconocido Antofagasta,,,30-03-2020,
32,Atacama,3,Desconocido Atacama,,,30-03-2020,
48,Coquimbo,4,Desconocido Coquimbo,,,30-03-2020,
...,...,...,...,...,...,...,...
104550,Araucanía,9,Desconocido Araucania,,,09-01-2023,51.0
104563,Los Ríos,14,Desconocido Los Rios,,,09-01-2023,45.0
104594,Los Lagos,10,Desconocido Los Lagos,,,09-01-2023,184.0
104605,Aysén,11,Desconocido Aysen,,,09-01-2023,12.0


In [59]:
covid[rows_null_mask].shape

(4627, 7)

Para determinar aquellos que no tienen valores nulos el procedimiento es similar.

In [60]:
covid.loc[covid.notnull().all(axis=1)]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,30-03-2020,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,30-03-2020,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,30-03-2020,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,30-03-2020,0.0
5,Tarapacá,1,Alto Hospicio,1107.0,129999.0,30-03-2020,0.0
...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101.0,141984.0,09-01-2023,55577.0
104613,Magallanes,12,Rio Verde,12103.0,211.0,09-01-2023,50.0
104614,Magallanes,12,San Gregorio,12104.0,681.0,09-01-2023,146.0
104615,Magallanes,12,Timaukel,12303.0,282.0,09-01-2023,55.0


Pandas incluso ofrece opciones para eliminar elementos nulos sin necesidad de hacer un _mask_.

In [61]:
# Cualquier registro con null
display(covid.dropna())

# Filas con elementos nulos
display(covid.dropna(axis=0))

# Columnas con elementos nulos
display(covid.dropna(axis=1))

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,30-03-2020,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,30-03-2020,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,30-03-2020,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,30-03-2020,0.0
5,Tarapacá,1,Alto Hospicio,1107.0,129999.0,30-03-2020,0.0
...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101.0,141984.0,09-01-2023,55577.0
104613,Magallanes,12,Rio Verde,12103.0,211.0,09-01-2023,50.0
104614,Magallanes,12,San Gregorio,12104.0,681.0,09-01-2023,146.0
104615,Magallanes,12,Timaukel,12303.0,282.0,09-01-2023,55.0


Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101.0,247552.0,30-03-2020,6.0
1,Arica y Parinacota,15,Camarones,15102.0,1233.0,30-03-2020,0.0
2,Arica y Parinacota,15,General Lagos,15202.0,810.0,30-03-2020,0.0
3,Arica y Parinacota,15,Putre,15201.0,2515.0,30-03-2020,0.0
5,Tarapacá,1,Alto Hospicio,1107.0,129999.0,30-03-2020,0.0
...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101.0,141984.0,09-01-2023,55577.0
104613,Magallanes,12,Rio Verde,12103.0,211.0,09-01-2023,50.0
104614,Magallanes,12,San Gregorio,12104.0,681.0,09-01-2023,146.0
104615,Magallanes,12,Timaukel,12303.0,282.0,09-01-2023,55.0


Unnamed: 0,Region,Codigo region,Comuna,Fecha
0,Arica y Parinacota,15,Arica,30-03-2020
1,Arica y Parinacota,15,Camarones,30-03-2020
2,Arica y Parinacota,15,General Lagos,30-03-2020
3,Arica y Parinacota,15,Putre,30-03-2020
4,Arica y Parinacota,15,Desconocido Arica y Parinacota,30-03-2020
...,...,...,...,...
104613,Magallanes,12,Rio Verde,09-01-2023
104614,Magallanes,12,San Gregorio,09-01-2023
104615,Magallanes,12,Timaukel,09-01-2023
104616,Magallanes,12,Torres del Paine,09-01-2023


### Filtrar datos

Podemos hacer consultas como en SQL!

In [62]:
covid.query("Region == 'Magallanes' & (Comuna == 'Antartica' | Comuna == 'Rio Verde')")

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
350,Magallanes,12,Antartica,12202.0,137.0,30-03-2020,0.0
357,Magallanes,12,Rio Verde,12103.0,211.0,30-03-2020,0.0
712,Magallanes,12,Antartica,12202.0,137.0,01-04-2020,0.0
719,Magallanes,12,Rio Verde,12103.0,211.0,01-04-2020,0.0
1074,Magallanes,12,Antartica,12202.0,137.0,03-04-2020,0.0
...,...,...,...,...,...,...,...
103889,Magallanes,12,Rio Verde,12103.0,211.0,30-12-2022,50.0
104244,Magallanes,12,Antartica,12202.0,137.0,05-01-2023,68.0
104251,Magallanes,12,Rio Verde,12103.0,211.0,05-01-2023,50.0
104606,Magallanes,12,Antartica,12202.0,137.0,09-01-2023,68.0


In [63]:
min_poblacion = 50_000
max_poblacion = 100_000

query_string = f"Comuna.str.contains('M') & {min_poblacion} <= Poblacion <= {max_poblacion} and `Casos confirmados` > 1_000"

covid.query(query_string)
# covid.query("Comuna.str.contains('M') and @min_poblacion <= Poblacion <= @max_poblacion and `Casos confirmados` > 1_000")

# Las variables deben anteponerse con un @ (en algunos entornos no funciona como Colab)
# Como la columna 'Casos confirmados' contiene un espacio entremedio, debemos encerrarla entre comillas inversas.

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
14632,O’Higgins,6,Machali,6108.0,59913.0,10-08-2020,1011.0
14994,O’Higgins,6,Machali,6108.0,59913.0,14-08-2020,1024.0
15356,O’Higgins,6,Machali,6108.0,59913.0,17-08-2020,1031.0
15718,O’Higgins,6,Machali,6108.0,59913.0,21-08-2020,1039.0
16080,O’Higgins,6,Machali,6108.0,59913.0,24-08-2020,1047.0
...,...,...,...,...,...,...,...
103718,Maule,7,Maule,7105.0,60000.0,30-12-2022,16993.0
104046,O’Higgins,6,Machali,6108.0,59913.0,05-01-2023,15712.0
104080,Maule,7,Maule,7105.0,60000.0,05-01-2023,17056.0
104408,O’Higgins,6,Machali,6108.0,59913.0,09-01-2023,15747.0


Si te parece complicado alternativamente puedes utilizar el método `.loc[]`.

In [64]:
covid.loc[(covid.Region == 'Magallanes') &
          (covid['Comuna'].isin(['Antartica', 'Rio Verde']))
          ]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
350,Magallanes,12,Antartica,12202.0,137.0,30-03-2020,0.0
357,Magallanes,12,Rio Verde,12103.0,211.0,30-03-2020,0.0
712,Magallanes,12,Antartica,12202.0,137.0,01-04-2020,0.0
719,Magallanes,12,Rio Verde,12103.0,211.0,01-04-2020,0.0
1074,Magallanes,12,Antartica,12202.0,137.0,03-04-2020,0.0
...,...,...,...,...,...,...,...
103889,Magallanes,12,Rio Verde,12103.0,211.0,30-12-2022,50.0
104244,Magallanes,12,Antartica,12202.0,137.0,05-01-2023,68.0
104251,Magallanes,12,Rio Verde,12103.0,211.0,05-01-2023,50.0
104606,Magallanes,12,Antartica,12202.0,137.0,09-01-2023,68.0


In [65]:
covid.loc[(covid.Comuna.str.contains('M')) &
          (min_poblacion <= covid['Poblacion']) &
          (covid['Poblacion'] <= max_poblacion) | (covid['Casos confirmados'] > 10_000)
          ]

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
152,O’Higgins,6,Machali,6108.0,59913.0,30-03-2020,0.0
186,Maule,7,Maule,7105.0,60000.0,30-03-2020,0.0
514,O’Higgins,6,Machali,6108.0,59913.0,01-04-2020,6.0
548,Maule,7,Maule,7105.0,60000.0,01-04-2020,0.0
876,O’Higgins,6,Machali,6108.0,59913.0,03-04-2020,7.0
...,...,...,...,...,...,...,...
104581,Los Lagos,10,Puerto Montt,10101.0,269398.0,09-01-2023,76310.0
104583,Los Lagos,10,Puerto Varas,10109.0,48620.0,09-01-2023,13020.0
104599,Aysén,11,Coyhaique,11101.0,61210.0,09-01-2023,21457.0
104609,Magallanes,12,Natales,12401.0,23782.0,09-01-2023,11265.0


### Otras operaciones

Para continuar 'jugando' con los datos eliminemos los valores nulos.

In [66]:
covid.dropna(inplace = True)

Veamos algunos ejemplos de lo que podemos hacer con un DataFrame usando Pandas.

#### * Podemos averigüar cuales son los valores únicos que toma cierta columna.

In [67]:
covid['Region'].unique()

array(['Arica y Parinacota', 'Tarapacá', 'Antofagasta', 'Atacama',
       'Coquimbo', 'Valparaíso', 'Metropolitana', 'O’Higgins', 'Maule',
       'Ñuble', 'Biobío', 'Araucanía', 'Los Ríos', 'Los Lagos', 'Aysén',
       'Magallanes'], dtype=object)

#### * Podemos cambiar el tipo de dato de una columna.

Sabemos que el código de una comuna, la poblacion y los casos confirmados son valores enteros. Modifiquemoslo:

In [68]:
covid[['Codigo comuna', 'Poblacion', 'Casos confirmados']] = covid[['Codigo comuna', 'Poblacion', 'Casos confirmados']].astype(int)

covid

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Arica y Parinacota,15,Arica,15101,247552,30-03-2020,6
1,Arica y Parinacota,15,Camarones,15102,1233,30-03-2020,0
2,Arica y Parinacota,15,General Lagos,15202,810,30-03-2020,0
3,Arica y Parinacota,15,Putre,15201,2515,30-03-2020,0
5,Tarapacá,1,Alto Hospicio,1107,129999,30-03-2020,0
...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101,141984,09-01-2023,55577
104613,Magallanes,12,Rio Verde,12103,211,09-01-2023,50
104614,Magallanes,12,San Gregorio,12104,681,09-01-2023,146
104615,Magallanes,12,Timaukel,12303,282,09-01-2023,55


#### * Podemos aplicar funciones a las columnas.

Por mientras veamos las ya implementadas. Apliquemos las clásicas a la columna `Casos confirmados`.

In [69]:
imprimir = (
    f"{covid['Casos confirmados'].sum() = :_.0f}\t Total de casos confirmados a nivel nacional\n\n"
    f"{covid.loc[covid['Comuna'] == 'Arica', 'Casos confirmados'].max() = :_.0f}\t Máximo histórico de casos confirmados en la comuna de Arica\n\n"
    f"{covid.loc[covid['Comuna'] == 'Nueva Imperial', 'Casos confirmados'].mean() = :_.0f}\t Media de casos confirmados en Nueva Imperial (tierras del eta)"
)
print(imprimir)

covid['Casos confirmados'].sum() = 630_679_574	 Total de casos confirmados a nivel nacional

covid.loc[covid['Comuna'] == 'Arica', 'Casos confirmados'].max() = 83_092	 Máximo histórico de casos confirmados en la comuna de Arica

covid.loc[covid['Comuna'] == 'Nueva Imperial', 'Casos confirmados'].mean() = 3_395	 Media de casos confirmados en Nueva Imperial (tierras del eta)


#### * Podemos ordenar el DataFrame según una o varias columnas.

Ordenemos los registros según la población de forma ascendente y luego según los casos confirmados de forma descendente.

In [70]:
covid.sort_values(by = ['Poblacion' ,'Casos confirmados'],
                  ascending = [True, False])

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
95556,Magallanes,12,Antartica,12202,137,10-10-2022,68
95918,Magallanes,12,Antartica,12202,137,14-10-2022,68
96280,Magallanes,12,Antartica,12202,137,17-10-2022,68
96642,Magallanes,12,Antartica,12202,137,21-10-2022,68
97004,Magallanes,12,Antartica,12202,137,24-10-2022,68
...,...,...,...,...,...,...,...
1573,Metropolitana,13,Puente Alto,13201,645909,08-04-2020,166
1211,Metropolitana,13,Puente Alto,13201,645909,06-04-2020,119
849,Metropolitana,13,Puente Alto,13201,645909,03-04-2020,76
487,Metropolitana,13,Puente Alto,13201,645909,01-04-2020,58


Nota que los índices se desordenaron, si deseas puedes resetearlos usando el método `.reset_index(drop=True)`, por defecto se tiene drop=False lo cual genera una columna extra con los índices previos, por eso la eliminamos con drop=True.

In [71]:
covid.sort_values(by = ['Casos confirmados', 'Poblacion'],
                  ascending = [False, True]).reset_index(drop = True)

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados
0,Metropolitana,13,Puente Alto,13201,645909,09-01-2023,165038
1,Metropolitana,13,Puente Alto,13201,645909,05-01-2023,164710
2,Metropolitana,13,Puente Alto,13201,645909,30-12-2022,164147
3,Metropolitana,13,Puente Alto,13201,645909,26-12-2022,163510
4,Metropolitana,13,Puente Alto,13201,645909,23-12-2022,163218
...,...,...,...,...,...,...,...
99986,Metropolitana,13,La Pintana,13112,189335,30-03-2020,0
99987,Antofagasta,2,Calama,2201,190336,30-03-2020,0
99988,Antofagasta,2,Calama,2201,190336,01-04-2020,0
99989,Coquimbo,4,La Serena,4101,249656,30-03-2020,0


#### * Podemos separar valores de una columna para generar otras.

Imaginemos que nos gustaría filtrar por años, sería bueno tener una columna `Año`.

In [72]:
covid[['Dia', 'Mes', 'Año']] = covid['Fecha'].str.split('-', expand = True)

covid

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Fecha,Casos confirmados,Dia,Mes,Año
0,Arica y Parinacota,15,Arica,15101,247552,30-03-2020,6,30,03,2020
1,Arica y Parinacota,15,Camarones,15102,1233,30-03-2020,0,30,03,2020
2,Arica y Parinacota,15,General Lagos,15202,810,30-03-2020,0,30,03,2020
3,Arica y Parinacota,15,Putre,15201,2515,30-03-2020,0,30,03,2020
5,Tarapacá,1,Alto Hospicio,1107,129999,30-03-2020,0,30,03,2020
...,...,...,...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101,141984,09-01-2023,55577,09,01,2023
104613,Magallanes,12,Rio Verde,12103,211,09-01-2023,50,09,01,2023
104614,Magallanes,12,San Gregorio,12104,681,09-01-2023,146,09,01,2023
104615,Magallanes,12,Timaukel,12303,282,09-01-2023,55,09,01,2023


In [73]:
covid.dtypes # Nota que quedaron tipo str

Region               object
Codigo region         int64
Comuna               object
Codigo comuna         int64
Poblacion             int64
Fecha                object
Casos confirmados     int64
Dia                  object
Mes                  object
Año                  object
dtype: object

En el punto anterior aprendimos a cambiarle el tipo a las columnas, se puede aplicar el método `.astype()` luego del `.str.split()`.

In [74]:
covid[['Dia', 'Mes', 'Año']] = covid['Fecha'].str.split('-', expand = True).astype(int)

covid.dtypes

Region               object
Codigo region         int64
Comuna               object
Codigo comuna         int64
Poblacion             int64
Fecha                object
Casos confirmados     int64
Dia                   int64
Mes                   int64
Año                   int64
dtype: object

#### * Eliminar una columna.

Ya que separamos Fecha, nos gustaría eliminarla.

In [75]:
covid = covid.drop('Fecha', axis = 1)

covid

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año
0,Arica y Parinacota,15,Arica,15101,247552,6,30,3,2020
1,Arica y Parinacota,15,Camarones,15102,1233,0,30,3,2020
2,Arica y Parinacota,15,General Lagos,15202,810,0,30,3,2020
3,Arica y Parinacota,15,Putre,15201,2515,0,30,3,2020
5,Tarapacá,1,Alto Hospicio,1107,129999,0,30,3,2020
...,...,...,...,...,...,...,...,...,...
104612,Magallanes,12,Punta Arenas,12101,141984,55577,9,1,2023
104613,Magallanes,12,Rio Verde,12103,211,50,9,1,2023
104614,Magallanes,12,San Gregorio,12104,681,146,9,1,2023
104615,Magallanes,12,Timaukel,12303,282,55,9,1,2023


#### * Reemplazar valores de una columna por otros.

Los nombres de las regiones son muy extensos, mejor utilicemos la [abreviatura nacional](https://es.wikipedia.org/wiki/Regiones_de_Chile#Regiones_de_Chile) de las regiones.

In [76]:
intercambio = {
    'Arica y Parinacota' : 'AP',
    'Tarapacá' : 'TA',
    'Antofagasta': 'AN',
    'Atacama' : 'AT',
    'Coquimbo' : 'CO',
    'Valparaíso' : 'VA',
    'Metropolitana' : 'RM',
    'O’Higgins' : 'LI',
    'Maule' : 'ML',
    'Ñuble' : 'NB',
    'Biobío' : 'BI',
    'Araucanía' : 'AR',
    'Los Ríos' : 'LR',
    'Los Lagos' : 'LL',
    'Aysén' : 'AI',
    'Magallanes' : 'MA'
}

covid['Region'] = covid['Region'].replace(intercambio)

covid

Unnamed: 0,Region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año
0,AP,15,Arica,15101,247552,6,30,3,2020
1,AP,15,Camarones,15102,1233,0,30,3,2020
2,AP,15,General Lagos,15202,810,0,30,3,2020
3,AP,15,Putre,15201,2515,0,30,3,2020
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020
...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023
104613,MA,12,Rio Verde,12103,211,50,9,1,2023
104614,MA,12,San Gregorio,12104,681,146,9,1,2023
104615,MA,12,Timaukel,12303,282,55,9,1,2023


#### * Renombrar columnas.

Cambiemos el nombre de la columna `Region` por `Abrev. region`.

In [77]:
covid = covid.rename(columns = {'Region' : 'Abrev. region'})

covid

Unnamed: 0,Abrev. region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año
0,AP,15,Arica,15101,247552,6,30,3,2020
1,AP,15,Camarones,15102,1233,0,30,3,2020
2,AP,15,General Lagos,15202,810,0,30,3,2020
3,AP,15,Putre,15201,2515,0,30,3,2020
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020
...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023
104613,MA,12,Rio Verde,12103,211,50,9,1,2023
104614,MA,12,San Gregorio,12104,681,146,9,1,2023
104615,MA,12,Timaukel,12303,282,55,9,1,2023


#### * Crear nuevas columnas en base a otras.

Queremos la tasa de casos confirmados respecto a la población con máximo 3 decimales.

In [78]:
covid['Tasa confirmados %'] = ((covid['Casos confirmados'] / covid['Poblacion']) * 100).round(3)

covid

Unnamed: 0,Abrev. region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año,Tasa confirmados %
0,AP,15,Arica,15101,247552,6,30,3,2020,0.002
1,AP,15,Camarones,15102,1233,0,30,3,2020,0.000
2,AP,15,General Lagos,15202,810,0,30,3,2020,0.000
3,AP,15,Putre,15201,2515,0,30,3,2020,0.000
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020,0.000
...,...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023,39.143
104613,MA,12,Rio Verde,12103,211,50,9,1,2023,23.697
104614,MA,12,San Gregorio,12104,681,146,9,1,2023,21.439
104615,MA,12,Timaukel,12303,282,55,9,1,2023,19.504


Nos gustaría crear una sola columna que contenga el nombre de la comuna y de la región, de la forma `Comuna - Región`.

__Primera idea:__ Iterar por cada fila.

Pandas permite iterar por filas utilizando el método `iterrows`, el cual disponibiliza el `index` y la fila como una `pd.Series` en cada iteración.

In [79]:
for id, row in covid.iterrows():
    covid.loc[id, 'Comuna - Region'] = f"{row['Comuna']} - {row['Abrev. region']}"

covid

Unnamed: 0,Abrev. region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año,Tasa confirmados %,Comuna - Region
0,AP,15,Arica,15101,247552,6,30,3,2020,0.002,Arica - AP
1,AP,15,Camarones,15102,1233,0,30,3,2020,0.000,Camarones - AP
2,AP,15,General Lagos,15202,810,0,30,3,2020,0.000,General Lagos - AP
3,AP,15,Putre,15201,2515,0,30,3,2020,0.000,Putre - AP
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020,0.000,Alto Hospicio - TA
...,...,...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023,39.143,Punta Arenas - MA
104613,MA,12,Rio Verde,12103,211,50,9,1,2023,23.697,Rio Verde - MA
104614,MA,12,San Gregorio,12104,681,146,9,1,2023,21.439,San Gregorio - MA
104615,MA,12,Timaukel,12303,282,55,9,1,2023,19.504,Timaukel - MA


Muy mal optimizado!, mejor trabajar de forma similar a NumPy:

__Idea 2:__ Operaciones entre series, y como los dataframes se componen de series todo es más fácil!

In [80]:
covid['Comuna - Region'] = covid['Comuna'] + ' - ' + covid['Abrev. region']

covid

Unnamed: 0,Abrev. region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año,Tasa confirmados %,Comuna - Region
0,AP,15,Arica,15101,247552,6,30,3,2020,0.002,Arica - AP
1,AP,15,Camarones,15102,1233,0,30,3,2020,0.000,Camarones - AP
2,AP,15,General Lagos,15202,810,0,30,3,2020,0.000,General Lagos - AP
3,AP,15,Putre,15201,2515,0,30,3,2020,0.000,Putre - AP
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020,0.000,Alto Hospicio - TA
...,...,...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023,39.143,Punta Arenas - MA
104613,MA,12,Rio Verde,12103,211,50,9,1,2023,23.697,Rio Verde - MA
104614,MA,12,San Gregorio,12104,681,146,9,1,2023,21.439,San Gregorio - MA
104615,MA,12,Timaukel,12303,282,55,9,1,2023,19.504,Timaukel - MA


Nos gustaría crear una columna que nos indique la categoría de la comuna según su población: Pequeña, Mediana o Grande.

Consideraremos Pequeña si la población es menor a 10.000 habitantes, Mediana si es menor a 100.000 y Grande en otro caso.

In [81]:
covid['Categoría Comuna'] = 'Mediana' # Toda la columna tiene el valor 'Mediana'

covid.loc[covid['Poblacion'] < 10_000, 'Categoría Comuna'] = 'Pequeña'

covid.loc[covid['Poblacion'] > 100_000, 'Categoría Comuna'] = 'Grande'

covid

Unnamed: 0,Abrev. region,Codigo region,Comuna,Codigo comuna,Poblacion,Casos confirmados,Dia,Mes,Año,Tasa confirmados %,Comuna - Region,Categoría Comuna
0,AP,15,Arica,15101,247552,6,30,3,2020,0.002,Arica - AP,Grande
1,AP,15,Camarones,15102,1233,0,30,3,2020,0.000,Camarones - AP,Pequeña
2,AP,15,General Lagos,15202,810,0,30,3,2020,0.000,General Lagos - AP,Pequeña
3,AP,15,Putre,15201,2515,0,30,3,2020,0.000,Putre - AP,Pequeña
5,TA,1,Alto Hospicio,1107,129999,0,30,3,2020,0.000,Alto Hospicio - TA,Grande
...,...,...,...,...,...,...,...,...,...,...,...,...
104612,MA,12,Punta Arenas,12101,141984,55577,9,1,2023,39.143,Punta Arenas - MA,Grande
104613,MA,12,Rio Verde,12103,211,50,9,1,2023,23.697,Rio Verde - MA,Pequeña
104614,MA,12,San Gregorio,12104,681,146,9,1,2023,21.439,San Gregorio - MA,Pequeña
104615,MA,12,Timaukel,12303,282,55,9,1,2023,19.504,Timaukel - MA,Pequeña


## Resumen
* Pandas posee una infinidad de herramientas para trabajar con datos, incluyendo la carga, manipulación, operaciones y filtrado de datos.
* La documentación oficial (y StackOverflow) son tus mejores amigos.
* La importancia está en darle sentido a los datos, no solo a coleccionarlos.

## Ejercicio guiado

Durante las siguientes ayudantías trabajaremos con un dataset que recopila resultados de partidos de futbol, en específico los de la Premier League 2020/21.

Nuestro objetivo final será conocer al campeón de la temporada a través de la tabla de posiciones.


<!-- 'https://raw.githubusercontent.com/footballcsv/england/master/2020s/2020-21/eng.1.csv'

matches[['DayOfWeek', 'Month', 'Day', 'Year']] = matches['Date'].str.split(' ', expand = True)


 -->

El dataset fue extraido del repositorio de GitHub: [awesome-public-datasets](https://github.com/awesomedata/awesome-public-datasets) en especifico del repositorio [footballcsv](https://github.com/footballcsv).

In [82]:
matches = pd.read_csv(
    'https://raw.githubusercontent.com/footballcsv/england/master/2020s/2020-21/eng.1.csv'
)
matches

Unnamed: 0,Round,Date,Team 1,FT,Team 2
0,1,Sat Sep 12 2020,Fulham,0–3,Arsenal
1,1,Sat Sep 12 2020,Crystal Palace,1–0,Southampton
2,1,Sat Sep 12 2020,Liverpool,4–3,Leeds United
3,1,Sat Sep 12 2020,West Ham,0–2,Newcastle Utd
4,1,Sun Sep 13 2020,West Brom,0–3,Leicester City
...,...,...,...,...,...
375,38,Sun May 23 2021,West Ham,3–0,Southampton
376,38,Sun May 23 2021,Leeds United,3–1,West Brom
377,38,Sun May 23 2021,Arsenal,2–0,Brighton
378,38,Sun May 23 2021,Liverpool,2–0,Crystal Palace


Aun no conocemos todas las herramientas (métodos de pandas) para lograr el objetivo. Por mientras, acerquemonos al objetivo practicando lo aprendido.

### 1. ¿Que partidos se jugaron entre las fechas 8/11/2020 y 21/11/2020? Visualiza en pantalla solo los equipos y el resultado.

**HINT:** Separa la información de la columna `Date`.

In [83]:
# Escribe tu code aquí



### 2. ¿El Manchester United marcó más goles de Local (`Team 1`) o de Visita (`Team 2`)?

**AYUDA:** El separador en la columna `FT` es: '–'.

In [84]:
# Escribe tu code aquí



### 3. ¿Cual equipo marcó más goles en la jornada 22?

In [85]:
# Escribe tu code aquí



### 4. Crea una columna `Points Team 1` con los puntos que obtuvo el Team 1 en cada partido. Si ganó son 3 puntos, si empató es 1 punto y si perdió no tiene puntos.

In [86]:
# Escribe tu code aquí



### 5. Sabemos que si un equipo gana el otro pierde, y si uno empata el otro también. Siguiendo la idea anterior, crea una columna `Points Team 2`.

In [87]:
# Escribe tu code aquí

