# Introducción a Pandas

Pandas es una biblioteca que nos facilita el trabajao de análisis de datos, ya que nos oferece funcionalidades para la carga de datos, filtrado, agregados, etc...

A continuación veremos unos ejemplos de uso de Pandas en los que veremos como cargar datos desde un archivo, como acceder a los elementos, filtrar los datos, obtener información de los datos y realizar agrupamientos.

## Carga de datos
En el siguietne ejemplo vamos a realizar la carga de un fichero de datos csv usando pandas. Este fichero se encuentra en la carpeta './recursos/covid_ja.csv' y contiene las series de datos de Covid-19 proporcioandas por la Junta de Andalucia.
Una vez cargados lso datos mostraremos las 10 primeras filas.

In [1]:
import pandas as pd

df = pd.read_csv('./recursos/covid_ja.csv', sep=';')
df.head(10)

Unnamed: 0,Fecha,Territorio,Medida,Valor,Unnamed: 4
0,26/08/2020,Andalucía,Confirmados PCR,26016,
1,26/08/2020,Andalucía,Confirmados PCR 14 días,7576,
2,26/08/2020,Andalucía,Confirmados PCR 7 días,3879,
3,26/08/2020,Andalucía,Total confirmados,30901,
4,26/08/2020,Andalucía,Hospitalizados,7039,
5,26/08/2020,Andalucía,Total UCI,834,
6,26/08/2020,Andalucía,Fallecidos,1490,
7,26/08/2020,Andalucía,Curados,17559,
8,26/08/2020,Almería,Confirmados PCR,3977,
9,26/08/2020,Almería,Confirmados PCR 14 días,1691,


Como podemos ver el fichero que provee la Junta de Andalucia no tiene un buen formato para su carga inmedianta con Pandas, ya que al terminar cada linea con ';' carga una columna de más. Esto lo podemos solucionar indicando los nombres de las columans que queremos cargar, a continuación tenemos un ejemplo.

In [2]:
columnas = ['Fecha', 'Territorio', 'Medida', 'Valor']

df = pd.read_csv('./recursos/covid_ja.csv', sep=';', usecols=columnas)
df.head(10)

Unnamed: 0,Fecha,Territorio,Medida,Valor
0,26/08/2020,Andalucía,Confirmados PCR,26016
1,26/08/2020,Andalucía,Confirmados PCR 14 días,7576
2,26/08/2020,Andalucía,Confirmados PCR 7 días,3879
3,26/08/2020,Andalucía,Total confirmados,30901
4,26/08/2020,Andalucía,Hospitalizados,7039
5,26/08/2020,Andalucía,Total UCI,834
6,26/08/2020,Andalucía,Fallecidos,1490
7,26/08/2020,Andalucía,Curados,17559
8,26/08/2020,Almería,Confirmados PCR,3977
9,26/08/2020,Almería,Confirmados PCR 14 días,1691


## Acceso a los elementos
Una vez cargado el *dataframe* podemos accerde a los elementos de este de distinta manera.
- Acceder a un determinado elemento indicando la columna y la fila
- Obtener todos los elementos de una columna
- Obtener todos los elemento de una fila

In [3]:
df['Fecha'][0]

'26/08/2020'

In [4]:
df.Medida

0               Confirmados PCR
1       Confirmados PCR 14 días
2        Confirmados PCR 7 días
3            Total confirmados 
4                Hospitalizados
                 ...           
1867         Total confirmados 
1868             Hospitalizados
1869                  Total UCI
1870                 Fallecidos
1871                    Curados
Name: Medida, Length: 1872, dtype: object

In [5]:
df.iloc[4]

Fecha             26/08/2020
Territorio         Andalucía
Medida        Hospitalizados
Valor                   7039
Name: 4, dtype: object

# Filtrado

Es posible aplicar filtros sobre las distintas columnas para quedarnos solo con aquellos elementos que cumplan el filtro deseado. 

En el siguiente ejemplo vamos a filtar el dataset para quedarnos únicamente con los datos de la provincia de Cádiz para la métrica 'Confirmados PCR 7 días'

In [6]:
dfCadiz7d = df[(df.Territorio == 'Cádiz') & (df.Medida == 'Confirmados PCR 7 días')]
dfCadiz7d.head(10)

Unnamed: 0,Fecha,Territorio,Medida,Valor
18,26/08/2020,Cádiz,Confirmados PCR 7 días,415
90,25/08/2020,Cádiz,Confirmados PCR 7 días,416
162,24/08/2020,Cádiz,Confirmados PCR 7 días,369
234,23/08/2020,Cádiz,Confirmados PCR 7 días,373
306,22/08/2020,Cádiz,Confirmados PCR 7 días,415
378,21/08/2020,Cádiz,Confirmados PCR 7 días,429
450,20/08/2020,Cádiz,Confirmados PCR 7 días,416
522,19/08/2020,Cádiz,Confirmados PCR 7 días,382
594,18/08/2020,Cádiz,Confirmados PCR 7 días,379
666,17/08/2020,Cádiz,Confirmados PCR 7 días,357


## Descripción de los datos
Mediante la función `describe` es posible obtener inforamción sobre un determiando campo. 
A continuación vamos a obtener esta información para el conjunto de datos anteriormente filtrado.

In [7]:
dfCadiz7d.Valor.describe()

count     26.000000
mean     238.423077
std      142.457340
min       38.000000
25%      102.250000
50%      226.500000
75%      377.500000
max      429.000000
Name: Valor, dtype: float64

# Grupos
Pandas permite realizar cálculos del tipo *Group By*. En el siguiente ejemplo vamos a realizar este agrupamiento por los campos Territorio y Medida, y vamos a mostar la descripción de este agrupamiento.

In [8]:
df.groupby(['Territorio', 'Medida']).describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor,Valor,Valor,Valor,Valor,Valor,Valor,Valor
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max
Territorio,Medida,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Almería,Confirmados PCR,26.0,2479.692308,842.425820,1283.0,1792.50,2379.5,3129.75,3977.0
Almería,Confirmados PCR 14 días,26.0,1110.730769,388.530725,516.0,791.00,1153.0,1425.00,1691.0
Almería,Confirmados PCR 7 días,26.0,585.500000,165.595229,247.0,509.75,611.5,719.50,778.0
Almería,Curados,26.0,1308.423077,176.075932,993.0,1193.50,1332.0,1473.50,1501.0
Almería,Fallecidos,26.0,58.384615,5.485085,53.0,53.00,56.0,64.00,69.0
...,...,...,...,...,...,...,...,...,...
Sevilla,Curados,26.0,2935.423077,38.008602,2887.0,2890.50,2956.5,2962.75,2992.0
Sevilla,Fallecidos,26.0,290.461538,0.646886,290.0,290.00,290.0,291.00,292.0
Sevilla,Hospitalizados,26.0,1236.730769,18.372932,1216.0,1221.25,1231.0,1251.50,1281.0
Sevilla,Total UCI,26.0,155.730769,2.631466,153.0,153.00,155.0,159.00,159.0
