## Pandas

![2560px-Pandas_logo.svg.png](attachment:7ad91506-b6dd-4051-bb0e-8652849a2951.png)

Pandas contiene estructuras de datos y herramientas de manipulación diseñadas para hacer la limpieza 
de datos rápida y fácil en Python. Pandas se utiliza a menudo en conjunto con herramientas de cálculo numérico como NumPy y SciPy,  analíticas como statsmodels y de visualización de datos como matplotlib.
Pandas adopta partes significativas del estilo idiomático de NumPy.

Aunque pandas adopta muchos estilos de codificación de NumPy, la mayor diferencia entre ambas librerías es que **pandas está diseñado para trabajar con datos tabulares o heterogéneos**. En contraste, **NumPy es más adecuado para trabajar con datos numéricos homogéneos** en forma de array o matriz.

# Data Frames

Un dataFrame es una tabla rectangular de datos y contiene una colección ordenada de columnas, cada una de las cuales puede ser un tipo de valor diferente (numérico, caracter, booleano, etc.). Es decir, el DataFrame es heterogéneo. El DataFrame, además,  tiene un índice de fila y de columna. El índice de fila es el número de fila, y el índice de columna es el nombre de la columna. 
![finallpandas.png](attachment:9d2006c5-c7ac-4a2a-9569-1b51f365f362.png)

Una forma de entender los índices de fila y columna son las celdas de Excel. 

![Untitled.png](attachment:bfe07fa8-cfe8-4cb6-bd2f-73e8a05006a2.png)

Podemos pensar en un data frame de pandas como en una serie de listas dentro de un diccionario:

In [1]:
# Ejemplo de formato de Pandas
covid_data_dict = {
    'date':       ['2021-08-30', '2021-08-31', '2021-09-01', '2021-09-02', '2021-09-03'],
    'new_cases':  [1644, 1365, 1916, 995, 1322],
    'new_deaths': [1347, 455, 6789, 8260, 61238654],
    'new_tests': [53541, 42583, 543955, 236278, None]
}

In [2]:
import pip

In [3]:
! pip install pandas



La instalación **(pip install)** coloca el código en algún lugar en el que Python espera que estén estos módulos.  

In [2]:
import pandas as pd

La declaración de importación **(import)** le dice a Python que busque el módulo y que los datos estén disponibles para su uso.

In [3]:
#El CSV se obtuvo de la página Our world in data el 3 de enero de 2022 y después se subió a Jupyter desde la computadora
covid_world= pd.read_csv('covid-world.csv')

La función read.csv es bastante compleja, ya que posee muchos parámetros (alrededor de 50). Casi todos los parámetros son opcionales. Y es muy conveniente tenerlos, ya que **las bases de datos en el mundo real tienden a ser bastante desordenadas**. 

![read csv.png](attachment:179cbde5-7a31-410c-ad67-f3915fb95d25.png)

Cada uno de estos argumentos están explicados en la página de la documentación oficial de pandas. Además, vienen ejemplos de uso de cada argumento. Si tienes problemas leyendo un archivo en particular, seguramente encontrarás  un parámetro que resolverá tu problema y, además, un ejemplo de una situación similar en la documentación. 
Link: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv

In [6]:
#Tambien podemos usar la funcion read_table y especificar el separador de los datos que en este caso es ,.
#otra_opcion= pd.read_table('covid-world.csv', sep=',')

In [7]:
#Importar directo de GitHub
#url = 'https://covid.ourworldindata.org/data/owid-covid-data.csv'
#covid_world= pd.read_csv(url,index_col=0,parse_dates=[0])


In [4]:
covid_world

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-02-24,5.0,5.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
1,AFG,Asia,Afghanistan,2020-02-25,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
2,AFG,Asia,Afghanistan,2020-02-26,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
3,AFG,Asia,Afghanistan,2020-02-27,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
4,AFG,Asia,Afghanistan,2020-02-28,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
151771,ZWE,Africa,Zimbabwe,2021-12-29,207548.0,0.0,1163.429,4940.0,0.0,16.000,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151772,ZWE,Africa,Zimbabwe,2021-12-30,211728.0,4180.0,1483.429,4997.0,57.0,20.286,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151773,ZWE,Africa,Zimbabwe,2021-12-31,213258.0,1530.0,1503.143,5004.0,7.0,19.000,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151774,ZWE,Africa,Zimbabwe,2022-01-01,214214.0,956.0,1495.429,5017.0,13.0,18.857,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,


In [9]:
#covid_world.reset_index(#inplace=True)

SyntaxError: unexpected EOF while parsing (Temp/ipykernel_10576/2395031288.py, line 1)

In [5]:
type(covid_world)

pandas.core.frame.DataFrame

Podemos ver los nombres de las columnas con la función **.columns**

In [6]:
covid_world.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'new_tests', 'total_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'total_boosters',
       'new_vaccinations', 'new_vaccinations_smoothed',
       't

También podemos revisar el número de filas y columnas del dataframe utilizando el método **.shape**

In [7]:
covid_world.shape

(151776, 67)

Podemos echar un vistazo a los datos utilizando las funciones **.head** y **tail**.

In [8]:
#Primeros 10 casos
covid_world.head(10)

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
0,AFG,Asia,Afghanistan,2020-02-24,5.0,5.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
1,AFG,Asia,Afghanistan,2020-02-25,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
2,AFG,Asia,Afghanistan,2020-02-26,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
3,AFG,Asia,Afghanistan,2020-02-27,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
4,AFG,Asia,Afghanistan,2020-02-28,5.0,0.0,,,,,...,,,37.746,0.5,64.83,0.511,,,,
5,AFG,Asia,Afghanistan,2020-02-29,5.0,0.0,0.714,,,,...,,,37.746,0.5,64.83,0.511,,,,
6,AFG,Asia,Afghanistan,2020-03-01,5.0,0.0,0.714,,,,...,,,37.746,0.5,64.83,0.511,,,,
7,AFG,Asia,Afghanistan,2020-03-02,5.0,0.0,0.0,,,,...,,,37.746,0.5,64.83,0.511,,,,
8,AFG,Asia,Afghanistan,2020-03-03,5.0,0.0,0.0,,,,...,,,37.746,0.5,64.83,0.511,,,,
9,AFG,Asia,Afghanistan,2020-03-04,5.0,0.0,0.0,,,,...,,,37.746,0.5,64.83,0.511,,,,


In [9]:
#Ultimos 10 casos
covid_world.tail(10)

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
151766,ZWE,Africa,Zimbabwe,2021-12-24,202736.0,1392.0,1881.286,4871.0,16.0,13.143,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151767,ZWE,Africa,Zimbabwe,2021-12-25,203746.0,1010.0,2025.571,4885.0,14.0,15.143,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151768,ZWE,Africa,Zimbabwe,2021-12-26,204351.0,605.0,1811.143,4891.0,6.0,15.571,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151769,ZWE,Africa,Zimbabwe,2021-12-27,205449.0,1098.0,1481.429,4908.0,17.0,14.714,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151770,ZWE,Africa,Zimbabwe,2021-12-28,207548.0,2099.0,1397.143,4940.0,32.0,17.286,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151771,ZWE,Africa,Zimbabwe,2021-12-29,207548.0,0.0,1163.429,4940.0,0.0,16.0,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151772,ZWE,Africa,Zimbabwe,2021-12-30,211728.0,4180.0,1483.429,4997.0,57.0,20.286,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151773,ZWE,Africa,Zimbabwe,2021-12-31,213258.0,1530.0,1503.143,5004.0,7.0,19.0,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151774,ZWE,Africa,Zimbabwe,2022-01-01,214214.0,956.0,1495.429,5017.0,13.0,18.857,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,
151775,ZWE,Africa,Zimbabwe,2022-01-02,214214.0,,,5017.0,,,...,1.6,30.7,36.791,1.7,61.49,0.571,,,,


Recordemos que los dataframes en pandas son similares a un diccionario de listas. Entonces, podemos obtener una lista de valores de una columna específica utilizando la notación de índice [].

In [10]:
covid_world['new_cases']

0            5.0
1            0.0
2            0.0
3            0.0
4            0.0
           ...  
151771       0.0
151772    4180.0
151773    1530.0
151774     956.0
151775       NaN
Name: new_cases, Length: 151776, dtype: float64

Cada columna se representa usando una estructura de datos llamada **Serie**, que  esencialmente es un array de NumPy con algunos métodos y propiedades extra.
Por ejemplo, podemos recuperar un valor específico de una serie utilizando la notación de índice [].

In [15]:
#Recuperamos el valor indicando el índice de la columna y la fila 
covid_world['new_cases'][386]


0            5.0
1            0.0
2            0.0
3            0.0
4            0.0
           ...  
151771       0.0
151772    4180.0
151773    1530.0
151774     956.0
151775       NaN
Name: new_cases, Length: 151776, dtype: float64

Podemos revisar un rango de filas con el metodo **.iloc**. 

In [12]:
covid_world.iloc[386:390]

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
386,AFG,Asia,Afghanistan,2021-03-16,55995.0,10.0,17.0,2460.0,1.0,1.286,...,,,37.746,0.5,64.83,0.511,,,,
387,AFG,Asia,Afghanistan,2021-03-17,56016.0,21.0,17.429,2460.0,0.0,1.286,...,,,37.746,0.5,64.83,0.511,,,,
388,AFG,Asia,Afghanistan,2021-03-18,56044.0,28.0,18.143,2462.0,2.0,1.571,...,,,37.746,0.5,64.83,0.511,,,,
389,AFG,Asia,Afghanistan,2021-03-19,56069.0,25.0,15.714,2462.0,0.0,1.143,...,,,37.746,0.5,64.83,0.511,,,,


Además, también puede pasar una lista de columnas con la notación de índice para acceder a un subconjunto (un slice) del dataframe con sólo las columnas que especificamos.

In [16]:
covid_world[['total_cases', 'total_deaths']]


Unnamed: 0,total_cases,total_deaths
0,5.0,
1,5.0,
2,5.0,
3,5.0,
4,5.0,
...,...,...
151771,207548.0,4940.0
151772,211728.0,4997.0
151773,213258.0,5004.0
151774,214214.0,5017.0


Podemos tomar una muestra aleatoria del dataset con la función **.sample**.


In [14]:
covid_world.sample(5)

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
115461,LCA,North America,Saint Lucia,2020-04-24,15.0,0.0,0.0,,,,...,,,87.202,1.3,76.2,0.759,,,,
117902,SMR,Europe,San Marino,2020-06-21,713.0,0.0,2.571,42.0,0.0,0.0,...,,,,3.8,84.97,,,,,
57760,GIN,Africa,Guinea,2020-07-27,7055.0,47.0,66.429,45.0,2.0,0.714,...,,,17.45,0.3,61.6,0.477,,,,
34239,CUB,North America,Cuba,2021-08-08,458219.0,9427.0,9125.143,3438.0,83.0,84.714,...,17.1,53.3,85.198,5.2,78.8,0.783,,,,
11846,BGD,Asia,Bangladesh,2021-01-10,522453.0,1071.0,919.143,7781.0,25.0,22.143,...,1.0,44.7,34.808,0.8,72.59,0.632,,,,


El nuevo dataset **casos_def** es simplemente una "vista" del marco del dataset original. Ambos remiten a los mismos datos en la memoria de la computadora. El cambio de cualquier valor dentro de uno de ellos también cambiará los valores respectivos en el otro. Esto hace que la manipulacion de datos en Pandas sea muy rápida.

# Filtrando filas 
Si queremos seleccionar ciertos datos, podemos hacerlo utilizando un condicional.

In [None]:
#seleccionar las filas con más de 10,000 casos nuevos al día
muchos_casos = covid_world[covid_world.new_cases > 10000]

In [None]:
muchos_casos

Aquí, pandas devuelve una serie que contiene valores booleanos True y False. Además,  utilizamos esta serie para seleccionar un subconjunto (slice) de filas del dataframe original, correspondiente a los valores True de la serie.

Podemos ver, por ejemplo, los dias en los que hubo una mortalidad mayor que el promedio.

In [None]:
promedio_muertes = covid_world.new_deaths.mean()

In [None]:
promedio_muertes 

In [None]:
#Filas con mas muertes que la media general
mas_muertes = covid_world[covid_world.new_deaths > promedio_muertes]

In [None]:
mas_muertes

Otra forma de ordenar filas es a través del nombre de la columna deseada. Por ejemplo: 

In [None]:
covid_world.sort_values('new_cases', ascending=False).head(5)

# Creando nuevas columnas a partir de las que contiene el dataframe
Podemos realizar algunas operaciones entre dos columnas y al final añadir el resultado como una nueva columna.

In [None]:
#Creamos la columna tasa positiva al dividir el no. de nuevos casos con el no. de nuevos tests.
covid_world ['tasa_positiva'] = covid_world.new_cases / covid_world.new_tests

In [None]:
covid_world

Si no necesitamos cierta columna, podemos borrarla con **.drop**.

In [None]:
covid_world.drop(columns=['tasa_positiva', 'iso_code'], inplace=False)

Inplace es un argumento muy importante, ya que nos especifica si realizaremos el cambio en el dataframe original o no. En caso de que sea False, Pandas realiza una visualizacion de lo que pasaría si realizáramos el cambio. Si es True, Pandas realiza el cambio en el dataframe. Otra forma de realizar efectivamente el cambio ers asignar esos cambios al dataframe original:

In [None]:
#covid_world= covid_world.drop(columns=['tasa_positiva', 'iso_code']

NOTA IMPORTANTE> Se considera mala practica modificar el dataframe original en cada paso. **Te recomendamos no realizar la asignación, hasta que estés seguro(a) de que esos cambios son los que necesitas.** También puedes hacer asignaciones a nuevas variables, si así lo deseas. 

# Series de tiempo y fechas en Pandas
Pandas contiene herramientas y características para trabajar con datos de series temporales. Veamos algunos ejemplos.

In [None]:
covid_world.date

Convertimos ese objeto a fecha con pd.to_datetime.

In [None]:
covid_world.date = pd.to_datetime(covid_world.date)

In [None]:
covid_world.date

Ahora, Pandas ya sabe que esa columna contiene fechas. Podemos manipular estos datos. Por ejemplo, podemos obtener las fechas del dataset en año, mes y día para que sea más claro el análisis. Para ello, utilizamos la función DatetimeIndex. Finalmente, vamos a crear nuevas columnas con estos datos nuevos. 

In [None]:
covid_world ['year'] = pd.DatetimeIndex(covid_world.date).year
covid_world ['month'] = pd.DatetimeIndex(covid_world.date).month
covid_world ['day']  = pd.DatetimeIndex(covid_world.date).day

En éste ejemplo, utilizamos la notación con [], en lugar de utilizar la asignación con punto. Esto es porque queremos crear nuevas columnas. Cada vez creamos nuevas columnas en pandas, la manera correcta de hacerlo es con []. El anterior es uno de los pocos casos específicos en los que la notación de punto falla en pandas.  

In [None]:
#Veamos que pasa si utilizamos la notación .
covid_world.year = pd.DatetimeIndex(covid_world.date).year

In [None]:
covid_world

In [None]:
covid_world.year

Podemos obtener datos especificos por día, mes o año. Por ejemplo, si quisiéramos obtener el número de nuevos casos, muertes y hospitalizaciones en 2021, tendríamos que realizar lo siguiente:

In [None]:
#Especificamos que columna y la condicion que queremos evaluar
covid_world_2021 = covid_world[covid_world.year == 2021]

In [None]:
#Extraemos las columnas que queremos agregar 
covid_world_2021_datos = covid_world_2021[['new_cases', 'hosp_patients', 'new_deaths']]

In [None]:
#Obtenemos la suma de casos, pacientes hosp y muertes en 2021 con sum().
covid_2021 = covid_world_2021_datos.sum()

In [None]:
covid_2021

Si quisiéramos evaluar los mismos datos para 2021, pero solamente en el mes de julio, necesitamos indicarle a pandas que queremos cumplir ambas condiciones. Para ello, hacemos uso del operador **==** y de **&** (and).

In [None]:
#Especificamos que columnas y las condiciones que queremos evaluar.
covid_world_jul_2021 = covid_world[(covid_world.year == 2021) & (covid_world.month == 7)]

In [None]:
#Extraemos columnas a agregar
covid_world_jul_2021_datos = covid_world_jul_2021[['new_cases', 'hosp_patients', 'new_deaths']]

In [None]:
#Sumamos los datos en las columnas
covid_jul_2021 = covid_world_jul_2021_datos.sum()

In [None]:
covid_jul_2021

# Manejar valores faltantes en el dataframe
La mayor parte de los dataframes contiene datos faltantes (NaN). Por ello, es necesario conocer los métodos que ofrece Pandas para manejar estos datos faltantes. 
Las preguntas máss frecuentes en este tema son: ¿qué método es el más conveniente? ¿cuál es el que puedo usar?  
Depende mucho de cada caso. Revisaremos los métodos para manejar NaNs y después cada quién decide cuál es el método más adecuado para su caso.

In [None]:
covid_world.head(10)

In [None]:
# Función isna
covid_world.isna().head(10)

In [None]:
covid_world.notna().head(10)

In [None]:
#Número de datos faltantes en el df
covid_world.isna().sum()

In [None]:
#Revisar NaNs en una columna en particular
covid_world[covid_world.total_deaths.isna()]

In [None]:
#Revisar NaNs en dos columnas
covid_world[['new_deaths','new_cases']].isna()

# Métodos para manejar NaNs
* dropna: función que se utiliza para eliminar los valores ausentes de un dataframe.
* Parámetros: axis, how, inplace, entre otros.
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html


In [None]:
#'any' : Si hay algún valor NA, se elimina esa fila o columna. Es el argumento por default.
covid_world.dropna(how= 'any').shape

In [None]:
#'all' : Si todos los valores son NA, elimina esa fila o columna.
covid_world.dropna(how= 'all').shape

In [None]:
covid_world.dropna(subset=['new_deaths','new_cases'], how='all').shape

# Reemplazar con valores

* fillna: función que rellena los valores NaN utilizando el método y valores especificados.
* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

Por ejemplo, en el caso de este df de COVID-19, sabemos que algunos países tuvieron personas contagiadas y fallecidas antes o después que otros. Quizá es lo que vemos en el caso de Afganistán, que no muertes hasta el 11 de marzo de 2020. Antes de esa fecha, los valores eran NaNs.

In [None]:
India= covid_world[covid_world.location == "India"]

In [None]:
India

In [None]:
#usamos la función first valid indez para saber cuál es el índice del primer registro sin NaN.
India['new_deaths'].first_valid_index()

In [None]:
#India.at[63724, 'date']

In [None]:
India.loc[63720:63725]

En este caso, podemos llenar los valores antes de este registro con ceros, porque sabemos que efectivamente no había pacientes con COVID-19 antes de esa fecha. 

In [None]:
India['new_deaths'].fillna(value= 0) 

In [None]:
#para ver el resultado tendriamos que hacer una signacion o un inplace
India.loc[63720:63726] 

En otros casos, podríamos llenar los NaNs con valores de la media de los datos, por ejemplo. 

Sigues sin decidirte? Echa un vistazo a esta entrada de Medium: https://towardsdatascience.com/whats-the-best-way-to-handle-nan-values-62d50f738fc

# Funciones de agrupación y de agregación 

## Agrupación
Esta función nos permite agrupar por categorías el dataframe. 

## Agregación
Estas funciones nos sirven para resumir múltiples piezas de  datos en un solo valor. La mayoría son estadísticos descriptivos. 


In [None]:
#Ejemplo básico de uso de funciones de agregación. Toda la columna (todo el mundo). 
covid_world['new_cases'].count()

# NOTA SOBRE COUNT Y VALUE_COUNTS
* La funcion count() se utiliza para contar el número de valores no NaNs en el dataframe. 
* La función value_counts() se utiliza para contar las frecuencias de cada categoría.


In [None]:
#Ejemplo más específico de función de agregación. Una sección de la columna (solo casos de África).
covid_world[covid_world.continent=='Africa'].new_cases.sum()

In [None]:
covid_world[covid_world.continent=='Asia'].total_deaths.min()

## Función agg
Esta función nos permite añadir distintas funciones de agregación (sum, max, min, counts, etc), utilizando una o más operaciones sobre un eje especificado (filas o columnas). Existen múltiples maneras de llamar a una función de agregació dentro de agg. Por ejemplo, podemos pasar una lista de funciones para aplicar a una o más columnas de datos.

¿Qué pasa si queremos realizar el análisis sólo en un subconjunto de diferentes columnas? Hay otras dos opciones para las agregaciones: usar un diccionario o una agregación con nombre. Revisaremos cada uno de estos casos. 
Documentación: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html

In [None]:
#pasando una lista para evaluar diferentes funciones de agregación sobre una columna
covid_world['total_deaths'].agg(['sum', 'count'])

In [None]:
#pasando un diccionario para evaluar un subconjunto de múltiples columnas
covid_world.agg({'new_cases' : ['sum', 'min', 'max'], 'new_deaths' : ['min', 'max', 'sum']})

## Función groupby
La función **groupby** de Pandas permite dividir un DataFrame en grupos, aplicar una función a cada categoría de forma independiente, y luego combinar los resultados de nuevo. Esto se denomina el patrón "dividir-aplicar-combinar", y es una poderosa herramienta para analizar los datos a través de diferentes categorías. Ya hemos hecho esto anteriormente! Cuando revisamos los datos de la India, utilizamos 
**covid_world[covid_world.location == "India"]**. 
Como veremos a continuación, **groupby** es más eficiente, informativa y fácil de usar. 
Documentación: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html


In [None]:
#Filtrado del df por cada continente y por el numero de casos nuevos. Finalmente, se suman los valores de la columna nuevos casos
covid_world.groupby('continent').new_cases.sum()

In [None]:
#Filtrado del df por cada continente y por el numero de casos nuevos. Finalmente, se toman los valores máximos de la columna nuevos casos
covid_world.groupby('continent').new_cases.max()

*Tip*: podemos parafrasear **groupby** por **cada uno**. Ej: análisis de número de casos nuevos por cada uno de los continentes.

In [None]:
#Combinando agg con groupby
#Pasando una lista para aplicar simultáneamente varias funciones de agregación
covid_world.groupby('continent').new_cases.agg(['count', 'min', 'max'])

# Merge 

Típico problema de data analyst (o data scientist): queremos unir dos dataframes. No solo eso, sino que queremos que uno de esos dataframes haga "match" con el otro, quizá reemplazando alguna columna o conservándola ¿Copiar y pegar en Excel? Tal vez. Pero, ¿qué pasa si tienes miles o millones de registros? Para eso existen las funciones merge y join de Pandas. 

* pd.merge(df1, df2): permite realizar uniones múltiples en varias columnas.

![1_9eH1_7VbTZPZd9jBiGIyNA.png](attachment:6ff5b533-d706-435c-9b31-648b5efc245a.png)
Tomado de Medium

In [None]:
#Primer dataframe
df1 = pd.DataFrame({'key': ['a', 'b', 'u1', 'a'], 'value': [1, 2, 3, 5]})
df1

In [None]:
#Segundo dataframe
df2 = pd.DataFrame({'key': ['a', 'b', 'u2', 'a'], 'value': [5, 6, 7, 8]})
df2

Intentemos unir ambos dataframes. 

In [None]:
pd.merge(df1,df2)

Merge busca valores idénticos en las columnas **key** y **value**. Por lo tanto, esta fusión nos da un dataframe casi vacío porque la mayoría de los valores de las columnas no coinciden, y solo nos devuelve a 5, la única fila que sí coincide. 
*  Vamos a utilizar una columna particular para unir ambos dataframes. En este caso, utilizaremos la columna **key**.

In [None]:
#inner es el valor por default de la función, pero queremos hacerlo explícito aquí.
df1.merge(df2, how="inner", on="key")

* x representa al primer elemento a unir (df1).
* y representa al segundo elemento a unir (df2).

In [None]:

df1.merge(df2, how="outer", on="key")

In [None]:
df1.merge(df2, how="left", on="key")

In [None]:
df1.merge(df2, how="right", on="key")

In [None]:
df3 = pd.DataFrame({'key': ['a', 'b', 'u2', 'a'], 'value': [5, 6, 7, 8], 'C': ['sol', 'luna', 'marte', 'venus']})
df3

In [None]:
#podemos realizar la unión pasando una lista con  múltiples columnas
df2.merge(df3, on=['key', 'value'])

# Iterando en columnas del dataframe
Pandas proporciona la función **df.iteritems()**, que ayuda a iterar sobre las columnas de un DataFrame y devuelve el nombre de la columna y su contenido.

In [None]:
#Todas las columnas del dataframe
for (nombre,valor) in covid_world.iteritems():
    print(nombre, valor.values)

In [None]:
#columnas especificas del dataframe
for nombre, valores in covid_world[['year', 'month']].iteritems():
  print(valores)

No es recomendable iterar sobre filas con pandas. Si debes hacerlo, hay algunas recomendaciones a seguir:  https://datagy.io/pandas-iterate-over-rows/

# Análsis descriptivo de datos en Pandas
Ya revisamos algunas funciones y métodos básicos para manipular dataframes en pandas. Podemos realizar preguntas interesantes e intentar resolverlas con todo lo que nos ofrece esta librería. 

In [None]:
#Estadística descriptiva de la pandemia de COVID19 en el mundo
covid_world.describe()

In [10]:
#Como queremos analizar los datos de México solamente, vamos a seleccionar 
#un subconjunto del dataframe del mundo utilizando el encabezado de ubicación (key)
covid_mx=covid_world[covid_world.location == "Mexico"].
covid_mx

Unnamed: 0,iso_code,continent,location,date,total_cases,new_cases,new_cases_smoothed,total_deaths,new_deaths,new_deaths_smoothed,...,female_smokers,male_smokers,handwashing_facilities,hospital_beds_per_thousand,life_expectancy,human_development_index,excess_mortality_cumulative_absolute,excess_mortality_cumulative,excess_mortality,excess_mortality_cumulative_per_million
89524,MEX,North America,Mexico,2020-01-01,,,,,,,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
89525,MEX,North America,Mexico,2020-01-02,,,,,,,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
89526,MEX,North America,Mexico,2020-01-03,,,,,,,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
89527,MEX,North America,Mexico,2020-01-04,,,,,,,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
89528,MEX,North America,Mexico,2020-01-05,,,,,,,...,6.9,21.4,87.847,1.38,75.05,0.779,-205.4,-1.23,-1.23,-1.576819
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
90252,MEX,North America,Mexico,2021-12-29,3956372.0,4426.0,2755.714,298944.0,125.0,111.857,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
90253,MEX,North America,Mexico,2021-12-30,3961662.0,5290.0,3037.286,299132.0,188.0,110.429,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
90254,MEX,North America,Mexico,2021-12-31,3979723.0,18061.0,4634.143,299428.0,296.0,108.286,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,
90255,MEX,North America,Mexico,2022-01-01,3979723.0,0.0,4217.571,299428.0,0.0,95.571,...,6.9,21.4,87.847,1.38,75.05,0.779,,,,


In [12]:
#Lo podemos guardar en nuestra computadora como csv
#covid_mx.to_csv(r'C:\Users\ASUS\Documents\Notebooks\covid_mx.csv')

In [16]:
#Podemos hacer un subset de este dataframe
covid_mx_sub= covid_mx[['new_cases', 'hosp_patients', 'new_deaths','people_fully_vaccinated', 'cardiovasc_death_rate', 'diabetes_prevalence','date']]

In [13]:
#67 variables
covid_mx.columns

Index(['iso_code', 'continent', 'location', 'date', 'total_cases', 'new_cases',
       'new_cases_smoothed', 'total_deaths', 'new_deaths',
       'new_deaths_smoothed', 'total_cases_per_million',
       'new_cases_per_million', 'new_cases_smoothed_per_million',
       'total_deaths_per_million', 'new_deaths_per_million',
       'new_deaths_smoothed_per_million', 'reproduction_rate', 'icu_patients',
       'icu_patients_per_million', 'hosp_patients',
       'hosp_patients_per_million', 'weekly_icu_admissions',
       'weekly_icu_admissions_per_million', 'weekly_hosp_admissions',
       'weekly_hosp_admissions_per_million', 'new_tests', 'total_tests',
       'total_tests_per_thousand', 'new_tests_per_thousand',
       'new_tests_smoothed', 'new_tests_smoothed_per_thousand',
       'positive_rate', 'tests_per_case', 'tests_units', 'total_vaccinations',
       'people_vaccinated', 'people_fully_vaccinated', 'total_boosters',
       'new_vaccinations', 'new_vaccinations_smoothed',
       't

In [18]:
#Guardamos este subset para despues
#covid_mx_sub.to_csv(r'C:\Users\ASUS\Documents\Notebooks\covid_mx_sub.csv')

In [None]:
#Estadística descriptiva del COVID-19 en México
covid_mx.describe()

In [None]:
#Queremos ver el numero total de casos y el último día de recuento.
covid_mx.total_cases.tail


In [None]:
total_cases = covid_mx.at[90256, 'total_cases']
total_cases

In [None]:
tests = covid_mx.new_tests.head
tests

In [None]:
total_tests_media = covid_mx.total_tests.mean()
total_tests_media

In [None]:
total_muertes= covid_mx.total_deaths.tail
total_muertes

In [None]:
positive_rate = total_cases / total_tests
positive_rate

In [None]:
covid_mx.people_fully_vaccinated.tail

In [None]:
#Total de personas vacunadas
total_personas_vacunadas = covid_mx.at[90255, 'people_fully_vaccinated']
total_personas_vacunadas

In [None]:
#Porcentaje de la poblacion vacunada
poblacion= 126014024 #datos del INEGI de 2020. Seguramente este num ya es distinto.
porcentaje_pob_vacunada = (total_personas_vacunadas/poblacion)*100
print(porcentaje_pob_vacunada)

In [None]:
#Porcentaje de adultos vacunados
# se estima que el 31.4% son menores de 17 años, entonces:
adultos = poblacion* 0.686
adultos_vacunados= (total_personas_vacunadas/adultos)*100
print(adultos_vacunados)

Tomemos en cuenta que aun no tenemos datos oficiales del número de vacunados (con esquema completo) en menores de 12 a 17 años. Estas estimaciones serán distintas. 

In [None]:
covid_mx.people_fully_vaccinated_per_hundred.tail

In [None]:
#Y las terceras dosis de refuerzo?
boosters= covid_mx.total_boosters.tail

In [None]:
#Media diaria de personas que reciben su primera dosis de la vacuna.
covid_mx.new_people_vaccinated_smoothed.mean()

In [None]:
#numero de pruebas COVID19 realizadas al día.
covid_mx.new_tests.tail

In [None]:
#aquí podemos sumar todos los números (de pruebas) que vienen en la columna:
num_pruebas= covid_mx.new_tests.sum()
num_pruebas

In [None]:
#Promedio de tests nuevos por dia de la semana
covid_world[covid_world.day == 7].new_tests.mean()

In [None]:
#mediana de tasa de casos positivos con respecto al total de pruebas realizadas.
mediana_positivos = covid_mx.positive_rate.median()
mediana_positivos

In [None]:
#todos los est. descriptivos de la tasa de casos positivos con respecto al total de pruebas realizadas. 
covid_mx.positive_rate.describe()

Con estos datos, podemos resolver muchas preguntas interesantes. 

# Ejercicios
1. Identifica el actual aumento en el número de casos por ómicron en cualquier país o en el mundo. Utiliza las fechas y la columna new_cases. Revisa la función plot() para visualizar los datos de forma sencilla e identificar las tendencias en el número de casos nuevos. 
2. Podríamos evaluar la tasa de hospitalización en cualquier país con respecto a su índice de vacunación? Cómo lo realizarías?
3. Revisa la cantidad de boosters en países industrializados y compáraralas con el número de boosters aplicados en  países en vías de desarrollo. Puedes tomar como ejemplo 3 países por cada grupo. 
4. Realiza gráficas sencillas con los resultados de las preguntas 2 y 3. 