# Pandas

Pandas es un módulo de python para análisis de datos. Pandas ofrece una variedad de métodos para manipulación de datos que permite ejecutar tareas complejas con comandos simples (de una línea).

Mientras numpy es un módulo construido alrededor de la estructura de una __matriz__ (ndarray), pandas es un módulo construido alrededor de la estructura de un __DataFrame__. Un __DataFrame__ se asemeja a una matriz, con algunas diferencias:

* En un DataFrame, las columnas tienen nombres de cabecera
* Diferentes tipos de datos (int, str, bool, entre otros) se permiten dentro del mismo __DataFrame__. Cada columna tiene su propio tipo de dato (dtype o type).

Pandas está diseñado para trabar en conjunto con numpy y matplotlib, por lo tanto, importemoslos todos.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt #seaborn, plotly, bokeh #pip install pandas_bokeh
import numpy as np

pd.options.display.float_format = '{:.5f}'.format

### En caso de no tener instalado pandas:
!pip install pandas

o 

!conda install pandas

In [None]:
dir(pd)

In [None]:
#df = pd.read_csv("Datos.csv", header=None)
#df = pd.read_csv("Datos.csv",names=['Pais','Confirmados','Deaths','Recovered','Active','New cases','New deaths','New recovered','Deaths / 100 Cases','Recovered / 100 Cases','Deaths / 100 Recovered','Confirmed last week','1 week change','1 week % increase','WHO Region']) #comma separated values

df = pd.read_csv("https://raw.githubusercontent.com/cgl-itm/ProgramacionAvanzada-ITM/main/notebooks/Datos.csv", index_col=0) #comma separated values

In [None]:
df[['Deaths']]

In [None]:
df

In [None]:
df.columns

A menos que se especifique de otra manera, los objetos DataFrame tienen índices que comienzan en 0 y se incrementan monotónicamente a través de los enteros (esto es tanto para filas como para columnas).

In [None]:
(df['Deaths']>100).sum()

In [None]:
type(df)
#print(df)

In [None]:
df.dtypes

El contenido del archivo _Datos.csv_ se encuentran almacenados en el objeto DataFrame _df_.

Existen algunos métodos comunes y atributos disponibles para ojear los datos:

1. ```DataFrame.head()```  -> retorna los nombres de las columnas y las primeras 5 filas por defecto
2. ```DataFrame.tail()```  -> retorna los nombres de las columnas y las últimos 5 filas por defecto
3. ```DataFrame.shape```   -> retorna (num_filas, num_columnas)
4. ```DataFrame.columns``` -> retorna los índices de las columnas
5. ```DataFrame.index```   -> returns los índices de las filas

Recomiendo revisar la [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/) y explorar los parámetros de estos métodos así como de otros métodos.

In [None]:
# df.head()
# df.tail()
# df.shape
# print(df.columns)
#for i in df.columns:
#  print(i)
#df.index.a

## Método describe e info

Con estos métodos, Pandas nos brinda un rápido resumen de las estadísticas por columna de una forma muy fácil.

In [None]:
df.describe()

In [None]:
df.info()

Para referirse a las columnas se pueden llamar como objetos de python. Por ejemplo:


In [None]:
df.columns

In [None]:
df['1 week change'] #Si una columna tiene un nombre de función (por ejemplo sum o pop),
          # Si el nombre de la columna tiene espacios
#df.Pais #TAB para autocompletado dinámico
# df.Recovered # Lo puedo llamar como un atributo si el nombre no tiene espacios
# df['Deaths']

In [None]:
#Podemos cambiar nombres de columnas (o filas)
df.rename(columns = {'Deaths':'Muertos','Active':'Activos', 'Recovered':'Recuperados', 'New cases':'new_cases'}, inplace=True)

In [None]:
df

In [None]:
df.head()

In [None]:
df.new_cases

In [None]:
nomb = {'Andorra':'andorra'}
df.rename(index=nomb,inplace=True)

In [None]:
df.new_cases

In [None]:
type(df['new_cases'])

In [None]:
type(df[['new_cases']])

In [None]:
print(type(df.Muertos))
print(type(df['Muertos']))
print(type(df[['Muertos']]))
print(type(df))

In [None]:
df['Muertos']

## Slicing

https://towardsdatascience.com/loc-vs-iloc-in-pandas-heres-the-difference-16cd4bcbecab

![](https://miro.medium.com/max/720/1*bEUFOBKEvgZnmBbEPyK3tg.png)
![](https://miro.medium.com/max/720/1*dYtynwab99wnMqfgyPUd3w.png)

In [None]:
# De este modo únicamente funciona para filas

df[:7] #Similar a numpy

In [None]:
df.loc['Albania':'Angola']

In [None]:
help(df.iloc)

In [None]:
# Si se desea hacer slicing también por columnas, es mejor usar el atributo "iloc" 
# con índices (posiciones)

df.iloc[:,3:]

In [None]:
df.iloc[2:5:2,1:8:3]

In [None]:
help(df.loc)

In [None]:
df.columns

In [None]:
# Para hacer slicing también por columnas, se puede usar el atributo "loc" 
# con nombres de columnas

df.loc['Albania':'Belgium',['Activos', 'Confirmed', 'new_cases']] #Notar que loc  sí incluye el último valor

In [None]:
df.loc[:'Azerbaijan',:]

## Slicing con relaciones

In [None]:
df['Muertos'] > 400

In [None]:
df[df['Muertos'] > 400]

In [None]:
# Qué paises de América presentaron más de 500 casos nuevos y un porcentaje 
# de incremento semanal mayor al 10%

#Se recomienda separar cada condición con paréntesis para evitar errores
df[(df['WHO Region'] == 'Americas') & (df.new_cases > 500) & (df['1 week % increase'] > 10)]


## Aritmética Simple

Como numpy, los objetos de pandas tienen sobrecargados operaciones aritméticas básicas, como +, -,*, /, ***.

In [None]:
print(df.Muertos[1:5])
print(df.Muertos[1:5]*10)
print(df.Muertos[1:5]/10)
print(df.Muertos[1:5]+df.Muertos[1:5])
print(df.Muertos[1:5]**2)

In [None]:
df.head(2)

In [None]:
df.iloc[0,:-1] *= 10

In [None]:
df

## Crear columnas adicionales

In [None]:
df

In [None]:
df['Relacion'] = (df['Confirmed'] - df['Muertos'])*100/df.Confirmed

In [None]:
df

## Remover columnas

In [None]:
df.drop('Relacion',axis=1)
df

In [None]:
df.Relacion

In [None]:
df.drop('andorra',axis=0, inplace=True)
df

In [None]:
df.loc['Zimbabwe','Muertos'] = 3500
#df2.Muertos = 0
df

## Estadística Descriptiva

Para la mayoría de estadísticas descriptivas, pandas provee métodos:

In [None]:
df['new_cases'].sum()

## Ejemplo de datos con distribucion Normal

In [None]:
datos = np.random.randn(1000)
datos2 = pd.DataFrame(datos)
datos2.boxplot()

## Ejercicio
Encontrar cual es el pais con la menor y mayor cantidad de Muertos 

## Ejercicio

Encontrar la cantidad de casos confirmados menores a 4 millones

## Ejercicio
Organizar los datos de acuerdo a la cantidad de Muertos y graficar los primeros 5 paises con la cantidad de Muertos.

In [None]:
df3 = df.copy()
df3['Confirmed'].loc['Holy See'] = 10
df3['Muertos'].loc['Holy See'] = 2
df3.sort_values(by=['Confirmed','Muertos'])

In [None]:
sernueva = df['Confirmed last week'].sort_values(ascending = False)

In [None]:
sernueva[:30].plot.bar(figsize = (8,8))

In [None]:
print('Promedio             ', df.Activos.mean())
print('Desviación estándar  ', df.Activos.std())
print('Mediana              ', df.Activos.median())
print('Mínimo               ', df.Activos.min())
print('Máximo               ', df.Activos.max())

## Gráficas a partir de DataFrames

In [None]:
plt.figure()
plt.scatter(df['new_cases'], df['New deaths'], color='red', alpha=0.6)
plt.ylabel('Nuevas muertes')
plt.xlabel('Nuevos Casos')
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(12,6))
ax = df.plot.scatter(x='new_cases',y='New deaths')
ax.grid()
plt.show()

In [None]:
plt.figure(figsize=(16,9))
plt.plot(df['Muertos'][:5], color='red', alpha=0.6)
plt.ylabel('Muertos')
# plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(40,6))
plt.plot(np.arange(186),df['new_cases'],'ro')
plt.xticks(np.arange(186),df.index,rotation='vertical');

In [None]:
plt.figure(figsize=(20,4)) 
ax = df['new_cases'].plot(xticks=np.arange(186)[::3], rot=70)
#ax.set_xticklabels(df.index[::3]);

In [None]:
arreglo = df.loc['Albania':'Belgium',['Activos', 'Confirmed', 'new_cases']].values #Notar que loc  sí incluye el último valor

In [None]:
arreglo

In [None]:
df20 = df.loc['Albania':'Belgium',['Activos', 'Confirmed', 'new_cases']]

In [None]:
arreglo

In [None]:
df[(df.index > 'T') & (df.index < 'U')] #regex: expresiones regulares

In [None]:
df[df.index.str.contains('^T',regex=True)]

## Guardar un DataFrame como un archivo csv

In [None]:
print(df.shape)
df.tail()

In [None]:
df.to_csv('clasePandas.csv')

In [None]:
df.loc['Albania':'Belgium',['Activos', 'Confirmed', 'new_cases']].to_html('base.html')

$ y  = \frac{1}{2}$

## O a excel

In [None]:
df.to_excel?

In [None]:
# df.to_excel('archivo.xlsx')
df.to_excel('archivo.xlsx', sheet_name='Datos Covid Noviembre')

# Ejercicios propuestos

1. Encontrar los países que tengan más de 5000 casos activos y calcule el promedio de casos activos para esos países.

2. Encontrar el país que tenga la mayor cantidad de casos recuperados (revisar el método idxmax)

3. Encontrar el país con el mayor incremento porcentual en 1 semana


In [None]:
print(df[df['Activos']>5000].index)
print(df[df['Activos']>5000].Activos.mean())

In [None]:
df['Recuperados'].idxmax()

In [None]:
df['1 week % increase'].idxmax()

Dentro de los 10 primeros paises con la mayor cantidad de Confirmados, seleccionar el que tenga la menor cantidad de recuperados.

In [None]:
#Como no se debe hacer
df.sort_values(by='Confirmed', 
               ascending = False).loc[df.sort_values(by='Confirmed',ascending = False).index[0]:
                                      df.sort_values(by='Confirmed', ascending = False).index[10],
                                      'Recuperados'].idxmax()

In [None]:
df.sort_values(by='Confirmed', ascending = False)[:10].loc[:,'Recuperados'].idxmax()

In [None]:
#La columna 2 es la de recuperados
df.sort_values(by='Confirmed', ascending = False).iloc[:10,2].idxmax()

In [None]:
df.sort_values(by='Confirmed', ascending = False).loc[:,'Recuperados'].iloc[:10].idxmax()

## Sugerencias:

- https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html
- https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/