# Pandas

Pandas es una biblioteca de software enfocada en la manipulación y el análisis de datos rápidos y fáciles en Python.  ofrece
estructuras de datos de alto nivel (como DataFrame y Series) y métodos de datos para manipular y visualizar tablas numéricas y datos de series temporales.

#### Características de pandas
---
* Estructuras de datos con ejes etiquetados que admiten la alineación automática o explícita de datos capaces de manejar datos de series temporales y no temporales.
* Capacidad para agregar y eliminar columnas sobre la marcha.
* Manejo flexible de datos faltantes.
* Combinación similar a SQL y otras operaciones relacionales.
* Herramientas para leer y escribir datos entre estructuras de datos en memoria y diferentes formatos de archivo (csv, xls, HDF5, bases de datos SQL).
* Remodelación y pivoteo de conjuntos de datos.
* Segmentación basada en etiquetas, indexación elegante y creación de subconjuntos de grandes conjuntos de datos.
* Agrupar por motor que permite operaciones de división, aplicación y combinación en conjuntos de datos.
* Funcionalidad de serie temporal: generación de rango de fechas y conversión de frecuencia, estadísticas de ventana móvil, regresiones lineales de ventana móvil, cambio de fecha y retraso.
* Indexación de ejes jerárquicos para trabajar con datos de alta dimensión en una estructura de datos de menor dimensión.

En nuestro caso, utilizando Python como lenguaje de programación de modelos, utilizaremos el nombre de Dataframe al referirnos a los contenedores de datos debido a que la librería más utilizada en Python, Pandas, denomina dataframe a sus contenedores.

## Instalacion de pandas

**Ejecutar el siguiente comando:**

In [4]:
!pip install pandas




[notice] A new release of pip available: 22.3 -> 22.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


## Accediendo a Datos

Accederemos a datos contenidos en archivos en formato Texto y en formato Excel.

* Lectura de un archivo CSV Leer un archivo separado por comas es tan simple como llamar a la función read_csv. De forma predeterminada, la función read_csvespera que el separador de columnas sea una coma, pero puede cambiarlo con el parámetro sep.

Sintaxis:

<code>pd.read_csv(filepath, sep=, header=, names=, skiprows=, na_values= ... )</code>

Archivo de ayuda: para obtener una explicación detallada de todos los parámetros, ejecute

<code>pd.read_csv?</code>

Entonces para leer un CSV y mostrar su contenido por pantalla, ejecutamos el siguiente código:

<code>import pandas as pd
df=pd.read_csv("C:/Users/ybarr/Desktop/salud/vira.csv",encoding = "utf-8")
print(df)</code>

Analicemos el código utilizado.

En la primera línea, importamos la librería pandas anteriormente instalada y la instanciamos en pd, para luego utilizar sus métodos.

En la línea 2, utilizamos el método read_csv, utilizando la ruta como parámetro y un segundo modificador para establecer la
codificación de los caracteres, como “utf-8”. Asignamos el resultado de esa lectura, a una variable que por defecto será un
dataframe.

Finalmente, en la tercera línea, solicitamos a Python, la impresión por pantalla de los datos existentes en el dataframe.

Ahora veremos el codigo en acción

In [None]:
import pandas as pd

df=pd.read_csv("C:/Users/ybarr/Desktop/salud/vira.csv",encoding = "utf-8")

print(df)

### Leer un archivo Excel
---
Pandas le permite leer y escribir en archivos de Excel, por lo que puede leer fácilmente desde Excel, escribir su código en Python y luego volver a escribir en Excel, sin necesidad de VBA. La lectura de archivos de Excel requiere la biblioteca xlrd.

<code>pip install xlrd</code>

La sintaxis de read_excel es:

<code>pd.read_excel('mi-excel.xlsx', 'hoja1')</code>

Entonces, para leer un archivo Excel, ejecutamos el siguiente código:

<code>import pandas as pd
df=pd.read_excel("C:/Users/ybarr/Desktop/salud/vdz.xls")
print(df)</code>

Ahora bien, analicemos el código utilizado.

En la primera línea, importamos la librería pandas anteriormente instalada y la instanciamos en pd, para luego utilizar sus métodos.

En la línea 2, utilizamos el método read_excel, utilizando solamente la ruta como parámetro. Asignamos el resultado de esa lectura, a una variable “df” que por defecto será un dataframe.

Finalmente, en la tercera línea, solicitamos a Python, la impresión por pantalla de los datos existentes en el dataframe.

In [None]:
import pandas as pd

df=pd.read_excel("C:/Users/ybarr/Desktop/salud/vdz.xls")

print(df)

### Crear df desde un conjunto de Datos
---

Pandas le permite crear un dataframe desde una lista de valores.El mismo lo creamos con el metido dataframe, enviando como
parámetros, el conjunto de claves y sus respectivos valores para esas claves.

<code>import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
print(df1)</code>

In [None]:
import pandas as pd

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})

print(df1)

### Creación a partir de un escalar
---
Si los datos se reducen a un escalar (no a una lista con un único elemento, sino a un sencillo escalar como 7 o 15.4) será necesario añadir el índice explícitamente. El número de elementos de la serie coincidirá con el número de elementos del índice, y el escalar será asignado como valor a todos ellos.

<code>Df1 = pd.series (7, index = [“Enero”,”Febrero”,”Marzo”])</code>

In [None]:
Df1 = pd.series (7, index = [“Enero”,”Febrero”,”Marzo”])

### Creación desde un array
---

Suponiendo que contamos con el siguiente array:

<code>mi_array = {'col1': 1.0, 'col2':2.0, 'col3': 3.0}</code>

La sintaxis para crear un dataframe a partir del mismo e imprimir sus datos, es la siguiente:

<code>mi_array = {'col1': 1.0, 'col2':2.0, 'col3': 3.0}
df = pd.DataFrame([mi_array])
print (df)</code>

In [None]:
mi_array = {'col1': 1.0, 'col2':2.0, 'col3': 3.0}

df = pd.DataFrame([mi_array])

print (df)

### Acciones simples sobre un Dataframe
---

Siendo el dataframe la variable df1.

* Mostrar las primeras 10 filas del CSV:

<code>print(df1.head(10))</code>

* Contar la cantidad de filas:

<code>print(len(df1)</code>

* Contar la cantidad de filas 2:

<code>print(«Cant. filas: %i» % len(df1))
#El %i indica que ahí va una variable de tipo integer.
#Al cerrar comillas dobles, el % indica qué es lo que debe
reemplazar a %i</code>

* Splicing de la data:

<code>print(df1[:10]) #muestra las primeras 10 filas
print(df1[5:]) #muestra todo salvo las primeras 5 filas
print(df1[-3:]) #muestra las últimas 3 filas
print(df1[:-2]) #muestra todo salvo las últimas 2 filas
print(df1[-5:-2]) #muestra desde la 5ta desde el final hasta 2 desde
el final</code>

* Pasar el campo “keyword” a minúscula:

<code>Df1 = df1[‘Keyword’].str.lower()</code>

* Cómo ver las columnas de un DataFrame en Pandas:

<code>print(df1.columns)</code>

* Cómo ver el contenido de una columna en Pandas:

<code>print(df1[‘CTR’]) #la columna se llama CTR</code>

* Cómo sacar el promedio de los valores de una columna en Pandas:

<code>print(df1[‘CTR’].mean())</code>

Posicionamiento:

* Supongamos que deseamos mostrar el primer row completo, mostrando todas las columnas, del dataframe llamado df1. La sintaxis es la siguiente:

<code>Df1.loc[0,:]</code>

* Usaremos la siguiente sintaxis para mostrar lo mismo que el caso anterior pero para solamente una columna:

<code>Df1.loc[0,:’nombre_columna’]</code>


In [None]:
print(df1.head(10))

print(len(df1)

#El %i indica que ahí va una variable de tipo integer.
#Al cerrar comillas dobles, el % indica qué es lo que debe reemplazar a %i
print(«Cant. filas: %i» % len(df1))

print(df1[:10]) #muestra las primeras 10 filas
print(df1[5:]) #muestra todo salvo las primeras 5 filas
print(df1[-3:]) #muestra las últimas 3 filas
print(df1[:-2]) #muestra todo salvo las últimas 2 filas
print(df1[-5:-2]) #muestra desde la 5ta desde el final hasta 2 desde el final

Df1 = df1[‘Keyword’].str.lower()

print(df1.columns)

print(df1[‘CTR’]) #la columna se llama CTR

print(df1[‘CTR’].mean())

Df1.loc[0,:]

Df1.loc[0,:’nombre_columna’]

# Operaciones esenciales
---

Una vez generado un dataframe con datos desde un archivo csv o Excel, podremos trabajar sobre el conjunto de datos. A continuación, nos enfocaremos en las siguientes operaciones: Merge, grouping, Resharping, Plotting.

#### Merge
---
En la operación de Merge necesitamos contar con dos dataframes. En este caso vamos a trabajar con 2 df generados a través de una lista de valores que generamos para entender su funcionamiento.

Entonces generamos los mismos con el siguiente código:

<code>import pandas as pd
df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})</code>

Ahora bien, primero debemos entender las opciones de Merge que brinda pandas. La sintaxis de Merge es la siguiente:

<code>DataFrame.merge (right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)</code>

En este sentido, solo repasaremos los parámetros más importantes del método. Nos enfocaremos puntualmente en el parámetro “how”. El mismo refiere a cómo hacer el merge. Sus posibles valores son:
* **left:** Usa solamente las claves del df izquierdo. Funciona de forma similar al SQL Left join. Se preserva el orden de las claves del df izquierdo. El resultado de la ejecución de Merge es el siguiente:

<code>df1.merge(df2, how='left', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))</code>

* **right:** Usa solamente las claves del df derecho. Funciona de forma similar al SQL Right join. Se preserva el orden de las claves del dataframe derecho. El resultado de la ejecución de Merge es el siguiente:

<code>df1.merge(df2, how='right', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))</code>

* **outer:** Usa la union de las claves de ambos df. Funciona de forma similar a un Full Outer Join. El resultado de la ejecución de Merge es el siguiente:

<code>df1.merge(df2, how='outer', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))</code>

* **inner:** Usa la intersección de las claves de ambos df. Funciona e forma similar al SQL inner join. Se preserva el orden de las claves del df izquierdo. El resultado de la ejecución de Merge es el siguiente:

<code>df1.merge(df2, how='inner', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))</code>

* **cross:** Funciona de forma similar a un producto cartesiano. Se preserva el orden de las claves del df izquierdo. El resultado de la ejecución de Merge es el siguiente:

<code>df1.merge(df2, how='cross', suffixes=('_left', '_right'))</code>

**Nota:** Los modificadores <code>left_on='lkey', right_on='rkey',suffixes=('_left', '_right')</code> nos permiten:
    
* Colocar un el nombre “lkey” a la columna resultante de la clave del df izquierdo
* Colocar un el nombre “rkey” a la columna resultante de la clave del df derecho
* Agregar el prefijo “_left” y “_right” a las columnas de valores resultantes



In [None]:
import pandas as pd

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'], 'value': [1, 2, 3, 5]})

df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'], 'value': [5, 6, 7, 8]})

# left
df1.merge(df2, how='left', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

# right
df1.merge(df2, how='right', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

# outer
df1.merge(df2, how='outer', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

# inner
df1.merge(df2, how='inner', left_on='lkey', right_on='rkey', suffixes=('_left', '_right'))

# cross
f1.merge(df2, how='cross', suffixes=('_left', '_right'))

## Grouping

La sintaxis de Group By Pandas para un dataframe es la siguiente:

<code>DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)</code>

Una operación de agrupamiento, con Group By, implica combinar los valores iguales de uno o más campos. Esta operación se suele utilizar para agrupar grandes cantidades de datos y calcular operaciones agregadas en estos grupos, como por ejemplo, contar, sumar o realizar un promedio.

Caso practico de ejemplo:

<code>import pandas as pd
df=pd.read_csv("C:/Users/usuario/Carpeta/vira.csv", encoding="utf-8")
df2=df.drop(columns=["departamento_id", "departamento_nombre","provincia_id","año","semanas_epidemiologicas","evento_nombre","grupo_edad_id","grupo_edad_desc"])
print(df2)</code>

El dataframe contiene la cantidad de casos de una enfermedad por localidad en el tiempo.

En la línea 3 de nuestro código, eliminamos todas las columnas (con **df.drop(columna=”X”)**) que no queremos en nuestro dataframe y asignamos el dataframe resultante, a un nuevo dataframe, df2.

Luego, ejecutaremos el group by sobre el dataframe 2, para sumar la cantidad de casos existentes en el mismo por cada provincia.

<code>df2.groupby(['provincia_nombre'])['cantidad_casos'].sum()</code>

Vemos como resultado la suma de la cantidad de casos existentes, agrupados por provincia

Cabe resaltar que el agrupamiento podemos hacerlo por uno o más campos del dataframe. Su funcionamiento es similar al group by de SQL.

Por otro lado, las funciones que pueden aplicarse luego del agrupamiento pueden ser, **count(), sum(), min(), max(), etc**. Más funciones y detalles en el siguiente [link](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#dataframe-column-selection-in-groupby).



In [None]:
import pandas as pd

df=pd.read_csv("C:/Users/usuario/Carpeta/vira.csv", encoding="utf-8")

df2=df.drop(columns=["departamento_id", "departamento_nombre","provincia_id","año","semanas_epidemiologicas","evento_nombre","grupo_edad_id","grupo_edad_desc"])
print(df2)

df2.groupby(['provincia_nombre'])['cantidad_casos'].sum()

## Resharping
---
Utilizaremos esta funcionalidad para trasponer un dataframe. Para este casos nos enfocaremos solamente en el método melt(), sabiendo que existen además otros métodos para poder realizar acciones similares. Entenderemos más claramente su funcionamiento, con el siguiente ejemplo:

<code>df = pd.DataFrame({'equipo': ['A', 'B', 'C', 'D'], 'goles': [100, 200, 300, 400], 'faltas': [1000, 190, 999, 888], 'amonestaciones': [232, 218, 310, 311]})</code>

Aplicaremos el método melt() para hacer un resharp del dataframe df1 y trasponerlo, con la siguiente sintaxis:

<code>df = pd.melt(df, id_vars='equipo', value_vars=['goles', 'faltas', 'amonestaciones'])</code>

De esta forma, vemos claramente como hemos modificado el dataframe df1

In [None]:
df = pd.DataFrame({'equipo': ['A', 'B', 'C', 'D'], 'goles': [100, 200, 300, 400], 'faltas': [1000, 190, 999, 888], 'amonestaciones': [232, 218, 310, 311]})

df = pd.melt(df, id_vars='equipo', value_vars=['goles', 'faltas', 'amonestaciones'])

## Plotting
---
El metod plot(), lo usaremos para realizar algunos tipos de gráficos en pantalla en base a los datos contenidos en nuestro dataframe. Para trabajar con estos gráficos utilizaremos la librería matplotlib.

**“una biblioteca completa para crear visualizaciones estáticas, animadas e interactivas en Python.”**

Para instalar la misma, la sintaxis es la siguiente:

<code>pip install -U matplotlib</code>

Una vez instalada la librería, avanzamos con plot(). La sintaxis de plot() es la siguiente:

<code>dataFrame.plot (*args, **kwargs)</code>

En las siguientes líneas mostraremos algunos ejemplos básicos para graficar dataframes.

#### Diagrama de dispersión (Scatter Plot)
---
Los diagramas de dispersión se utilizan para representar una relación entre dos variables.

<code>import pandas as pd
import matplotlib.pyplot as plt
data = {'tasa_desempleo': [6.1,5.8,5.7,5.7,5.8,5.6,5.5,5.3,5.2,5.2], 'indice_precio_stock': [1500,1520,1525,1523,1515,1540,1545,1560,1555,1565]}
df = pd.DataFrame(data,columns=['tasa_desempleo','indice_precio_stock'])
df.plot(x ='tasa_desempleo', y='indice_precio_stock', kind = 'scatter')
plt.show()</code>

En las primeras líneas importamos pandas y matplotlib para graficar. Luego definimos dos dataframes. Posteriormente, en el método plot(), definimos que nuestro gráfico será del tipo “scatter” y enviamos los valores para los ejes X e Y.

#### Diagrama de líneas
---
Los gráficos de líneas se utilizan a menudo para mostrar tendencias a lo largo del tiempo.

<code>import pandas as pd
import matplotlib.pyplot as plt
data = {'anio': [1920,1930,1940,1950,1960,1970,1980,1990,2000,2010], 'tasa_desempleo': [9.8,12,8,7.2,6.9,7,6.5,6.2,5.5,6.3]}
df = pd.DataFrame(data,columns=['anio','tasa_desempleo'])
df.plot(x ='anio', y='tasa_desempleo', kind = 'line')
plt.show()</code>

En las primeras líneas importamos pandas y matplotlib para graficar. Luego definimos un data con dos columnas, tasa de desempleo y año. Posteriormente, en el método plot(), definimos que nuestro gráfico será del tipo “linea” y enviamos los valores para los ejes X e Y con el fin de graficar la evolución de la tasa de desempleo por año.

#### Diagrama de barras
---
Los gráficos de barras se utilizan para mostrar datos categóricos. Veamos ahora cómo trazar un gráfico de barras usando Pandas.

<code>import pandas as pd
import matplotlib.pyplot as plt
data = {'pais': ['USA','Canada','Germany','UK','France'], 'PBI_per_capita': [45000,42000,52000,49000,47000]}
df = pd.DataFrame(data,columns=['pais','PBI_per_capita'])
df.plot(x ='pais', y='PBI_per_capita', kind = 'bar')
plt.show()</code>

En las primeras líneas importamos pandas y matplotlib para graficar. Luego definimos un data con dos columnas, País y PBI per cápita. Posteriormente, en el método plot(), definimos que nuestro gráfico será del tipo “Barras” y enviamos los valores para los ejes X e Y con el fin de graficar la evolución el PBI per cápita de acuerdo a cada país.

**De esta forma cerramos el tema 3, Operaciones esenciales sobre dataframes.**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Diagrama de dispersión (Scatter plot)
data = {'tasa_desempleo': [6.1,5.8,5.7,5.7,5.8,5.6,5.5,5.3,5.2,5.2], 'indice_precio_stock': [1500,1520,1525,1523,1515,1540,1545,1560,1555,1565]}

df = pd.DataFrame(data,columns=['tasa_desempleo','indice_precio_stock'])

df.plot(x ='tasa_desempleo', y='indice_precio_stock', kind = 'scatter')

plt.show()

# Diagrama de líneas
import pandas as pd

import matplotlib.pyplot as plt

data = {'anio': [1920,1930,1940,1950,1960,1970,1980,1990,2000,2010], 'tasa_desempleo': [9.8,12,8,7.2,6.9,7,6.5,6.2,5.5,6.3]}

df = pd.DataFrame(data,columns=['anio','tasa_desempleo'])

df.plot(x ='anio', y='tasa_desempleo', kind = 'line')

plt.show()

# Diagrama de barras
import pandas as pd

import matplotlib.pyplot as plt

data = {'pais': ['USA','Canada','Germany','UK','France'], 'PBI_per_capita': [45000,42000,52000,49000,47000]}

df = pd.DataFrame(data,columns=['pais','PBI_per_capita'])

df.plot(x ='pais', y='PBI_per_capita', kind = 'bar')

plt.show()