In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

# Clase 2

## Biblioteca Pandas

Pandas es una biblioteca de Python muy usada para análisis y manipulación de datos. Provee principalmente dos tipos de clases para trabajar con datos:

- **Series:** un vector unidimensional indexado, que contiene datos de cualquier tipo
como números enteros, cadenas, objetos Python, etc.

- **DataFrame:** una estructura de datos bidimensional que contiene datos como una matriz bidimensional o una tabla con filas y columnas.

Bibliografía recomendada: Sección 5 de Python for Data Analysis, de Wes McKinney (creador de la biblioteca Pandas), disponible on-line en forma gratuita en la página
https://wesmckinney.com/book/pandas-basics

### Series

Las series de Pandas son vectores similares a los arrays de NumPy, que podemos indexar usando etiquetas.

Crear la siguiente Series, observar qué devuelve `values` e `index` e interpretar.

In [None]:
import pandas as pd
enteros = pd.Series([7,4,-5,3])
enteros

In [None]:
enteros.values

In [None]:
enteros.index # Por default , los indices van de 0 a N-1.

Podemos asignar etiquetas (o índices) a cada valor de la serie.

In [None]:
reales = pd.Series([np.pi,0,-2,1.41], index = ["a", "b", "c", "d"])
display(reales)

In [None]:
display(reales.values)
display(reales.index)

Para acceder a los elementos podemos usar las etiquetas.

In [None]:
print(reales["a"])

In [None]:
# Acceder por su posición no está recomendado. 
reales[1]

In [None]:
# Para acceder por su posición usamos iloc
reales.iloc[1]

In [None]:
# Podemos usar también rangos
reales.iloc[1:3]

In [None]:
# Para acceder por etiquetas podemos usar también loc
reales.loc["a"]

In [None]:
# Podemos definir labels numericos
temperaturas = pd.Series([15, 17, 18.2, 25], index = range(10,14))
print(temperaturas)

In [None]:
# Que esperamos de los siguientes comandos?
print(temperaturas.iloc[1:3])
print(temperaturas.loc[10])

In [None]:
# Funcionará?
temperaturas.iloc[10]

In [None]:
# Podemos seleccionar elementos mediante una lista de etiquetas
realesSub = reales[["a","b"]]
print(realesSub)
print(realesSub.index)

## Operaciones con series
Las operaciones que pueden aplicarse a numpy arrays pueden aplicarse también a series de Pandas, conservando los índices.

In [None]:
np.exp(reales)

In [None]:
reales * 3

In [None]:
reales > 1

In [None]:
reales[reales > 1]

¿Qué esperamos que dé este código?

In [None]:
print(enteros)
print(reales)

In [None]:
enteros + reales

NaN significa "not a number", se utiliza en series de Pandas para valores faltantes (missing values).

In [None]:
# Y ahora?
enteros2 = pd.Series([1,2,3,4], index = ["d", "b", "y", "z"])
reales + enteros2

Vemos que solo se suman las filas con índices iguales.

Las series de Pandas tienen varias funciones útiles que iremos viendo más adelante. A modo de ejemplo, interpretar que hacen las siguientes funciones.

In [None]:
series1 = pd.Series(["a", "b", "c", "b", "a", "c", "x"])
series1.isin(["b", "c"])

In [None]:
# Pregunta: cómo me quedo solo con las filas con letas "b" o "c"?

In [None]:
series1.value_counts()

### DataFrames
Un data frame es una representación de los datos en formato de tabla en la que cada
columna son vectores del mismo tamaño. Como cada columna es un vector, cada columna puede
contener datos de un único tipo. Se pueden pensar como variables. Cada variable corresponde a una
serie de Pandas, y **todas las series de un dataframe están indexadas por los mismos índices**.

Una forma de crear un data frame es utilizando un "diccionario". Todas las variables del
diccionario deben ser vectores o listas de la misma longitud. 

In [None]:
data = {"nombres": ["Rodrigo", "Sergio", "Cristina", "Diana"], "altura": np.array([178, 172, 175, 168]), "peso": np.array
([81.2, 76.1, 68.5, 64.0])}
display(data)

In [None]:
type(data)

In [None]:
data["altura"]

In [None]:
# Creamos un data frame con esos datos. Cuáles son los índices?
pacientes = pd.DataFrame(data)
display(pacientes)

In [None]:
# En este ejemplo podemos usar los nombres como índices
pacientes = pd.DataFrame(data).set_index("nombres")
display(pacientes)

In [None]:
# Podemos acceder a las columnas de dos formas distintas
alturas = pacientes["altura"]
alturas

In [None]:
pacientes.altura

In [None]:
type(alturas)

A diferencia de las matrices en Numpy, un DataFrame de Pandas es un conjunto de columnas, no de filas. 
Si queremos saber la altura de Rodrigo, pensar cuál de los dos comandos será correcto antes de ejecutarlos.

In [None]:
pacientes["Rodrigo"].altura
#pacientes["altura"].Rodrigo

Para acceder a una fila de un dataframe, podemos usar los métodos `loc[]` y `iloc[]`. 

¿Cómo se usan? ¿Cuál es la diferencia entre los dos comandos? ¿Que tipo de dato nos devuelve?

## Gapminder

A modo de ejemplo, vamos a explorar el dataset Gapminder que contiene datos poblacionales y de desarrollo humano de distintos países a lo largo del tiempo.

Si gapminder no está instalado, ejecutrar el siguiente comando para instalarlo

In [None]:
#pip install gapminder

In [None]:
from gapminder import gapminder
display(gapminder)

In [None]:
gapminder.head()

Podemos ver información básica del DataFrame con la función info

In [None]:
gapminder.info()

In [None]:
# Vemos todos los países en la base
gapminder["country"].unique()

In [None]:
# Cuántos países son?
gapminder["country"].nunique()

In [None]:
# Si queremos ver cuántos países hay en cada continente...
# podemos agregupar por continente y ver el tamaño de cada grupo
gapminder.groupby("continent").size()

In [None]:
# Pero cada país aparece varias veces, con datos de distintos años.
# Para contar sin repeticion usamos nuevamente nunique
gapminder.groupby("continent")["country"].nunique()

In [None]:
# Si queremos calcular porcentajes, dividimos por la cantidad total de paises
totalPaises = gapminder["country"].nunique()
gapminder.groupby("continent")["country"].nunique() / totalPaises

In [None]:
# O podemos usar el comando value_counts y pasarle un parámetro para que nos de los valores normalizados.
# (la normalización lleva la suma total a 1)
gapminder[["continent", "country"]].drop_duplicates().continent.value_counts(normalize=True)

In [None]:
# Vemos todos los años disponibles
gapminder["year"].unique()

In [None]:
# Tenemos datos de todos los países todos los años?
# Agrupamos los datos por año y calculamos el tamaño de cada bloque
gapminder.groupby("year").size()

In [None]:
# O podemos usar directamente el comando value_counts
gapminder.year.value_counts()

In [None]:
# También podemos por ejemplo calcular la poblacion total por año
gapminder.groupby("year")["pop"].sum()

### Gráficos simples de funciones o puntos en el plano XY.
Vamos a graficar la población total mundial en función del año.

In [None]:
pobAnual = gapminder.groupby("year")["pop"].sum()
type(pobAnual)

In [None]:
pobAnual

In [None]:
pobAnual.index

In [None]:
# Opción 1
# Usamos la función plot de series de pandas
pobAnual.plot()

In [None]:
# O podemos graficar solo puntos
pobAnual.plot(style = ".")

In [None]:
# Opcion 3
# Asignamos los valores a variables (arrays de numpy) y graficamos las variables
x = pobAnual.index
y = pobAnual.values
plt.plot(x,y)

In [None]:
# Opcion 4
# Matplotlib tiene una función scatter para graficar puntos
plt.scatter(x,y)

In [None]:
# Vamos a analizar los datos de 2007
datos2007 = gapminder[gapminder["year"]==2007]

In [None]:
# Queremos ver si hay relación entre el producto bruto y la expectativa de vida
plt.plot(datos2007.gdpPercap, datos2007.lifeExp)

In [None]:
# Ay no, eso no, hacemos un "scatter plot"
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.show()

In [None]:
# Se ve mejor la correlación si usamos escala logaritmica en el eje X
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')

Vamos a mejorar un poco el gráfico

In [None]:
# Agregamos etiquetas al gráfico y a los ejes
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.show()

Reemplacemos las marcas en el eje $x$ 10³, 10⁴, 10⁵ con 1k, 10k y 100k. 

In [None]:
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

Seaborn es una biblioteca para visualización de datos en Python, basada en Matplotlib que agrega muchas funcioanlidades.

In [None]:
# Usamos scatterplot de seaborn para poder personalizar mejor el grafico

# Almacenamos la población como un array de numpy: np_pop
np_pop = np.array(datos2007["pop"])

sns.scatterplot(x = datos2007['gdpPercap'], y = datos2007['lifeExp'], hue = datos2007['continent'], size = np_pop*2, sizes=(20,400))
plt.grid(True)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

In [None]:
# Aumenta el tamaño del gráfico
plt.figure(dpi=150)

# Alcenamos la población como un array de numpy: np_pop
np_pop = np.array(datos2007["pop"])
np_pop2 = np_pop*2
# Usamos scatterplot de seaborn para poder personalizar mejor el grafico
sns.scatterplot(x = datos2007['gdpPercap'], y = datos2007['lifeExp'], hue = datos2007['continent'], size = np_pop2, sizes=(20,400))
plt.grid(True)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

## Archivos de datos

La biblioteca Pandas nos permite trabajar fácilmente con archivos de datos.
1. Leer el archivo casos_coronavirus.csv .
2. Graficar la curva de casos por día.
3. Graficar la curva de casos acumulados.
4. Definir log_cum_casos como el logaritmo de la cantidad de casos acumulados y graficar en función de la cantidad de días transcurridos.

Utilicen o modifiquen el siguiente código.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("../Datos/casos_coronavirus.csv")
df.head()  # Primeras filas del DataFrame

In [None]:
# ¿Cómo usamos la fecha como índice?


In [None]:
# Información básica del DataFrame
df.info()

In [None]:
df["confirmados_Nuevos"].plot()

Podemos calcular la cantidad de casos acumulados.

In [None]:
casos_acumulados = df["confirmados_Nuevos"].cumsum()
casos_acumulados.plot()

In [None]:
# Ejercicio: graficar el logaritmo de los casos acumulados


## Estadística descriptiva

In [None]:
# Vamos a analizar los datos de 2007
datos2007 = gapminder[gapminder["year"]==2007]

# Queremos usar los países como índices
datos2007 = datos2007.set_index("country")

In [None]:
# Funcionó?
datos2007 

Mirando los datos de 2007, ¿cuál es el país con mayor expectativa de vida? ¿Cuál es el país con menor expectativa de vida?

### Medidas de tendencia central

Para el año 2007, calcular el valor medio y la mediana de las variables gdpPercap y lifeExp entre todos los países.
Son similares o distintas? A qué lo atribuyen? Consideran que alguna resume mejor la realidad que la otra?


In [None]:
datos2007["lifeExp"].median()

In [None]:
datos2007["lifeExp"].mean()

In [None]:
datos2007["gdpPercap"].median()

In [None]:
datos2007["gdpPercap"].mean()

¿Es lo mismo el promedio de la expectativa de vida entre todos los países y el promedio de la expectativa de vida entre todas las personas?
¿Cuál calculamos arriba? ¿Cómo podemos calcular el otro?


### Medidas de dispersión

Para el año 2007, calcular la varianza y el desvío estándar de las variables gdpPercap y lifeExp entre todos los países.

In [None]:
datos2007["lifeExp"].var()

In [None]:
datos2007["lifeExp"].std()