In [30]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd

# Clase 2

## Biblioteca Pandas

Pandas es una biblioteca de Python muy usada para análisis y manipulación de datos. Provee principalmente dos tipos de clases para trabajar con datos:

- **Series:** un vector unidimensional indexado, que contiene datos de cualquier tipo
como números enteros, cadenas, objetos Python, etc.

- **DataFrame:** una estructura de datos bidimensional que contiene datos como una matriz bidimensional o una tabla con filas y columnas.

Bibliografía recomendada: Sección 5 de Python for Data Analysis, de Wes McKinney (creador de la biblioteca Pandas), disponible on-line en forma gratuita en la página
https://wesmckinney.com/book/pandas-basics

### Series

Las series de Pandas son vectores similares a los arrays de NumPy, que podemos indexar usando etiquetas.

Crear la siguiente Series, observar qué devuelve array e index e interpretar.

In [4]:
import pandas as pd
obj = pd.Series([7,4,-5,3])
obj

0    7
1    4
2   -5
3    3
dtype: int64

In [5]:
obj.array

<NumpyExtensionArray>
[7, 4, -5, 3]
Length: 4, dtype: int64

In [6]:
obj.index # Por default , los indices van de 0 a N-1.

RangeIndex(start=0, stop=4, step=1)

Podemos asignar etiquetas (o índices) a cada valor de la serie.

In [7]:
obj2 = pd.Series([np.pi,0,-2,1.41], index = ["d", "b", "c", "a"])
display(obj2)
display(obj2.array)
display(obj2.index)

d    3.141593
b    0.000000
c   -2.000000
a    1.410000
dtype: float64

<NumpyExtensionArray>
[3.141592653589793, 0.0, -2.0, 1.41]
Length: 4, dtype: float64

Index(['d', 'b', 'c', 'a'], dtype='object')

Al igual que con arrays de Numpy podemos acceder a los elementos por su posición, o podemos usar las etiquetas.

In [31]:
obj2['a']
obj2[3]
obj2[1:3]

  obj2[3]


b    0.0
c   -2.0
dtype: float64

In [9]:
obj3 = obj2[["a","b"]]
obj3
obj3.index

Index(['a', 'b'], dtype='object')

In [10]:
obj2[obj2>1]

d    3.141593
a    1.410000
dtype: float64

Las operaciones que pueden aplicarse a numpy arrays pueden aplicarse también a series de Pandas, conservando los índices.

In [11]:
np.exp(obj2)

d    23.140693
b     1.000000
c     0.135335
a     4.095955
dtype: float64

In [12]:
obj2 * 3

d    9.424778
b    0.000000
c   -6.000000
a    4.230000
dtype: float64

¿Qué esperamos que de este código?

In [13]:
obj + obj2

0   NaN
1   NaN
2   NaN
3   NaN
a   NaN
b   NaN
c   NaN
d   NaN
dtype: float64

NaN significa "not a number", se utiliza en series de Pandas para valores faltantes (missing values).

In [14]:
# Y ahora?
obj4 = pd.Series([1,2,3,4], index = ["d", "b", "y", "z"])

display(obj2)
display(obj4)
print('resultado: ')
obj2 + obj4

d    3.141593
b    0.000000
c   -2.000000
a    1.410000
dtype: float64

d    1
b    2
y    3
z    4
dtype: int64

resultado: 


a         NaN
b    2.000000
c         NaN
d    4.141593
y         NaN
z         NaN
dtype: float64

Las series de Pandas tienen varias funciones útiles que iremos viendo más adelante. A modo de ejemplo, interpretar que hacen las siguientes funciones.

In [15]:
series1 = pd.Series(["a", "b", "c", "b", "a", "c", "x"])
series1.isin(["b", "c"])

0    False
1     True
2     True
3     True
4    False
5     True
6    False
dtype: bool

In [16]:
series1.value_counts()

a    2
b    2
c    2
x    1
Name: count, dtype: int64

### DataFrames
Un data frame es una representación de los datos en formato de tabla en la que cada
columna son vectores del mismo tamaño. Como cada columna es un vector, cada columna puede
contener datos de un único tipo. Se pueden pensar como variables. Cada variable corresponde a una
serie de Pandas, y todas las series de un dataframe están indexadas por los mismos ´ındices.

Una forma de crear un data frame es utilizando un "diccionario". Todas las variables del
diccionario deben ser vectores o listas de la misma longitud. 

In [17]:
data = {"nombres": ["Rodrigo", "Sergio", "Cristina", "Diana"], "altura": np.array([178, 172, 175, 168]), "peso": np.array
([81.2, 76.1, 68.5, 64.0])}
display(data)

{'nombres': ['Rodrigo', 'Sergio', 'Cristina', 'Diana'],
 'altura': array([178, 172, 175, 168]),
 'peso': array([81.2, 76.1, 68.5, 64. ])}

In [18]:
type(data)

dict

In [19]:
data["altura"]

array([178, 172, 175, 168])

In [20]:
# Creamos un data frame con esos datos, usando los nombres como etiquetas
pacientes = pd.DataFrame(data)
display(pacientes)

Unnamed: 0,nombres,altura,peso
0,Rodrigo,178,81.2
1,Sergio,172,76.1
2,Cristina,175,68.5
3,Diana,168,64.0


In [21]:
# En este ejemplo podemos usar los nombres como índices
pacientes = pd.DataFrame(data).set_index("nombres")
pacientes.sort_index(ascending = False)

Unnamed: 0_level_0,altura,peso
nombres,Unnamed: 1_level_1,Unnamed: 2_level_1
Sergio,172,76.1
Rodrigo,178,81.2
Diana,168,64.0
Cristina,175,68.5


In [22]:
# Podemos acceder a las columnas de dos formas distintas
alturas = pacientes["altura"]
alturas

nombres
Rodrigo     178
Sergio      172
Cristina    175
Diana       168
Name: altura, dtype: int32

In [23]:
pacientes.altura

nombres
Rodrigo     178
Sergio      172
Cristina    175
Diana       168
Name: altura, dtype: int32

In [24]:
type(alturas)

pandas.core.series.Series

A diferencia de las matrices en Numpy, un DataFrame de Pandas es un conjunto de columnas, no de filas. 
Si queremos saber la altura de Rodrigo, pensar cuál de los dos comandos será correcto antes de ejecutarlos.

In [25]:
#pacientes["Rodrigo"].altura
pacientes["altura"].Rodrigo

178

Para acceder a una fila de un dataframe, podemos usar los métodos `loc[]` y `iloc[]`. 

¿Cómo se usan? ¿Cuál es la diferencia entre los dos comandos?

In [26]:
print(pacientes.loc["Rodrigo"])

pacientes.iloc[1]

altura    178.0
peso       81.2
Name: Rodrigo, dtype: float64


altura    172.0
peso       76.1
Name: Sergio, dtype: float64

## Gapminder

A modo de ejemplo, vamos a explorar el dataset Gapminder que contiene datos poblacionales y de desarrollo humano de distintos países a lo largo del tiempo.

Si gapminder no está instalado, ejecutrar el siguiente comando para instalarlo

In [27]:
#pip install gapminder

In [28]:
from gapminder import gapminder
display(gapminder)

ModuleNotFoundError: No module named 'gapminder'

In [None]:
gapminder.head()
#gapminder.tail()

Podemos ver información básica del DataFrame con la función info

In [None]:
gapminder.info()

In [None]:
gapminder.describe()

In [None]:
# Vemos todos los países en la base
gapminder["country"].unique()

In [None]:
# Cuántos países son?
gapminder["country"].nunique()

#equivalente a ------------ >  len(gapminder["country"].unique())

In [None]:
# Si queremos ver cuántos países hay en cada continente...
# podemos agregupar por continente y ver el tamaño de cada grupo
gapminder.groupby("continent").size()

In [None]:
# Pero cada país aparece varias veces, con datos de distintos años.
# Para contar sin repeticion usamos nuevamente nunique
gapminder.groupby("continent")["country"].nunique()

In [None]:
# Si queremos calcular porcentajes, dividimos por la cantidad total de paises
totalPaises = gapminder["country"].nunique()
gapminder.groupby("continent")["country"].nunique() / totalPaises

In [None]:
# O podemos usar el comando value_counts y pasarle un parámetro para que nos de los valores normalizados.
# (la normalización lleva la suma total a 1)
gapminder[["continent", "country"]].drop_duplicates().continent.value_counts(normalize=True)

In [None]:
# Vemos todos los años disponibles
gapminder["year"].unique()

In [None]:
# Tenemos datos de todos los países todos los años?
# Agrupamos los datos por año y calculamos el tamaño de cada bloque
gapminder.groupby("year").size()

In [None]:
# O podemos usar directamente el comando value_counts
gapminder.year.value_counts()

In [None]:
# También podemos por ejemplo calcular la poblacion total por año
gapminder.groupby("year")["pop"].sum()

### Gráficos simples de funciones o puntos en el plano XY.
Vamos a graficar la población total mundial en función del año.

In [None]:
pobAnual = gapminder.groupby("year")["pop"].sum()
type(pobAnual)

In [None]:
pobAnual

In [None]:
pobAnual.index

In [None]:
# Opción 1
# Usamos la función plot de series de pandas
pobAnual.plot()

In [None]:
# O podemos graficar solo puntos
pobAnual.plot(style = "+", color="red")
# kind="bar", kind="line", puedo usar kind en vez de style para algunos presets

In [None]:
# Opcion 3
# Asignamos los valores a variables (arrays de numpy) y graficamos las variables
x = pobAnual.index
y = pobAnual.values
plt.plot(x,y)

In [None]:
# Opcion 4
# Matplotlib tiene una función scatter para graficar puntos
plt.scatter(x,y)

In [None]:
# Vamos a analizar los datos de 2007
datos2007 = gapminder[gapminder["year"]==2007]
datos2007

In [None]:
# Queremos ver si hay relación entre el producto bruto y la expectativa de vida
plt.plot(datos2007.gdpPercap, datos2007.lifeExp)

In [None]:
# Ay no, eso no, hacemos un "scatter plot"
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.show()

In [None]:
# Se ve mejor la correlación si usamos escala logaritmica en el eje X
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')

Vamos a mejorar un poco el gráfico

In [None]:
# Agregamos etiquetas al gráfico y a los ejes
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.show()

Reemplacemos las marcas en el eje $x$ 10³, 10⁴, 10⁵ con 1k, 10k y 100k. 

In [None]:
plt.scatter(datos2007.gdpPercap, datos2007.lifeExp)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

Seaborn es una biblioteca para visualización de datos en Python, basada en Matplotlib que agrega muchas funcioanlidades.

In [None]:
# Usamos scatterplot de seaborn para poder personalizar mejor el grafico

# Almacenamos la población como un array de numpy: np_pop
np_pop = np.array(datos2007["pop"])

sns.scatterplot(x = datos2007['gdpPercap'], y = datos2007['lifeExp'], hue = datos2007['continent'], size = np_pop, sizes=(20,400))
plt.grid(True)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

In [None]:
# Aumenta el tamaño del gráfico
plt.figure(dpi=150)

# Alcenamos la población como un array de numpy: np_pop
np_pop = np.array(datos2007["pop"])
np_pop2 = np_pop*2
# Usamos scatterplot de seaborn para poder personalizar mejor el grafico
sns.scatterplot(x = datos2007['gdpPercap'], y = datos2007['lifeExp'], hue = datos2007['continent'], size = np_pop2, sizes=(20,400))
plt.grid(True)
plt.xscale('log')
plt.xlabel('GDP per Capita [en USD]')
plt.ylabel('Expectativa de vida [en años]')
plt.title('Desarrollo Mundial en 2007')
plt.xticks([1000, 10000, 100000],['1k', '10k', '100k'])
plt.show()

## Archivos de datos

La biblioteca Pandas nos permite trabajar fácilmente con archivos de datos.
1. Leer el archivo casos_coronavirus.csv .
2. Graficar la curva de casos por día.
3. Graficar la curva de casos acumulados.
4. Definir log_cum_casos como el logaritmo de la cantidad de casos acumulados y graficar en función de la cantidad de días transcurridos.

Utilicen o modifiquen el siguiente código.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("./Datos/casos_coronavirus.csv") # DataFrame
df.head()  # Primeras filas del DataFrame

In [None]:
# Información básica del DataFrame
df.info()

In [None]:
df["confirmados_Nuevos"].plot()

In [None]:
casos_acumulados = df["confirmados_Nuevos"].cumsum()
plt.plot(casos_acumulados)
plt.grid(True)
plt.xlabel("Dias transcurridos")
plt.ylabel("Casos nuevos confirmados")

In [None]:
"""Definir log_cum_casos como el logaritmo de la cantidad de casos acumulados y graficar
en funcion de la cantidad de dias transcurridos."""

log_cum_casos = np.log(casos_acumulados)
plt.plot(log_cum_casos)
plt.grid(True)
plt.xlabel("Dias transcurridos")
plt.ylabel("Casos nuevos confirmados")

In [None]:
#Estimar, tomando dos valores, la pendiente de la recta para los datos a partir del dia 30.
df_desde_dia30 = df[df.index>29]
x1 = df_desde_dia30.index[30]
y1 = df_desde_dia30["confirmados_Nuevos"][30]
x2 = df_desde_dia30["confirmados_Nuevos"][65]
y2 = df_desde_dia30.index[65]


m = (y1-y2)/(x1-x2)
b = y2 - m*x2
recta = m*x + b
#plt.plot(recta)
print(x1,y1)
print(x2,y2)
plt.plot(recta)

## Estadística descriptiva

Mirando los datos de 2007, ¿cuál es el país con mayor expectativa de vida? ¿Cuál es el país con menor expectativa de vida?

### Medidas de tendencia central

Para el año 2007, calcular el valor medio y la mediana de las variables gdpPercap y lifeExp entre todos los países.
Son similares o distintas? A qué lo atribuyen? Consideran que alguna resume mejor la realidad que la otra?


In [29]:
datos2007["lifeExp"].median()

NameError: name 'datos2007' is not defined

In [None]:
datos2007["lifeExp"].mean()

In [None]:
datos2007["gdpPercap"].median()

In [None]:
datos2007["gdpPercap"].mean()

Es lo mismo el promedio de entre todos los países de la expectativa de vida y el promedio entre todas las personas entre todas las personas?
¿Cómo podemos calcular el promedio entre todas las personas?


In [None]:
np.sum(datos2007["LifeExp"]*datos2007["pop"])/np.sum(datos2007["pop"])

In [32]:
np.average(datos2007["LifeExp"], weights = datos2007["pop"])

NameError: name 'datos2007' is not defined

### Medidas de dispersión

Para el año 2007, calcular la varianza y el desvío estándar de las variables gdpPercap y lifeExp entre todos los países.

In [None]:
datos2007["lifeExp"].var()

In [None]:
datos2007["lifeExp"].std()