# TP 4: Visualización de datos I
En este TP nos adentraremos en distintas formas de visualizar y representar grandes volúmenes de datos. Para esto es fundamental tener presente el contenido de las materias Estadística I y Estadística II, donde vieron los distintos tipos de datos.

En el siguiente link tienen un recurso muy importante, que se llama "from data to Viz". Es de un grupo de estadísticos y diseñadores que se tomaron bastante en serio el trabajo de sistematización y descripción de distintos tipos de representaciones. En el siguiente link pueden encontrar recursos:

[From data to viz](https://www.data-to-viz.com/)

Vamos por lo primero, carga de paquetes

In [None]:
# !pip3 install pandas
# !pip3 install seaborn
# !pip3 install matplotlib
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns


Pregunta: ¿Por qué las líneas que dicen !pip3 install están comentadas? ¿Qué susce si las descomentamos? Ahora vamos a decargas los datos presentes en el siguiente link: [fifa](https://drive.google.com/file/d/1fu9sFqBh1zQI_-de7eb2RFtxYWM9dwGj/view?usp=sharing)

Recuerden ponerlo en su drive, en la carpeta TP4. Ahora, con el siguiente códiga podrán montar el drive y cargar los datos (no le cambien el nombre)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

fifa_data = pd.read_csv("/content/drive/MyDrive/IMD/TP4/fifa.csv", index_col="Date", parse_dates=True)

## Gráficos de líneas

Pregunta relacionada con la clase anterior, ¿qué se supone que hace el parámetro parse_dates=true? Ahora vamos a mirar los datos

In [None]:
fifa_data.head()

Y a hacer los primeros gráficos

In [None]:
plt.figure(figsize=(16,6))
sns.lineplot(data=fifa_data)
plt.xlabel("Fecha")

Es bastante información, ¿no? Interpretemosla.

Ahora vamos a analizar otro tipo de datos, que se pueden descargar del siguiente link:

[spotify](https://drive.google.com/file/d/15x0YXpWQtXxrmPHW38x6N5rAJi8n205Q/view?usp=sharing)

Corresponde a canciones escuchadas en spotify. De nuevo, ya saben donde ubicar el archivo.

In [None]:
spotify_data = pd.read_csv("/content/drive/MyDrive/IMD/TP4/spotify.csv", index_col="Date", parse_dates=True)

Como siempre, primero se miran los datos

In [None]:
spotify_data.head()

También se pueden mirar los últimos

In [None]:
spotify_data.tail()

Realizamos el primer gráfico

In [None]:
sns.lineplot(data=spotify_data)

plt.xlabel("Fecha")

Repasemos la estructura, ¿qué era sns? ¿y qué será lineplot? ¿Qué se especifica en el parámetro data? Comparemoslos con el código del gráfico anterior.

Como se puede observar arriba, la línea de código es relativamente corta y tiene dos componentes principales:

sns.lineplot indica al programa que queremos crear un gráfico de líneas.
Cada comando analiza en este TP empezará con sns, lo que indica que el comando proviene del paquete seaborn. Por ejemplo, usamos sns.lineplot para hacer gráficos de líneas. Pronto utilizaremos sns.barplot y sns.heatmap para hacer gráficos de barras y mapas de calor, respectivamente.
data=spotify_data selecciona los datos que se utilizarán para crear el gráfico.
Es importante tener en cuenta que siempre se utilizará este mismo formato cuando se cree un gráfico de líneas, y lo único que cambia con un nuevo conjunto de datos es el nombre del conjunto de datos.

A continuación le agregamos más características al gráfico:

In [None]:
plt.figure(figsize=(14,6))

plt.title("Canciones más populares entre 2017 y 2018")

sns.lineplot(data=spotify_data)

plt.xlabel("Fecha")
plt.ylabel("Reproducciones")

Bien, ahora veamos que columnas tiene el set de datos:

In [None]:
list(spotify_data.columns)

Supongamos que queremos graficar valores específicos, o a lo que se llama un "subset".

In [None]:
plt.figure(figsize=(14,6))

plt.title("Canciones más populares entre 2017 y 2018")

sns.lineplot(data=spotify_data['Shape of You'], label="Shape of You")

sns.lineplot(data=spotify_data['Despacito'], label="Despacito")

plt.xlabel("Fecha")

## Gráficos de barras y heatmaps
En esta sección vamos a ver otro tipo de gráficos, los de barras y los heatmap. Para esto vamos a utilizar otra base de datos, que ya saben donde colocarla.

[Vuelos](https://drive.google.com/file/d/1XgZeVdugkd_Zirb3StAxWMeXYicB6EXX/view?usp=sharing)

In [None]:
flight_data = pd.read_csv("/content/drive/MyDrive/IMD/TP4/flight_delays.csv", index_col="Month")

Puede notar que el código es ligeramente más corto que lo que se usó en el caso anterior. En este caso, como las etiquetas de las filas (de la columna 'Month') no corresponden a fechas, no agregamos parse_dates=True entre paréntesis. Miramos los datos:

In [None]:
flight_data

Realizamos nuestro primer gráfico de barras

In [None]:
plt.figure(figsize=(10,6))

plt.title("Promedio de demora en arrivos de vuelos al aeropuerto, por mes")

sns.barplot(x=flight_data.index, y=flight_data['NK'])

plt.ylabel("Promedio de demoras (en minutos)")

Detengánse un minuto a mirar bien línea por línea, ¿qué se específica? ¿Qué diferencia tienen los comandos utilizados respecto a los gráficos de líneas? También tenemos información de las aerolíneas, por lo tanto podemos hacer un gráfico un poco más complejo, denominado heatmap:

In [None]:
plt.figure(figsize=(14,7))

plt.title("Promedio de demora en arrivos de vuelos al aeropuerto, por mes")

sns.heatmap(data=flight_data, annot=True)

plt.xlabel("Aerolínea")
plt.ylabel("Mes")


¿Qué puede extraerse del gráfico?

## Gráficos de puntos
En este caso analizaremos gráficos de puntos. Estos son muy importantes para encontrar relaciones entre dos o más variables. En un eje se coloca el valor de una variable y en el otro el de la otra. Primero cargamos los datos, para este caso tomaremos un ejemplo relacionado a hábitos de salud.

[Fumadores](https://drive.google.com/file/d/1Uq-0JMMn0h2adNRXfFjVg9SsYBze6Hk8/view?usp=sharing)

Ya saben donde colocarlo, a continuación el código:

In [None]:
insurance_data = pd.read_csv("/content/drive/MyDrive/IMD/TP4/insurance.csv")

Como siempre, miramos los datos!

In [None]:
insurance_data.head()

El código básico para los gráficos de puntos es sencillo, hay que especificar el valor que va en el eje X y el que va en el eje Y

In [None]:
sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'])
plt.xlabel("IMC")
plt.ylabel("Costo")

El gráfico de dispersión anterior sugiere que el índice de masa corporal (IMC o bmi en inglés) y los cargos del seguro están correlacionados positivamente, donde los clientes con un IMC más alto también tienden a pagar más en costos de seguro (charges). Este patrón tiene sentido, ya que un alto IMC (bmi) se asocia típicamente con un mayor riesgo de enfermedades crónicas.

Para verificar la fuerza de esta relación, es posible que desee agregar una línea de regresión, es decir, la línea que mejor se ajusta a los datos. Para hacer esto, se cambia el comando a sns.regplot.

In [None]:
sns.regplot(x=insurance_data['bmi'], y=insurance_data['charges'])
plt.xlabel("IMC")
plt.ylabel("Costo")

Interesante, ¿que esa línea de regresión? ¿Se acuerdan como se calculaba?

Más allá de eso, vemos dos "nubes" o tendencias de datos. Vamos a buscar que sucede, o sea que otra variable podría estar afectando:

In [None]:
sns.scatterplot(x=insurance_data['bmi'], y=insurance_data['charges'], hue=insurance_data['smoker'])
plt.xlabel("IMC")
plt.ylabel("Costo")

Ahora vemos que los fumadores (smokers) podrían estar afectando a la distribución, aquellos que si fuman, tienen valores de costo generalmente más altos que otros con la misma masa corporal, pero que no fuman. Hagamos la regresión solamente con los que fuman:

In [None]:
sns.lmplot(x="bmi", y="charges", hue="smoker", data=insurance_data)
plt.xlabel("IMC")
plt.ylabel("Costo")

Ejercicio para ustedes! Como veran, este último gráfico está bueno, parece informativo y mostrar que hay una tendencia. Se les propone hacer lo siguiente:

Consigna) que en el gráfico aparezca la ecuación de la regresión y el coeficiente de correlación de pearson, R2

Recuérden que cuentan con chatGPT, google y la documentación de python a la que se accede con "comando"? Donde el comando es la función que se quiere analizar.

In [None]:
# Su código!

Por último vamos a hacer otro tipo de gráfico, y habrá que interpretarlo:

In [None]:
sns.swarmplot(x=insurance_data['smoker'],
              y=insurance_data['charges'])

plt.xlabel("IMC")
plt.ylabel("Costo")

## Graficar distribuciones
Esto será particularmente útil cuando, más a futuro, veamos los modelos predictivos. Además, pueden utilizarse estos gráficos para analizar relaciones entre variables continuas. Nuevamente, cargaremos un nuevo tipo de base de datos, de características de flores:

[Flores](https://drive.google.com/file/d/1dzBanIxDCyP-e0V5y9QuSgBFdAfZBZQM/view?usp=sharing)

Ya saben donde poner los datos :)

A cargarlos:


In [None]:
iris_data = pd.read_csv("/content/drive/MyDrive/IMD/TP4/iris.csv", index_col="Id")

Como siempre, miramos los datos

In [None]:
iris_data.head()


El primer gráfico que podemos hacer es el histograma, que nos permite analizar una variable a la vez

In [None]:
sns.histplot(iris_data['Petal Length (cm)'])
plt.xlabel("Longitud del pétalo (cm)")
plt.ylabel("Cantidad")

También pueden hacerse gráficos de densidad. La explicación de esto es un poco compleja, la vamos a ver en el pizarrón. El código a continuación:

In [None]:
sns.kdeplot(data=iris_data['Petal Length (cm)'], shade=True)
plt.xlabel("Longitud del pétalo (cm)")
plt.ylabel("Densidad")

Notese que hasta este momento analizamos una variable a la vez, viendo la frecuencia de cada valor en la población de flores analizadas. Podemos hacer algo similar con dos variables en conjunto:

In [None]:
sns.jointplot(x=iris_data['Petal Length (cm)'], y=iris_data['Sepal Width (cm)'], kind="kde")
plt.xlabel("Longitud del pétalo (cm)")
plt.ylabel("Ancho del pétalo (cm)")

Al igual que lo hicimos con el caso de los fumadores y el costo, agregar otra variable categórica al análisis mediante la introducción de colores suele ser una buena opción.

In [None]:
sns.histplot(data=iris_data, x='Petal Length (cm)', hue='Species')

plt.title("Histograma de longitud de pétalos, por especies")
plt.xlabel("Longitud del pétalo (cm)")
plt.ylabel("Cantidad")

También puede realizarse lo mismo con el gráfico de densidades

In [None]:
sns.kdeplot(data=iris_data, x='Petal Length (cm)', hue='Species', shade=True)

plt.title("Distribution of Petal Lengths, by Species")
plt.xlabel("Longitud del pétalo (cm)")
plt.ylabel("Densidad")