<a href="https://colab.research.google.com/github/marianobonelli/Introduccion_a_Python_2023/blob/main/Introduccion_a_Python_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a la programación y análisis de datos con Python orientado a la producción agropecuaria

[![Cronograma](https://img.shields.io/badge/-Cronograma-blue?style=flat&logo=google-docs&logoColor=white)](https://docs.google.com/document/d/1wDjkT1pYXirQgByWfcu82Szsbn8249sRxHX0E7leNog/edit?usp=sharing)
[![Canal de Discord](https://img.shields.io/badge/-Discord-blue?style=flat&logo=discord&logoColor=white)](https://discord.gg/WaA2uTp4)
[![Video de la clase](https://img.shields.io/badge/-Video%20de%20la%20clase-blue?style=flat&logo=youtube&logoColor=white)](https://youtu.be/LJmJhC7tD-s)
[![Repositorio de GitHub](https://img.shields.io/badge/-Repositorio%20de%20GitHub-blue?style=flat&logo=github&logoColor=white)](https://github.com/marianobonelli/Introduccion_a_Python_2023)


---



**Clase 5: Miércoles 22 de noviembre**


Introducción a librerías - Parte II:

* Uso de matplotlib, seaborn y plotly para visualizar datos.

* Mapas y geolocalización con geopandas y folium.

---

# Uso de matplotlib, seaborn y plotly para visualizar datos.

Cada una de estas bibliotecas tiene su propósito y fortalezas: Matplotlib para control detallado, Seaborn para gráficos estadísticos de alta calidad con menos código, y Plotly para interactividad y presentaciones web.

## Importamos un dataset de prueba:

In [None]:
import seaborn as sns

# Cargando el conjunto de datos de ejemplo de Seaborn
iris = sns.load_dataset("iris")
iris

In [None]:
iris.describe()

In [None]:
iris.info()

## Matplotlib

[<img src="https://matplotlib.org/_static/logo_dark.svg" width=200px>](https://matplotlib.org/stable/gallery/index)



### Características

Matplotlib es una biblioteca de bajo nivel para la creación de gráficos en Python, ofreciendo un control muy detallado sobre los elementos de la gráfica.

* ***Abstracción:*** Matplotlib ofrece un control granular sobre casi todos los aspectos de una gráfica, incluyendo tamaño del lienzo, espaciado, colores, tipos de líneas, escalas de los ejes, y más. Esto te permite personalizar cada pequeño detalle del gráfico.

* ***Flexibilidad:*** Esta naturaleza de bajo nivel significa que puedes construir gráficos muy específicos y personalizados, pero a menudo a costa de escribir más código.

* ***Curva de Aprendizaje:*** Por lo general, tiene una curva de aprendizaje más pronunciada, especialmente para usuarios nuevos o para aquellos que no requieren un alto grado de personalización.

* ***Uso:*** Ideal para cuando necesitas crear gráficos muy específicos o cuando estás trabajando con un tipo de visualización que no está cubierta por bibliotecas de más alto nivel.

### Estructura del código:

* ***Importación de la Biblioteca:*** `import matplotlib.pyplot as plt`

* ***Creación de la Figura y los Ejes:*** Utilizamos `plt.subplots()` para crear una figura y uno o varios ejes (subgráficos). En el ejemplo, `fig, axes = plt.subplots(2, 2, figsize=(12, 10))` crea una figura con 4 subgráficos (2 filas y 2 columnas).


* ***Dibujar en los Ejes:*** Para cada subgráfico, se utilizan métodos como `scatter()` para gráficos de dispersión o `hist()` para histogramas. Se especifican los ejes en los que se dibuja, por ejemplo, `axes[0, 0].scatter(...).`


* ***Personalización:*** Se pueden agregar títulos, etiquetas para los ejes, cambiar colores, etc.


* ***Visualización:*** Finalmente, se muestra el gráfico con `plt.show()`

In [None]:
import matplotlib.pyplot as plt

# Creando una figura con múltiples subgráficos en Matplotlib
fig, axes = plt.subplots(2, 2, figsize=(10, 8))

# Gráfico de dispersión de Sepal Length vs Sepal Width
axes[0, 0].scatter(iris['sepal_length'], iris['sepal_width'])
axes[0, 0].set_title('Sepal Length vs Sepal Width')
axes[0, 0].set_xlabel('Sepal Length')
axes[0, 0].set_ylabel('Sepal Width')

# Gráfico de dispersión de Petal Length vs Petal Width
color_dict = {'setosa': 'red', 'versicolor': 'blue', 'virginica': 'green'} # Asignando colores a las especies

for species, group in iris.groupby('species'):
    axes[0, 1].scatter(group['petal_length'], group['petal_width'], color=color_dict[species], label=species)

axes[0, 1].set_title('Petal Length vs Petal Width')
axes[0, 1].set_xlabel('Petal Length')
axes[0, 1].set_ylabel('Petal Width')
axes[0, 1].legend()

# Histograma de Sepal Length
axes[1, 0].hist(iris['sepal_length'], bins=25, color='orange', edgecolor='black', linewidth=1.5)
axes[1, 0].set_title('Histogram of Sepal Length')
axes[1, 0].set_xlabel('Sepal Length')
axes[1, 0].set_ylabel('Frequency')
axes[1, 0].set_facecolor('lightgrey') # Color de fondo

# Histograma de Sepal Width
axes[1, 1].hist(iris['sepal_width'], bins=20, color='red')
axes[1, 1].set_title('Histogram of Sepal Width')
axes[1, 1].set_xlabel('Sepal Width')
axes[1, 1].set_ylabel('Frequency')

# Ajustando el layout
plt.tight_layout()
plt.show()

In [None]:
# Scatter plot: https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html#matplotlib.pyplot.scatter

# Creando una sola figura
fig = plt.figure(figsize=(6, 4)) # Puedes ajustar el tamaño según necesites

# Creando un gráfico (por ejemplo, un gráfico de dispersión)
plt.scatter(iris['sepal_length'], iris['sepal_width'])

# Configuración del gráfico
plt.title('Sepal Length vs Sepal Width')
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')

# Mostrando el gráfico
plt.show()

## Seaborn

[<img src="https://seaborn.pydata.org/_static/logo-wide-lightbg.svg" width=200px>](https://seaborn.pydata.org/examples/index.html)

### Características
Seaborn es una biblioteca de alto nivel para la creación de gráficos estadísticos en Python, construida sobre Matplotlib. Ofrece una interfaz más sencilla para la creación de gráficos complejos y estéticamente agradables.

* ***Abstracción:*** Seaborn, por otro lado, es una biblioteca de más alto nivel que se construye sobre Matplotlib. Ofrece una interfaz más sencilla para crear gráficos comunes y estadísticos.

* ***Facilidad de Uso:*** Seaborn permite a los usuarios crear visualizaciones complejas y atractivas con menos código. Viene con una serie de tipos de gráficos predefinidos y estilos que están optimizados para ser visualmente atractivos.

* ***Funcionalidades Estadísticas:*** Incorpora de manera nativa la capacidad de integrar cálculos estadísticos en los gráficos, como regresiones lineales o distribuciones de datos.

* ***Uso:*** Ideal para análisis exploratorios de datos y cuando se necesita producir gráficos estadísticos informativos y atractivos de forma rápida y sencilla.

En resumen, Matplotlib te da más control y flexibilidad, pero a menudo a expensas de escribir más código y una curva de aprendizaje más empinada. Seaborn, en cambio, facilita la creación de gráficos comunes y estadísticos con menos código, pero ofrece menos control sobre los detalles finos de la visualización.

### Estructura del código

* ***Importación de la Biblioteca:*** `import seaborn as sns`

* ***Cargar Datos:*** Seaborn puede trabajar directamente con DataFrames de Pandas, como en `iris = sns.load_dataset("iris")`.

* ***Creación de Gráficos:*** Seaborn tiene funciones de alto nivel para crear diferentes tipos de gráficos. Por ejemplo, `sns.pairplot(iris, hue='species')` crea una matriz de gráficos para cada combinación de variables en el DataFrame, coloreadas por una categoría específica.

* ***Personalización y Estilo:*** Seaborn aplica automáticamente estilos y temas para mejorar la apariencia de los gráficos. Hay opciones para personalizar estos aspectos.


* ***Visualización:*** La visualización ocurre automáticamente cuando se llama a la función de gráficos, pero se recomienda el uso de `plt.show()`

In [None]:
# Pairplot: https://seaborn.pydata.org/generated/seaborn.pairplot.html

import seaborn as sns
import matplotlib.pyplot as plt

# Usando el mismo conjunto de datos 'iris'
sns.pairplot(
    iris,
    hue='species',
    )

plt.show()

In [None]:
# Violinplot: https://seaborn.pydata.org/generated/seaborn.violinplot.html

# Creando un gráfico de violín
sns.violinplot(
    x="species",
    y="petal_length",
    data=iris,
    )

# Mostrando el gráfico
plt.show()

In [None]:
# boxplot: https://seaborn.pydata.org/generated/seaborn.boxplot.html

# Creando un gráfico de cajas
sns.boxplot(
    x="species",
    y="sepal_width",
    data=iris,
    )

# Mostrando el gráfico
plt.show()

## Plotly

[<img src="https://plotly.com/all_static/images/graphing_library_dark.svg" width=300px>](https://plotly.com/python/)



### Características

Plotly es una biblioteca para la creación de gráficos interactivos. Permite crear gráficos que pueden ser explorados interactivamente en un navegador web.



### Estructura del código

* ***Importación de la Biblioteca:*** `import plotly.express as px`


* ***Creación de Gráficos:*** Se utilizan funciones de alto nivel para crear gráficos. Por ejemplo, `px.scatter(iris, x='sepal_width', y='sepal_length', color='species')` crea un gráfico de dispersión interactivo.

* ***Personalización:*** Plotly permite una amplia gama de personalizaciones, desde cambiar colores y estilos hasta ajustar los aspectos interactivos.

* ***Visualización:*** Se muestra el gráfico utilizando `fig.show()`. Esto abrirá el gráfico en el jupyter notebook/colab o un navegador web, permitiendo interacciones como el zoom y el paso del mouse sobre los puntos para obtener más información.

In [None]:
# Scatter: https://plotly.com/python/line-and-scatter/

import plotly.express as px

# Creando un gráfico interactivo con Plotly
fig = px.scatter(
    iris,
    x='sepal_width',
    y='sepal_length',
    color='species',
    # title='Título del gráfico',
    # width=10000,
    # height=8000,
    )

fig.show()

In [None]:
# Creando un gráfico de dispersión con facetas
fig = px.scatter(
    iris,
    x="petal_width",
    y="petal_length",
    color="species",
    facet_col="species", # divide en columna según valors unicos de la columna especificada
    )

# Mostrando el gráfico
fig.show()

In [None]:
# Scatter 3d: https://plotly.com/python/3d-scatter-plots/

# Creando un gráfico de dispersión 3D
fig = px.scatter_3d(
    iris,
    x='sepal_length',
    y='sepal_width',
    z='petal_length',
    color='species',
    )

# Mostrando el gráfico
fig.show()

# Mapas y geolocalización con geopandas y folium.

### Importamos archivos de prueba:

In [None]:
# Importamos los archivos desde el repositorio de github

# !apt-get install subversion
# !svn checkout https://github.com/marianobonelli/Introduccion_a_Python_2023/trunk/assets

import subprocess
import sys

try:
    # Instalar subversion
    subprocess.run(["apt-get", "install", "subversion"], check=True)

    # Hacer checkout del repositorio SVN
    subprocess.run(["svn", "checkout", "https://github.com/marianobonelli/Introduccion_a_Python_2023/trunk/assets"], check=True)

except subprocess.CalledProcessError as e:
    print(f"Se produjo un error: {e}")

## Geopandas

[<img src="https://geopandas.org/en/stable/_static/geopandas_logo_web.svg" width=200px>](https://geopandas.org/en/stable/docs.html)



GeoPandas, como su nombre sugiere, extiende la popular biblioteca de ciencia de datos pandas añadiendo soporte para datos geoespaciales. Si no estás familiarizado con pandas, te recomendamos echar un vistazo rápido a su documentación de inicio antes de proceder.

La estructura de datos principal en GeoPandas es el geopandas.GeoDataFrame, una subclase de pandas.DataFrame, que puede almacenar columnas de geometría y realizar operaciones espaciales. El geopandas.GeoSeries, una subclase de pandas.Series, maneja las geometrías. Por lo tanto, tu GeoDataFrame es una combinación de pandas.Series, con datos tradicionales (numéricos, booleanos, texto, etc.), y geopandas.GeoSeries, con geometrías (puntos, polígonos, etc.). Puedes tener tantas columnas con geometrías como desees; no hay límite típico para el software GIS de escritorio.

[<img src="https://geopandas.org/en/stable/_images/dataframe.svg" width=650px>](https://geopandas.org/en/stable/getting_started/introduction.html)

 ### Lectura de archivos como GeoDataFrame (GDF)

 [geopandas.read_file()](https://geopandas.org/en/stable/docs/reference/api/geopandas.read_file.html)

In [None]:
import geopandas as gpd

lotes_gdf = gpd.read_file('/content/assets/Lotes.zip')
lotes_gdf.head()

In [None]:
lotes_gdf.info()

In [None]:
# Uso de try para manejo de errores

try:
  lotes_gdf = gpd.read_file('/content/assets/Lotes.zipp')
  lotes_gdf.head()
except Exception as e:
  print(f'Ocurrió un error: {e}')

In [None]:
rindes_gdf = gpd.read_file('/content/assets/Rindes_9_10.zip')
rindes_gdf.head()

#### Uso de pyogrio para acelerar la lectura de archivos

In [None]:
!pip install pyogrio

In [None]:
rindes_gdf = gpd.read_file('/content/assets/Rindes_9_10.zip', engine="pyogrio")
rindes_gdf.head()

In [None]:
rindes_gdf.info()

### Visualización de los GDF

#### Mapas estáticos nativos de geopandas

[Making maps and plots](https://geopandas.org/en/stable/docs/user_guide/mapping.html)

In [None]:
# Visualización de los gdf

rindes_gdf.plot(column="Yld_Mass_D", cmap='RdYlGn', markersize=3)

##### Visualización por cuantiles

In [None]:
import pandas as pd

# Primero, crearemos categorías basadas en cuantiles para la columna 'Yld_Mass_D'
rindes_gdf['cuantiles'] = pd.qcut(rindes_gdf['Yld_Mass_D'], 4, labels=False)
rindes_gdf.plot(column='cuantiles', cmap='RdYlGn', markersize=3)

#### Mapas interactivos de geopandas con folium

[Interactive mapping](https://geopandas.org/en/stable/docs/user_guide/interactive_mapping.html)

In [None]:
!pip install folium matplotlib mapclassify

In [None]:
#lotes_gdf = lotes_gdf.drop(columns=['Fecha de s'])

# Crear el mapa
mapa = lotes_gdf.explore(
    column="Cultivo",  # hacer un coropleta basado en la columna "Cultivo"
    tooltip=["Lote", 'Cultivo', 'Hibrido/Va',  'Surface (h'],  # mostrar valor en tooltip (al pasar el mouse)
    popup=True,  # mostrar todos los valores en popup (al hacer clic)
    tiles="CartoDB positron",  # usar los mosaicos "CartoDB positron"
    cmap="Set1",  # usar el mapa de colores "Set1" de matplotlib # cmap = https://matplotlib.org/stable/users/explain/colors/colormaps.html
    style_kwds=dict(color="black"),  # usar contorno negro
)

# Guardar el mapa como un archivo HTML
mapa.save("mapa_lotes.html")

mapa

In [None]:
#rindes_gdf = rindes_gdf.drop(columns=['Time', 'Date'])

# rindes_gdf.explore(
#     column="cuantiles",  # make choropleth based on "Lote" column
#     popup=False,  # show all values in popup (on click)
#     tiles="CartoDB positron",  # use "CartoDB positron" tiles
#     cmap="RdYlGn",  # use "Set1" matplotlib colormap https://matplotlib.org/stable/users/explain/colors/colormaps.html
#     #style_kwds=dict(color="black"),  # use black outline
# )

#### Mapas con matplotlib

In [None]:
fig, ax = plt.subplots(figsize=(10, 10))

# Utilizar una columna del GeoDataFrame para los colores. Reemplaza 'tu_columna_color' con el nombre de tu columna
lotes_gdf.plot(ax=ax, column='Cultivo', cmap="Set1", edgecolor='black', legend=False) # cmap = https://matplotlib.org/stable/users/explain/colors/colormaps.html

# Graficar los puntos
rindes_gdf.plot(ax=ax, column='cuantiles', cmap="RdYlGn", markersize=0.5) # cmap = https://matplotlib.org/stable/users/explain/colors/colormaps.html

# Quitar los ejes
ax.set_axis_off()

plt.show()

#### Mapas con Plotly

In [None]:
# Crear figura para los lotes
fig = px.choropleth_mapbox(lotes_gdf, geojson=lotes_gdf.geometry.__geo_interface__,
                           locations=lotes_gdf.index, color_discrete_sequence=["lightgrey"])

# Calcular el centroide del conjunto de polígonos
centroid = lotes_gdf.geometry.unary_union.centroid

# Actualizar el layout para centrar el mapa
fig.update_layout(mapbox_style="open-street-map",
                  mapbox_zoom=10,
                  mapbox_center={"lat": centroid.y, "lon": centroid.x})
fig.show()

### Algunas funcionalidades de geopandas

* [Proyecciones automáticas](https://geopandas.org/en/stable/docs/reference/api/geopandas.GeoDataFrame.estimate_utm_crs.html#geopandas.GeoDataFrame.estimate_utm_crs)

* [Overlay](https://geopandas.org/en/stable/docs/user_guide/set_operations.html)

* [Muchos otros](https://geopandas.org/en/stable/docs/reference/geoseries.html)

In [None]:
# Estimar CRS UTM para cada GeoDataFrame
crs_rindes = rindes_gdf.estimate_utm_crs()
crs_lotes = lotes_gdf.estimate_utm_crs()

# Proyectar ambos GDFs al CRS UTM
rindes_gdf = rindes_gdf.to_crs(crs_rindes)
lotes_gdf = lotes_gdf.to_crs(crs_lotes)

# Filtrar el lote específico
lote_especifico = lotes_gdf[lotes_gdf['Lote'] == 'SM9']

# Extraer puntos dentro del polígono especificado
puntos_dentro_lote = rindes_gdf[rindes_gdf.geometry.within(lote_especifico.unary_union)]

# Volver a proyectar los puntos a EPSG:4326 para visualización
puntos_dentro_lote = puntos_dentro_lote.to_crs("EPSG:4326")

# Visualización con Matplotlib
fig, ax = plt.subplots(figsize=(10, 10))
puntos_dentro_lote.plot(ax=ax, column='cuantiles', cmap="RdYlGn", markersize=2)
ax.set_axis_off()
plt.show()

# Anexo

In [None]:
# API NASA Climograma https://power.larc.nasa.gov/data-access-viewer/

import requests

crs_lotes = lotes_gdf.estimate_utm_crs()

# Proyectar ambos GDFs al CRS UTM
lotes_gdf = lotes_gdf.to_crs(crs_lotes)

# Filtrar el lote específico
lote_especifico = lotes_gdf[lotes_gdf['Lote'] == 'SM9']

# Calcular el centroide del lote específico en UTM
centroide_utm = lote_especifico.geometry.centroid.iloc[0]

# Crear un GeoSeries con el centroide UTM
centroide_geo = gpd.GeoSeries([centroide_utm], crs=crs_lotes)

# Transformar el centroide de vuelta a EPSG:4326
centroide_latlon = centroide_geo.to_crs("EPSG:4326").iloc[0]

# Extraer latitud y longitud
latitud = centroide_latlon.y
longitud = centroide_latlon.x
year = 2018

# Fecha de inicio y fin para todo el año
start_date = f"{year}0101"
end_date = f"{year}1231"

# URL de la API
url = f"https://power.larc.nasa.gov/api/temporal/daily/point?parameters=PRECTOTCORR,T2M_MIN,T2M_MAX,T2M_RANGE&community=AG&longitude={longitud}&latitude={latitud}&start={start_date}&end={end_date}&format=JSON"

# Hacer el request
response = requests.get(url)

# Verificar si el request fue exitoso
if response.status_code == 200:
    data = response.json()
else:
    data = None

data

* [Qiusheng Wu](https://github.com/giswqs)
* [Descarga NDVI](https://youtu.be/0Gyuc47Gt1I?si=FLYTj5fE5nACVItN)
* [ipywidgets](https://ipywidgets.readthedocs.io/en/stable/examples/Widget%20List.html)

# Trabajo Final:

* Extraer los datos de rinde del lote 10
* Hacer un histograma y un boxplot de los datos de rinde
* Filtrar el gdf de rinde para excluir los datos que tengan en primer lugar, valores de rinde = 0 y en segundo lugar que tengan valores superiores a la media mas tres desvíos estandar e inferiores a la media menos tres desvíos estandar para los datos de rinde, ancho de labor, distancia y velocidad
* Hacer un histograma y un boxplot de los datos de rinde ya filtrado
* Graficar el mapa de rindes ya filtrado, asignarle titulo

Se debe entregar un colab individual al mail mbonelli95@gmail.com con copia a nicoestebansoria@gmail.com antes del sabado 2 de diciembre

El lunes 27 de noviembre habrá una clase de consulta