# Ciencia de datos y visualización de la información para investigación y docencia

**Autor:** Oscar Hernández Terán                                   
**Fecha:** Octubre 9, 2024

## Contenido del Notebook 

1. Importaciones y librerías
2. Carga de datos
3. Visualización de datos 

### 1. Importaciones y librerias 

In [None]:
!pip install pyproj

In [23]:
# Procesamiento de datos
import numpy as np
import pandas as pd

# Lectura de datos
import glob
import os

# Visualización de datos
import matplotlib.pyplot as plt
import seaborn
import folium
from pyproj import Proj, transform

# Bibliotecas genéricas 
import json

### 2. Carga de datos

In [None]:
catalogo_datos = pd.read_excel('../data/raw/Catalogo_de_datos_CO2_Jacome_Paz_2020.xlsx')
catalogo_datos.head()

In [None]:
df_alcaparrosa = pd.read_csv('../data/raw/P_alcaparrosa.csv')
#df_alcaparrosa.columns = ['UTM_X', 'UTM_Y', 'CO2', 'zona']
df_alcaparrosa.head()

### 3. Visualización de datos 

In [None]:
# Definir el sistema UTM (ajusta la zona según tu ubicación)
utm_proj = Proj(proj='utm', zone=14, ellps='WGS84')

# Convertir coordenadas UTM a Latitud/Longitud
df_alcaparrosa['Latitud'], df_alcaparrosa['Longitud'] = transform(utm_proj, Proj(init='epsg:4326'), df_alcaparrosa['UTM_X'], df_alcaparrosa['UTM_Y'])

In [None]:
df_alcaparrosa.head()

In [6]:
# Crear un mapa centrado en las coordenadas promedio
m = folium.Map(location=[df_alcaparrosa['Latitud'].mean(), df_alcaparrosa['Longitud'].mean()], zoom_start=14)

# Añadir marcadores para cada fila en el DataFrame
for _, row in df_alcaparrosa.iterrows():
    folium.Marker(
        location=[row['Latitud'], row['Longitud']],
        popup=f"Nombre: {row['zona']}<br>CO2: {row['CO2']} gm-2-d-1",
        icon=folium.Icon(color='green')
    ).add_to(m)

# Guardar el mapa en un archivo HTML
m.save('mapa_con_datos.html')

In [None]:
df = pd.read_csv('../data/raw/P_alcaparrosa.csv')
df[["UTM X",	"UTM Y"]].head()

In [None]:
df = pd.read_csv('../data/raw/P_alcaparrosa.csv')

df.columns = ['UTM_X', 'UTM_Y', 'CO2', 'zona']

# Definir el sistema UTM (ajusta la zona según tu ubicación)
utm_proj = Proj(proj='utm', zone=14, ellps='WGS84')

# Convertir coordenadas UTM a Latitud/Longitud
df['Latitud'], df['Longitud'] = transform(utm_proj, Proj(init='epsg:4326'), df['UTM_X'], df['UTM_Y'])

# Crear el mapa usando las columnas convertidas
m = folium.Map(location=[df['Latitud'].mean(), df['Longitud'].mean()], zoom_start=14)

# Añadir marcadores usando las nuevas columnas
for _, row in df.iterrows():
    folium.Marker(
        location=[row['Latitud'], row['Longitud']],
        popup=f"Nombre: {row['zona']}<br>CO2: {row['CO2']} gm-2-d-1",
        icon=folium.Icon(color='green')
    ).add_to(m)

# Mostrar el mapa en el Jupyter Notebook
m


### 2da forma de transformacion y ejecucion

In [None]:
import pandas as pd
import folium
from pyproj import Proj, transform

# Cargar el archivo CSV
# Si tienes el archivo en tu computadora, puedes usar: df = pd.read_csv('ruta_del_archivo.csv')
# data = {
#     'UTM X': [589948.0000, 589971.1250, 589967.8125, 589974.0000, 589973.3750],
#     'UTM Y': [2204938.25, 2204854.75, 2204930.25, 2204849.50, 2204851.50]
# }
# df = pd.DataFrame(data)
df = pd.read_csv('../data/raw/P_alcaparrosa.csv')


# Definir el sistema de coordenadas UTM (Zona 16N en este caso, cambia según sea necesario)
proj_utm = Proj(proj='utm', zone=14, ellps='WGS84')

# Función para convertir coordenadas UTM a latitud/longitud
def utm_to_latlon(x, y, proj_utm):
    lon, lat = proj_utm(x, y, inverse=True)
    return lat, lon

# Crear nuevas columnas en el DataFrame para latitud y longitud
df['lat'], df['lon'] = zip(*df.apply(lambda row: utm_to_latlon(row['UTM X'], row['UTM Y'], proj_utm), axis=1))

# Crear un mapa centrado en el primer punto
mapa = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=13)

# Añadir puntos al mapa
for _, row in df.iterrows():
    folium.Marker([row['lat'], row['lon']], popup=f"({row['UTM X']}, {row['UTM Y']})").add_to(mapa)

# Mostrar el mapa
mapa


In [None]:
# Cargar el archivo CSV
# Si tienes el archivo en tu computadora, puedes usar: df = pd.read_csv('ruta_del_archivo.csv')
# data = {
#     'UTM X': [589948.0000, 589971.1250, 589967.8125, 589974.0000, 589973.3750],
#     'UTM Y': [2204938.25, 2204854.75, 2204930.25, 2204849.50, 2204851.50]
# }
# df = pd.DataFrame(data)
df = pd.read_csv('../data/raw/P_Escalera.csv')


# Definir el sistema de coordenadas UTM (Zona 16N en este caso, cambia según sea necesario)
proj_utm = Proj(proj='utm', zone=14, ellps='WGS84')

# Función para convertir coordenadas UTM a latitud/longitud
def utm_to_latlon(x, y, proj_utm):
    lon, lat = proj_utm(x, y, inverse=True)
    return lat, lon

# Crear nuevas columnas en el DataFrame para latitud y longitud
df['lat'], df['lon'] = zip(*df.apply(lambda row: utm_to_latlon(row['UTM X'], row['UTM Y'], proj_utm), axis=1))

# Crear un mapa centrado en el primer punto
mapa = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=13)

# Añadir puntos al mapa
for _, row in df.iterrows():
    folium.Marker([row['lat'], row['lon']], popup=f"({row['UTM X']}, {row['UTM Y']})").add_to(mapa)

# Mostrar el mapa
mapa


In [None]:
import pandas as pd
import geopandas as gpd
import folium
from shapely.geometry import Point

# Cargar el archivo CSV
# Si tienes el archivo en tu computadora, puedes usar: df = pd.read_csv('ruta_del_archivo.csv')
# data = {
#     'UTM X': [589948.0000, 589971.1250, 589967.8125, 589974.0000, 589973.3750],
#     'UTM Y': [2204938.25, 2204854.75, 2204930.25, 2204849.50, 2204851.50]
# }
# df = pd.DataFrame(data)
df = pd.read_csv('../data/raw/P_alcaparrosa.csv')


# Crear una columna 'geometry' que contiene las coordenadas UTM como puntos
gdf = gpd.GeoDataFrame(df, geometry=[Point(x, y) for x, y in zip(df['UTM X'], df['UTM Y'])])

# Definir el sistema de referencia espacial (UTM Zona 16N, cambia según tu ubicación)
gdf.set_crs(epsg=32616, inplace=True)  # EPSG:32616 es UTM Zona 16N con WGS84

# Convertir a coordenadas geográficas (latitud y longitud) - EPSG:4326 es WGS 84
gdf = gdf.to_crs(epsg=4326)

# Crear un mapa centrado en el primer punto
mapa = folium.Map(location=[gdf.geometry.y.mean(), gdf.geometry.x.mean()], zoom_start=13)

# Añadir puntos al mapa
for _, row in gdf.iterrows():
    folium.Marker([row.geometry.y, row.geometry.x], 
                  popup=f"({row['UTM X']}, {row['UTM Y']})").add_to(mapa)

# Mostrar el mapa
mapa


### Carga de datos desde Drive

In [None]:
df = pd.read_csv('https://drive.google.com/file/d/1hVHAtRXZGFWYPAyv5wLkgYIz7v6PbhKk', sep=';', skiprows=[24])

df

## Carga completa de datos y promedio para mapas

In [39]:
ruta_de_carpeta = "../data/raw"

archivos_csv = glob.glob(os.path.join(ruta_de_carpeta, "*.csv"))

# Creamos una lista para almacenar los DataFrames
dataframes = {}

# Iteramos sobre cada archivo y lo leemos usando pandas
for archivo in archivos_csv:
    df = pd.read_csv(archivo)
    nombre_archivo = archivo.split('\\')[-1]
    dataframes[nombre_archivo] = df
    
    
list(dataframes.keys())

['P_Acoculco.csv',
 'P_alcaparrosa.csv',
 'P_Azufres.csv',
 'P_Chichinautzin.csv',
 'P_Escalera.csv',
 'P_Michoa.csv',
 'P_Puruandiro.csv']

#### Cálculo de valores de media para gráfico de mapas

In [40]:
# Conversión de coordenadas 
def convert(df: pd.DataFrame) -> pd.DataFrame: 
    # Definir el sistema de coordenadas UTM (Zona 16N en este caso, cambia según sea necesario)
    proj_utm = Proj(proj='utm', zone=14, ellps='WGS84')

    # Función para convertir coordenadas UTM a latitud/longitud
    def utm_to_latlon(x, y, proj_utm):
        lon, lat = proj_utm(x, y, inverse=True)
        return lat, lon

    # Crear nuevas columnas en el DataFrame para latitud y longitud
    df['lat'], df['lon'] = zip(*df.apply(lambda row: utm_to_latlon(row['UTM X'], row['UTM Y'], proj_utm), axis=1))
    
    return df

In [41]:
# Iteracíon sobre mapas 
val_a_graficar = {}

for datos_nombre in list(dataframes.keys()):
    dataframes[datos_nombre] = convert(dataframes[datos_nombre])
    val_a_graficar[datos_nombre] = [dataframes[datos_nombre]['lat'].mean(), dataframes[datos_nombre]['lon'].mean()]
    
    
val_a_graficar


{'P_Acoculco.csv': [19.94551763857352, -98.1342090794785],
 'P_alcaparrosa.csv': [19.938287335451456, -98.1403903008043],
 'P_Azufres.csv': [19.922608931287755, -98.1446972068743],
 'P_Chichinautzin.csv': [19.08627758098732, -99.1271971420124],
 'P_Escalera.csv': [19.59937443895357, -101.03290674004415],
 'P_Michoa.csv': [19.329928048541866, -96.30251214624522],
 'P_Puruandiro.csv': [20.088816962773418, -101.49355905556486]}

In [30]:
# Guardar el diccionario en un archivo JSON
with open('../data/processed/grafico_nacional.json', 'w') as archivo_json:
    json.dump(val_a_graficar, archivo_json)

In [None]:
with open('../data/processed/grafico_nacional.json', 'r') as archivo_json:
        mi_diccionario = json.load(archivo_json)
        
mi_diccionario

In [None]:
nombres, lat, lon = [], [], []

for key, value in mi_diccionario.items():
    nombres.append(key)
    lat.append(value[0])
    lon.append(value[0])
    
datos = pd.DataFrame(data={'ubi': nombres, 'lat': lat, 'lon': lon})
datos