<a href="https://colab.research.google.com/github/IvanSerem/ds2-proyecto-agricola/blob/main/DataScienceII.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Analizar eventos clim√°ticos relevantes para el rendimiento agr√≠cola en Argentina y su impacto potencial en los cultivos.

Hoy aplicaremos un flujo de trabajo completo que simula un proyecto real de ciencia de datos y los preparar√° para su Tercera Entrega. Nuestra misi√≥n es transformar un gran volumen de datos crudos en una historia clara y con insights valiosos.

El plan de hoy es el siguiente:

Adquisici√≥n de Datos: Partiremos de los datos masivos que obtendremos de la API del USGS, que nos entreg√≥ un DataFrame crudo con m√°s de 8,000 terremotos y 30 columnas.

Data Wrangling (Limpieza y Enriquecimiento): Veremos que los datos crudos no son pr√°cticos para el an√°lisis. Realizaremos un proceso de limpieza para seleccionar, renombrar y transformar las columnas m√°s importantes, creando un dataset final, limpio y potente.

EDA y Storytelling (An√°lisis y Visualizaci√≥n): Con nuestro dataset ya preparado, formularemos preguntas de inter√©s y las responderemos creando visualizaciones efectivas para contar una historia.

¬øPor Qu√© No Usamos Todas las Columnas? La Necesidad de Seleccionar
Al ejecutar .info() sobre nuestro df_terremotos_crudo, vemos una lista de 30 columnas como esta:

1.1. Importaci√≥n de Librer√≠as y Definici√≥n de Par√°metros

In [45]:
# Importamos las librer√≠as esenciales
import pandas as pd
import requests
import matplotlib.pyplot as plt
import seaborn as sns

# Configuramos un estilo visual para todos nuestros gr√°ficos
sns.set_theme(style="whitegrid")

# Definimos los par√°metros de la petici√≥n
url_base = "https://power.larc.nasa.gov/api/temporal/daily/point"
a√±os_a_consultar = list(range(2014, 2024))


1.2. Extracci√≥n de Datos en Lotes

In [48]:
import pandas as pd
import requests
import time

# =========================
# Configuraci√≥n base NASA POWER
# =========================
url_base = "https://power.larc.nasa.gov/api/temporal/daily/point"
a√±os_a_consultar = list(range(2014, 2024))

# Provincias argentinas (capital provincial como punto representativo)
provincias = {
    "Buenos Aires": (-34.61, -58.38),
    "Catamarca": (-28.47, -65.78),
    "Chaco": (-27.45, -58.99),
    "Chubut": (-43.30, -65.10),
    "C√≥rdoba": (-31.42, -64.18),
    "Corrientes": (-27.47, -58.83),
    "Entre R√≠os": (-31.73, -60.53),
    "Formosa": (-26.18, -58.17),
    "Jujuy": (-24.18, -65.33),
    "La Pampa": (-36.62, -64.29),
    "La Rioja": (-29.41, -66.86),
    "Mendoza": (-32.89, -68.83),
    "Misiones": (-27.37, -55.90),
    "Neuqu√©n": (-38.95, -68.06),
    "R√≠o Negro": (-40.81, -63.00),
    "Salta": (-24.78, -65.41),
    "San Juan": (-31.53, -68.52),
    "San Luis": (-33.30, -66.34),
    "Santa Cruz": (-51.62, -69.22),
    "Santa Fe": (-31.63, -60.70),
    "Santiago del Estero": (-27.78, -64.27),
    "Tierra del Fuego": (-54.80, -68.30),
    "Tucum√°n": (-26.82, -65.22)
}

# Ac√° guardamos TODO (todas las provincias, todos los a√±os)
lista_dataframes = []

print("--- Realizando la petici√≥n en lotes (por provincia y por a√±o) con NASA POWER ---")

for provincia, (lat, lon) in provincias.items():
    print(f"\nüìç Provincia: {provincia} | lat={lat}, lon={lon}")

    for anio in a√±os_a_consultar:
        print(f"  Obteniendo datos para el a√±o {anio}...")

        params = {
            "latitude": lat,
            "longitude": lon,
            "start": f"{anio}0101",
            "end": f"{anio}1231",
            "parameters": "T2M,T2M_MAX,T2M_MIN,PRECTOTCORR,WS2M,RH2M",
            "community": "AG",
            "format": "JSON"
        }

        try:
            response = requests.get(url_base, params=params, timeout=60)
            response.raise_for_status()

            payload = response.json()

            # NASA POWER no trae "data": trae "properties/parameter"
            data_params = payload["properties"]["parameter"]

            # data_params: {variable: {YYYYMMDD: valor}}
            df_anual = pd.DataFrame(data_params)

            # convertir √≠ndice YYYYMMDD a fecha
            df_anual["date"] = pd.to_datetime(df_anual.index, format="%Y%m%d")
            df_anual["anio"] = anio
            df_anual["provincia"] = provincia
            df_anual["lat"] = lat
            df_anual["lon"] = lon

            lista_dataframes.append(df_anual.reset_index(drop=True))
            print(f"    ‚úÖ Datos {provincia} {anio}: {len(df_anual)} registros.")

            time.sleep(0.2)

        except requests.exceptions.RequestException as e:
            print(f"    ‚ùå Error en {provincia} {anio}: {e}")


--- Realizando la petici√≥n en lotes (por provincia y por a√±o) con NASA POWER ---

üìç Provincia: Buenos Aires | lat=-34.61, lon=-58.38
  Obteniendo datos para el a√±o 2014...
    ‚úÖ Datos Buenos Aires 2014: 365 registros.
  Obteniendo datos para el a√±o 2015...
    ‚úÖ Datos Buenos Aires 2015: 365 registros.
  Obteniendo datos para el a√±o 2016...
    ‚úÖ Datos Buenos Aires 2016: 366 registros.
  Obteniendo datos para el a√±o 2017...
    ‚úÖ Datos Buenos Aires 2017: 365 registros.
  Obteniendo datos para el a√±o 2018...
    ‚úÖ Datos Buenos Aires 2018: 365 registros.
  Obteniendo datos para el a√±o 2019...
    ‚úÖ Datos Buenos Aires 2019: 365 registros.
  Obteniendo datos para el a√±o 2020...
    ‚úÖ Datos Buenos Aires 2020: 366 registros.
  Obteniendo datos para el a√±o 2021...
    ‚úÖ Datos Buenos Aires 2021: 365 registros.
  Obteniendo datos para el a√±o 2022...
    ‚úÖ Datos Buenos Aires 2022: 365 registros.
  Obteniendo datos para el a√±o 2023...
    ‚úÖ Datos Buenos Aires 202

1.3. Inspeccionando los Resultados del Bucle

In [49]:
# Verificamos cu√°ntos DataFrames hemos recolectado
# Deber√≠a ser uno por cada a√±o que no dio error.
print(f"Se han recolectado {len(lista_dataframes_anuales)} DataFrames en total.")

# Inspeccionemos el primer DataFrame de la lista para ver su estructura y contenido
# Este corresponde a los datos del primer a√±o que consultamos (2020)
if lista_dataframes_anuales:
    print("\n--- Analizando el PRIMER DataFrame de la lista (datos del a√±o 2020) ---")

    # Seleccionamos el primer elemento de la lista
    primer_df = lista_dataframes_anuales[0]

    # Mostramos su forma y sus primeras filas
    print(f"Forma del primer DataFrame: {primer_df.shape}")
    print("Primeras 3 filas:")
    display(primer_df.head(3))

Se han recolectado 10 DataFrames en total.

--- Analizando el PRIMER DataFrame de la lista (datos del a√±o 2020) ---
Forma del primer DataFrame: (365, 8)
Primeras 3 filas:


Unnamed: 0,T2M,T2M_MAX,T2M_MIN,PRECTOTCORR,WS2M,RH2M,date,anio
0,27.94,30.52,25.09,23.96,2.83,65.29,2014-01-01,2014
1,24.3,25.51,22.09,14.94,6.22,71.09,2014-01-02,2014
2,21.41,23.97,18.59,0.0,5.18,54.43,2014-01-03,2014


1.4. Consolidaci√≥n y Verificaci√≥n Finalmente, unimos todos los DataFrames de nuestra lista en una √∫nica tabla maestra con pd.concat y realizamos una primera verificaci√≥n.

In [50]:
# 1.4. Consolidaci√≥n y Verificaci√≥n

# Verificamos que la lista no est√© vac√≠a antes de continuar
if lista_dataframes:
    # Unimos todos los DataFrames (todas las provincias y a√±os)
    df_clima_crudo = pd.concat(lista_dataframes, ignore_index=True)

    print("\n--- ¬°DataFrame Consolidado Creado Exitosamente! ---")
    print(f"Forma del DataFrame final: {df_clima_crudo.shape}")

    # Informaci√≥n general para un primer diagn√≥stico
    print("\n--- Informaci√≥n General ---")
    df_clima_crudo.info()

    # Verificaci√≥n r√°pida de cobertura
    print("\n--- Verificaciones b√°sicas ---")
    print("Provincias incluidas:", df_clima_crudo["provincia"].nunique())
    print("A√±os incluidos:", df_clima_crudo["anio"].unique())
    print("Rango de fechas:", df_clima_crudo["date"].min(), "‚Üí", df_clima_crudo["date"].max())
else:
    print("No se pudieron cargar los datos.")



--- ¬°DataFrame Consolidado Creado Exitosamente! ---
Forma del DataFrame final: (83996, 11)

--- Informaci√≥n General ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83996 entries, 0 to 83995
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   T2M          83996 non-null  float64       
 1   T2M_MAX      83996 non-null  float64       
 2   T2M_MIN      83996 non-null  float64       
 3   PRECTOTCORR  83996 non-null  float64       
 4   WS2M         83996 non-null  float64       
 5   RH2M         83996 non-null  float64       
 6   date         83996 non-null  datetime64[ns]
 7   anio         83996 non-null  int64         
 8   provincia    83996 non-null  object        
 9   lat          83996 non-null  float64       
 10  lon          83996 non-null  float64       
dtypes: datetime64[ns](1), float64(8), int64(1), object(1)
memory usage: 7.0+ MB

--- Verificaciones b√°sicas ---
Provincias inclui

‚ÄúA diferencia del dataset de terremotos, el dataset clim√°tico proveniente de NASA POWER no presenta estructuras anidadas ni metadata t√©cnica redundante. Por lo tanto, el proceso de data wrangling se enfoc√≥ principalmente en la selecci√≥n de variables clim√°ticas relevantes, la estandarizaci√≥n de nombres y la creaci√≥n de nuevas variables temporales y derivadas.‚Äù

In [61]:
# ============================================
# M√ìDULO 2 ‚Äì DATA WRANGLING
# Dataset Clim√°tico ‚Äì NASA POWER
# ============================================

import pandas as pd

# ------------------------------------------------
# 1. PARTIMOS DEL DATAFRAME CRUDO
# ------------------------------------------------
# Se asume que df_clima_crudo ya fue creado en el M√≥dulo 1
# (adquisici√≥n y consolidaci√≥n de datos)

print("Forma del DataFrame crudo:")
print(df_clima_crudo.shape)

# ------------------------------------------------
# 2. SELECCI√ìN DE COLUMNAS RELEVANTES
# ------------------------------------------------
columnas_relevantes = [
    "T2M",
    "T2M_MAX",
    "T2M_MIN",
    "PRECTOTCORR",
    "WS2M",
    "RH2M",
    "date",
    "anio",
    "provincia",
    "lat",
    "lon"
]

df_clima_limpio = df_clima_crudo[columnas_relevantes].copy()

print("\nColumnas seleccionadas:")
print(df_clima_limpio.columns)

# ------------------------------------------------
# 3. RENOMBRADO DE COLUMNAS (CLARIDAD SEM√ÅNTICA)
# ------------------------------------------------
df_clima_limpio = df_clima_limpio.rename(columns={
    "T2M": "temp_media",
    "T2M_MAX": "temp_max",
    "T2M_MIN": "temp_min",
    "PRECTOTCORR": "precipitacion",
    "WS2M": "vel_viento",
    "RH2M": "humedad",
    "date": "fecha",
    "anio": "anio",
    "provincia": "provincia",
    "lat": "latitud",
    "lon": "longitud"
})

# ------------------------------------------------
# 4. VERIFICACI√ìN GENERAL DEL DATASET
# ------------------------------------------------
print("\n--- Informaci√≥n del DataFrame Limpio ---")
df_clima_limpio.info()

print("\n--- Primeras filas del DataFrame Limpio ---")
df_clima_limpio.head()


Forma del DataFrame crudo:
(83996, 11)

Columnas seleccionadas:
Index(['T2M', 'T2M_MAX', 'T2M_MIN', 'PRECTOTCORR', 'WS2M', 'RH2M', 'date',
       'anio', 'provincia', 'lat', 'lon'],
      dtype='object')

--- Informaci√≥n del DataFrame Limpio ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83996 entries, 0 to 83995
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   temp_media     83996 non-null  float64       
 1   temp_max       83996 non-null  float64       
 2   temp_min       83996 non-null  float64       
 3   precipitacion  83996 non-null  float64       
 4   vel_viento     83996 non-null  float64       
 5   humedad        83996 non-null  float64       
 6   fecha          83996 non-null  datetime64[ns]
 7   anio           83996 non-null  int64         
 8   provincia      83996 non-null  object        
 9   latitud        83996 non-null  float64       
 10  longitud       83996 non-nu

Unnamed: 0,temp_media,temp_max,temp_min,precipitacion,vel_viento,humedad,fecha,anio,provincia,latitud,longitud
0,27.94,30.52,25.09,23.96,2.83,65.29,2014-01-01,2014,Buenos Aires,-34.61,-58.38
1,24.3,25.51,22.09,14.94,6.22,71.09,2014-01-02,2014,Buenos Aires,-34.61,-58.38
2,21.41,23.97,18.59,0.0,5.18,54.43,2014-01-03,2014,Buenos Aires,-34.61,-58.38
3,24.35,28.11,20.04,0.0,5.16,47.29,2014-01-04,2014,Buenos Aires,-34.61,-58.38
4,26.02,30.74,20.78,0.0,3.16,61.97,2014-01-05,2014,Buenos Aires,-34.61,-58.38


In [73]:
df_clima_limpio["vel_viento_kmh"] = (
    df_clima_limpio["vel_viento"] * 3.6
).round(1)


In [72]:
df_clima_limpio.head()


Unnamed: 0,temp_media,temp_max,temp_min,precipitacion,vel_viento,humedad,fecha,anio,provincia,latitud,longitud,vel_viento_kmh
0,27.94,30.52,25.09,23.96,2.83,65.29,2014-01-01,2014,Buenos Aires,-34.61,-58.38,10.2
1,24.3,25.51,22.09,14.94,6.22,71.09,2014-01-02,2014,Buenos Aires,-34.61,-58.38,22.4
2,21.41,23.97,18.59,0.0,5.18,54.43,2014-01-03,2014,Buenos Aires,-34.61,-58.38,18.6
3,24.35,28.11,20.04,0.0,5.16,47.29,2014-01-04,2014,Buenos Aires,-34.61,-58.38,18.6
4,26.02,30.74,20.78,0.0,3.16,61.97,2014-01-05,2014,Buenos Aires,-34.61,-58.38,11.4
