In [1]:
# ============================================================================
# LECTURA Y ANÁLISIS DE DATOS DE TEMPERATURAS GLOBALES POR PAÍS
# Archivo: GlobalLandTemperaturesByCountry.csv
# ============================================================================

# Importar las librerías necesarias para el análisis de datos
import pandas as pd
import os

# ----------------------------------------------------------------------------
# 1. DEFINIR LA RUTA DEL ARCHIVO
# ----------------------------------------------------------------------------
# Usamos os.path.join para asegurar compatibilidad entre sistemas operativos
ruta_archivo = os.path.join('raw_data', 'GlobalLandTemperaturesByCountry.csv')

# Verificar si el archivo existe antes de intentar leerlo
if not os.path.exists(ruta_archivo):
    print(f"❌ Error: El archivo {ruta_archivo} no existe.")
else:
    print(f"✅ Leyendo el archivo: {ruta_archivo}\n")
    
    # ------------------------------------------------------------------------
    # 2. LEER EL ARCHIVO CSV
    # ------------------------------------------------------------------------
    # Leer el archivo CSV usando pandas
    # - parse_dates=['dt']: convierte automáticamente la columna 'dt' a formato datetime
    # - encoding='utf-8': especifica la codificación del archivo
    df_temperaturas = pd.read_csv(
        ruta_archivo,
        parse_dates=['dt'],  # Convertir la columna de fecha a tipo datetime
        encoding='utf-8'     # Especificar la codificación del archivo
    )
    
    # ------------------------------------------------------------------------
    # 3. INFORMACIÓN GENERAL DEL DATASET
    # ------------------------------------------------------------------------
    print("="*70)
    print("📊 INFORMACIÓN GENERAL DEL DATASET")
    print("="*70)
    
    # Dimensiones del dataset (filas, columnas)
    print(f"\n📐 Dimensiones: {df_temperaturas.shape[0]:,} filas x {df_temperaturas.shape[1]} columnas")
    
    # Mostrar los nombres de las columnas
    print(f"\n📋 Columnas del dataset:")
    for i, columna in enumerate(df_temperaturas.columns, 1):
        print(f"   {i}. {columna}")
    
    # Mostrar información detallada del dataframe (tipos de datos, memoria)
    print("\n" + "-"*70)
    print("ℹ️  Información detallada:")
    print("-"*70)
    df_temperaturas.info()
    
    # ------------------------------------------------------------------------
    # 4. VISTA PREVIA DE LOS DATOS
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("👀 PRIMERAS 10 FILAS DEL DATASET")
    print("="*70)
    display(df_temperaturas.head(10))
    
    # ------------------------------------------------------------------------
    # 5. ESTADÍSTICAS DESCRIPTIVAS
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("📈 ESTADÍSTICAS DESCRIPTIVAS")
    print("="*70)
    display(df_temperaturas.describe())
    
    # ------------------------------------------------------------------------
    # 6. ANÁLISIS DE VALORES NULOS
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("🔍 VALORES NULOS POR COLUMNA")
    print("="*70)
    
    # Contar valores nulos por columna
    valores_nulos = df_temperaturas.isnull().sum()
    porcentaje_nulos = (valores_nulos / len(df_temperaturas)) * 100
    
    # Crear un dataframe con la información de valores nulos
    df_nulos = pd.DataFrame({
        'Columna': valores_nulos.index,
        'Valores Nulos': valores_nulos.values,
        'Porcentaje (%)': porcentaje_nulos.values.round(2)
    })
    display(df_nulos)
    
    # ------------------------------------------------------------------------
    # 7. INFORMACIÓN DE PAÍSES
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("🌍 PAÍSES EN EL DATASET")
    print("="*70)
    
    # Obtener la lista de países únicos
    paises_unicos = df_temperaturas['Country'].unique()
    print(f"\n📌 Total de países: {len(paises_unicos)}")
    
    print(f"\n🔝 Primeros 20 países:")
    for i, pais in enumerate(paises_unicos[:20], 1):
        print(f"   {i:2d}. {pais}")
    
    # ------------------------------------------------------------------------
    # 8. RANGO DE FECHAS
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("📅 RANGO DE FECHAS")
    print("="*70)
    
    fecha_inicial = df_temperaturas['dt'].min()
    fecha_final = df_temperaturas['dt'].max()
    periodo_dias = (fecha_final - fecha_inicial).days
    periodo_años = periodo_dias / 365.25
    
    print(f"\n📍 Fecha inicial: {fecha_inicial.strftime('%Y-%m-%d')}")
    print(f"📍 Fecha final:   {fecha_final.strftime('%Y-%m-%d')}")
    print(f"⏱️  Período total: {periodo_dias:,} días (~{periodo_años:.1f} años)")
    
    # ------------------------------------------------------------------------
    # 9. CONFIRMACIÓN DE CARGA
    # ------------------------------------------------------------------------
    print("\n" + "="*70)
    print("✅ Dataset cargado exitosamente en la variable 'df_temperaturas'")
    print("="*70)


✅ Leyendo el archivo: raw_data\GlobalLandTemperaturesByCountry.csv

📊 INFORMACIÓN GENERAL DEL DATASET

📐 Dimensiones: 577,462 filas x 4 columnas

📋 Columnas del dataset:
   1. dt
   2. AverageTemperature
   3. AverageTemperatureUncertainty
   4. Country

----------------------------------------------------------------------
ℹ️  Información detallada:
----------------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 577462 entries, 0 to 577461
Data columns (total 4 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   dt                             577462 non-null  datetime64[ns]
 1   AverageTemperature             544811 non-null  float64       
 2   AverageTemperatureUncertainty  545550 non-null  float64       
 3   Country                        577462 non-null  object        
dtypes: datetime64[ns](1), float64(2), object(1)
memory us

Unnamed: 0,dt,AverageTemperature,AverageTemperatureUncertainty,Country
0,1743-11-01,4.384,2.294,Åland
1,1743-12-01,,,Åland
2,1744-01-01,,,Åland
3,1744-02-01,,,Åland
4,1744-03-01,,,Åland
5,1744-04-01,1.53,4.68,Åland
6,1744-05-01,6.702,1.789,Åland
7,1744-06-01,11.609,1.577,Åland
8,1744-07-01,15.342,1.41,Åland
9,1744-08-01,,,Åland



📈 ESTADÍSTICAS DESCRIPTIVAS


Unnamed: 0,dt,AverageTemperature,AverageTemperatureUncertainty
count,577462,544811.0,545550.0
mean,1909-04-11 16:09:14.692083712,17.193354,1.019057
min,1743-11-01 00:00:00,-37.658,0.052
25%,1862-12-01 00:00:00,10.025,0.323
50%,1914-04-01 00:00:00,20.901,0.571
75%,1964-03-01 00:00:00,25.814,1.206
max,2013-09-01 00:00:00,38.842,15.003
std,,10.953966,1.20193



🔍 VALORES NULOS POR COLUMNA


Unnamed: 0,Columna,Valores Nulos,Porcentaje (%)
0,dt,0,0.0
1,AverageTemperature,32651,5.65
2,AverageTemperatureUncertainty,31912,5.53
3,Country,0,0.0



🌍 PAÍSES EN EL DATASET

📌 Total de países: 243

🔝 Primeros 20 países:
    1. Åland
    2. Afghanistan
    3. Africa
    4. Albania
    5. Algeria
    6. American Samoa
    7. Andorra
    8. Angola
    9. Anguilla
   10. Antarctica
   11. Antigua And Barbuda
   12. Argentina
   13. Armenia
   14. Aruba
   15. Asia
   16. Australia
   17. Austria
   18. Azerbaijan
   19. Bahamas
   20. Bahrain

📅 RANGO DE FECHAS

📍 Fecha inicial: 1743-11-01
📍 Fecha final:   2013-09-01
⏱️  Período total: 98,555 días (~269.8 años)

✅ Dataset cargado exitosamente en la variable 'df_temperaturas'
