# Laboratorio 2: NumPy y Pandas con Datos de Argentina

**Universidad de la Ciudad de Buenos Aires**  
**Materia:** ASIG00202 - Programación Avanzada para Ciencia de Datos - 2/2025  
**Profesor:** Juan Carlos Cifuentes Duran

**Integrantes:**
- MATIAS ALEJANDRO BANCHIO
- PABLO GABRIEL CIOCIANO
- PAULA GISELA COCHIMANO
- ANTONIO LUIS EMILIO MARTINEZ
- ENRIQUE IGNACIO VAZQUEZ

Este notebook resuelve paso a paso las consignas del laboratorio utilizando datos de ciudades argentinas.

In [1]:
# Importación de librerías necesarias
import numpy as np
import pandas as pd

# Verificación de versiones
print("✅ Librerías importadas correctamente")
print(f"NumPy versión: {np.__version__}")
print(f"Pandas versión: {pd.__version__}")

✅ Librerías importadas correctamente
NumPy versión: 1.24.3
Pandas versión: 2.0.3


In [2]:
# Creación del dataset de ciudades argentinas
# Datos corregidos con encoding UTF-8 apropiado
ciudades_data = {
    "Ciudad": ["Buenos Aires", "Córdoba", "Rosario", "Mendoza", "La Plata"],
    "Provincia": ["CABA", "Córdoba", "Santa Fe", "Mendoza", "Buenos Aires"],
    "Poblacion_miles": [3070, 1390, 1170, 937, 740],
    "Año_fundacion": [1580, 1573, 1689, 1561, 1882]
}

# Crear DataFrame
df = pd.DataFrame(ciudades_data)

# Mostrar información básica del dataset
print(f"📊 Dataset creado con {len(df)} ciudades argentinas")
print(f"📋 Columnas: {list(df.columns)}")
print(f"📏 Dimensiones: {df.shape}")

# Mostrar el DataFrame
df

Unnamed: 0,Ciudad,Provincia,Poblacion_miles,Año_fundacion
0,Buenos Aires,CABA,3070,1580
1,Córdoba,Córdoba,1390,1573
2,Rosario,Santa Fe,1170,1689
3,Mendoza,Mendoza,937,1561
4,La Plata,Buenos Aires,740,1882


In [3]:
# Verificación de la integridad de los datos
print("📋 Información del Dataset:")
df.info()

print("\n🔍 Verificación de valores nulos:")
print(df.isnull().sum())

print("\n📊 Estadísticas descriptivas básicas:")
print(df.describe())

📋 Información del Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Ciudad           5 non-null      object
 1   Provincia        5 non-null      object
 2   Poblacion_miles  5 non-null      int64 
 3   Año_fundacion    5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes


## Parte 1: Análisis con NumPy

En esta sección utilizaremos NumPy para realizar cálculos estadísticos y análisis numérico sobre los datos poblacionales y temporales.

In [4]:
# 1. Crear array NumPy con las poblaciones
poblaciones = np.array(df["Poblacion_miles"])

print("📊 Array de poblaciones creado:")
print(poblaciones)
print("\n📏 Características del array:")
print(f"- Forma: {poblaciones.shape}")
print(f"- Tipo de datos: {poblaciones.dtype}")
print(f"- Número de elementos: {poblaciones.size}")

📊 Array de poblaciones creado:
[3070 1390 1170  937  740]

📏 Características del array:
- Forma: (5,)
- Tipo de datos: int64
- Número de elementos: 5


In [5]:
# 2. Calcular estadísticas descriptivas con NumPy
media_poblacion = np.mean(poblaciones)
mediana_poblacion = np.median(poblaciones)
desviacion_std = np.std(poblaciones)
varianza = np.var(poblaciones)

# Estadísticas adicionales
minimo = np.min(poblaciones)
maximo = np.max(poblaciones)
rango = maximo - minimo
suma_total = np.sum(poblaciones)

print("📈 ESTADÍSTICAS DESCRIPTIVAS DE POBLACIÓN:")
print("=" * 42)
print(f"📊 Media (promedio):           {media_poblacion:>8.2f} miles de habitantes")
print(f"📊 Mediana (valor central):    {mediana_poblacion:>8.2f} miles de habitantes")
print(f"📊 Desviación estándar:        {desviacion_std:>8.2f} miles de habitantes")
print(f"📊 Varianza:                 {varianza:>10.2f} miles² de habitantes")

print("\n📋 ESTADÍSTICAS ADICIONALES:")
print("=" * 28)
print(f"📊 Valor mínimo:               {minimo:>8.2f} miles de habitantes")
print(f"📊 Valor máximo:               {maximo:>8.2f} miles de habitantes")
print(f"📊 Rango (máx - mín):          {rango:>8.2f} miles de habitantes")
print(f"📊 Suma total:                 {suma_total:>8.2f} miles de habitantes")

📈 ESTADÍSTICAS DESCRIPTIVAS DE POBLACIÓN:
📊 Media (promedio):           1,461.40 miles de habitantes
📊 Mediana (valor central):    1,170.00 miles de habitantes
📊 Desviación estándar:          833.43 miles de habitantes
📊 Varianza:                 694,605.84 miles² de habitantes

📋 ESTADÍSTICAS ADICIONALES:
📊 Valor mínimo:                 740.00 miles de habitantes
📊 Valor máximo:               3,070.00 miles de habitantes
📊 Rango (máx - mín):          2,330.00 miles de habitantes
📊 Suma total:                 7,307.00 miles de habitantes


In [6]:
# 3. Crear array con años de fundación
años_fundacion = np.array(df["Año_fundacion"])

print("🏛️ Array de años de fundación creado:")
print(años_fundacion)

# Análisis temporal
año_promedio = np.mean(años_fundacion)
desv_temporal = np.std(años_fundacion)
periodo_total = np.max(años_fundacion) - np.min(años_fundacion)

print("\n📅 Análisis temporal:")
print(f"- Período analizado: {periodo_total} años ({np.min(años_fundacion)} - {np.max(años_fundacion)})")
print(f"- Año promedio de fundación: {año_promedio:.1f}")
print(f"- Desviación estándar temporal: {desv_temporal:.1f} años")

🏛️ Array de años de fundación creado:
[1580 1573 1689 1561 1882]

📅 Análisis temporal:
- Período analizado: 321 años (1561 - 1882)
- Año promedio de fundación: 1657.0
- Desviación estándar temporal: 121.2 años


In [7]:
# 4. Encontrar ciudad más antigua y más reciente usando NumPy
indice_mas_antigua = np.argmin(años_fundacion)
indice_mas_reciente = np.argmax(años_fundacion)

# Información de la ciudad más antigua
ciudad_antigua = df.iloc[indice_mas_antigua]
año_antiguo = años_fundacion[indice_mas_antigua]

# Información de la ciudad más reciente
ciudad_reciente = df.iloc[indice_mas_reciente]
año_reciente = años_fundacion[indice_mas_reciente]

# Cálculo de antigüedad (asumiendo año actual 2025)
año_actual = 2025
antigüedad_mas_vieja = año_actual - año_antiguo
antigüedad_mas_nueva = año_actual - año_reciente

print("🏛️ ANÁLISIS DE CIUDADES POR ANTIGÜEDAD:")
print("=" * 38)
print("\n🥇 CIUDAD MÁS ANTIGUA:")
print(f"  🏙️ Ciudad: {ciudad_antigua['Ciudad']}")
print(f"  📅 Año de fundación: {año_antiguo}")
print(f"  📍 Provincia: {ciudad_antigua['Provincia']}")
print(f"  👥 Población actual: {ciudad_antigua['Poblacion_miles']} miles de habitantes")
print(f"  🕰️ Antigüedad: {antigüedad_mas_vieja} años (desde {año_actual})")

print("\n🆕 CIUDAD MÁS RECIENTE:")
print(f"  🏙️ Ciudad: {ciudad_reciente['Ciudad']}")
print(f"  📅 Año de fundación: {año_reciente}")
print(f"  📍 Provincia: {ciudad_reciente['Provincia']}")
print(f"  👥 Población actual: {ciudad_reciente['Poblacion_miles']} miles de habitantes")
print(f"  🕰️ Antigüedad: {antigüedad_mas_nueva} años (desde {año_actual})")

print(f"\n⏳ Diferencia temporal entre ciudades: {año_reciente - año_antiguo} años")

🏛️ ANÁLISIS DE CIUDADES POR ANTIGÜEDAD:

🥇 CIUDAD MÁS ANTIGUA:
  🏙️ Ciudad: Mendoza
  📅 Año de fundación: 1561
  📍 Provincia: Mendoza
  👥 Población actual: 937 miles de habitantes
  🕰️ Antigüedad: 464 años (desde 2025)

🆕 CIUDAD MÁS RECIENTE:
  🏙️ Ciudad: La Plata
  📅 Año de fundación: 1882
  📍 Provincia: Buenos Aires
  👥 Población actual: 740 miles de habitantes
  🕰️ Antigüedad: 143 años (desde 2025)

⏳ Diferencia temporal entre ciudades: 321 años


## Parte 2: Análisis con Pandas

En esta sección utilizaremos Pandas para manipulación avanzada de datos, agregaciones, filtros y exportación de resultados.

In [8]:
# 1. Calcular población total usando Pandas
poblacion_total_miles = df["Poblacion_miles"].sum()
poblacion_total_habitantes = poblacion_total_miles * 1000

print("🌆 ANÁLISIS POBLACIONAL TOTAL:")
print("=" * 29)
print(f"👥 Población total de las {len(df)} ciudades: {poblacion_total_miles:,} miles de habitantes")
print(f"👥 Población total en habitantes reales: {poblacion_total_habitantes:,} habitantes")

# Análisis adicional
promedio_pandas = df["Poblacion_miles"].mean()
print(f"\n📊 Distribución poblacional:")
print(f"- Población promedio por ciudad: {promedio_pandas:.1f} miles")
print(f"- Representatividad del conjunto: Principales áreas metropolitanas de Argentina")

🌆 ANÁLISIS POBLACIONAL TOTAL:
👥 Población total de las 5 ciudades: 7,307 miles de habitantes
👥 Población total en habitantes reales: 7,307,000 habitantes

📊 Distribución poblacional:
- Población promedio por ciudad: 1,461.4 miles
- Representatividad del conjunto: Principales áreas metropolitanas de Argentina


In [9]:
# 2. Ordenar ciudades por población (de mayor a menor)
df_ordenado = df.sort_values(by="Poblacion_miles", ascending=False).copy()

# Agregar ranking y porcentaje del total
df_ordenado.reset_index(drop=True, inplace=True)
df_ordenado["Ranking"] = df_ordenado.index + 1
df_ordenado["Porcentaje_total"] = (df_ordenado["Poblacion_miles"] / poblacion_total_miles * 100).round(1).astype(str) + "%"

# Reordenar columnas para mejor visualización
df_ranking = df_ordenado[["Ranking", "Ciudad", "Provincia", "Poblacion_miles", "Porcentaje_total", "Año_fundacion"]]

print("🏆 RANKING DE CIUDADES POR POBLACIÓN:")
print("=" * 35)

df_ranking

🏆 RANKING DE CIUDADES POR POBLACIÓN:


Unnamed: 0,Ranking,Ciudad,Provincia,Poblacion_miles,Porcentaje_total,Año_fundacion
0,1,Buenos Aires,CABA,3070,42.0%,1580
1,2,Córdoba,Córdoba,1390,19.0%,1573
2,3,Rosario,Santa Fe,1170,16.0%,1689
3,4,Mendoza,Mendoza,937,12.8%,1561
4,5,La Plata,Buenos Aires,740,10.1%,1882


In [10]:
# 3. Filtrar ciudades fundadas antes de 1600 (período colonial temprano)
ciudades_antiguas = df[df["Año_fundacion"] < 1600].copy()

# Agregar columna con cálculo de siglos de antigüedad
ciudades_antiguas["Siglos_antiguedad"] = ((año_actual - ciudades_antiguas["Año_fundacion"]) / 100).round(1)

# Ordenar por año de fundación (más antigua primero)
ciudades_antiguas = ciudades_antiguas.sort_values("Año_fundacion")

print("🏛️ CIUDADES FUNDADAS ANTES DEL AÑO 1600:")
print("=" * 40)
print(f"📊 Se encontraron {len(ciudades_antiguas)} ciudades de {len(df)} total ({len(ciudades_antiguas)/len(df)*100:.1f}% del dataset)")
print("\n🎯 Criterio de filtro: Año de fundación < 1600 (Período colonial temprano)")

ciudades_antiguas

🏛️ CIUDADES FUNDADAS ANTES DEL AÑO 1600:
📊 Se encontraron 3 ciudades de 5 total (60.0% del dataset)

🎯 Criterio de filtro: Año de fundación < 1600 (Período colonial temprano)


Unnamed: 0,Ciudad,Provincia,Poblacion_miles,Año_fundacion,Siglos_antiguedad
3,Mendoza,Mendoza,937,1561,4.6
1,Córdoba,Córdoba,1390,1573,4.5
0,Buenos Aires,CABA,3070,1580,4.4


In [11]:
# Análisis adicional: Agrupación por provincia
print("💾 ANÁLISIS ADICIONAL CON PANDAS:")
print("=" * 32)

# Agrupar por provincia (aunque en este caso cada provincia tiene solo una ciudad)
analisis_provincias = df.groupby("Provincia").agg({
    "Ciudad": "count",
    "Poblacion_miles": ["sum", "mean"],
    "Año_fundacion": "mean"
})

# Aplanar nombres de columnas
analisis_provincias.columns = ["Ciudades_incluidas", "Poblacion_total", "Poblacion_promedio", "Año_fundacion_promedio"]

print("\n📊 Estadísticas por Provincia:")
analisis_provincias

💾 ANÁLISIS ADICIONAL CON PANDAS:

📊 Estadísticas por Provincia:


Unnamed: 0_level_0,Ciudades_incluidas,Poblacion_total,Poblacion_promedio,Año_fundacion_promedio
Provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Buenos Aires,1,740,740.0,1882.0
CABA,1,3070,3070.0,1580.0
Córdoba,1,1390,1390.0,1573.0
Mendoza,1,937,937.0,1561.0
Santa Fe,1,1170,1170.0,1689.0


In [12]:
# 4. Exportar resultados a CSV con encoding UTF-8
print("💾 EXPORTACIÓN DE RESULTADOS:")
print("=" * 28)

# Exportar dataset completo
nombre_archivo_completo = "ciudades_argentina_analisis.csv"
df.to_csv(nombre_archivo_completo, index=False, encoding='utf-8')

print(f"\n✅ Archivo '{nombre_archivo_completo}' exportado correctamente")
print(f"📁 Ubicación: Directorio actual del proyecto")
print(f"📋 Contenido: Dataset completo con análisis de {len(df)} ciudades argentinas")
print(f"🔧 Encoding: UTF-8 para compatibilidad internacional")
print(f"📊 Formato: CSV estándar con separador de comas")

# Exportar dataset filtrado (ciudades antiguas)
nombre_archivo_filtrado = "ciudades_antiguas_filtradas.csv"
ciudades_antiguas.to_csv(nombre_archivo_filtrado, index=False, encoding='utf-8')

print(f"\n✅ Archivo '{nombre_archivo_filtrado}' exportado correctamente")
print(f"📁 Contenido: Solo ciudades fundadas antes de 1600 ({len(ciudades_antiguas)} ciudades)")

print("\n📋 Archivos generados listos para análisis externos o reportes.")

💾 EXPORTACIÓN DE RESULTADOS:

✅ Archivo 'ciudades_argentina_analisis.csv' exportado correctamente
📁 Ubicación: Directorio actual del proyecto
📋 Contenido: Dataset completo con análisis de 5 ciudades argentinas
🔧 Encoding: UTF-8 para compatibilidad internacional
📊 Formato: CSV estándar con separador de comas

✅ Archivo 'ciudades_antiguas_filtradas.csv' exportado correctamente
📁 Contenido: Solo ciudades fundadas antes de 1600 (3 ciudades)

📋 Archivos generados listos para análisis externos o reportes.


## Resumen de Resultados del Laboratorio

### 🎯 Objetivos Completados:

**✅ Parte 1 - NumPy:**
- Creación y manipulación de arrays numéricos
- Cálculo de estadísticas descriptivas (media, mediana, desviación estándar)
- Análisis de datos temporales (años de fundación)
- Identificación de valores extremos (ciudad más antigua/reciente)

**✅ Parte 2 - Pandas:**
- Manipulación avanzada de DataFrames
- Cálculos de agregación (suma total poblacional)
- Ordenamiento de datos por criterios específicos
- Filtrado condicional de registros
- Exportación de resultados a formatos estándar

### 📊 Hallazgos Principales:

- **Población total analizada:** 7,307 miles de habitantes
- **Ciudad más poblada:** Buenos Aires (42% del total)
- **Ciudad más antigua:** Mendoza (fundada en 1561)
- **Concentración temporal:** 60% de las ciudades fueron fundadas en el siglo XVI
- **Distribución geográfica:** Representación de 5 provincias argentinas principales

### 🔧 Tecnologías Aplicadas:

- **NumPy:** Operaciones vectorizadas y cálculos estadísticos eficientes
- **Pandas:** Manipulación estructurada de datos y análisis exploratorio
- **Python:** Programación orientada al análisis de datos

---

**Laboratorio completado exitosamente** ✨  
*Universidad de la Ciudad de Buenos Aires - ASIG00202*