# Taller Integrador (Parte 1): Exploración y Análisis Inicial de un Dataset Real 📊

## Objetivo del Taller 🎯

En este taller, aplicaremos las habilidades y herramientas de Python que hemos aprendido hasta ahora (lectura de archivos, listas, diccionarios, bucles, funciones y principios de modularidad) para realizar una exploración y un análisis inicial de un conjunto de datos "real". El objetivo es familiarizarnos con el proceso de examinar datos, extraer información básica y responder preguntas sencillas utilizando programación en Python.

## El Conjunto de Datos: `datos_estudiantes.csv` 🎓

Para este taller, utilizaremos un archivo CSV (Valores Separados por Comas) que contiene información básica sobre un grupo de estudiantes. El archivo se llamará `datos_estudiantes.csv`.

**Estructura del archivo:**
* `ID`: Identificador único del estudiante (entero).
* `Nombre`: Nombre completo del estudiante (cadena de texto).
* `Edad`: Edad del estudiante en años (entero).
* `Genero`: Género del estudiante (cadena de texto, ej: "Masculino", "Femenino").
* `PromedioGeneral`: Promedio general de calificaciones del estudiante (flotante).
* `CiudadOrigen`: Ciudad de origen del estudiante (cadena de texto).

**Contenido de `datos_estudiantes.csv`:**
```csv
ID,Nombre,Edad,Genero,PromedioGeneral,CiudadOrigen
1,Ana Perez,20,Femenino,4.5,Bogota
2,Luis Rojas,22,Masculino,3.8,Medellin
3,Sofia Castro,19,Femenino,4.1,Bogota
4,Carlos Vera,21,Masculino,3.5,Cali
5,Maria Lopez,20,Femenino,4.8,Medellin
6,Juan Diaz,23,Masculino,3.2,Pasto
7,Laura Gomez,18,Femenino,4.6,Bogota
8,Pedro Navas,22,Masculino,3.9,Cali
9,Lucia Mora,21,Femenino,4.0,Medellin
10,Andres Silva,20,Masculino,3.7,Bogota
11,Camila Ortiz,22,Femenino,3.9,Pasto
12,David Niño,19,Masculino,4.2,Cali
```

**Instrucción:** Crea un archivo llamado `datos_estudiantes.csv` en el mismo directorio que este notebook y copia el contenido de arriba en él.

## Herramientas Aprendidas a Utilizar 🛠️

Para este análisis, nos basaremos en:
* **Lectura de archivos:** Para cargar los datos desde el archivo CSV.
* **Listas y Diccionarios:** Para almacenar y estructurar los datos en memoria.
* **Bucles (`for`, `while`):** Para iterar sobre los datos y realizar cálculos.
* **Condicionales (`if`, `elif`, `else`):** Para filtrar datos o tomar decisiones.
* **Funciones:** Para encapsular lógica reutilizable (por ejemplo, una función para cargar los datos, funciones para calcular estadísticas específicas, etc.).
* **(Opcional) Modularidad:** Si lo deseas, puedes crear un archivo `.py` (ej: `analizador_estudiantes.py`) con tus funciones de ayuda e importarlas aquí.

---

## Pasos del Análisis Exploratorio 🔎

### Paso 1: Carga de Datos

El primer paso es leer el archivo `datos_estudiantes.csv` y cargar su contenido en una estructura de datos adecuada en Python, como una lista de diccionarios, donde cada diccionario representa a un estudiante.

In [None]:
import csv # El módulo csv puede facilitar la lectura

def cargar_datos_estudiantes(ruta_archivo):
    """Carga los datos de estudiantes desde un archivo CSV."""
    estudiantes = []
    try:
        with open(ruta_archivo, mode='r', newline='', encoding='utf-8') as archivo_csv:
            lector = csv.DictReader(archivo_csv) # DictReader es muy útil aquí
            for fila in lector:
                try:
                    # Convertir tipos de datos adecuadamente
                    fila['ID'] = int(fila['ID'])
                    fila['Edad'] = int(fila['Edad'])
                    fila['PromedioGeneral'] = float(fila['PromedioGeneral'])
                    estudiantes.append(fila)
                except ValueError as ve:
                    print(f"Advertencia: Fila con datos incorrectos omitida: {fila} - Error: {ve}")
    except FileNotFoundError:
        print(f"Error: El archivo '{ruta_archivo}' no fue encontrado.")
        return None
    except Exception as e:
        print(f"Ocurrió un error inesperado al cargar los datos: {e}")
        return None
    return estudiantes

# Ruta al archivo de datos
archivo_estudiantes = "datos_estudiantes.csv"

# Cargar los datos
lista_estudiantes = cargar_datos_estudiantes(archivo_estudiantes)

# Verificar si se cargaron los datos
if lista_estudiantes:
    print(f"Se cargaron {len(lista_estudiantes)} registros de estudiantes.")
else:
    print("No se pudieron cargar los datos de estudiantes.")

### Paso 2: Inspección Inicial de los Datos

Una vez cargados los datos, es importante realizar una inspección básica para entender su estructura y contenido.
* Mostrar los primeros 3-5 registros.
* Mostrar el número total de registros.
* Identificar las columnas (claves del diccionario) disponibles.

In [None]:
if lista_estudiantes:
    # Mostrar los primeros 3 registros
    print("\n--- Primeros 3 Estudiantes ---")
    for i in range(min(3, len(lista_estudiantes))):
        print(lista_estudiantes[i])
    
    # Número total de registros (ya lo imprimimos, pero podemos confirmarlo)
    print(f"\nNúmero total de estudiantes: {len(lista_estudiantes)}")
    
    # Columnas disponibles (claves del primer diccionario, si existe)
    if lista_estudiantes:
        print(f"\nColumnas disponibles: {list(lista_estudiantes[0].keys())}")

### Paso 3: Estadísticas Descriptivas Básicas

Calculemos algunas estadísticas básicas para entender mejor las características de nuestros datos. Implementa funciones si lo consideras necesario.

1.  **Edades:**
    * Edad mínima.
    * Edad máxima.
    * Promedio de edad.
2.  **Promedio General:**
    * Promedio general mínimo.
    * Promedio general máximo.
    * Promedio de los promedios generales de todos los estudiantes.
3.  **Distribución por Género:**
    * Contar cuántos estudiantes hay de cada género.
4.  **Distribución por Ciudad de Origen:**
    * Listar las ciudades de origen únicas.
    * Contar cuántos estudiantes provienen de cada ciudad.

#### 3.1 Estadísticas de Edades

In [None]:
if lista_estudiantes:
    edades = [estudiante['Edad'] for estudiante in lista_estudiantes]
    
    edad_minima = min(edades)
    edad_maxima = max(edades)
    promedio_edad = sum(edades) / len(edades) if edades else 0
    
    print("\n--- Estadísticas de Edades ---")
    print(f"Edad mínima: {edad_minima}")
    print(f"Edad máxima: {edad_maxima}")
    print(f"Promedio de edad: {promedio_edad:.2f}")

#### 3.2 Estadísticas de Promedio General

In [None]:
if lista_estudiantes:
    promedios_generales = [estudiante['PromedioGeneral'] for estudiante in lista_estudiantes]
    
    prom_min = min(promedios_generales)
    prom_max = max(promedios_generales)
    promedio_de_promedios = sum(promedios_generales) / len(promedios_generales) if promedios_generales else 0
    
    print("\n--- Estadísticas de Promedio General ---")
    print(f"Promedio general mínimo: {prom_min}")
    print(f"Promedio general máximo: {prom_max}")
    print(f"Promedio de los promedios generales: {promedio_de_promedios:.2f}")

#### 3.3 Distribución por Género

In [None]:
if lista_estudiantes:
    conteo_genero = {}
    for estudiante in lista_estudiantes:
        genero = estudiante['Genero']
        if genero in conteo_genero:
            conteo_genero[genero] += 1
        else:
            conteo_genero[genero] = 1
            
    print("\n--- Distribución por Género ---")
    for genero, cantidad in conteo_genero.items():
        print(f"{genero}: {cantidad}")

#### 3.4 Distribución por Ciudad de Origen

In [None]:
if lista_estudiantes:
    conteo_ciudad = {}
    ciudades_unicas = []
    
    for estudiante in lista_estudiantes:
        ciudad = estudiante['CiudadOrigen']
        if ciudad not in ciudades_unicas:
            ciudades_unicas.append(ciudad)
        
        if ciudad in conteo_ciudad:
            conteo_ciudad[ciudad] += 1
        else:
            conteo_ciudad[ciudad] = 1
            
    print("\n--- Distribución por Ciudad de Origen ---")
    print(f"Ciudades de origen únicas: {', '.join(sorted(ciudades_unicas))}")
    print("Conteo de estudiantes por ciudad:")
    for ciudad, cantidad in conteo_ciudad.items():
        print(f"- {ciudad}: {cantidad}")

### Paso 4: Respondiendo Preguntas Simples sobre los Datos

Utiliza tus habilidades para responder las siguientes preguntas:

1.  ¿Cuántos estudiantes tienen un promedio general superior a 4.0?
2.  ¿Cuál es el nombre y el promedio del estudiante (o uno de los estudiantes, si hay empate) con el promedio general más alto?
3.  ¿Cuántos estudiantes son menores de 20 años?
4.  (Opcional) ¿Cuál es el promedio de edad de los estudiantes de 'Bogota'?

#### 4.1 Estudiantes con promedio > 4.0

In [None]:
if lista_estudiantes:
    estudiantes_alto_promedio = 0
    for estudiante in lista_estudiantes:
        if estudiante['PromedioGeneral'] > 4.0:
            estudiantes_alto_promedio += 1
    print(f"\nNúmero de estudiantes con promedio > 4.0: {estudiantes_alto_promedio}")

#### 4.2 Estudiante con el promedio más alto

In [None]:
if lista_estudiantes:
    mejor_estudiante = None
    promedio_mas_alto = -1.0 # Asumir un valor inicial bajo

    for estudiante in lista_estudiantes:
        if estudiante['PromedioGeneral'] > promedio_mas_alto:
            promedio_mas_alto = estudiante['PromedioGeneral']
            mejor_estudiante = estudiante
            
    if mejor_estudiante:
        print(f"\nEstudiante con el promedio más alto: {mejor_estudiante['Nombre']} (Promedio: {mejor_estudiante['PromedioGeneral']})")
    else:
        print("\nNo se pudo determinar el estudiante con el promedio más alto.")

#### 4.3 Estudiantes menores de 20 años

In [None]:
if lista_estudiantes:
    menores_de_20 = 0
    for estudiante in lista_estudiantes:
        if estudiante['Edad'] < 20:
            menores_de_20 += 1
    print(f"\nNúmero de estudiantes menores de 20 años: {menores_de_20}")

#### 4.4 (Opcional) Promedio de edad de estudiantes de 'Bogota'

In [None]:
if lista_estudiantes:
    edades_bogota = []
    for estudiante in lista_estudiantes:
        if estudiante['CiudadOrigen'] == 'Bogota':
            edades_bogota.append(estudiante['Edad'])
    
    if edades_bogota:
        promedio_edad_bogota = sum(edades_bogota) / len(edades_bogota)
        print(f"\nPromedio de edad de estudiantes de Bogotá: {promedio_edad_bogota:.2f}")
    else:
        print("\nNo hay estudiantes de Bogotá para calcular el promedio de edad.")

---

## Conclusiones Iniciales y Próximos Pasos 🤔

¡Felicidades por completar esta exploración inicial!

Reflexiona sobre lo que has descubierto:
* ¿Qué te pareció el proceso de analizar datos usando Python básico?
* ¿Qué desafíos encontraste?
* ¿Qué tipo de visualizaciones (gráficos) crees que ayudarían a entender mejor estos datos? (Aunque no las hemos implementado aquí).

Este ejercicio demuestra cómo podemos empezar a extraer información valiosa de los datos con herramientas fundamentales. En módulos futuros de un curso más extenso de ciencia de datos, aprenderías a usar librerías especializadas como **Pandas** para la manipulación de datos y **Matplotlib/Seaborn** para la visualización, lo que hace este tipo de tareas mucho más eficientes y potentes, especialmente con datasets más grandes y complejos.