# PRACTICAS (OPCIONALES)

## Python

##### Ejercicio de Listas (Intermedio - Filtrado y Transformación):

- Tienes una lista de frases: `frases = ["Hola mundo", "Programando en Python", "Listas y tuplas son útiles", "Diccionarios clave-valor", "Sets para conjuntos únicos"]`.
- Crea una nueva lista llamada `frases_cortas` que contenga solo las frases de la lista `frases` que tengan menos de 25 caracteres (incluyendo espacios).
- Luego, crea otra lista llamada `frases_mayusculas_cortas` que contenga las frases de `frases_cortas` convertidas a mayúsculas.
- Finalmente, imprime las listas `frases_cortas` y `frases_mayusculas_cortas`

In [1]:
frases = ["Hola mundo", "Programando en Python", "Listas y tuplas son útiles", "Diccionarios clave-valor", "Sets para conjuntos únicos"]

frases_cortas = [frase for frase in frases if len(frase) < 25] # Filtro las frases que tengan menos de 25 caracteres
frases_mayusculas_cortas = [frase.upper() for frase in frases_cortas] # Transformo las frases a mayúsculas
print(frases_cortas) # Output: ['Hola mundo', 'Programando en Python', 'Diccionarios clave-valor']
print(frases_mayusculas_cortas) # Output: ['HOLA MUNDO', 'PROGRAMANDO EN PYTHON', 'DICIONARIOS CLAVE-VALOR']

['Hola mundo', 'Programando en Python', 'Diccionarios clave-valor']
['HOLA MUNDO', 'PROGRAMANDO EN PYTHON', 'DICCIONARIOS CLAVE-VALOR']


##### Ejercicio de Tuplas y Listas (Combinación - Datos Inmutables y Mutables):

- Imagina que estás trabajando con datos de estudiantes. Tienes una lista de tuplas, donde cada tupla representa a un estudiante y contiene su nombre (cadena), su edad (entero) y su lista de materias aprobadas (lista de cadenas).
Python

```python
estudiantes_data = [
    ("Ana", 20, ["Matemáticas", "Física"]),
    ("Carlos", 22, ["Programación", "Química", "Matemáticas"]),
    ("Sofía", 21, ["Literatura", "Historia"]),
    ("David", 19, ["Física", "Programación"])
]
```
- Crea una función llamada `materias_por_estudiante(lista_estudiantes)` que tome como argumento `estudiantes_data`.
- La función debe retornar un diccionario. Las claves del diccionario deben ser los nombres de los estudiantes (extraídos de las tuplas), y los valores deben ser las listas de materias aprobadas de cada estudiante.
- Llama a la función con `estudiantes_data` e imprime el diccionario resultante.

In [28]:
estudiantes_data = [
    ("Ana", 20, ["Matemáticas", "Física"]),
    ("Carlos", 22, ["Programación", "Química", "Matemáticas"]),
    ("Sofía", 21, ["Literatura", "Historia"]),
    ("David", 19, ["Física", "Programación"])
]

def materias_por_estudiantes(lista_estudiantes):
    """
Convierte una lista de estudiantes con sus materias en un diccionario.

Cada estudiante será una clave en el diccionario, y su respectiva lista de materias será el valor asociado.

Parameters:
    lista_estudiantes (list): Lista de tuplas donde cada tupla contiene el nombre de un estudiante y su lista de materias.

Returns:
    dict: Diccionario donde las claves son los nombres de los estudiantes y los valores son listas de materias.
"""

    estudiantes = {}
    for estudiante in lista_estudiantes:
        nombre_estudiante = estudiante[0]  # Nombre del estudiante (string)
        materias_estudiante = estudiante[2] # Lista de materias (list)
        estudiantes[nombre_estudiante] = materias_estudiante
    return estudiantes
estudiantes = materias_por_estudiantes(estudiantes_data)
print(estudiantes) # Output: {'Ana': ['Matemáticas', 'Física'], 'Carlos': [''Programación', 'Química', 'Matemáticas'], 'Sofía': ['Literatura', 'Historia'], 'David': ['Física', 'Programación']}

{'Ana': ['Matemáticas', 'Física'], 'Carlos': ['Programación', 'Química', 'Matemáticas'], 'Sofía': ['Literatura', 'Historia'], 'David': ['Física', 'Programación']}


##### Ejercicio de Diccionarios (Avanzado - Anidamiento y Búsqueda):

- Tienes un diccionario que representa un árbol genealógico. Las claves del diccionario son nombres de personas, y los valores son diccionarios anidados que representan a sus padres (con claves "padre" y "madre", y valores como nombres o `None` si no se conoce al padre/madre).
Python

```python
arbol_genealogico = {
    "Juan": {"padre": "Pedro", "madre": "María"},
    "María": {"padre": "Luis", "madre": "Ana"},
    "Pedro": {"padre": "Carlos", "madre": "Elena"},
    "Ana": {"padre": None, "madre": "Isabel"},
    "Carlos": {"padre": None, "madre": None},
    "Elena": {"padre": None, "madre": None},
    "Luis": {"padre": None, "madre": None},
    "Isabel": {"padre": None, "madre": None}
}
```
- Crea una función llamada `abuelos(arbol, nombre_persona)` que tome como argumentos el diccionario `arbol_genealogico` y el `nombre_persona` (una cadena).
- La función debe retornar una tupla con los nombres de los cuatro abuelos de `nombre_persona` (abuelo paterno, abuela paterna, abuelo materno, abuela materna). Si algún abuelo no se conoce (es `None` en el diccionario), debe retornar `None` en esa posición de la tupla.
- Por ejemplo, para `nombre_persona = "Juan"`, la función debería retornar algo como `("Carlos", "Elena", "Luis", "Ana")`.
- Llama a la función con `arbol_genealogico` y `"Juan"` e imprime el resultado. Prueba también con otros nombres en el árbol.

In [None]:
# Definimos el diccionario del árbol genealógico
arbol_genealogico = {
    "Juan": {"padre": "Pedro", "madre": "María"},
    "María": {"padre": "Luis", "madre": "Ana"},
    "Pedro": {"padre": "Carlos", "madre": "Elena"},
    "Ana": {"padre": None, "madre": "Isabel"},
    "Carlos": {"padre": None, "madre": None},
    "Elena": {"padre": None, "madre": None},
    "Luis": {"padre": None, "madre": None},
    "Isabel": {"padre": None, "madre": None}
}
# Definimos la función para obtener la información de un individuo
def abuelos(arbol, nombre_persona):
    """
Obtiene los nombres de los abuelos paternos y maternos de una persona.

Parameters:
    arbol (dict): Diccionario que representa el árbol genealógico, donde las claves son nombres de personas 
                  y los valores contienen información sobre sus padres.
    nombre_persona (str): Nombre de la persona de quien se desean obtener los abuelos.

Returns:
    tuple: Una tupla con cuatros elementos: 
           - El primer elemento es el nombre del abuelo paterno
           - El segundo el de la abuela paterna.
           - El tercer elemento es el nombre del abuelo materno
           - El cuarto el de la abuela materna.
           Si no se encuentran los abuelos, se devuelve `None` en su lugar.
"""

    if nombre_persona not in arbol:
        return (None, None, None, None)
    

    padre = arbol[nombre_persona].get("padre")
    madre = arbol[nombre_persona].get("madre")

    # Usamos .get(padre, {}).get("padre") para manejar el caso donde 'padre' o 'madre' sean None en el árbol
    # Si 'padre' es None, arbol.get(padre, {}) retorna {}, y {}.get("padre") retorna None. ¡Sin errores!
    abuelo_paterno = arbol.get(padre, {}).get("padre")
    abuela_paterna = arbol.get(padre, {}).get("madre")
    abuelo_materno = arbol.get(madre, {}).get("padre")
    abuela_materna = arbol.get(madre, {}).get("madre")


    
    return (abuelo_paterno, abuela_paterna, abuelo_materno, abuela_materna)


# Pruebas
print(abuelos(arbol_genealogico, "Juan"))  # Output: ("Carlos", "Elena", "Luis", "Isabel")
print(abuelos(arbol_genealogico, "María"))  # Output: (None, None, None, 'Isabel')
print(abuelos(arbol_genealogico, "Pedro"))  # Output: (None, None, None, None)


('Carlos', 'Elena', 'Luis', 'Ana')
(None, None, None, 'Isabel')
(None, None, None, None)


##### Ejercicio de Sets (Aplicación Práctica - Análisis de Palabras Únicas):

- Tienes dos textos (pueden ser frases o párrafos más largos):

```python
texto1 = "La rápida ardilla café salta sobre el tronco viejo."
texto2 = "El veloz zorro marrón brinca sobre el tronco añejo."
```
- Crea una función llamada `palabras_unicas_en_comun(texto_a, texto_b)` que tome como argumentos `texto1` y `texto2`.
- La función debe realizar lo siguiente:
   - Convertir ambos textos a minúsculas para que la comparación no distinga entre mayúsculas y minúsculas.
   - Dividir cada texto en una lista de palabras, usando los espacios como separadores. Elimina también los signos de puntuación (puntos, comas, etc.) de las palabras, si los hay (puedes usar `replace()` para esto antes de dividir).
   - Convertir cada lista de palabras a un set para obtener las palabras únicas de cada texto.
   - Calcular la intersección de ambos sets para encontrar las palabras que son únicas y están en ambos textos.
   - Retornar el set de palabras únicas en común.
   - Llama a la función con `texto1` y `texto2` e imprime el set resultante.

In [None]:
texto1 = "La rápida ardilla café salta sobre el tronco viejo."
texto2 = "El veloz zorro marrón brinca sobre el tronco añejo."

def palabras_unicas_en_comun(texto_a, texto_b):
    """
Obtiene las palabras únicas en común entre dos textos.

Parameters:
    texto_a (str): Primer texto a comparar.
    texto_b (str): Segundo texto a comparar.

Returns:
    list: Lista de palabras únicas que aparecen en ambos textos. 
          La comparación no distingue mayúsculas y minúsculas, y los signos de puntuación son ignorados.
"""

    # Convertimos el texto a minúsculas
    texto_a =texto_a.lower()
    texto_b = texto_b.lower()
    
    # Convertimos el texto en una lista de palabras
    lista_palabras_a = [palabra for palabra in texto_a.split(" ")] 
    lista_palabras_b = [palabra for palabra in texto_b.split(" ")]
    
    # reemplazamos los signos de puntuación
    lista_palabras_a = [palabra.replace(",", "").replace(".", "").replace("!", "").replace("?", "") for palabra in lista_palabras_a]
    lista_palabras_b = [palabra.replace(",", "").replace(".", "").replace("!", "").replace("?", "") for palabra in lista_palabras_b]
    
    # Obtenemos las palabras únicas en común
    palabras_unicas = set(lista_palabras_a) & set(lista_palabras_b)
    
    
    return palabras_unicas
    
    

print(palabras_unicas_en_comun(texto1, texto2)) # Output: {'sobre', 'el', 'tronco'}


{'sobre', 'el', 'tronco'}


##### Ejercicio de Comprensión de Listas (Complejo - Filtrado y Estructuración Anidada):

- Tienes una lista de diccionarios, donde cada diccionario representa un producto con su nombre, categoría y precio:
Python

```python
productos = [
    {"nombre": "Laptop", "categoria": "Electrónica", "precio": 1200},
    {"nombre": "Camiseta", "categoria": "Ropa", "precio": 25},
    {"nombre": "Auriculares", "categoria": "Electrónica", "precio": 100},
    {"nombre": "Pantalones", "categoria": "Ropa", "precio": 50},
    {"nombre": "Libro de Python", "categoria": "Libros", "precio": 30},
    {"nombre": "Ratón Inalámbrico", "categoria": "Electrónica", "precio": 20}
]
```
- Usando comprensiones de lista anidadas (o comprensiones de lista dentro de comprensiones de lista), crea un nuevo diccionario llamado `productos_por_categoria`.
- Este diccionario `productos_por_categoria` debe tener como claves las categorías de productos ("Electrónica", "Ropa", "Libros").
- Y los valores deben ser listas de nombres de productos que pertenecen a cada categoría, pero solo para productos con un precio menor a 100.
- La estructura del diccionario resultante debería ser algo así:
> {
    "Electrónica": ["Auriculares", "Ratón Inalámbrico"],
    "Ropa": ["Camiseta", "Pantalones"],
    "Libros": ["Libro de Python"] # (Aunque en realidad "Libro de Python" cuesta 30, así que debería estar aquí según la condición < 100)
    # ... otras categorías y productos que cumplan la condición
}
- Imprime el diccionario `productos_por_categoria`.

In [1]:
productos = [
    {"nombre": "Laptop", "categoria": "Electrónica", "precio": 1200},
    {"nombre": "Camiseta", "categoria": "Ropa", "precio": 25},
    {"nombre": "Auriculares", "categoria": "Electrónica", "precio": 100},
    {"nombre": "Pantalones", "categoria": "Ropa", "precio": 50},
    {"nombre": "Libro de Python", "categoria": "Libros", "precio": 30},
    {"nombre": "Ratón Inalámbrico", "categoria": "Electrónica", "precio": 20}
]

productos_por_categoria = {
    "Electronica": [producto.get("nombre") for producto in productos if producto.get("categoria") == "Electrónica" and producto.get("precio") < 100],
    "Ropa": [producto.get("nombre") for producto in productos if producto.get("categoria") == "Ropa" and producto.get("precio") < 100],
    "Libros": [producto.get("nombre") for producto in productos if producto.get("categoria") == "Libros" and producto.get("precio") < 100]
}
print(productos_por_categoria)

{'Electronica': ['Ratón Inalámbrico'], 'Ropa': ['Camiseta', 'Pantalones'], 'Libros': ['Libro de Python']}


## Pandas I

In [2]:
import pandas as pd
import numpy as np

ventas = pd.read_csv('../Datasets/ventas.csv')
ventas2 = pd.read_csv('../Datasets/ventas2.csv')

print(ventas.head())
print(ventas2.head())


   ID  Producto    Categoria       Fecha  Cantidad  Precio        Cliente  \
0   1    Laptop  Electronica  2023-01-05        10  1200.0     Juan Pérez   
1  12  Camiseta         Ropa  2023-01-10        50    25.0   María García   
2  23     Libro       Libros  2023-01-15        20    30.0   Carlos López   
3   1    Laptop  Electronica  2023-02-01         5  1250.0  Ana Rodríguez   
4  15  Pantalon         Ropa  2023-02-05        30    45.0  Luis Martínez   

        Pais  
0     México  
1     España  
2  Argentina  
3   Colombia  
4      Chile  
   ID  Producto    Categoria       Fecha  Cantidad  Precio      Cliente  \
0   4    Tablet  Electrónico  2024-07-28        42     987   Juan Pérez   
1  11   Zapatos         Ropa  2024-04-14        23     456    Ana Gómez   
2   1    Laptop  Electrónico  2024-11-05        10    1200  Carlos Ruiz   
3  23     Libro       Libros  2024-02-19        35      45   Laura Díaz   
4  12  Camiseta         Ropa  2024-09-22        18      20  Mario López 

### 1. Indexación y selección de datos

* `loc`:
   * Selecciona las filas con índice 2, 5 y 8.
   * Selecciona las filas con índice 10 a 15 y las columnas 'Producto' y 'Cantidad'.
   * Selecciona la fila con índice 1 y la columna 'Precio_Unitario'.
* `iloc`:
   * Selecciona las primeras 5 filas.
   * Selecciona las columnas 1, 3 y 5.
   * Selecciona las filas 7 a 12 y las columnas 2 a 4.
* Indexación booleana:
   * Selecciona las filas donde la 'Categoría' sea 'Electrónica'.
   * Selecciona las filas donde la 'Cantidad' sea mayor a 20.
   * Selecciona las filas donde el 'País' sea 'España' o 'México'.

#### **`loc`**

In [None]:
indices_numericos = ventas.loc[2:8:3] # Filas 2, 5 y 8
# print(indices_numericos)

varios_indices = ventas.loc[10:15, ['Producto', 'Cantidad']] # Filas 10 a 15, columnas 'Producto' y 'Cantidad'
# print(varios_indices)

indice_mixto = ventas.loc[1, 'Precio_Unitario'] # Fila 1, columna 'Precio_Unitario'
# print(indice_mixto)


#### **`iloc`**

In [None]:
primera_5_filas = ventas.iloc[0:5] # Filas 0 a 4
# print(primera_5_filas)

columnas_especificas = ventas.iloc[:, [1, 3, 5]] # Todas las filas, columnas 1, 3 y 5
# print(columnas_especificas)

filas_columnas = ventas.iloc[7:13, 2:5]
# print(filas_columnas)


#### **Indexacion booleana**

In [None]:
electronica = ventas['Categoria'] == 'Electronica' # Filtrar solo las ventas de la categoría 'Electronica'
print(ventas[electronica])

mayor_a_x = ventas['Cantidad'] > 20 # Filtrar las ventas con una cantidad mayor a 20
print(ventas[mayor_a_x])

paises_aob = (ventas['Pais'] == 'España') | (ventas['Pais'] == 'México') # Filtrar las ventas de España o México
print(ventas[paises_aob])

### 2. Manipulación básica de DataFrames

* Añadir y eliminar columnas:
    * Añade una columna llamada 'Total' que sea el resultado de 'Cantidad' * 'Precio_Unitario'.
    * Elimina la columna 'ID'.
* Renombrar columnas:
    * Renombra la columna 'Precio_Unitario' a 'Precio'.
* Ordenar DataFrames:
    * Ordena el DataFrame por la columna 'Fecha' de forma ascendente.
    * Ordena el DataFrame por la columna 'Total' de forma descendente.
* Filtrado de DataFrames:
    * Filtra el DataFrame para mostrar solo las ventas de 'Libros'.
    * Filtra el DataFrame para mostrar solo las ventas realizadas en 'España' o 'Argentina'.

In [46]:
# Añadir y eliminar columnas
ventas['Total'] = ventas['Precio_Unitario'] * ventas['Cantidad'] # Añadir una columna ['Total'] calculando el producto de ['Precio'] y ['Cantidad']
# print(ventas)

eliminar_id = ventas.drop(columns=['ID']) # Eliminar la columna ['ID']
# print(eliminar_id)

# Renombrar columnas
renombrar_precio = ventas.rename(columns={'Precio_Unitario': 'Precio'}) # Renombrar la columna ['Precio_Unitario'] a ['Precio']
# print(renombrar_precio)

# Ordenar Dataframes
ordenar_fecha = ventas.sort_values(by='Fecha') # Ordenar por la fecha en orden ascendente
# print(ordenar_fecha)

ordenar_total = ventas.sort_values(by='Total', ascending=False) # Ordenar por la columna ['Total'] en orden descendente
# print(ordenar_total)

ordenar_varios = ventas.sort_values(by=['Categoria', 'Total'], ascending=[True, False])
# print(ordenar_varios)

# Filtrado de Dataframes
ventas_libros = ventas['Categoria'] == 'Libros'
# print(ventas[ventas_libros])

ventas_pais_espesifico = (ventas['Pais'] == 'España') | (ventas['Pais'] == 'Argentina')
print(ventas[ventas_pais_espesifico])

   ID  Producto Categoria       Fecha  Cantidad  Precio_Unitario  \
1   2  Camiseta      Ropa  2023-01-10        50             25.0   
2   3     Libro    Libros  2023-01-15        20             30.0   

        Cliente       Pais   Total  
1  María García     España  1250.0  
2  Carlos López  Argentina   600.0  


### 3. Manejo de valores faltantes

* Introduce algunos valores NaN en el DataFrame (por ejemplo, en la columna 'Precio').
* Reemplaza los valores NaN por el promedio de la columna.
* Elimina las filas que contengan valores NaN.

### 4. Agrupación y agregación de datos

* Agrupa los datos por 'Categoría' y calcula la suma de 'Cantidad' y el promedio de 'Precio'.
* Agrupa los datos por 'País' y cuenta el número de ventas realizadas en cada país.
* Agrupa los datos por 'Fecha' (solo el mes) y calcula el total de ventas por mes

In [87]:
grupo_categorias = ventas.groupby(by='Categoria') # Agrupamos por categoria

calculos_personalizados = grupo_categorias.agg( # Calculamos las funciones de agregación
    Cantidad_Total=('Cantidad', 'sum'), # Sumamos la cantidad
    Precio_Promedio=('Precio', 'mean') # Calculamos el promedio del precio
)
print(f'Ventas y promedio de precios por categoria:\n {calculos_personalizados}') # Mostramos los resultados

grupo_paises = ventas.groupby(by='Pais') # Agrupamos por pais

ventas_por_pais = grupo_paises['Cantidad'].count() # Contamos la cantidad de ventas por pais
print(f'Ventas por pais:\n {ventas_por_pais}')

# convertir columna a datetime

ventas['Fecha'] = pd.to_datetime(ventas['Fecha']) # Convertimos la columna 'Fecha' a datetime

grupo_meses = ventas.set_index('Fecha').resample('ME') # Agrupamos por fecha y resampleamos por mes
ventas_por_mes = grupo_meses['Cantidad'].sum()
print(f'Ventas por mes:\n {ventas_por_mes}')

Ventas y promedio de precios por categoria:
              Cantidad_Total  Precio_Promedio
Categoria                                   
Electronica              73       693.750000
Libros                   86        29.000000
Ropa                    265        38.857143
Ventas por pais:
 Pais
Argentina               1
Bolivia                 1
Chile                   1
Colombia                1
Costa Rica              1
Cuba                    1
Ecuador                 1
El Salvador             1
España                  1
Guatemala               1
Honduras                1
México                  1
Nicaragua               1
Panamá                  1
Paraguay                1
Perú                    1
Puerto Rico             1
República Dominicana    1
Uruguay                 1
Venezuela               1
Name: Cantidad, dtype: int64
Ventas por mes:
 Fecha
2023-01-31     80
2023-02-28     50
2023-03-31    160
2023-04-30    134
Freq: ME, Name: Cantidad, dtype: int64


### 5. Unión y concatenación de DataFrames

* Crea un nuevo DataFrame con información adicional de los clientes (por ejemplo, edad, género).
* Une este nuevo DataFrame con el DataFrame original utilizando la columna 'Cliente' como clave.
* Concatena dos DataFrames similares (por ejemplo, ventas de diferentes años).

In [88]:
# Crear un DataFrame con los nombres proporcionados
cliente = [
    "Juan Pérez", "María García", "Carlos López", "Ana Rodríguez", "Luis Martínez",
    "Laura Sánchez", "Pedro Díaz", "Sofía Gómez", "Diego Ruiz", "Carmen Torres",
    "Javier Morales", "Isabel Castro", "Roberto Jiménez", "Elena Vargas", "Ricardo Medina",
    "Paula Navarro", "Antonio Ortega", "Marta Serrano", "Fernando Rubio", "Lucía Molina"
]

# Añadir edades y géneros
edades = [34, 28, 45, 32, 40, 29, 37, 25, 33, 41, 38, 30, 36, 27, 39, 31, 42, 26, 35, 24]
generos = ["M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M", "F", "M", "F"]

# Crear el DataFrame
clientes_info = pd.DataFrame({
    "Cliente": cliente,
    "Edad": edades,
    "Género": generos
})

union_dataframes = pd.merge(ventas, clientes_info, on='Cliente')
# print(union_dataframes)

union_ventas_año = pd.concat([ventas, ventas2])

union_ventas_año['Fecha'] = pd.to_datetime(union_ventas_año['Fecha'])

grupo_años = union_ventas_año.set_index('Fecha').resample('YE')
ventas_año = grupo_años['Cantidad'].sum()
print(ventas_año)



Fecha
2023-12-31    424
2024-12-31    578
Freq: YE-DEC, Name: Cantidad, dtype: int64


### 6. Aplicación de funciones a DataFrames

* Crea una función que calcule el descuento del 10% para cada venta.
* Aplica esta función a la columna 'Total' para crear una nueva columna 'Descuento'.
* Crea una funcion que cambie el formato de la fecha a dia/mes/año, y aplicala a la columna fecha.

In [6]:
def descontar_10(serie):
    return serie * (1 - 0.10)

ventas['Descuento'] = ventas['Precio'].apply(descontar_10)
print(ventas)

def cambiar_formato_fecha(serie):
    return pd.to_datetime(serie).strftime('%d/%m/%Y')

ventas['Fecha'] = ventas['Fecha'].apply(cambiar_formato_fecha)
print(ventas)

    ID     Producto    Categoria       Fecha  Cantidad  Precio  \
0    1       Laptop  Electronica  05/01/2023        10  1200.0   
1   12     Camiseta         Ropa  10/01/2023        50    25.0   
2   23        Libro       Libros  15/01/2023        20    30.0   
3    1       Laptop  Electronica  01/02/2023         5  1250.0   
4   15     Pantalon         Ropa  05/02/2023        30    45.0   
5   23        Libro       Libros  10/02/2023        15    32.0   
6    1       Laptop  Electronica  01/03/2023         8  1300.0   
7   12     Camiseta         Ropa  05/03/2023        40    27.0   
8   23        Libro       Libros  10/03/2023        25    35.0   
9    7   Smartphone  Electronica  15/03/2023        12   800.0   
10  11      Zapatos         Ropa  20/03/2023        35    60.0   
11   2  Auriculares  Electronica  25/03/2023        18   150.0   
12  13      Mochila         Ropa  30/03/2023        22    55.0   
13   4       Tablet  Electronica  01/04/2023         7   400.0   
14  15    

  return pd.to_datetime(serie).strftime('%d/%m/%Y')


## PANDAS II

In [38]:
import pandas as pd

# Cargar el dataset
estadisticas = pd.read_csv('../Datasets/estadisticas-de-pruebas-nacionales-2016-2024.csv', sep=';', encoding='latin1')

# Exploración básica
# print("Primeras filas:")
# print(estadisticas.head())
print("\nResumen de columnas y tipos:")
print(estadisticas.info())
# print("\nEstadísticas descriptivas:")
# print(estadisticas.describe())


Resumen de columnas y tipos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57586 entries, 0 to 57585
Data columns (total 16 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Período                  57586 non-null  int64  
 1   Convocatoria             52651 non-null  float64
 2   Regional                 57586 non-null  int64  
 3   Distrito                 57586 non-null  int64  
 4   Nivel/Modalidad          57586 non-null  object 
 5   Código de Centro         57586 non-null  int64  
 6   Nombre de Centro         57586 non-null  object 
 7   Español                  52353 non-null  float64
 8   Matemáticas              52249 non-null  float64
 9   Sociales                 52404 non-null  float64
 10  Naturales                52355 non-null  float64
 11  Cantidad de estudiantes  57586 non-null  int64  
 12  Cantidad Femenino        57586 non-null  int64  
 13  Cantidad masculino       57586 non-null  int64

### 2. Limpieza de Datos

* Corregir nombres de columnas (ej: Espańol → Español).
* Verificar valores nulos: Identificar y manejar datos faltantes.
* Convertir tipos de datos: Asegurar que las columnas numéricas sean float/int.

In [39]:
# Correccion de los nombres de las columnas
estadisticas = estadisticas.rename(columns={
    'Período': 'Periodo', 'Nivel/Modalidad': 'Nivel_modalidad', 'Código de Centro': 'Codigo_centro',
    'Nombre de Centro': 'Nombre_centro', 'Matemáticas': 'Matematicas', 'Cantidad de estudiantes': 'Cantidad_estudiantes',
    'Cantidad Femenino': 'Cantidad_femenino', 'Cantidad Masculino': 'Cantidad _masculino',
    'Cantidad Promovidos': 'Cantidad_promovidos', 'Cantidad Aplazados': 'Cantidad_aplazados',
})

# Verificar valores nulos
print(estadisticas.isnull().sum())
estadisticas = estadisticas.dropna() # reemplazar valores nulos con el promedio de la columna
print(estadisticas.isnull().sum())


Periodo                    0
Convocatoria            4935
Regional                   0
Distrito                   0
Nivel_modalidad            0
Codigo_centro              0
Nombre_centro              0
Español                 5233
Matematicas             5337
Sociales                5182
Naturales               5231
Cantidad_estudiantes       0
Cantidad_femenino          0
Cantidad masculino         0
Cantidad_promovidos        0
Cantidad_aplazados      4935
dtype: int64
Periodo                 0
Convocatoria            0
Regional                0
Distrito                0
Nivel_modalidad         0
Codigo_centro           0
Nombre_centro           0
Español                 0
Matematicas             0
Sociales                0
Naturales               0
Cantidad_estudiantes    0
Cantidad_femenino       0
Cantidad masculino      0
Cantidad_promovidos     0
Cantidad_aplazados      0
dtype: int64


### 3. Análisis de Rendimiento Académico

* Calcular el promedio de notas por asignatura y año.
* Identificar los 10 mejores y peores centros educativos según el promedio de Matemáticas.
* Comparar el rendimiento entre convocatorias (1 vs. 2).

In [40]:
# Calcular promedio de notas por asignaturas y año
promedio_asignaturas = estadisticas.groupby('Periodo').agg(
    Promedio_español=('Español', 'mean'),
    Promedio_matematicas=('Matematicas', 'mean'),
    Promedio_sociales=('Sociales', 'mean'),
    Promedio_naturales=('Naturales', 'mean')
)
print(f'Promedio de asignaturas por periodo:\n{promedio_asignaturas}')

# Identificar los 10 mejores y peores centros educativos según el promedio de Matemáticas
promedio_matematicas_centros = estadisticas.groupby('Nombre_centro')['Matematicas'].mean()
mejores_centros = promedio_matematicas_centros.nlargest(10)
peores_centros = promedio_matematicas_centros.nsmallest(10)
print(f'Mejores 10 centros educativos según el promedio de Matemáticas:\n{mejores_centros}')
print(f'Peores 10 centros educativos según el promedio de Matemáticas:\n{peores_centros}')

# Comparar el rendimiento entre convocatorias (1 vs. 2)
rendimiento_convocatorias = estadisticas.groupby('Convocatoria').agg(
    Promedio_español=('Español', 'mean'),
    Promedio_matematicas=('Matematicas', 'mean'),
    Promedio_sociales=('Sociales', 'mean'),
    Promedio_naturales=('Naturales', 'mean')
)
print(f'Rendimiento por convocatoria:\n{rendimiento_convocatorias}')

Promedio de asignaturas por periodo:
         Promedio_español  Promedio_matematicas  Promedio_sociales  \
Periodo                                                              
2016            17.331439             16.595394          16.985929   
2017            17.614917             17.140536          17.589287   
2018            17.816716             16.920447          17.609720   
2019            15.754671             15.953921          15.022038   
2022            18.307461             17.783916          17.927368   
2023            37.387175             37.507251          37.460520   
2024            57.160372             57.880076          57.189017   

         Promedio_naturales  
Periodo                      
2016              16.819546  
2017              17.239124  
2018              17.061035  
2019              15.640996  
2022              17.338853  
2023              37.269357  
2024              56.981887  
Mejores 10 centros educativos según el promedio de Matemáticas

### 4. Análisis Exploratorio

* Calcular estadísticas descriptivas para las notas de las asignaturas (Español, Matemáticas, etc.).
* Identificar la distribución de estudiantes por género (Cantidad Femenino vs. Cantidad masculino).
* Analizar la relación entre Cantidad Promovidos y Cantidad Aplazados por centro educativo.

In [None]:
""" Calcular estadísticas descriptivas para las notas de las asignaturas (Español, Matemáticas, etc.). """

estadisticas_asignaturas = estadisticas[['Español', 'Matematicas', 'Sociales', 'Naturales']].describe() # Selecciona las columnas de interes y calcula estadísticas descriptivas
print(estadisticas_asignaturas)

""" Identificar la distribución de estudiantes por género (Cantidad Femenino vs. Cantidad masculino). """

total_estudiantes = estadisticas['Cantidad_estudiantes'].sum() # Suma la cantidad de estudiantes de ambos géneros
estudiantes_femeninos = estadisticas['Cantidad_femenino'].sum() # Suma la cantidad de estudiantes femeninas
estudiantes_masculinos = estadisticas['Cantidad masculino'].sum() # Suma la cantidad de estudiantes masculinos
diferencias_estudiantes = estudiantes_femeninos - estudiantes_masculinos # Calcula la diferencia entre la cantidad de estudiantes femeninas y masculinas
proporcion_estudiantes = estudiantes_femeninos / estudiantes_masculinos # Calcula la proporción de estudiantes femeninas con respecto a los masculinos
porcentaje_femeninos = (estudiantes_femeninos / total_estudiantes) * 100 # Calcula el porcentaje de estudiantes femeninas
porcentaje_masculinos = (estudiantes_masculinos / total_estudiantes) * 100 # Calcula el porcentaje de estudiantes masculinos

print(f'Total de estudiantes: {total_estudiantes}')
print(f"Total de estudiantes femeninos: {estudiantes_femeninos}")
print(f"Total de estudiantes masculinos: {estudiantes_masculinos}")
print(f'Diferencia entre estudiantes femeninos y masculinos: {diferencias_estudiantes}')
print(f'Proporción de estudiantes femeninos con respecto a masculinos: {proporcion_estudiantes:.2f}')
print(f'Porcentaje de estudiantes femeninos con respecto a total de estudiantes: {porcentaje_femeninos:.2f}%')
print(f'Porcentaje de estudiantes masculinos con respecto a total de estudiantes: {porcentaje_masculinos:.2f}%')

""" Analizar la relación entre Cantidad Promovidos y Cantidad Aplazados por centro educativo. """

centros_educativos = estadisticas.groupby('Nombre_centro') # Agrupa los datos por centro educativo

promovidos_aplazados = centros_educativos.agg({ # Calcula la suma de promovidos y aplazados por centro educativo
    'Cantidad_estudiantes': 'sum',
    'Cantidad_promovidos': 'sum',
    'Cantidad_aplazados': 'sum'}
)
print(promovidos_aplazados)

            Español   Matematicas      Sociales     Naturales
count  52046.000000  52046.000000  52046.000000  52046.000000
mean      21.278050     20.928608     20.973725     20.862820
std       12.757878     12.919608     12.953218     12.800676
min        0.000000      0.000000      0.000000      0.000000
25%       16.312500     15.670000     16.100000     15.909091
50%       17.650000     16.933053     17.250000     17.000000
75%       19.500000     18.773370     19.070000     18.670000
max       88.318182     87.500000     99.000000     88.400000
Total de estudiantes: 1739274
Total de estudiantes femeninos: 1003179
Total de estudiantes masculinos: 733696
Diferencia entre estudiantes femeninos y masculinos: 269483
Proporción de estudiantes femeninos con respecto a masculinos: 1.37
Porcentaje de estudiantes femeninos con respecto a total de estudiantes: 57.68%
Porcentaje de estudiantes masculinos con respecto a total de estudiantes: 42.18%
                                           

### 5. Segmentación Geográfica

* Calcular el promedio de notas por Regional y Distrito.
* Determinar la regional con la mayor cantidad de estudiantes aplazados (Cantidad Aplazados).
* Analizar la variabilidad del rendimiento en Matemáticas entre distritos.

In [None]:
""" Calcular el promedio de notas por Regional y Distrito. """

regional = estadisticas.groupby('Regional')[['Español', 'Matematicas', 'Sociales', 'Naturales']] # Agrupar por Regional
distrito = estadisticas.groupby('Distrito')[['Español', 'Matematicas', 'Sociales', 'Naturales']] # Agrupar por Distrito
print(f'Promedio de nota por materia regional:\n {regional.mean()}') # Calcular el promedio de notas por Regional
print(f'Promedio de nota por materia por distrito:\n {distrito.mean()}') # Calcular el promedio de notas por Distrito

""" Determinar la regional con la mayor cantidad de estudiantes aplazados (Cantidad Aplazados). """

regional_aplazados = estadisticas.groupby('Regional')['Cantidad_aplazados'].sum() # Agrupar por Regional y sumar la cantidad de estudiantes aplazados
region_mayor = regional_aplazados.nlargest(1) # Determinar la region con la mayor cantidad de estudiantes aplazados
print(f'Region con mayor cantidad de estudiantes aplazados:\n {region_mayor}') 

""" Analizar la variabilidad del rendimiento en Matemáticas entre distritos. """

rendimiento_distrito = estadisticas.groupby('Distrito')['Matematicas'].std() # Agrupar por Distrito y calcular la desviación estándar de Matemáticas
print(f'Desviación estándar de Matemáticas por Distrito:\n {rendimiento_distrito}')




Promedio de nota por materia regional:
             Español  Matematicas   Sociales  Naturales
Regional                                              
1         20.852448    20.711698  21.030094  21.131788
2         20.864683    20.647063  20.835974  20.756639
3         20.268654    20.116316  20.095734  20.089062
4         20.552806    19.903768  20.269948  20.045399
5         21.535177    21.058774  21.215200  21.071666
6         21.709421    21.535397  21.350688  21.226288
7         20.260741    19.937322  19.896305  19.845617
8         21.414976    21.033615  20.759221  20.656044
9         20.743737    20.729598  20.593937  20.405072
10        21.605415    21.008285  21.328597  21.173020
11        21.034154    20.865958  20.716366  20.757593
12        22.221725    21.856977  21.635359  21.690324
13        20.782925    20.888795  20.771436  20.658605
14        20.706448    20.490367  20.239509  20.181816
15        22.377579    21.844085  21.893641  21.738398
16        19.943366    19