<div style="background-color:#e6f2ff; padding:20px; border-radius:10px;">
<img style="float:left; margin-right:20px;" src='alinco.png' width="120"/>
<h1 style="color:#000047;">Actividad 1: Extracción de datos de diferentes fuentes</h1>
<br style="clear:both"/>
</div>

<div style="border-left:4px solid #000047; padding:10px; margin-top:10px; background:#f5f5f5;">
<b>Objetivo:</b> Practicar la extracción, análisis y manipulación de datos provenientes de archivos JSON, XML, CSV e imágenes usando Python.
</div>

<div style="margin-top:10px;">
<b>Instrucciones generales:</b>
<ul>
<li>Lee cuidadosamente cada sección y realiza los ejercicios propuestos.</li>
<li>Utiliza <b>pandas</b> para manipulación de datos tabulares, <b>json</b> y <b>xml.etree.ElementTree</b> para extracción de datos, y <b>matplotlib</b> o <b>opencv</b> para imágenes.</li>
<li>Responde cada pregunta con código y, cuando sea necesario, justifica tu respuesta.</li>
</ul>
</div>

## 1️⃣ JSON: Información de empleados

Supón que tienes el archivo <code>empleados.json</code> con la siguiente estructura:

```json
[
  {"nombre": "Ana", "edad": 28, "departamento": "Ventas", "salario": 2500},
  {"nombre": "Luis", "edad": 35, "departamento": "IT", "salario": 3200},
  {"nombre": "María", "edad": 24, "departamento": "Ventas", "salario": 2300},
  {"nombre": "Carlos", "edad": 40, "departamento": "IT", "salario": 4000}
]
```

<b>Ejercicios:</b>

1. Crea un DataFrame a partir de la extracción de información de este archivo JSON.
2. ¿Cuál es el <b>salario promedio por departamento</b>?
3. ¿Quién es el <b>empleado más joven</b> y a qué departamento pertenece?
4. ¿Cuántos empleados tienen un <b>salario mayor a 2500</b>?
5. ¿Cuál es la <b>diferencia de edad</b> entre el empleado más joven y el de mayor edad?
6. ¿Cuál es el <b>salario total pagado</b> en la empresa?

<i>Tip: Usa pandas.read_json o json.load para cargar los datos.</i>

In [None]:
# Tu código aquí
import pandas as pd
# Inciso 1: Leer el archivo JSON y crear el DataFrame
df = pd.read_json("empleados.json")
# Mostrar el DataFrame
print(df)

   nombre  edad departamento  salario
0     Ana    28       Ventas     2500
1    Luis    35           IT     3200
2   María    24       Ventas     2300
3  Carlos    40           IT     4000


In [None]:
# Inciso 2: Calcular el salario promedio por departamento
salario_promedio = df.groupby("departamento")["salario"].mean()

print(salario_promedio)

departamento
IT        3600.0
Ventas    2400.0
Name: salario, dtype: float64


In [None]:
# Inciso 3: Encontrar el empleado más joven
empleado_joven = df.loc[df["edad"].idxmin()]

print("Empleado más joven:")
print(empleado_joven)

Empleado más joven:
nombre           María
edad                24
departamento    Ventas
salario           2300
Name: 2, dtype: object


In [None]:
# Inciso 4: Contar empleados con salario mayor a 2500
empleados_mayor_2500 = df[df["salario"] > 2500]

cantidad = len(empleados_mayor_2500)

print("Cantidad de empleados con salario mayor a 2500:", cantidad)
print(empleados_mayor_2500)

Cantidad de empleados con salario mayor a 2500: 2
   nombre  edad departamento  salario
1    Luis    35           IT     3200
3  Carlos    40           IT     4000


In [None]:
#Inciso 5: Calcular la diferencia entre la edad máxima y mínima
edad_min = df["edad"].min()
edad_max = df["edad"].max()

# Diferencia
diferencia = edad_max - edad_min

print("Edad mínima:", edad_min)
print("Edad máxima:", edad_max)
print("Diferencia de edad:", diferencia)

In [7]:
#Inciso 6: Calcular el salario total pagado por la empresa
salario_total = df["salario"].sum()

print("Salario total pagado por la empresa:", salario_total)

Salario total pagado por la empresa: 12000


## 2️⃣ XML: Catálogo de libros

Supón que tienes el archivo <code>libros.xml</code> con la siguiente estructura:

```xml
<libros>
  <libro>
    <titulo>Python para Todos</titulo>
    <autor>Juan Pérez</autor>
    <precio>29.99</precio>
    <anio>2020</anio>
  </libro>
  <libro>
    <titulo>Data Science Avanzado</titulo>
    <autor>María López</autor>
    <precio>45.50</precio>
    <anio>2022</anio>
  </libro>
  <libro>
    <titulo>Ingeniería de Características</titulo>
    <autor>Pedro Ruiz</autor>
    <precio>39.00</precio>
    <anio>2019</anio>
  </libro>
</libros>
```

<b>Ejercicios:</b>

1. Crea un DataFrame a partir de la extracción de información de este archivo XML.
2. ¿Cuál es el <b>libro más caro</b> y su autor?
3. ¿Cuál es el <b>precio promedio</b> de los libros publicados después de 2020?
4. ¿Cuántos libros fueron <b>publicados antes de 2021</b>?
5. ¿Cuál es la <b>diferencia de precio</b> entre el libro más barato y el más caro?
6. ¿Cuántos <b>autores diferentes</b> hay en la lista?

<i>Tip: Usa xml.etree.ElementTree para leer el archivo y pandas para tabular los datos.</i>

In [8]:
# Tu código aquí
import xml.etree.ElementTree as ET
import pandas as pd

In [None]:
#Inciso 1: Leer el archivo XML y crear el DataFrame
tree = ET.parse("libros.xml")
root = tree.getroot()
libros = []
for libro in root.findall("libro"):
    titulo = libro.find("titulo").text
    autor = libro.find("autor").text
    precio = float(libro.find("precio").text)
    anio = int(libro.find("anio").text)
    
    libros.append({"titulo": titulo, "autor": autor, "precio": precio, "anio": anio})

# Crear DataFrame
df = pd.DataFrame(libros)
print(df)

                          titulo        autor  precio  anio
0              Python para Todos   Juan Pérez   29.99  2020
1          Data Science Avanzado  María López   45.50  2022
2  Ingeniería de Características   Pedro Ruiz   39.00  2019


In [None]:
#Inciso 2: Calcular el libro más caro y mostrar su información
libro_caro = df.loc[df["precio"].idxmax()]
print(libro_caro)

titulo    Data Science Avanzado
autor               María López
precio                     45.5
anio                       2022
Name: 1, dtype: object


In [None]:
#Inciso 3: Listar libros publicados después del 2020
promedio = df[df["anio"] > 2020]["precio"].mean()
print("Precio promedio:", promedio)


Precio promedio: 45.5


In [None]:
#Inciso 4: Contar libros publicados antes de 2021
cantidad = (df["anio"] < 2021).sum()
print("Libros antes de 2021:", cantidad)


Libros antes de 2021: 2


In [None]:
#Inciso 5: Calcular la diferencia entre el precio máximo y mínimo
diferencia = df["precio"].max() - df["precio"].min()
print("Diferencia de precio:", diferencia)


Diferencia de precio: 15.510000000000002


In [18]:
#Inciso 6: Contar el número de autores diferentes
autores_unicos = df["autor"].nunique()
print("Número de autores diferentes:", autores_unicos)


Número de autores diferentes: 3


## 3️⃣ CSV: Ventas detalladas

Supón que tienes el archivo <code>ventas_detalladas.csv</code> con la siguiente estructura:

```csv
producto,fecha,cantidad,precio_unitario
A,2023-01-01,10,2.5
B,2023-01-02,5,3.0
A,2023-01-03,7,2.5
C,2023-01-01,3,4.0
B,2023-01-03,2,3.0
```

<b>Ejercicios:</b>

1. Crea un DataFrame con los datos extraídos del archivo.
2. ¿Cuál es el <b>total vendido</b> por producto y por fecha?
3. ¿En qué fecha se vendió la <b>mayor cantidad de productos</b>?
4. ¿Cuál es el <b>producto con mayor ingreso total</b>?
5. ¿Cuál es la <b>media de cantidad vendida</b> por producto?
6. ¿Qué producto tuvo <b>ventas todos los días registrados</b>?

<i>Tip: Usa pandas.read_csv y agrupa los datos según lo que se pide.</i>

In [None]:
# Tu código aquí
import pandas as pd
#Inciso 1: Leer el archivo CSV y crear el DataFrame
df = pd.read_csv("ventas_detalladas.csv")
print(df)

   Unnamed: 0 producto       fecha  cantidad  precio_unitario
0           0        A  2023-01-01        10              2.5
1           1        B  2023-01-02         5              3.0
2           2        A  2023-01-03         7              2.5
3           3        C  2023-01-01         3              4.0
4           4        B  2023-01-03         2              3.0


In [None]:
#Inciso 2: Calcular el total vendido por producto y por fecha
df["total"] = df["cantidad"] * df["precio_unitario"]
total_por_producto = df.groupby("producto")["total"].sum()
print(total_por_producto)
total_por_fecha = df.groupby("fecha")["total"].sum()
print(total_por_fecha)


producto
A    42.5
B    21.0
C    12.0
Name: total, dtype: float64
fecha
2023-01-01    37.0
2023-01-02    15.0
2023-01-03    23.5
Name: total, dtype: float64


In [None]:
#Inciso 3: Encontrar el producto con mayor venta total
cantidad_por_fecha = df.groupby("fecha")["cantidad"].sum()
fecha_mayor_venta = cantidad_por_fecha.idxmax()
print("Fecha con mayor cantidad vendida:", fecha_mayor_venta)


Fecha con mayor cantidad vendida: 2023-01-01


In [24]:
#Inciso 4: Encontrar la fecha con mayor ingreso total
producto_mayor_ingreso = total_por_producto.idxmax()
print("Producto con mayor ingreso:", producto_mayor_ingreso)


Producto con mayor ingreso: A


In [25]:
#Inciso 5: Calcular la cantidad promedio vendida por producto
media_por_producto = df.groupby("producto")["cantidad"].mean()
print(media_por_producto)


producto
A    8.5
B    3.5
C    3.0
Name: cantidad, dtype: float64


In [26]:
#Inciso 6: Identificar el producto que se vendió todos los días
dias_totales = df["fecha"].nunique()
dias_por_producto = df.groupby("producto")["fecha"].nunique()

producto_completo = dias_por_producto[dias_por_producto == dias_totales].index
print("Producto(s) que vendieron todos los días:", list(producto_completo))


Producto(s) que vendieron todos los días: []


## 4️⃣ Imágenes: Análisis de pixeles

Supón que tienes la imagen <code>alinco.png</code> en la misma carpeta que este notebook.

<b>Ejercicios:</b>

1. Extrae la información de los pixeles de la imagen y muestra sus dimensiones.
2. ¿Cuál es el <b>valor RGB</b> del píxel (50, 50)?
3. ¿Cuál es el <b>color predominante</b> en la imagen?

<i>Tip: Usa matplotlib.pyplot.imread o cv2.imread para cargar la imagen y numpy para analizar los datos.</i>

In [None]:
# Tu código aquí

#Inciso 1: Cargar una imagen y mostrar sus dimensiones
import cv2
import numpy as np

# Cargar imagen
img = cv2.imread("alinco.png")

# Convertir de BGR → RGB para trabajar correctamente con colores
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

# Dimensiones de la imagen
alto, ancho, canales = img_rgb.shape

print("Dimensiones de la imagen:")
print("Alto:", alto)
print("Ancho:", ancho)
print("Canales:", canales)


Dimensiones de la imagen:
Alto: 110
Ancho: 120
Canales: 3


In [None]:
#Inciso 2: Calcular el valor promedio de color RGB de la imagen
pixel_50_50 = img_rgb[50, 50]
print("Valor RGB del píxel (50,50):", pixel_50_50)


Valor RGB del píxel (50,50): [ 89 128 165]


In [None]:
#Inciso 3: Identificar el color predominante en la imagen
# Obtener promedio de cada canal (Rojo, Verde, Azul)
mean_color = img_rgb.mean(axis=(0,1))
print("Promedio RGB de la imagen:", mean_color)

colores = ["Rojo", "Verde", "Azul"]
color_predominante = colores[np.argmax(mean_color)]

print("El color predominante en la imagen es:", color_predominante)



Promedio RGB de la imagen: [14.7494697  27.84712121 28.92159091]
El color predominante en la imagen es: Azul
