<div style="background-color:#e6f2ff; padding:20px; border-radius:10px;">
<img style="float:left; margin-right:20px;" src='alinco.png' width="120"/>
<h1 style="color:#000047;">Actividad 1: Extracción de datos de diferentes fuentes</h1>
<br style="clear:both"/>
</div>

<div style="border-left:4px solid #000047; padding:10px; margin-top:10px; background:#f5f5f5;">
<b>Objetivo:</b> Practicar la extracción, análisis y manipulación de datos provenientes de archivos JSON, XML, CSV e imágenes usando Python.
</div>

<div style="margin-top:10px;">
<b>Instrucciones generales:</b>
<ul>
<li>Lee cuidadosamente cada sección y realiza los ejercicios propuestos.</li>
<li>Utiliza <b>pandas</b> para manipulación de datos tabulares, <b>json</b> y <b>xml.etree.ElementTree</b> para extracción de datos, y <b>matplotlib</b> o <b>opencv</b> para imágenes.</li>
<li>Responde cada pregunta con código y, cuando sea necesario, justifica tu respuesta.</li>
</ul>
</div>

## 1️⃣ JSON: Información de empleados

Supón que tienes el archivo <code>empleados.json</code> con la siguiente estructura:

```json
[
  {"nombre": "Ana", "edad": 28, "departamento": "Ventas", "salario": 2500},
  {"nombre": "Luis", "edad": 35, "departamento": "IT", "salario": 3200},
  {"nombre": "María", "edad": 24, "departamento": "Ventas", "salario": 2300},
  {"nombre": "Carlos", "edad": 40, "departamento": "IT", "salario": 4000}
]
```

<b>Ejercicios:</b>

1. Crea un DataFrame a partir de la extracción de información de este archivo JSON.
2. ¿Cuál es el <b>salario promedio por departamento</b>?
3. ¿Quién es el <b>empleado más joven</b> y a qué departamento pertenece?
4. ¿Cuántos empleados tienen un <b>salario mayor a 2500</b>?
5. ¿Cuál es la <b>diferencia de edad</b> entre el empleado más joven y el de mayor edad?
6. ¿Cuál es el <b>salario total pagado</b> en la empresa?

<i>Tip: Usa pandas.read_json o json.load para cargar los datos.</i>

In [10]:
# Tu código aquí
import pandas as pd

In [11]:
#1 DataFrame
# Leer el archivo JSON 
df_json = pd.read_json("empleados.json")
print("DataFrame de EMPLEADOS:")
print(df_json)


DataFrame de EMPLEADOS:
   nombre  edad departamento  salario
0     Ana    28       Ventas     2500
1    Luis    35           IT     3200
2   María    24       Ventas     2300
3  Carlos    40           IT     4000


In [12]:
#2 Salario promedio por departamento
salario_promedio = df_json.groupby("departamento")["salario"].mean() #Agrupar por departamento
print("\nSalario promedio por departamento:")
print(salario_promedio)



Salario promedio por departamento:
departamento
IT        3600.0
Ventas    2400.0
Name: salario, dtype: float64


In [13]:
#3 Empleado más joven y a qué departamento pertenece
empleado_joven = df_json.loc[df_json["edad"].idxmin()] 
print(f"\nEmpleado más joven: {empleado_joven['nombre']}, Departamento: {empleado_joven['departamento']}")



Empleado más joven: María, Departamento: Ventas


In [18]:
#4 empleados con salario mayor a 2500
mayores_2500 = df_json[df_json["salario"] > 2500].shape[0]
print(f"\nEmpleados con salario mayor a 2500: {mayores_2500}")



Empleados con salario mayor a 2500: 2


In [20]:
#5 Diferencia de edad entre el empleado más joven y el de mayor edad
diferencia_edad = df_json["edad"].max() - df_json["edad"].min() #Edad mayor- Edad menor
print(f"\nDiferencia de edad entre el más joven y el de mayor edad: {diferencia_edad} años")



Diferencia de edad entre el más joven y el de mayor edad: 16 años


In [21]:
#6 Salario total pagado en la empresa
salario_total = df_json["salario"].sum() #Suma salarios
print(f"\nSalario total pagado en la empresa: {salario_total}")



Salario total pagado en la empresa: 12000


## 2️⃣ XML: Catálogo de libros

Supón que tienes el archivo <code>libros.xml</code> con la siguiente estructura:

```xml
<libros>
  <libro>
    <titulo>Python para Todos</titulo>
    <autor>Juan Pérez</autor>
    <precio>29.99</precio>
    <anio>2020</anio>
  </libro>
  <libro>
    <titulo>Data Science Avanzado</titulo>
    <autor>María López</autor>
    <precio>45.50</precio>
    <anio>2022</anio>
  </libro>
  <libro>
    <titulo>Ingeniería de Características</titulo>
    <autor>Pedro Ruiz</autor>
    <precio>39.00</precio>
    <anio>2019</anio>
  </libro>
</libros>
```

<b>Ejercicios:</b>

1. Crea un DataFrame a partir de la extracción de información de este archivo XML.
2. ¿Cuál es el <b>libro más caro</b> y su autor?
3. ¿Cuál es el <b>precio promedio</b> de los libros publicados después de 2020?
4. ¿Cuántos libros fueron <b>publicados antes de 2021</b>?
5. ¿Cuál es la <b>diferencia de precio</b> entre el libro más barato y el más caro?
6. ¿Cuántos <b>autores diferentes</b> hay en la lista?

<i>Tip: Usa xml.etree.ElementTree para leer el archivo y pandas para tabular los datos.</i>

In [31]:
# Tu código aquí
import xml.etree.ElementTree as ET #biblioteca para leer, analizar, crear y modificar archivos XML.

In [47]:
tree = ET.parse('libros.xml')  # Abre y analiza el archivo XML
root = tree.getroot()          # Obtiene el elemento raíz del documento

registros= []
print('Libros del  XML:')
for libro in root.findall('libro'):
    titulo = libro.find('titulo').text
    autor = libro.find('autor').text
    precio = float(libro.find('precio').text)
    anio = int(libro.find('anio').text)
    print(f'Título: {titulo}, Autor: {autor}, Precio: {precio}, Año: {anio}')
    registros.append({
        'Título': titulo,
        'Autor': autor,
        'Precio': precio,
        'Año': anio
    })

Libros del  XML:
Título: Python para Todos, Autor: Juan Pérez, Precio: 29.99, Año: 2020
Título: Data Science Avanzado, Autor: María López, Precio: 45.5, Año: 2022
Título: Ingeniería de Características, Autor: Pedro Ruiz, Precio: 39.0, Año: 2019


In [48]:
#1 Crea un DataFrame a partir de la extracción de información de este archivo XML
df_libros = pd.DataFrame(registros)
print("DataFrame de libros:\n", df_libros, "\n")

DataFrame de libros:
                           Título        Autor  Precio   Año
0              Python para Todos   Juan Pérez   29.99  2020
1          Data Science Avanzado  María López   45.50  2022
2  Ingeniería de Características   Pedro Ruiz   39.00  2019 



In [None]:
#2 Libro más caro y su autor?

In [None]:
#3 Precio promedio de los libros publicados después de 2020

In [None]:
#4 Libros publicados antes de 2021

In [None]:
#5 Diferencia de precio entre el libro más barato y el más caro

In [None]:
#6 Autores diferentes 

## 3️⃣ CSV: Ventas detalladas

Supón que tienes el archivo <code>ventas_detalladas.csv</code> con la siguiente estructura:

```csv
producto,fecha,cantidad,precio_unitario
A,2023-01-01,10,2.5
B,2023-01-02,5,3.0
A,2023-01-03,7,2.5
C,2023-01-01,3,4.0
B,2023-01-03,2,3.0
```

<b>Ejercicios:</b>

1. Crea un DataFrame con los datos extraídos del archivo.
2. ¿Cuál es el <b>total vendido</b> por producto y por fecha?
3. ¿En qué fecha se vendió la <b>mayor cantidad de productos</b>?
4. ¿Cuál es el <b>producto con mayor ingreso total</b>?
5. ¿Cuál es la <b>media de cantidad vendida</b> por producto?
6. ¿Qué producto tuvo <b>ventas todos los días registrados</b>?

<i>Tip: Usa pandas.read_csv y agrupa los datos según lo que se pide.</i>

In [None]:
# Tu código aquí

## 4️⃣ Imágenes: Análisis de pixeles

Supón que tienes la imagen <code>alinco.png</code> en la misma carpeta que este notebook.

<b>Ejercicios:</b>

1. Extrae la información de los pixeles de la imagen y muestra sus dimensiones.
2. ¿Cuál es el <b>valor RGB</b> del píxel (50, 50)?
3. ¿Cuál es el <b>color predominante</b> en la imagen?

<i>Tip: Usa matplotlib.pyplot.imread o cv2.imread para cargar la imagen y numpy para analizar los datos.</i>

In [None]:
# Tu código aquí