# 🗂️ Clase: Lectura de Ficheros con Python

## Introducción

Hoy aprenderemos a trabajar con distintos tipos de archivos que se usan comúnmente en análisis de datos. Exploraremos:

* Archivos **XML**
* Archivos **JSON**
* Archivos **CSV**
* Archivos **Excel**
* Lectura usando **Python puro** y también con la librería **Pandas**

---

## 1. Archivos XML con Python

### ¿Qué es XML?

El formato XML (Extensible Markup Language) es un lenguaje de marcado que se utiliza para codificar y estructurar datos de manera que sean legibles tanto para las máquinas como para los seres humanos. Los datos se organizan mediante **etiquetas** que definen la estructura jerárquica. Cada etiqueta tiene una apertura `<etiqueta>` y un cierre `</etiqueta>`, y puede contener datos o subetiquetas anidadas. XML se utiliza para **almacenar y transportar datos de manera organizada y estructurada**.

```xml
<correo>
  <to>María</to>
  <from><name>Ada</name><email>ada@adalab.es</email></from>
  <heading>¿Qué tal?</heading>
  <body>Hola Mari...</body>
</correo>
```

**Librería:**
Usaremos el módulo `xml.etree.ElementTree`, que es parte de la biblioteca estándar de Python, por lo que **no necesitas instalar nada extra**. Permite manipular archivos XML de manera eficiente. Lo llamamos importando:

In [2]:
import xml.etree.ElementTree as ET # Le dimos un "alias" de ET

**Métodos clave:**

1.  **`ET.parse()`**: Nos permite **cargar un archivo XML** para poder trabajarlo. Una vez que lo cargamos, podemos recorrerlo como si fuera un árbol con nodos.

In [3]:
tree = ET.parse('contacto.xml') # dentro del método parse incluimos el archivo a leer

In [4]:
tree

<xml.etree.ElementTree.ElementTree at 0x1122b63d0>

In [5]:
type(tree)

xml.etree.ElementTree.ElementTree

2.  **`getroot()`**: Nos devuelve el **elemento raíz del archivo XML**.

In [6]:
root = tree.getroot()

In [9]:
root

<Element 'contact-info' at 0x112a2e980>

In [10]:
type(root)

xml.etree.ElementTree.Element

Cada elemento, incluyendo el root, tiene un **`tag`** (nombre) y puede tener **`attrib`** (atributos).

In [11]:
print(root.tag) # imprimimos cuál es la raíz, el padre de nuestro archivo xml
print(root.attrib) # sacamos los atributos de nuestro fichero

contact-info
{}


3.  **Navegar la estructura**: Puedes iterar por cada hijo de root y ver la estructura.

In [12]:
for child in root:
    print(child.tag)

contact
contact
socialmedia


In [13]:
for child in root:
    print(f"{child.tag}: Es un hijo de nuestra raíz '{root.tag}'" ) # Modificado para generalizar
    for subchild in child:
        print(f"{subchild.tag}: Es un nieto de nuestra raíz '{root.tag}'" ) # Modificado para generalizar

contact: Es un hijo de nuestra raíz 'contact-info'
type: Es un nieto de nuestra raíz 'contact-info'
url: Es un nieto de nuestra raíz 'contact-info'
contact: Es un hijo de nuestra raíz 'contact-info'
type: Es un nieto de nuestra raíz 'contact-info'
address: Es un nieto de nuestra raíz 'contact-info'
socialmedia: Es un hijo de nuestra raíz 'contact-info'
profile: Es un nieto de nuestra raíz 'contact-info'
profile: Es un nieto de nuestra raíz 'contact-info'
profile: Es un nieto de nuestra raíz 'contact-info'
profile: Es un nieto de nuestra raíz 'contact-info'
profile: Es un nieto de nuestra raíz 'contact-info'


La estructura sigue un árbol, con una rama principal (la raíz) de la que salen otras ramas (hijos), y de estas a su vez salen más ramas (nietos).

4.  **`.find()`**: Se utiliza para buscar el **primer subelemento** que coincide con la etiqueta que le pasamos como argumento. Con `.text` accedes al contenido.


In [15]:
# Ejemplo de acceso anidado
print(root.find('contact').find('type').text) 
print(root.find('contact').find('url').text) 

Website
https://adalab.es/


5.  **`.findall()`**: Obtiene **todos los elementos** que tienen una etiqueta específica. Nos da una lista de todos los elementos cuyo tag coincide con el string dado.

In [16]:
root.findall('contact')

[<Element 'contact' at 0x112a2e930>, <Element 'contact' at 0x112a2eb10>]

In [17]:
for contact in root.findall('contact'):
    print(contact)

<Element 'contact' at 0x112a2e930>
<Element 'contact' at 0x112a2eb10>


In [18]:
# iteramos por el hijo "contact" y accedemos a todos los elementos con tag 'type' dentro de cada contact
for contact in root.findall('contact'):
    print(contact.find('type').text) # dentro de este sacamos su contenido

Website
Mail


In [19]:
root.find('socialmedia')

<Element 'socialmedia' at 0x112a2ec00>

In [20]:
root.find('socialmedia').findall('profile')

[<Element 'profile' at 0x112a2ec50>,
 <Element 'profile' at 0x112a2ed40>,
 <Element 'profile' at 0x112a2ee30>,
 <Element 'profile' at 0x112a2ef20>,
 <Element 'profile' at 0x112a2f010>]

In [22]:
# Ejemplo para otro elemento anidado
for subelement in root.find('socialmedia').findall('profile'):
    print(subelement.find('name').text)
    print(subelement.find('url').text)


Twitter
https://twitter.com/Adalab_Digital
Facebook
https://www.facebook.com/AdalabDigital/
Linkedin
https://www.linkedin.com/school/adalab/
Instagram
https://www.instagram.com/adalab_digital/
Youtube
https://www.youtube.com/channel/UCYmHARvTgsUrm5YdSYwzmDg


## 2. Archivos JSON con Python

### ¿Qué es JSON?

El formato JSON (JavaScript Object Notation) es **ligero y fácil de leer**. Es muy popular y lo verás mucho en APIs y aplicaciones web. Estructura datos usando **pares clave-valor**, como los diccionarios en Python. Es como un diccionario de Python pero en formato de texto.

```json
{
  "nombre": "Ana",
  "edad": 25,
  "cursos": ["Python", "Data Analyst"]
}
```

**Librería:**
Usaremos el módulo `json` (también estándar, no hace falta instalarla). Esto nos permite convertir datos entre JSON y objetos de Python (como diccionarios y listas).

In [23]:
import json

In [27]:
with open("data/personal.json") as fichero:
    data = json.load(fichero)

In [None]:
data

{'workers': [{'nombre': 'Ana',
   'edad': 34,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

# 📂 Cómo abrir archivos en Python

## 1. ¿Qué es `open()`?

La función `open()` se usa para abrir archivos en Python. Necesita al menos dos argumentos:

```python
open(nombre_archivo, modo)
```

* `nombre_archivo`: nombre del fichero o ruta.
* `modo`:

  * `'r'` → leer (modo por defecto)
  * `'w'` → escribir (sobrescribe el archivo)
  * `'a'` → añadir al final
  * `'b'` → modo binario (por ejemplo: `'rb'`, `'wb'`)
  * `'x'` → crear un nuevo archivo (falla si ya existe)

---

## 2. Usando `open()` SIN `with` (versión manual)

```python
archivo = open("ejemplo.txt", "r")  # Abrimos el archivo en modo lectura
contenido = archivo.read()          # Leemos el contenido
print(contenido)
archivo.close()                     # Cerramos el archivo (¡muy importante!)
```

📌 *Recuerda:* si **no cierras** el archivo con `.close()`, puede causar errores o pérdida de datos.

---

## 3. Usando `open()` CON `with` (forma recomendada)

```python
with open("ejemplo.txt", "r") as archivo:
    contenido = archivo.read()
    print(contenido)
```

### ¿Qué hace `with`?

* **Abre** el archivo.
* **Lo cierra automáticamente** al salir del bloque.
* Evita olvidarse del `.close()`.
* Es más limpio y seguro.

---

## 4. Otros métodos útiles:

```python
archivo.read()       # Lee todo el contenido
archivo.readline()   # Lee una sola línea
archivo.readlines()  # Devuelve una lista con todas las líneas
archivo.write(texto) # Escribe texto en el archivo
```

---


In [29]:
data

{'workers': [{'nombre': 'Ana',
   'edad': 34,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

In [30]:
type(data)

dict

In [31]:
# Convertir a JSON:
diccionario = {"nombre": "Ana", "edad": 25}
json_string = json.dumps(diccionario)

In [32]:
json_string

'{"nombre": "Ana", "edad": 25}'

In [33]:
type(json_string)

str

**Métodos clave:**

1.  **`json.loads()`**: Convierte una **cadena JSON** (texto recibido de un API) en un diccionario de Python.

In [34]:
# Cadena JSON
json_data = '{"nombre": "Ana", "edad": 25, "cursos": ["Python", "Data Analyst"]}'
# Convertir JSON a un diccionario de Python
data = json.loads(json_data)
data

{'nombre': 'Ana', 'edad': 25, 'cursos': ['Python', 'Data Analyst']}

In [35]:
print(data["nombre"])

Ana


2.  **`json.load()`**: **Lee un archivo JSON** y convierte su contenido en un objeto de Python. Uso común con `with open()`. La `'r'` es para leer (read).

In [37]:
# Leer un archivo JSON
with open('data/personal.json', 'r') as fichero: #
    personal = json.load(fichero) # igualamos el archivo cargado a una variable para tenerlo almacenado
# El objeto cargado es de tipo diccionario
print(type(personal))
# Podemos ver la estructura del archivo
print(personal)

<class 'dict'>
{'workers': [{'nombre': 'Ana', 'edad': 34, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'gatos'}, {'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}, {'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}, {'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}]}


3.  **`json.dumps()`**: Convierte un **objeto de Python** (diccionario o lista) en una cadena JSON. Uso: para enviarlo a una API.


In [42]:
# Diccionario de Python
data = {"nombre": "Ana", "edad": 25, "cursos": ["Python", "Data Analyst"]}
# Convertir diccionario a una cadena JSON
json_string = json.dumps(data)
json_string

'{"nombre": "Ana", "edad": 25, "cursos": ["Python", "Data Analyst"]}'

4.  **`json.dump()`**: **Escribe un objeto de Python** (diccionario o lista) en un archivo en formato JSON. Uso común con `with open()`. La `'w'` es para escribir (write).


In [45]:
# Diccionario de Python (o el objeto 'personal' después de modificarlo)
data_to_save = {"nombre": "Ana", "edad": 25, "cursos": ["Python", "Data Analyst"], "mascota": "gatos"} # Ejemplo
# Escribir el diccionario en un archivo JSON
with open('data/data_updated.json', 'w') as file: # Aquí cambio esa "r", ahora la "w" hace referencia a escritura
    json.dump(data_to_save, file)

## 📦 Diferencias entre `load` / `loads` y `dump` / `dumps` del módulo `json`

| Método         | ¿Qué hace?                                          | Tipo de dato que usa        |
| -------------- | --------------------------------------------------- | --------------------------- |
| `json.load()`  | Lee JSON desde un archivo → Python (`dict`, `list`) | 📁 Archivo abierto (`file`) |
| `json.loads()` | Convierte una **cadena JSON** → Python              | 📄 Cadena (`str`)           |
| `json.dump()`  | Convierte Python → JSON y guarda en archivo         | 📁 Archivo abierto (`file`) |
| `json.dumps()` | Convierte Python → **cadena JSON**                  | ➡️ Devuelve un `str`        |

### 📌 Ejemplos:

```python
# load
with open("datos.json") as f:
    data = json.load(f)  # Devuelve un diccionario de Python

# loads
json_str = '{"nombre": "Ana", "edad": 30}'
data = json.loads(json_str)

# dump
with open("salida.json", "w") as f:
    json.dump(data, f)

# dumps
json_texto = json.dumps(data)
```


**Manipulación de datos JSON (Python Nativo):**

Una vez que el JSON se ha cargado en una variable Python (como `personal`), se convierte en un diccionario o lista Python y podemos manipularlo.

Nuestro archivo de ejemplo `personal.json` tiene una estructura como diccionarios, con la key `"workers"` y dentro una lista de diccionarios.

In [46]:
personal

{'workers': [{'nombre': 'Ana',
   'edad': 34,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

In [48]:
# Para saber la longitud de la lista dentro de "workers"
len(personal['workers'])

4

In [64]:
len('ana')

3

In [53]:
personal['workers']

[{'nombre': 'Ana',
  'edad': 34,
  'experiencia': 5,
  'nivel': 'Senior',
  'salario': 50000,
  'mascota': 'gatos'},
 {'nombre': 'Eva',
  'edad': 37,
  'experiencia': 2,
  'nivel': 'Mid',
  'salario': 35000},
 {'nombre': 'Marta',
  'edad': 27,
  'experiencia': 1,
  'nivel': 'Junior',
  'salario': 25000},
 {'nombre': 'Paula',
  'edad': 30,
  'experiencia': 3,
  'nivel': 'Mid',
  'salario': 35000}]

In [54]:
# Acceder a cada uno de los registros (diccionarios) dentro de "workers"
for i in personal['workers']:
    print(i)

{'nombre': 'Ana', 'edad': 34, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'gatos'}
{'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}
{'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}
{'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}


In [55]:
# Acceder a cada uno de los registros por índice (ej. el primero)
print(personal["workers"])

[{'nombre': 'Ana', 'edad': 34, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'gatos'}, {'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}, {'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}, {'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}]


In [56]:
personal

{'workers': [{'nombre': 'Ana',
   'edad': 34,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

In [63]:
personal['workers'][0].get('nombre')

'Ana'

In [None]:
# Con las keys podemos acceder a cada uno de los valores del diccionario (ej. el nombre del primero)
print(personal['workers'][0]['nombre'])

Ana


In [65]:
personal

{'workers': [{'nombre': 'Ana',
   'edad': 34,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

In [66]:
# Podemos cambiar el valor de una key
personal["workers"][0]["edad"] = 45
print(personal["workers"])

[{'nombre': 'Ana', 'edad': 45, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'gatos'}, {'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}, {'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}, {'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}]


In [67]:
len(personal["workers"])

4

In [68]:
range(4)

range(0, 4)

In [69]:
personal

{'workers': [{'nombre': 'Ana',
   'edad': 45,
   'experiencia': 5,
   'nivel': 'Senior',
   'salario': 50000,
   'mascota': 'gatos'},
  {'nombre': 'Eva',
   'edad': 37,
   'experiencia': 2,
   'nivel': 'Mid',
   'salario': 35000},
  {'nombre': 'Marta',
   'edad': 27,
   'experiencia': 1,
   'nivel': 'Junior',
   'salario': 25000},
  {'nombre': 'Paula',
   'edad': 30,
   'experiencia': 3,
   'nivel': 'Mid',
   'salario': 35000}]}

In [70]:
# Podemos hacerlo en bucle e incluyendo condiciones
for i in range(len(personal["workers"])): # for i in range(0, 4):
    if personal["workers"][i]["nombre"] == "Ana":
        personal["workers"][i]["mascota"] = "perros" # En este caso, si el nombre es Ana, cambiamos la key "mascota"

print(personal["workers"])

[{'nombre': 'Ana', 'edad': 45, 'experiencia': 5, 'nivel': 'Senior', 'salario': 50000, 'mascota': 'perros'}, {'nombre': 'Eva', 'edad': 37, 'experiencia': 2, 'nivel': 'Mid', 'salario': 35000}, {'nombre': 'Marta', 'edad': 27, 'experiencia': 1, 'nivel': 'Junior', 'salario': 25000}, {'nombre': 'Paula', 'edad': 30, 'experiencia': 3, 'nivel': 'Mid', 'salario': 35000}]


In [71]:
# Y finalmente, guardar el fichero actualizado
with open("personal_updated.json", "w") as fichero: # Usamos "w" para escribir (write)
    json.dump(personal, fichero)

## 3. Introducción a Pandas y DataFrames

**¿Qué es Pandas?**
Pandas es una **librería de Python que facilita la manipulación y análisis de datos estructurados** (como tablas).

**¿Por qué es útil?**

*   Permite trabajar con datos en forma de tablas (similares a una hoja de cálculo de Excel) mediante estructuras llamadas **DataFrames** y **Series**.
*   Te permite **leer datos de diferentes fuentes** (como archivos CSV, Excel, bases de datos, etc.).
*   Puedes limpiar y transformar datos de manera fácil.
*   Facilita realizar análisis exploratorio y operaciones como filtrado, agrupación, o estadísticas descriptivas.

**Estructuras clave:**

*   **DataFrame**: Es una **tabla bidimensional con filas y columnas**.
*   **Series**: Es una **columna de un DataFrame** o una lista unidimensional de datos.

 ---

**Instalación:**

### 🐼 ¿Tengo pandas instalado?

* Abrimos una celda nueva en **Jupyter Notebook**.
* Escribir el siguiente código:

```python
import pandas as pd
print(pd.__version__)
```
* ¿Qué pasa si pandas no está instalado?

Si ves un error como:

```
ModuleNotFoundError: No module named 'pandas'
```

Necesitas instalar la librería. Abre la terminal y ejecuta:

```bash
pip install pandas
```
---

**Importación:**
La convención común es:

```python
import pandas as pd
```

**Método básico `df.head()`:**
Lo veremos muchas veces. Nos sirve para ver **por defecto los primeros 5 resultados del DataFrame**.

In [72]:
import pandas as pd
print(pd.__version__)

2.1.4


### 3.1 Archivos CSV con Pandas

El formato CSV (Comma-Separated Values) es como el **pan de cada día en el mundo del análisis de datos**. ¡Está por todas partes!

**Apertura:**
Usamos el método `pd.read_csv()`. Fíjate que volvemos a usar el método de "read", con la diferencia que será propio para "csv".

In [73]:
df_ufo = pd.read_csv("ufo.csv")
df_ufo.head()

Unnamed: 0.1,Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


**Problema común:**
Al abrir el "csv" a veces se crea una columna `"Unnamed: 0"` que no forma parte del archivo original. Esto lo hace Pandas al crear un nuevo índice.

**Solución:**
Decirle que ponga la primera columna del archivo cómo índice con `index_col = 0`.

In [74]:
df_ufo = pd.read_csv("ufo.csv", index_col = 0)
df_ufo.head()

Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


**Guardar en otro formato:**
Puedes guardar un DataFrame en un formato diferente al que tenía el archivo de inicio.

In [75]:
# Guardar en Excel
df_ufo.to_excel("ufo.xlsx")

# Guardar en CSV (si ya tenías un DataFrame y quieres guardarlo)
# df.to_csv("mi_archivo.csv")

### 3.2 Archivos Excel con Pandas

Excel es una herramienta muy común en el mundo empresarial y académico. Con Pandas, ¡abrir y manipular esos archivos de Excel será mucho más fácil!

**Apertura:**
Usamos el método `pd.read_excel()`. ¡Nuevamente el método “read”... pero ahora para Excel!

In [76]:
df_ufo_excel = pd.read_excel("ufo.xlsx", index_col = 0) # ya conoces a "read" no? :)
df_ufo_excel.head()

Unnamed: 0,Date_time,date_documented,Year,Month,Hour,Season,Country_Code,Country,Region,Locale,latitude,longitude,UFO_shape,length_of_encounter_seconds,Encounter_Duration,Description
0,1949-10-10 20:30:00,4/27/2004,1949,10,20,Autumn,USA,United States,Texas,San Marcos,29.883056,-97.941111,Cylinder,2700.0,45 minutes,This event took place in early fall around 194...
1,1949-10-10 21:00:00,12/16/2005,1949,10,21,Autumn,USA,United States,Texas,Bexar County,29.38421,-98.581082,Light,7200.0,1-2 hrs,1949 Lackland AFB&#44 TX. Lights racing acros...
2,1955-10-10 17:00:00,1/21/2008,1955,10,17,Autumn,GBR,United Kingdom,England,Chester,53.2,-2.916667,Circle,20.0,20 seconds,Green/Orange circular disc over Chester&#44 En...
3,1956-10-10 21:00:00,1/17/2004,1956,10,21,Autumn,USA,United States,Texas,Edna,28.978333,-96.645833,Circle,20.0,1/2 hour,My older brother and twin sister were leaving ...
4,1960-10-10 20:00:00,1/22/2004,1960,10,20,Autumn,USA,United States,Hawaii,Kaneohe,21.418056,-157.803611,Light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...


### 3.3 Archivos XML con Pandas

¡Ya sabemos que Pandas es una herramienta increíble para el análisis de datos tabulares! Pero, ¿sabías que también podemos utilizarlo para trabajar con archivos XML? Nos facilita la vida cuando necesitamos lidiar con datos estructurados en formato XML.

**Apertura:**
Usamos el método `pd.read_xml()`. Los métodos "read" son variados! servirán para varios tipos de archivos.


In [77]:
df = pd.read_xml("books.xml")
df.head()

Unnamed: 0,id,author,title,genre,price,publish_date,description
0,bk101,"Gambardella, Matthew",XML Developer's Guide,Computer,44.95,2000-10-01,An in-depth look at creating applications \n ...
1,bk102,"Ralls, Kim",Midnight Rain,Fantasy,5.95,2000-12-16,"A former architect battles corporate zombies, ..."
2,bk103,"Corets, Eva",Maeve Ascendant,Fantasy,5.95,2000-11-17,After the collapse of a nanotechnology \n ...
3,bk104,"Corets, Eva",Oberon's Legacy,Fantasy,5.95,2001-03-10,"In post-apocalypse England, the mysterious \n ..."
4,bk105,"Corets, Eva",The Sundered Grail,Fantasy,5.95,2001-09-10,"The two daughters of Maeve, half-sisters, \n ..."


### 3.4 Archivos JSON con Pandas

¡El formato JSON es como una caja de sorpresas llena de datos jerárquicos y anidados! 🎁 

**Apertura:**
Usamos el método `pd.read_json()`. ¡A esta altura tu y "read" deberían ser muy amigos!!!

In [78]:
df = pd.read_json("one_piece.json")
df.head() # recordamos que "head" me trae los primeros 5 resultados por defecto

Unnamed: 0,rank,trend,season,episode,name,start,total_votes,average_rating
0,24129,18,1,1,I'm Luffy! The Man Who Will Become the Pirate ...,1999,647,7.6
1,29290,11,1,2,"The Great Swordsman Appears! Pirate Hunter, Ro...",1999,473,7.8
2,32043,7,1,3,Morgan vs. Luffy! Who's This Beautiful Young G...,1999,428,7.7
3,28818,8,1,4,Luffy's Past! The Red-haired Shanks Appears!,1999,449,8.1
4,37113,4,1,5,"Fear, Mysterious Power! Pirate Clown Captain B...",1999,370,7.5


**Transformación:**
Pandas puede simplificar la apertura y el análisis de archivos JSON. **Transforma esos datos complejos y anidados en estructuras tabulares** (`DataFrames`) que son mucho más fáciles de manejar y analizar.

**Guardar en otro formato:**
Al igual que antes, con este DataFrame puedes aplicar los métodos de Pandas que has aprendido, incluso guardarlo con otro formato cómo por ejemplo "csv".

In [79]:
# Guardar el DataFrame en formato CSV
df.to_csv("one_piece.csv")