<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> Extracción </font> </center>

## Cargar archivos

In [None]:
# Almacenamos la ruta de los archivos en una variable
ruta='Data/'

# Archivos Excel y CSV

Los archivos Excel (`.xlsx`, `.xls`) y CSV (`.csv`) son formatos tabulares ampliamente utilizados para almacenar datos estructurados. Python, a través de la librería `pandas`, permite leer y manipular estos archivos de manera sencilla y eficiente.

In [None]:
import pandas as pd

In [None]:
df_csv = pd.read_csv(ruta+'df_tabla2.csv')
print('Contenido del archivo CSV:')
print(df_csv)

# Archivos de texto
### De texto a `DataFrame`

`pd.read_fwf` de pandas se utiliza para leer archivos de texto con columnas de ancho fijo (fixed-width formatted lines) y cargarlos en un DataFrame

In [None]:
# Extracción a partir de texto separado por tabular
pd.read_fwf(ruta+'texto_2.txt',header=None) # No se puede especificar el separador

`read_table` de pandas se utiliza para leer archivos de texto delimitados (por defecto, separados por tabulaciones) y cargarlos en un DataFrame

In [None]:
pd.read_table(ruta+'texto_2.txt',header=None) # sep='\t'

In [None]:
# Extracción a partir de texto separado por comas
pd.read_table(ruta+'texto_1.txt',sep=',',header=None)

In [None]:
pd.read_csv(ruta+'texto_2.txt',header=None,sep='\t') # sep=','

In [None]:
# Conversión de archivo a variable
file=open(ruta+'texto_3.txt')     # Abrir...
texto=file.read()
file.close()                      # ...despues cerrar

In [None]:
texto

In [None]:
# Si ocurre un error durante la ejecución, la variable file se cierra siempre:
with open(ruta+'texto_3.txt') as file:
  texto=file.read()

In [None]:
texto

In [None]:
# Separamos cada palabra de la variable de texto
texto.split()

In [None]:
texto.split?

### Expresiones regulares

Las **expresiones regulares** (regex) son patrones que se utilizan para buscar, extraer o manipular texto de manera flexible y eficiente. Permiten identificar cadenas de texto que cumplen ciertas reglas, como correos electrónicos, números de teléfono, palabras específicas, etc.

##### ¿Cómo se usan en Python?

En Python, se utiliza el módulo `re` para trabajar con expresiones regulares. Algunas funciones comunes son:

- `re.search()`: Busca un patrón en una cadena y devuelve el primer resultado.
- `re.match()`: Verifica si el patrón coincide al inicio de la cadena.
- `re.findall()`: Devuelve todas las coincidencias del patrón en la cadena.
- `re.sub()`: Reemplaza coincidencias del patrón por otro texto.

##### ¿Cómo definir patrones en regex?

- Los patrones se definen como cadenas de texto.
- Algunos caracteres especiales:
  - `.` : Cualquier carácter excepto salto de línea
  - `\d` : Un dígito (0-9)
  - `\w` : Un carácter alfanumérico
  - `\s` : Un espacio en blanco
  - `*` : Cero o más repeticiones
  - `+` : Una o más repeticiones
  - `?` : Cero o una repetición
  - `^` : Inicio de línea
  - `$` : Fin de línea
  - `[abc]` : Cualquier carácter a, b o c
  - `( )` : Agrupación

###### Ejemplo: Correos electrónicos

In [None]:
import re

texto_correo = "Mi correo es gdesirena@iteso.mx pero anteriormente usaba gdesirena@gmail.com"
patron = r"\w+@\w+\.\w+"  # patrón para un correo electrónico

resultado = re.search(patron, texto_correo)
if resultado:
    print("Correo encontrado:", resultado.group())

In [None]:
correos = re.findall(patron, texto_correo) #Encuentra todos los correos en texto_correo
correos

In [None]:
df_correos = pd.DataFrame({'correo': correos})
df_correos

In [None]:
dominios = re.findall(r'@([\w\.-]+)', texto_correo) #captura el dominio después del @
print('Dominios encontrados:', dominios)

In [None]:
texto_fechas = 'algunas fechas importantes son 15/09/2023 y 01/01/2024.' 
fechas = re.findall(r'\b\d{2}/\d{2}/\d{4}\b', texto_fechas) #Encuentra todas las fechas
print('Fechas encontradas:', fechas)

###### Ejemplo: Conteo de palabras usando regex

In [None]:
#re.split?

In [None]:
L=re.split(r'\W',texto)
L

In [None]:
# Convertimos la lista a set
S=set(L)
S.discard('')
S

In [None]:
# Buscamos las palabras no repetidas del set en la variable de texto para poderlas contar
re.findall?

In [None]:
re.findall('en',texto,flags=re.I)

In [None]:
d={}
for palabra in S:
    d[palabra]=len(re.findall(palabra,texto,flags=re.I))
d

In [None]:
df=pd.DataFrame(d.items(),columns=['Palabra','No.'])

In [None]:
df.head()

https://regex101.com/

# Archivos excel

In [None]:
# A partir de la función
pd.read_excel(ruta+'API_SI.POV.DDAY_DS2_en_excel_v2_1930012.xls')

In [None]:
# Importamos la clase ExcelFile
from pandas import ExcelFile

In [None]:
# A partir de la clase
obj=ExcelFile(ruta+'API_SI.POV.DDAY_DS2_en_excel_v2_1930012.xls')
obj.parse() # Importa la primera página

# Archivos JSON

El formato JSON (JavaScript Object Notation) es ampliamente utilizado para el intercambio de datos, especialmente en aplicaciones web y APIs. Python incluye la librería estándar `json` para leer y manipular archivos JSON.

In [None]:
import json

json_data = '{"personas": [{"nombre": "Ana", "edad": 23}, {"nombre": "Luis", "edad": 31}]}'
data = json.loads(json_data)
print('Personas extraídas del archivo JSON:')
for persona in data['personas']:
    print(f'Nombre: {persona["nombre"]}, Edad: {persona["edad"]}')

In [None]:
from pandas import json_normalize

with open('Data/data.json') as jsonfile:
    jsondata = json.load(jsonfile)
    
df_json = json_normalize(jsondata['data'])
df_json

In [None]:
df_json['categories'][0]


# Archivos XML

El formato XML es común para el intercambio de datos estructurados. Python ofrece la librería estándar `xml.etree.ElementTree` para analizar y extraer información de archivos XML.

In [None]:
import xml.etree.ElementTree as ET

In [None]:
xml_data = '''
<personas>
  <persona>
    <nombre>Ana</nombre>
    <edad>23</edad>
  </persona>
  <persona>
    <nombre>Luis</nombre>
    <edad>31</edad>
  </persona>
</personas>
'''

In [None]:

root = ET.fromstring(xml_data)
print('Personas extraídas del archivo XML:')
for persona in root.findall('persona'):
    nombre = persona.find('nombre').text
    edad = persona.find('edad').text
    print(f'Nombre: {nombre}, Edad: {edad}')

###### Ejemplo con tabla_1.xml


In [None]:
archivo_1=ET.parse(ruta+'tabla_1.xml')
raiz=archivo_1.getroot()

In [None]:
for nodo in raiz:
    print(nodo.attrib,nodo.text,nodo.tag)
    for sn in nodo:
        print(sn.attrib,sn.text,sn.tag)

In [None]:
archivo_2=ET.parse(ruta+'tabla_2.xml')
root=archivo_2.getroot()
for nodo in root:
    print(nodo.tag,nodo.attrib,nodo.text)

In [None]:
for nodo in root:
    for subn in nodo:
        print(subn.tag,subn.attrib,subn.text)

In [None]:
#Extraer los datos de tabla_1.xml
d={}
for nodo in raiz:
    d[nodo.tag]=[]
for nodo in raiz:
    d[nodo.tag].append(nodo.attrib['name'])
for nodo in raiz:
    for sn in nodo:
        d[sn.tag]=[]
for nodo in raiz:
    for sn in nodo:
        d[sn.tag].append(sn.text)
d

In [None]:
pd.DataFrame(d)

```python
df_1 = pd.DataFrame(columns = columnas)
for nodo in raiz:
  L = []
  L.append(nodo.attrib['name'])
  for sn in nodo:
    L.append(sn.text)
  df_1 = df_1.append(pd.DataFrame([L], columns=columnas), ignore_index=True)
```

In [None]:
archivo=ET.parse(ruta+'tabla_2.xml')
raiz=archivo.getroot()

In [None]:
L=[]
for n in raiz.findall('documents/document'):
    d={}
    d[n.tag]=n.text
    for k,v in n.attrib.items():
        d[k]=v
    L.append(d)
pd.DataFrame(L)

---

In [None]:
archivo='IFC-Subscriptions-and-Voting-Power-of-Member-Count.xml'
file=ET.parse(ruta+archivo)
root=file.getroot()

for nodo in root:
    for snodo in nodo:
        print(snodo.tag,snodo.attrib,snodo.text)
        for ssnodo in snodo:
            print(ssnodo.tag,ssnodo.attrib,ssnodo.text)

---

# Archivos SHP

Los archivos Shapefile (`.shp`) son un formato estándar para almacenar información geoespacial vectorial. La librería `geopandas` permite leer y manipular estos archivos de manera sencilla. Un Shapefile suele estar acompañado de otros archivos como `.shx` y `.dbf`.

In [None]:
#!pip install geopandas

In [None]:
# %conda !pip !conda
%pip install geopandas

In [None]:
import geopandas as gpd

In [None]:
g_df = gpd.read_file('COVID_INDIA_POC-shp/COVID_INDIA_POC.shp')
g_df

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(12, 8))
g_df.plot(
    ax=ax,
    column=g_df.columns[0],  # Cambia por la columna que quieras destacar
    cmap='viridis',
    edgecolor='black',
    legend=True
)
ax.set_title('COVID_INDIA_POC', fontsize=12)
ax.axis('off')
plt.show()

# Archivos HTML

In [None]:
# Leer un archivo HTML local
with open(ruta+'ejemplo.html', 'r', encoding='utf-8') as file:
    html_content = file.read()
print(html_content[:500])  # Muestra los primeros 500 caracteres

In [None]:
#!pip install beautifulsoup4 #Instalar BeautifulSoup si es necesario

In [None]:
# Analizar HTML con BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

# Extraer el título de la página
titulo = soup.title.string
print('Título de la página:', titulo)

In [None]:
# Extraer los enlaces de la página
enlaces = soup.find_all('a')
for enlace in enlaces:
    print(enlace.get('href'))

In [None]:
#!pip install requests # Instalar requests si es necesario
import requests

url = 'https://www.python.org/'
response = requests.get(url)
web_html = response.text

# Analizar el HTML descargado
soup_web = BeautifulSoup(web_html, 'html.parser')


In [None]:
print(soup_web.title)

###### Ejemplo sencillo webscraping 

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
 
url = "https://codedamn-classrooms.github.io/webscraper-python-codedamn-classroom-website/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
type(soup)

In [None]:
#Obtener un dataframe con la información de los productos
products = []

for price_tag in soup.find_all("h4", string=lambda s: s and s.strip().startswith("$")):
    # El nombre del producto es la cadena que sigue después del tag <a> después del precio
    product_link = price_tag.find_next("a")
    if not product_link:
        continue
    product_name = product_link.text.strip()
    product_url = product_link["href"]
    # La descripción es el siguien tag <p> después de la liga del producto
    description_tag = product_link.find_next("p")
    description = description_tag.text.strip() if description_tag else ""
    # Los numero de reviews van después de <div> 
    reviews_tag = product_link.find_next(string=lambda s: s and "review" in s)
    try:
        reviews = int(reviews_tag.strip().split()[0])
    except Exception:
        reviews = None
    # Precio
    try:
        price = float(price_tag.text.strip().replace("$", ""))
    except Exception:
        price = None
 
    products.append({
        "Product Name": product_name,
        "Price": price,
        "Description": description,
        "Reviews": reviews,
        "Product URL": product_url
    })
 
df = pd.DataFrame(products)
df

# Archivos imágen

Las imágenes RGB almacenan información de color en tres canales: Rojo (R), Verde (G) y Azul (B). Para leer y manipular imágenes en Python, se pueden usar las librerías `Pillow` (PIL), `matplotlib` y `numpy`. Esto permite acceder a los valores de los píxeles y realizar análisis o transformaciones.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
I=plt.imread(ruta+'imagen.bmp')
I.shape

In [None]:
plt.imshow(I)

In [None]:
I[0,0,0] # pixel (0,0) de la matriz roja

In [None]:
plt.imshow(I[:,:,0],cmap='gray') # Matriz roja

In [None]:
G=I.mean(axis=2)
G.shape

In [None]:
plt.imshow(G)

In [None]:
G[0,0]

# Ejemplos de aplicaciones en Ciencias de Datos para cada tipo de archivo

## Archivos de texto:
> **Análisis de sentimientos:** Procesar opiniones de usuarios en archivos .txt para determinar si son positivas o negativas.

> **Extracción de palabras clave:** Identificar términos importantes en grandes volúmenes de texto.

> **Procesamiento de lenguaje natural (NLP):** Tokenización, lematización y análisis de frecuencia de palabras.

> **Análisis de logs:** Procesar archivos de registro para detectar patrones o anomalías.


### Archivos Excel y CSV

> **Análisis exploratorio de datos (EDA):**
  - Cargar un archivo de ventas y calcular el total vendido por producto.
    
> **Preparación de datos para modelos de machine learning:**
  - Métodos de ingenieria de características
    
> **Reportes automatizados:**
  - Generar un resumen mensual de ingresos y exportarlo a Excel.

### Archivos de imágenes RGB

> **Visión por computadora:**
  - Clasificar imágenes de dígitos escritos a mano (MNIST).
    
> **Procesamiento de imágenes médicas:**
  - Detectar regiones anómalas en radiografías.
    
> **Extracción de características visuales:**
  - Calcular el histograma de colores de una imagen.

### Archivos XML

> **Integración de datos de sistemas empresariales:**
  - Extraer información de clientes de un archivo XML exportado de un ERP.
    
> **Procesamiento de datos de sensores o dispositivos IoT:**
  - Leer registros de temperatura almacenados en XML.
    
> **Análisis de datos de publicaciones científicas:**
  - Obtener títulos y autores de artículos en formato XML

### Archivos JSON

> **Consumo de APIs web:**
  - Obtener y analizar tweets desde la API de Twitter.
    
> **Almacenamiento y análisis de logs:**
  - Procesar registros de acceso de una aplicación web.
    
> **Análisis de datos de aplicaciones móviles:**
  - Leer resultados de encuestas exportadas en JSON.

### Archivos Shapefile (SHP)

> **Análisis geoespacial:**
  - Calcular la distancia entre puntos de interés en una ciudad.
    
> **Estudios ambientales y urbanos:**
  - Analizar la distribución de áreas verdes en una zona urbana.

> **Modelado de redes y transporte:**
  - Determinar rutas óptimas entre dos ubicaciones.

## Archivos HTML:
> **Web scraping:** Extraer datos estructurados de páginas web para análisis posterior.

> **Construcción de datasets:** Recolectar información de múltiples páginas HTML para crear conjuntos de datos.

> **Análisis de enlaces:** Estudiar la estructura de enlaces en sitios web para análisis de redes.

> **Extracción de tablas:** Obtener datos tabulares de páginas HTML para análisis estadístico.