<div style="background-color:#000047; padding: 30px; border-radius: 10px; color: white; text-align: center;">
    <img src='Figures/alinco.png' style="height: 100px; margin-bottom: 10px;"/>
    <h1>Extracci√≥n de Datos de Diferentes Fuentes</h1>
</div>

La **extracci√≥n de datos** es el proceso de obtener informaci√≥n relevante desde diversas fuentes y formatos, como archivos de texto, hojas de c√°lculo, bases de datos, im√°genes, archivos web, APIs, entre otros. En la actualidad, los datos se encuentran dispersos y almacenados en m√∫ltiples formas, por lo que saber c√≥mo acceder, limpiar y transformar estos datos es una habilidad fundamental.

#### ¬øPor qu√© es importante la extracci√≥n de datos?

- Permite **integrar informaci√≥n** de diferentes sistemas y plataformas.
- Es el primer paso para el **an√°lisis de datos** y la toma de decisiones basada en evidencia.
- Facilita la **automatizaci√≥n** de procesos y la actualizaci√≥n constante de informaci√≥n.
- Es esencial para la **preparaci√≥n de datos** en proyectos de ciencia de datos e inteligencia artificial.

En proyectos de **Inteligencia Artificial (IA)**, la calidad y diversidad de los datos es clave para entrenar modelos robustos y precisos. La extracci√≥n de datos permite:

- **Construir datasets** a partir de fuentes reales y actualizadas.
- **Preprocesar y limpiar** la informaci√≥n antes de alimentar algoritmos de machine learning.
- **Enriquecer modelos** combinando datos estructurados (tablas, bases de datos) y no estructurados (texto, im√°genes, audio).
- **Automatizar la recolecci√≥n** de datos para sistemas de IA en producci√≥n.

Dominar las t√©cnicas de extracci√≥n de datos te permitir√° abordar problemas complejos, crear soluciones inteligentes y aprovechar el potencial de la IA en cualquier √°rea profesional.

<div style="background-color:#e6f2ff; border-left:4px solid #000047; padding:10px;">
En este notebook aprender√°s a extraer datos desde archivos CSV, Excel, texto, JSON, XML, im√°genes, HTML y SHP, utilizando Python y sus principales librer√≠as.
</div>

## Cargar archivos

In [3]:
# Almacenamos la ruta de los archivos en una variable
ruta='Data/'

# Archivos Excel y CSV

Los archivos Excel (`.xlsx`, `.xls`) y CSV (`.csv`) son formatos tabulares ampliamente utilizados para almacenar datos estructurados. Python, a trav√©s de la librer√≠a `pandas`, permite leer y manipular estos archivos de manera sencilla y eficiente.

In [4]:
import pandas as pd

In [3]:
df_csv = pd.read_csv(ruta+'df_tabla2.csv')
print('Contenido del archivo CSV:')
print(df_csv)

Contenido del archivo CSV:
   Unnamed: 0        country  rank  year   gdppc
0           0  Liechtenstein     1  2008  141100
1           1      Singapore     4  2011   59900
2           2         Panama    68  2011   13600


# Archivos de texto
### De texto a `DataFrame`

`pd.read_fwf` de pandas se utiliza para leer archivos de texto con columnas de ancho fijo (fixed-width formatted lines) y cargarlos en un DataFrame

In [4]:
# Extracci√≥n a partir de texto separado por tabular
pd.read_fwf(ruta+'texto_2.txt',header=None) # No se puede especificar el separador

Unnamed: 0,0,1,2
0,Ana,1.0,10
1,Beto,1.1,10
2,Alfredo,6.0,9
3,Armando,5.0,9


`read_table` de pandas se utiliza para leer archivos de texto delimitados (por defecto, separados por tabulaciones) y cargarlos en un DataFrame

In [5]:
pd.read_table(ruta+'texto_2.txt',header=None) # sep='\t'

Unnamed: 0,0,1,2
0,Ana,1.0,10
1,Beto,1.1,10
2,Alfredo,6.0,9
3,Armando,5.0,9


In [6]:
# Extracci√≥n a partir de texto separado por comas
pd.read_table(ruta+'texto_1.txt',sep=',',header=None)

Unnamed: 0,0,1,2
0,Ana,1.0,10
1,Beto,1.1,10
2,Alfredo,6.0,9
3,Armando,5.0,9


In [7]:
pd.read_table(ruta+'texto_1.txt',sep=' ',header=None)

Unnamed: 0,0,1,2
0,"Ana,",1,10
1,"Beto,","1.1,",10
2,"Alfredo,",6,9
3,"Armando,",5,9


In [9]:
pd.read_csv(ruta+'texto_2.txt',header=None,sep='\t') # sep=','

Unnamed: 0,0,1,2
0,Ana,1.0,10
1,Beto,1.1,10
2,Alfredo,6.0,9
3,Armando,5.0,9


In [8]:
# Conversi√≥n de archivo a variable
file=open(ruta+'texto_3.txt')     # Abrir...
texto=file.read()
file.close()                      # ...despues cerrar

In [9]:
texto

'En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que viv√É\xada un hidalgo de los de lanza en astillero, adarga antigua, roc√É¬≥n flaco y galgo corredor. Una olla de algo m√É¬°s vaca que carnero, salpic√É¬≥n las m√É¬°s noches, duelos y quebrantos los s√É¬°bados, lantejas los viernes, alg√É¬∫n palomino de a√É¬±adidura los domingos, consum√É\xadan las tres partes de su hacienda. El resto della conclu√É\xadan sayo de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los d√É\xadas de entresemana se honraba con su vellor√É\xad de lo m√É¬°s fino. Ten√É\xada en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que as√É\xad ensillaba el roc√É\xadn como tomaba la podadera. Frisaba la edad de nuestro hidalgo con los cincuenta a√É¬±os; era de complexi√É¬≥n recia, seco de carnes, enjuto de rostro, gran madrugador y amigo de la caza. Quieren decir que ten√É\xada el sobrenomb

In [10]:
# Si ocurre un error durante la ejecuci√≥n, la variable file se cierra siempre:
with open(ruta+'texto_3.txt') as file:
  texto=file.read()

In [11]:
texto

'En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que viv√É\xada un hidalgo de los de lanza en astillero, adarga antigua, roc√É¬≥n flaco y galgo corredor. Una olla de algo m√É¬°s vaca que carnero, salpic√É¬≥n las m√É¬°s noches, duelos y quebrantos los s√É¬°bados, lantejas los viernes, alg√É¬∫n palomino de a√É¬±adidura los domingos, consum√É\xadan las tres partes de su hacienda. El resto della conclu√É\xadan sayo de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los d√É\xadas de entresemana se honraba con su vellor√É\xad de lo m√É¬°s fino. Ten√É\xada en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que as√É\xad ensillaba el roc√É\xadn como tomaba la podadera. Frisaba la edad de nuestro hidalgo con los cincuenta a√É¬±os; era de complexi√É¬≥n recia, seco de carnes, enjuto de rostro, gran madrugador y amigo de la caza. Quieren decir que ten√É\xada el sobrenomb

In [12]:
# Separamos cada palabra de la variable de texto
texto.split()

['En',
 'un',
 'lugar',
 'de',
 'la',
 'Mancha,',
 'de',
 'cuyo',
 'nombre',
 'no',
 'quiero',
 'acordarme,',
 'no',
 'ha',
 'mucho',
 'tiempo',
 'que',
 'viv√É\xada',
 'un',
 'hidalgo',
 'de',
 'los',
 'de',
 'lanza',
 'en',
 'astillero,',
 'adarga',
 'antigua,',
 'roc√É¬≥n',
 'flaco',
 'y',
 'galgo',
 'corredor.',
 'Una',
 'olla',
 'de',
 'algo',
 'm√É¬°s',
 'vaca',
 'que',
 'carnero,',
 'salpic√É¬≥n',
 'las',
 'm√É¬°s',
 'noches,',
 'duelos',
 'y',
 'quebrantos',
 'los',
 's√É¬°bados,',
 'lantejas',
 'los',
 'viernes,',
 'alg√É¬∫n',
 'palomino',
 'de',
 'a√É¬±adidura',
 'los',
 'domingos,',
 'consum√É\xadan',
 'las',
 'tres',
 'partes',
 'de',
 'su',
 'hacienda.',
 'El',
 'resto',
 'della',
 'conclu√É\xadan',
 'sayo',
 'de',
 'velarte,',
 'calzas',
 'de',
 'velludo',
 'para',
 'las',
 'fiestas,',
 'con',
 'sus',
 'pantuflos',
 'de',
 'lo',
 'mesmo,',
 'y',
 'los',
 'd√É\xadas',
 'de',
 'entresemana',
 'se',
 'honraba',
 'con',
 'su',
 'vellor√É\xad',
 'de',
 'lo',
 'm√É¬°s',
 'fino.

In [13]:
texto.split?

[1;31mSignature:[0m [0mtexto[0m[1;33m.[0m[0msplit[0m[1;33m([0m[0msep[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mmaxsplit[0m[1;33m=[0m[1;33m-[0m[1;36m1[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a list of the substrings in the string, using sep as the separator string.

  sep
    The separator used to split the string.

    When set to None (the default value), will split on any whitespace
    character (including \n \r \t \f and spaces) and will discard
    empty strings from the result.
  maxsplit
    Maximum number of splits.
    -1 (the default value) means no limit.

Splitting starts at the front of the string and works to the end.

Note, str.split() is mainly useful for data that has been intentionally
delimited.  With natural text that includes punctuation, consider using
the regular expression module.
[1;31mType:[0m      builtin_function_or_method

### Expresiones regulares

Las <b>expresiones regulares</b> son patrones que permiten buscar, extraer, validar y manipular texto de manera flexible y eficiente. Son esenciales para limpiar datos, extraer informaci√≥n y validar formatos en archivos de texto.

### Caracteres y operadores b√°sicos

| S√≠mbolo | Significado | Ejemplo |
|---------|-------------|---------|
| `.`     | Cualquier car√°cter | `a.b` encuentra 'acb', 'aab', etc. |
| `\d`   | D√≠gito (0-9) | `\d\d` encuentra dos d√≠gitos |
| `\w`   | Car√°cter alfanum√©rico | `\w+` encuentra palabras |
| `\s`   | Espacio en blanco | `\s+` encuentra espacios |
| `*`     | Cero o m√°s repeticiones | `ab*` encuentra 'a', 'ab', 'abb', ... |
| `+`     | Una o m√°s repeticiones | `ab+` encuentra 'ab', 'abb', ... |
| `?`     | Cero o una repetici√≥n | `ab?` encuentra 'a', 'ab' |
| `^`     | Inicio de l√≠nea | `^Hola` encuentra l√≠neas que empiezan con 'Hola' |
| `$`     | Fin de l√≠nea | `mundo$` encuentra l√≠neas que terminan con 'mundo' |
| `[abc]` | Cualquier car√°cter a, b o c | `[aeiou]` encuentra vocales |
| `( )`   | Agrupaci√≥n | `(abc)+` encuentra 'abc', 'abcabc', ... |

### Funciones principales en Python (`re`)

- `re.search(patron, texto)`: Busca el patr√≥n en el texto y devuelve el primer resultado.
- `re.match(patron, texto)`: Verifica si el patr√≥n coincide al inicio del texto.
- `re.findall(patron, texto)`: Devuelve todas las coincidencias del patr√≥n.
- `re.sub(patron, reemplazo, texto)`: Reemplaza coincidencias por otro texto.

### Ejemplo: Buscar correos electr√≥nicos


In [14]:
import re

texto_correo = "Mi correo es gdesirena@outlook.mx pero anteriormente usaba gdesirena@gmail.com, gaddiel.desirena.lopez@alinco.mx"
patron = r"\w+@\w+\.\w+"


In [15]:
re.findall(patron, texto_correo) #Devuelve todas las coincidencias del patron

['gdesirena@outlook.mx', 'gdesirena@gmail.com', 'lopez@alinco.mx']

In [16]:
texto_correo = "Mi correo es gdesirena@outlook.mx pero anteriormente usaba gdesirena@gmail.com, gaddiel.desirena.lopez@alinco.mx"
patron = r"\w+@\[w+\.]\w+"

### Ejemplo: Extraer dominios de correos


In [17]:
dominios = re.findall(r'@([\w\.-]+)', texto_correo)
print('Dominios encontrados:', dominios)

Dominios encontrados: ['outlook.mx', 'gmail.com', 'alinco.mx']


### Ejemplo: Buscar fechas en formato DD/MM/AAAA


In [18]:
texto_fechas = 'algunas fechas importantes son 15/09/2023 y 01/01/2024.' 
fechas = re.findall(r'\b\d{2}/\d{2}/\d{4}\b', texto_fechas)
print('Fechas encontradas:', fechas)

Fechas encontradas: ['15/09/2023', '01/01/2024']


### Ejemplo: Validar n√∫meros de tel√©fono

Busca n√∫meros en formato internacional (+52 33 1234 5678):

In [19]:
texto_tel = 'Mi n√∫mero es +52 33 1234 5678 y el de mi amigo es +52 55 8765 4321.'
patron_tel = r'\+\d{2}\s\d{2}\s\d{4}\s\d{4}'
telefonos = re.findall(patron_tel, texto_tel)
print('Tel√©fonos encontrados:', telefonos)

Tel√©fonos encontrados: ['+52 33 1234 5678', '+52 55 8765 4321']


### Ejemplo: Reemplazo de texto

Reemplaza todos los d√≠gitos por 'X':

In [20]:
texto = 'Mi clave es 1234 y mi usuario es user01.'
nuevo_texto = re.sub(r'\d', 'X', texto)
print(nuevo_texto)

Mi clave es XXXX y mi usuario es userXX.


### Ejemplo: Conteo de palabras usando regex


In [21]:
texto

'Mi clave es 1234 y mi usuario es user01.'

In [22]:
L = re.split(r'\W', texto)
S = set(L)
S.discard('')
d = {} #Diccionario de palabras
for palabra in S:
    d[palabra] = len(re.findall(palabra, texto, flags=re.I))
d

{'user01': 1,
 'clave': 1,
 'es': 2,
 'y': 1,
 '1234': 1,
 'usuario': 1,
 'Mi': 2,
 'mi': 2}

In [23]:
with open(ruta+'texto_3.txt') as file:
    texto=file.read()

In [24]:
L = re.split(r'\W', texto)
S = set(L)
S.discard('') #Descartar el espacio vacio

In [25]:
S

{'El',
 'En',
 'Frisaba',
 'Mancha',
 'Pero',
 'Quesada',
 'Quieren',
 'Quijada',
 'Quijana',
 'Ten√É',
 'Una',
 'a',
 'acordarme',
 'adarga',
 'adidura',
 'algo',
 'alguna',
 'alg√É¬∫n',
 'ama',
 'amigo',
 'an',
 'antigua',
 'as',
 'astillero',
 'as√É',
 'aunque',
 'autores',
 'a√É',
 'bados',
 'basta',
 'calzas',
 'campo',
 'carnero',
 'carnes',
 'casa',
 'caso',
 'caza',
 'cincuenta',
 'como',
 'complexi√É¬≥n',
 'con',
 'conclu√É',
 'conjeturas',
 'consum√É',
 'corredor',
 'cuarenta',
 'cuento',
 'cuyo',
 'de',
 'decir',
 'deja',
 'della',
 'deste',
 'diferencia',
 'domingos',
 'duelos',
 'd√É',
 'edad',
 'el',
 'en',
 'enjuto',
 'ensillaba',
 'entender',
 'entresemana',
 'era',
 'escriben',
 'esto',
 'fiestas',
 'fino',
 'flaco',
 'galgo',
 'gran',
 'ha',
 'hacienda',
 'hay',
 'hidalgo',
 'honraba',
 'importa',
 'l',
 'la',
 'lantejas',
 'lanza',
 'las',
 'llamaba',
 'llegaba',
 'lo',
 'los',
 'lugar',
 'madrugador',
 'mesmo',
 'miles',
 'mozo',
 'mucho',
 'm√É',
 'n',
 'narraci√É¬

In [26]:
d = {} #Diccionario de palabras
for palabra in S:
    d[palabra] = len(re.findall(palabra, texto, flags=re.I))
d

{'quiero': 1,
 'algo': 4,
 'tiempo': 1,
 'gran': 1,
 'adarga': 1,
 'resto': 1,
 'plaza': 1,
 'la': 18,
 'Una': 4,
 'Quijada': 1,
 'tres': 2,
 'esto': 3,
 'las': 3,
 'entender': 1,
 'an': 11,
 'm√É': 4,
 'de': 27,
 'l': 61,
 'con': 6,
 's√É': 3,
 'Pero': 1,
 'salpic√É¬≥n': 1,
 'antigua': 1,
 'lanza': 1,
 'honraba': 1,
 'recia': 1,
 'astillero': 1,
 'caso': 1,
 'domingos': 1,
 'sayo': 1,
 'as': 14,
 'el': 8,
 'enjuto': 1,
 'conjeturas': 1,
 'caza': 1,
 'roc√É': 2,
 'complexi√É¬≥n': 1,
 'fino': 1,
 'casa': 1,
 'olla': 1,
 'sobrina': 1,
 'narraci√É¬≥n': 1,
 'en': 21,
 'no': 9,
 'veros√É': 1,
 'cuento': 1,
 'entresemana': 1,
 'El': 8,
 'mucho': 1,
 's': 71,
 'tomaba': 1,
 'Ten√É': 2,
 'lantejas': 1,
 'diferencia': 1,
 'En': 21,
 'ensillaba': 1,
 'quebrantos': 1,
 'Quijana': 1,
 'o': 88,
 'mozo': 1,
 'viv√É': 1,
 'velludo': 1,
 'pasaba': 1,
 'Frisaba': 1,
 'se': 6,
 'carnero': 1,
 'calzas': 1,
 'rostro': 1,
 'roc√É¬≥n': 1,
 'viernes': 1,
 'verdad': 1,
 'Quesada': 1,
 'palomino': 1,
 'poco': 

### Ejercicio 1

Busca todas las palabras que empiezan con la letra 'u' en el texto anterior.

In [27]:
texto

'En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que viv√É\xada un hidalgo de los de lanza en astillero, adarga antigua, roc√É¬≥n flaco y galgo corredor. Una olla de algo m√É¬°s vaca que carnero, salpic√É¬≥n las m√É¬°s noches, duelos y quebrantos los s√É¬°bados, lantejas los viernes, alg√É¬∫n palomino de a√É¬±adidura los domingos, consum√É\xadan las tres partes de su hacienda. El resto della conclu√É\xadan sayo de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo mesmo, y los d√É\xadas de entresemana se honraba con su vellor√É\xad de lo m√É¬°s fino. Ten√É\xada en su casa una ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que as√É\xad ensillaba el roc√É\xadn como tomaba la podadera. Frisaba la edad de nuestro hidalgo con los cincuenta a√É¬±os; era de complexi√É¬≥n recia, seco de carnes, enjuto de rostro, gran madrugador y amigo de la caza. Quieren decir que ten√É\xada el sobrenomb

In [28]:
# Tu c√≥digo aqu√≠
patron = r'\bu\w*' #b-posicion y u-letra buscar w-todas las demas palabras despues de la u
re.findall(patron, texto)

['un', 'un', 'una', 'una', 'un', 'un']

In [29]:
#Todas las palabras que contenga u
patron = r'\b\w*u\w*' 
re.findall(patron, texto)

['un',
 'lugar',
 'cuyo',
 'quiero',
 'mucho',
 'que',
 'un',
 'antigua',
 'que',
 'duelos',
 'quebrantos',
 'adidura',
 'consum√É',
 'su',
 'conclu√É',
 'velludo',
 'sus',
 'pantuflos',
 'su',
 'su',
 'una',
 'que',
 'cuarenta',
 'una',
 'que',
 'un',
 'que',
 'nuestro',
 'cincuenta',
 'enjuto',
 'madrugador',
 'Quieren',
 'que',
 'Quijada',
 'Quesada',
 'que',
 'alguna',
 'autores',
 'que',
 'aunque',
 'conjeturas',
 'que',
 'Quijana',
 'nuestro',
 'cuento',
 'que',
 'un',
 'punto']

In [30]:
#Todas las palabras que contenga u minuscula, mayuscula, con o sin acento
patron = r'\b\w*[uU√∫√ö]\w*' 
re.findall(patron, texto)

['un',
 'lugar',
 'cuyo',
 'quiero',
 'mucho',
 'que',
 'un',
 'antigua',
 'Una',
 'que',
 'duelos',
 'quebrantos',
 'adidura',
 'consum√É',
 'su',
 'conclu√É',
 'velludo',
 'sus',
 'pantuflos',
 'su',
 'su',
 'una',
 'que',
 'cuarenta',
 'una',
 'que',
 'un',
 'que',
 'nuestro',
 'cincuenta',
 'enjuto',
 'madrugador',
 'Quieren',
 'que',
 'Quijada',
 'Quesada',
 'que',
 'alguna',
 'autores',
 'que',
 'aunque',
 'conjeturas',
 'que',
 'Quijana',
 'nuestro',
 'cuento',
 'que',
 'un',
 'punto']

### Ejercicio 2

Extrae todos los n√∫meros de una cadena de texto y convi√©rtelos a enteros.

In [31]:
# Tu c√≥digo aqu√≠
texto2 = 'jsalddjdkdl 01 skskdkdkdk 589, 588888, 1.234, 01.34'
patron = r'\b\d+\.?\d+'
num = re.findall(patron, texto2)
num

['01', '589', '588888', '1.234', '01.34']

In [32]:
l_num=[]
for l in num:  #Para convertir a enteros
    l_num.append(int(float(l)))

In [33]:
l_num

[1, 589, 588888, 1, 1]

In [34]:
[int(float(l)) for l in num] #Comprension de listas

[1, 589, 588888, 1, 1]

### Recursos √∫tiles

- [regex101.com](https://regex101.com/) - expresiones regulares en l√≠nea.
- [Documentaci√≥n oficial de re](https://docs.python.org/3/library/re.html)

<div style="background-color:#e6f2ff; border-left:4px solid #000047; padding:10px;">
Las expresiones regulares son una herramienta poderosa para la limpieza y extracci√≥n de datos en proyectos de IA y ciencia de datos.
</div>

# Archivos excel

In [6]:
# A partir de la funci√≥n
pd.read_excel(ruta+'API_SI.POV.DDAY_DS2_en_excel_v2_1930012.xls')

ImportError: Pandas requires version '2.0.1' or newer of 'xlrd' (version '1.2.0' currently installed).

In [21]:
# Importamos la clase ExcelFile
from pandas import ExcelFile

In [22]:
# A partir de la clase
obj=ExcelFile(ruta+'API_SI.POV.DDAY_DS2_en_excel_v2_1930012.xls')
obj.parse() # Importa la primera p√°gina

ImportError: Pandas requires version '2.0.1' or newer of 'xlrd' (version '1.2.0' currently installed).

# Archivos JSON

El formato JSON (JavaScript Object Notation) es ampliamente utilizado para el intercambio de datos, especialmente en aplicaciones web y APIs. Python incluye la librer√≠a est√°ndar `json` para leer y manipular archivos JSON.

In [None]:
import json

json_data = '{"personas": [{"nombre": "Ana", "edad": 23}, {"nombre": "Luis", "edad": 31}]}'


In [None]:
from pandas import json_normalize



In [None]:
df_json['categories'][0]


# Archivos XML

El formato XML es com√∫n para el intercambio de datos estructurados. Python ofrece la librer√≠a est√°ndar `xml.etree.ElementTree` para analizar y extraer informaci√≥n de archivos XML.

In [26]:
import xml.etree.ElementTree as ET

In [27]:
xml_data = '''
<personas>
  <persona>
    <nombre>Ana</nombre>
    <edad>23</edad>
  </persona>
  <persona>
    <nombre>Luis</nombre>
    <edad>31</edad>
  </persona>
</personas>
'''

In [28]:

root = ET.fromstring(xml_data)
print('Personas extra√≠das del archivo XML:')
for persona in root.findall('persona'):
    nombre = persona.find('nombre').text
    edad = persona.find('edad').text
    print(f'Nombre: {nombre}, Edad: {edad}')

Personas extra√≠das del archivo XML:
Nombre: Ana, Edad: 23
Nombre: Luis, Edad: 31


###### Ejemplo con tabla_1.xml


In [None]:
archivo_1=ET.parse(ruta+'tabla_1.xml')
raiz=archivo_1.getroot()

In [None]:
raiz

In [None]:
for nodo in raiz:
    print(nodo.attrib,nodo.text,nodo.tag)
    for sn in nodo:
        print(sn.attrib,sn.text,sn.tag)

In [None]:
archivo_2=ET.parse(ruta+'tabla_2.xml')
root=archivo_2.getroot()
for nodo in root:
    print(nodo.tag,nodo.attrib,nodo.text)

In [None]:
for nodo in root:
    for subn in nodo:
        print(subn.tag,subn.attrib,subn.text)

In [None]:
#Extraer los datos de tabla_1.xml
d={}
for nodo in raiz:
    d[nodo.tag]=[]
for nodo in raiz:
    d[nodo.tag].append(nodo.attrib['name'])
for nodo in raiz:
    for sn in nodo:
        d[sn.tag]=[]
for nodo in raiz:
    for sn in nodo:
        d[sn.tag].append(sn.text)
d

In [None]:
pd.DataFrame(d)

```python
df_1 = pd.DataFrame(columns = columnas)
for nodo in raiz:
  L = []
  L.append(nodo.attrib['name'])
  for sn in nodo:
    L.append(sn.text)
  df_1 = df_1.append(pd.DataFrame([L], columns=columnas), ignore_index=True)
```

In [None]:
archivo=ET.parse(ruta+'tabla_2.xml')
raiz=archivo.getroot()

In [None]:
L=[]
for n in raiz.findall('documents/document'):
    d={}
    d[n.tag]=n.text
    for k,v in n.attrib.items():
        d[k]=v
    L.append(d)
pd.DataFrame(L)

---

In [None]:
archivo='IFC-Subscriptions-and-Voting-Power-of-Member-Count.xml'
file=ET.parse(ruta+archivo)
root=file.getroot()

for nodo in root:
    for snodo in nodo:
        print(snodo.tag,snodo.attrib,snodo.text)
        for ssnodo in snodo:
            print(ssnodo.tag,ssnodo.attrib,ssnodo.text)

---

# Archivos SHP

Los archivos Shapefile (`.shp`) son un formato est√°ndar para almacenar informaci√≥n geoespacial vectorial. La librer√≠a `geopandas` permite leer y manipular estos archivos de manera sencilla. Un Shapefile suele estar acompa√±ado de otros archivos como `.shx` y `.dbf`.

In [None]:
!pip install geopandas

In [None]:
#!pip install geopandas

In [None]:
# %conda !pip !conda
%pip install geopandas

In [None]:
import geopandas as gpd

In [None]:
g_df = gpd.read_file('COVID_INDIA_POC-shp/COVID_INDIA_POC.shp')
g_df

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(12, 8))
g_df.plot(
    ax=ax,
    column=g_df.columns[0],  # Cambia por la columna que quieras destacar
    cmap='viridis',
    edgecolor='black',
    legend=True
)
ax.set_title('COVID_INDIA_POC', fontsize=12)
ax.axis('off')
plt.show()

# Archivos HTML

In [None]:
# Leer un archivo HTML local
with open(ruta+'ejemplo.html', 'r', encoding='utf-8') as file:
    html_content = file.read()
print(html_content[:500])  # Muestra los primeros 500 caracteres

In [None]:
#!pip install beautifulsoup4 #Instalar BeautifulSoup si es necesario

In [None]:
# Analizar HTML con BeautifulSoup
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')

# Extraer el t√≠tulo de la p√°gina
titulo = soup.title.string
print('T√≠tulo de la p√°gina:', titulo)

In [None]:
# Extraer los enlaces de la p√°gina
enlaces = soup.find_all('a')
for enlace in enlaces:
    print(enlace.get('href'))

In [None]:
#!pip install requests # Instalar requests si es necesario
import requests

url = 'https://www.python.org/'
response = requests.get(url)
web_html = response.text

# Analizar el HTML descargado
soup_web = BeautifulSoup(web_html, 'html.parser')


In [None]:
print(soup_web.title)

###### Ejemplo sencillo webscraping 

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
 
url = "https://codedamn-classrooms.github.io/webscraper-python-codedamn-classroom-website/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
type(soup)

In [None]:
#Obtener un dataframe con la informaci√≥n de los productos
products = []

for price_tag in soup.find_all("h4", string=lambda s: s and s.strip().startswith("$")):
    # El nombre del producto es la cadena que sigue despu√©s del tag <a> despu√©s del precio
    product_link = price_tag.find_next("a")
    if not product_link:
        continue
    product_name = product_link.text.strip()
    product_url = product_link["href"]
    # La descripci√≥n es el siguien tag <p> despu√©s de la liga del producto
    description_tag = product_link.find_next("p")
    description = description_tag.text.strip() if description_tag else ""
    # Los numero de reviews van despu√©s de <div> 
    reviews_tag = product_link.find_next(string=lambda s: s and "review" in s)
    try:
        reviews = int(reviews_tag.strip().split()[0])
    except Exception:
        reviews = None
    # Precio
    try:
        price = float(price_tag.text.strip().replace("$", ""))
    except Exception:
        price = None
 
    products.append({
        "Product Name": product_name,
        "Price": price,
        "Description": description,
        "Reviews": reviews,
        "Product URL": product_url
    })
 
df = pd.DataFrame(products)
df

# Archivos im√°gen

Las im√°genes RGB almacenan informaci√≥n de color en tres canales: Rojo (R), Verde (G) y Azul (B). Para leer y manipular im√°genes en Python, se pueden usar las librer√≠as `Pillow` (PIL), `matplotlib` y `numpy`. Esto permite acceder a los valores de los p√≠xeles y realizar an√°lisis o transformaciones.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
I=plt.imread(ruta+'imagen.bmp')
I.shape

In [None]:
type(I)

In [None]:
plt.imshow(I)

In [None]:
I[0,0,0] # pixel (0,0) de la matriz roja

In [None]:
plt.imshow(I[:,:,0],cmap='gray') # Matriz roja

In [None]:
G=I.mean(axis=2)
G.shape

In [None]:
plt.imshow(G)

In [None]:
G[0,0]

### Ejemplos de aplicaciones en IA para cada tipo de archivo

## üîé Ejemplos de aplicaciones en IA para cada tipo de archivo

### üìÑ Archivos de texto:

- **An√°lisis de sentimientos:** Procesar opiniones de usuarios para determinar si son positivas o negativas.
- **Extracci√≥n de palabras clave:** Identificar t√©rminos importantes en grandes vol√∫menes de texto.
- **Procesamiento de lenguaje natural (NLP):** Tokenizaci√≥n, lematizaci√≥n y an√°lisis de frecuencia de palabras.
- **An√°lisis de logs:** Detectar patrones o anomal√≠as en archivos de registro.
- **Generaci√≥n autom√°tica de res√∫menes:** Resumir textos extensos con modelos de IA.
- **Reconocimiento de entidades:** Extraer nombres de personas, lugares y organizaciones.
- **Clasificaci√≥n de documentos:** Categorizar textos en temas o g√©neros.
- **Traducci√≥n autom√°tica:** Convertir textos entre idiomas usando IA.

### üìä Archivos Excel y CSV:

- **An√°lisis exploratorio de datos (EDA):** Calcular totales, medias y tendencias.
- **Preparaci√≥n de datos para ML:** Ingenier√≠a de caracter√≠sticas y limpieza de datos.
- **Reportes automatizados:** Generar res√∫menes y exportar resultados.
- **Detecci√≥n de anomal√≠as:** Identificar valores at√≠picos.
- **Predicci√≥n de tendencias:** Series temporales para prever ventas.
- **Segmentaci√≥n de clientes:** Agrupar clientes por patrones de compra.
- **Visualizaci√≥n de datos:** Dashboards interactivos y gr√°ficos.

### üñºÔ∏è Archivos de im√°genes RGB:

- **Visi√≥n por computadora:** Clasificaci√≥n de im√°genes y reconocimiento facial.
- **Procesamiento de im√°genes m√©dicas:** Detecci√≥n de regiones an√≥malas.
- **Extracci√≥n de caracter√≠sticas visuales:** Histogramas y patrones de color.
- **Detecci√≥n de objetos:** Localizaci√≥n y clasificaci√≥n en im√°genes.
- **Reconstrucci√≥n 3D:** Modelos tridimensionales a partir de im√°genes.
- **Segmentaci√≥n sem√°ntica:** Delimitaci√≥n de regiones espec√≠ficas.
- **Realidad aumentada:** Superposici√≥n de informaci√≥n digital.

### üóÇÔ∏è Archivos XML:

- **Integraci√≥n de datos empresariales:** Extraer informaci√≥n de sistemas ERP.
- **Procesamiento de datos IoT:** Leer registros de sensores.
- **An√°lisis de publicaciones cient√≠ficas:** Obtener t√≠tulos y autores.
- **Intercambio de datos entre aplicaciones:** Estandarizaci√≥n e interoperabilidad.
- **Validaci√≥n de esquemas:** Verificar estructura y consistencia.
- **Extracci√≥n de datos jer√°rquicos:** Navegaci√≥n en √°rboles complejos.
- **Automatizaci√≥n de reportes:** Generar informes estructurados.

### { } Archivos JSON:

- **Consumo de APIs web:** Obtener y analizar datos en tiempo real.
- **Almacenamiento y an√°lisis de logs:** Procesar registros de aplicaciones.
- **An√°lisis de datos m√≥viles:** Leer resultados de encuestas y m√©tricas.
- **Integraci√≥n de datos en tiempo real:** Sensores y dispositivos conectados.
- **Visualizaci√≥n de datos:** Gr√°ficos y mapas interactivos.
- **Entrenamiento de modelos de IA:** Datasets estructurados para algoritmos.
- **Validaci√≥n y limpieza de datos:** Correcci√≥n de inconsistencias.

### üó∫Ô∏è Archivos Shapefile (SHP):

- **An√°lisis geoespacial:** Distancias y relaciones espaciales.
- **Estudios ambientales y urbanos:** Distribuci√≥n de √°reas verdes y zonas urbanas.
- **Modelado de redes y transporte:** Rutas √≥ptimas y predicci√≥n de tr√°fico.
- **An√°lisis de riesgos naturales:** Identificaci√≥n de zonas vulnerables.
- **Visualizaci√≥n de mapas tem√°ticos:** Datos demogr√°ficos y econ√≥micos.
- **Optimizaci√≥n log√≠stica:** Rutas de entrega y distribuci√≥n.

### üåê Archivos HTML:

- **Web scraping:** Extracci√≥n de datos estructurados de p√°ginas web.
- **Construcci√≥n de datasets:** Recolecci√≥n de informaci√≥n de m√∫ltiples p√°ginas.
- **An√°lisis de enlaces:** Estructura de redes y relaciones.
- **Extracci√≥n de tablas:** Datos tabulares para an√°lisis estad√≠stico.
- **Monitoreo de precios:** Rastrear precios en tiendas en l√≠nea.
- **An√°lisis de tendencias:** Identificar temas populares en blogs y noticias.
- **Automatizaci√≥n de reportes web:** Generar informes autom√°ticos.
- **Reconocimiento de patrones visuales:** Detecci√≥n de banners y anuncios.