# 1 - Automatización I (RegEx y OS)

## RegEx

### Principales Sintaxis de RegEx

<h3>Grupo de captura</h3>

|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |


---


<h3>Operadores</h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| \\      | Escapar, o interpretar literalmente |
| [ ]     | conjunto (cada elemento estará automáticamente separado por "or")             |
|[m-z3-9] | rangos               |


---


<h3>Cuantificadores</h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o más del elemento anterior              |
| *    | Cero o más del elemento anterior             |
| {4,} | Cuatro o más del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

### Métodos principales de RegEx

In [2]:
import re

#### re.findall

In [3]:
# Devuelve todas las coincidencias
text = 'Mi nombre es Emiliano y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '\d+'
match = re.findall(patter, text)
match

['2616512663', '2612529298', '05']

#### re.search

In [None]:
# Devuelve la primer coincidencia
text = 'Mi nombre es Emiliano y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '\d+'
match = re.search(patter, text)
match

#### re.replace

In [None]:
# Devuelve el texto, cambiando las coincidencia por el valor indicado
text = 'Mi nombre es Emiliano y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
replace = '261######'
patter = '\d+'
match = re.sub(patter, replace, text)
match

### Patrones para la búsqueda más efectiva

#### Grupos de captura y grupo de no captura

In [4]:
# Grupo de "Captura"
# Le doy un patrón a encontrar, pero entre paréntesis le indico que dentro de ese patron solo quiero un subparte del patron
text = 'Mi nombre es Emiliano y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '\www.(\w+).com'
match = re.findall(patter, text)
match

['emigarcia05']

In [7]:
# Grupo de "No Captura"
# La parte dentro de (?:) no se devuelve
text = 'Mi nombre es Emiliano y mi pagina es www.emigarcia05.com'
patter = '(?:www\.)(\w+.com)'
match = re.findall(patter, text)
match

['emigarcia05.com']

#### Búsqueda por rangos

In [8]:
# Rangos de la A-Z y le puedo indicar si es en mayúscula o minúscula
text = 'Mi nombre es Emiliano Garica y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '[A-Z][a-z]+'
match = re.findall(patter, text)
match

['Mi', 'Emiliano', 'Garica']

#### Cuantificadores

In [15]:
# \d+ 1 o más dígitos
# \d* 0 o más dígitos
# \d{4} exactamente 4 dígitos
text = 'Mi nombre es Emiliano Garica y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '\d{5}'
match = re.findall(patter, text)
match

['26165', '12663', '26125', '29298']

#### Búsqueda "codiosa" o "no codisiosa"

In [11]:
text = 'Mi nombre es Emiliano Garica. Mi numero es 2616512663.'
# . busca todos los carácteres, excepto los saltos de línea
# . indica que se busca 0 más repaticiones

# ? hace que el cuantificador (* + {4}) sea no codicioso, es decir, coincide con el menor número posible de repeticiones
# En este caso devuelve una lista con dos elementos
patter = '(.*?)\.'
match = re.findall(patter, text)
print(f'Búesqueda "no codiciosa": {match}')

# En este caso busca un solo elemento
patter = '(.*)\.'
match1 = re.findall(patter, text)
print(f'Búesqueda "codiciosa": {match}')

Búesqueda "no codiciosa": ['Mi nombre es Emiliano Garica', ' Mi numero es 2616512663']
Búesqueda "codiciosa": ['Mi nombre es Emiliano Garica', ' Mi numero es 2616512663']


#### Negación

In [12]:
# Se puede negar con ^
text = 'Mi nombre es Emiliano Garica y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '[^0-9]+'
match = re.findall(patter, text)
match

['Mi nombre es Emiliano Garica y mi numero es ',
 ' o ',
 ' y mi pagina es www.emigarcia',
 '.com']

In [13]:
# con \d busco la exsitencia de un dígito, pero si lo uso en mayúscula estoy negando, por ende bucando
# cualquier carácter que no es un dígito
text = 'Mi nombre es Emiliano Garica y mi numero es 2616512663 o 2612529298 y mi pagina es www.emigarcia05.com'
patter = '\D+'
match = re.findall(patter, text)
match

['Mi nombre es Emiliano Garica y mi numero es ',
 ' o ',
 ' y mi pagina es www.emigarcia',
 '.com']

## Bash y OS

In [17]:
import os
import zipfile
from glob import glob
import time
import urllib.request
import shutil

### Principales métodos de .os

In [None]:
# Obtengo la dirección actual
os.getcwd()

# Cambio el directorio actual
os.chdir(os.getcwd())

# Recorre recursivamente el arbol de directorio. En cada iteracción devuelve una carpeta
carp = os.walk(os.getcwd())
# Se puede recorrer las carpetas
#for i in carp:
#    print(i)

# Corroboro si una carpeta existe
if not os.path.exists('Carpeta Creada con .os'):
    # Creo una carpeta
    os.makedirs('Carpeta Creada con .os')

# Enumera el contenido del directorios
os.listdir()

# Cambio el nombre de una carpeta
#os.rename('Carpeta Creada con .os', 'Carpeta .os')

#Elimino una carpeta
if not os.path.exists('Carpeta Creada con .os'):
    os.rmdir('Carpeta Creada con .os')

# Obtengo la dirección actual
os.getcwd()

In [18]:
# Enlisto los archivos del directorio actual
os.listdir('.')

['.config', 'sample_data']

In [19]:
# Obtengo la ruta absoluta
os.path.abspath('.')

'/content'

### Manejando archivos con .os

#### Crear Carpeta

In [20]:
# Creo una nueva carpeta, siempre fijandome primero que no exista
new_dir = 'New Carpet'

if not os.path.exists(new_dir):
    os.makedirs(new_dir)

os.chdir(new_dir)

print(os.getcwd())

/content/New Carpet


#### Descargar archivo

In [21]:
# Descargo archivos con python
import urllib.request

url = 'https://unket.s3.sa-east-1.amazonaws.com/data/Expo_2021.zip'
file_name = 'Expo_2021.zip'

urllib.request.urlretrieve(url, file_name)

('Expo_2021.zip', <http.client.HTTPMessage at 0x7e8fa691eb30>)

In [None]:
# Crea la ruta del archivo. En este caso es la ruta actual, más el nombre del archivo
# usar os.path.joing() me ayuda a prevenir errores
file_path = os.path.join(os.getcwd(), 'Expo_2021.zip')

# Como es un archivo .zip lo tengo que descomprimir
with zipfile.ZipFile(file_path, 'r') as zip_file:
    # Lo extraigo en la carpeta actual
    zip_file.extractall('.')

# Obtengo una lista con los elementos del directorio
list_dir = os.listdir('./Expo_2021')

# Sobre esta lista puedo iterar. en este caso muestro los elementos que empeicen con 'A'
for e in list_dir:
    if e[0] == 'A':
        print(e)

#### .glob()

In [22]:
# Con esta libreria puedo extrarer carpetas o archivos según una patron

# Determino la ruta madre
data_path = './Expo_2021'
# Creo un objeto, en este caso va a ser una lista, pido que en esa lista guarde todos los elementos de la ruta que tengan
# algo escrito (*) y termine en '.zip'
zip_files = glob(data_path + '/*.zip')
zip_files

[]

#### Ejercicio completo

In [23]:
# Verifico que el archvo Expo_2021.zip exista. Si no exista lo descargo
# Este directorio lo creo como el principal
first_path = r'C:\Users\emiga\OneDrive\Documentos\Data\Humai\3 - Web Scrapling\1 - Automatización I'
zip_name = 'Expo_2021.zip'
zip_path = os.path.join(first_path, zip_name)

if not os.path.exists(zip_path):
    #Url de alohamiento del archivo
    url = 'https://unket.s3.sa-east-1.amazonaws.com/data/Expo_2021.zip'
    # nombre al archivo
    file_name = zip_name
    #Descargo el archivo
    urllib.request.urlretrieve(url, file_name)

# Ahora compruebo si existe el archivo descomprimido
unzip_name = zip_name.split('.')[0]
unzip_path = os.path.join(first_path, unzip_name)
if not os.path.exists(unzip_path):
    #Creo la carpeta para descomprimir
    os.makedirs(unzip_name)
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(unzip_path)

# Ingreso al directorio donde están las carpetas que tengo que descomprimir
unzip_path_2 = os.path.join(unzip_path, unzip_name)
list_dir = os.listdir(unzip_path_2)

# Ahora comienzo a descomprimir carpeta por carpeta
for e in list_dir:
    # Si el elemento termina en .zip tengo que crear una carpeta nueva y descomprimir el archivo en esa carpta
    if e.endswith('.zip'):
        # Separo el texto para sacar el .zip
        new_folder_name = e.split('.')[0]
        # Creo la dirección de la nueva carpeta
        new_folder_path = os.path.join(unzip_path, new_folder_name)
        # Si la carpeta no existe la creo
        if not os.path.exists(new_folder_path):
            os.chdir(unzip_path)
            os.makedirs(new_folder_name)
        # Vuelvo al directorio donde están las carpetas que necesito descomprimir
        os.chdir(unzip_path_2)
        # Las descomprimo en la carpeta que cree para dicho fin
        with zipfile.ZipFile(e, 'r') as zip_ref:
            zip_ref.extractall(new_folder_path)
            shutil.rmtree(e)

# Ahora quiero borrar las capertas que contiene los archivos.zip
if os.path.exists(zip_path):
    os.remove(zip_path)

if os.path.exists(unzip_path_2):
    os.remove(unzip_path_2)

KeyboardInterrupt: 

#

# 2 - Web Scraping

## Request

In [24]:
import requests

In [25]:
url = 'https://es.wikipedia.org/wiki/HTML'
website = requests.get(url)
print(type(website))
website = website.text
print(type(website))
website[:100]

<class 'requests.models.Response'>
<class 'str'>


'<!DOCTYPE html>\n<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-la'

### Esconder User

In [26]:
# httpbin es una pagina para testear pedidos HTTP, en particular la siguiente URL nos devuelve nuestro header.
# Esto se hace para que no figure que el user es python y se de cuenta que es un bot que extrae info
url = 'http://httpbin.org/headers'
resp = requests.get(url)

print('------------------------------')
print('Respuesta sin headers')
print(resp.text)

print('------------------------------')
print('Respuesta con headers')
nuestros_headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
    }
resp_con_headers = requests.get(url, headers = nuestros_headers)
print(resp_con_headers.text)

------------------------------
Respuesta sin headers
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.31.0", 
    "X-Amzn-Trace-Id": "Root=1-6685d625-78e137ed0d5ce7a043ad45de"
  }
}

------------------------------
Respuesta con headers
{
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-6685d626-118cf45207abf1da52ec55ad"
  }
}



### HTTP (HiperText Transfer Protocol)

La web utiliza ampliamente el protocolo HTTP (de Hypertext Transfer Protocol) para interactuar con sus recursos. Este protocolo indica cómo estructurar un mensaje de texto que describa la petición (request) del usuario a un servidor. Hay distintos tipos de peticios que un usuario puede realizar, algunas de ellas son:

GET: Solicita una representación de un recurso alojado en el servidor.
POST: Envía datos al servidor para crear un recurso nuevo.
PUT: Crea o modifica un recurso del servidor.
DELETE: Elimina un recurso del servidor. Existen otros métodos que no nos van a ser relevantes por ahora.
Cada vez que vamos al navegador y escribimos la dirección de una página web, estamos haciendo un GET request a un servidor. Esto es una petición para adquirir el código de un recurso que queremos visualizar en el navegador.

Como vimos antes la función get retorna un objeto, el cual llamamos resp, este es un elemento de la clase Response y tiene distintos atributos a los que podemos acceder.

El objeto Response de requests tiene los siguientes elementos principales:

- .text: devuelve el contenido como string.
- .content: devuelve el contenido en bytes.
- .json(): el contenido en formato JSON, si es posible.
- .status_code: el código de respuesta.
El código de status (status code) nos informa del estado de nuestra request

Códigos posibles:

<img alt="http-status-codes" src="https://miro.medium.com/max/1400/1*w_iicbG7L3xEQTArjHUS6g.jpeg" width="500"> <br>

In [27]:
url = 'http://httpbin.org/headers'
resp = requests.get(url)
# Consultamos el estado de la consulta
resp.status_code

200

In [28]:
#Vemos los headers que enviamos
resp.request.headers

{'User-Agent': 'python-requests/2.31.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

### Request con una funcion

In [33]:
# Como la consulta la vamos a realizar varias veces vamos a hacer una funcionar para
# hacer el request, con los headers correspondientes y gurdar la info como texto
def codigo_html(url):
    headers = {
        'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
        }
    resp = requests.get(url, headers = headers)
    return resp.text

## RegEx para WebScrapling

In [32]:
url = 'https://www.infobae.com/'
text = requests.get(url)
text = text.text
patter = r'<h2 class="story-card-hl">(.*?)</h2>'
match = re.findall(patter, text)
match[:5]

['Polémica en Francia: revelaron loas al nazismo y comentarios xenófobos de los candidatos de la ultraderecha',
 'Christina Applegate reveló sus deseos para los días que “le quedan de vida”',
 'China ignoró los pedidos de Taiwán y advirtió a la isla que no interfiera en la detención del barco pesquero',
 'Cómo es la regla del 10% para armar la valija, el truco de Marie Kondo con un detalle fundamental',
 'La corredora no binaria Nikki Hiltz hizo historia al clasificar para los Juegos Olímpicos de París 2024']

In [34]:
url = 'https://www.infobae.com/'
text = requests.get(url)
text = text.text
# ([^"]+) Captura cualqueri elemento que no sea comillas dobles dentro de href=" y rel=
patter = r'href="([^"]+)" rel='
match = re.findall(patter, text)
match[:5]

['https://www.infobae.com/?noredirect',
 'https://www.infobae.com/colombia/',
 'https://www.infobae.com/espana/',
 'https://www.infobae.com/mexico/',
 'https://www.infobae.com/peru/']

## Beatiful Soup

Esta librería provee un parser de html, o sea un programa que entiende el código, permitiendonos hacer consultas más sofisticadas de forma simple

<img alt="" width="700" role="presentation" src="https://miro.medium.com/max/700/0*ETFzXPCNHkPpqNv_.png">

In [39]:
from bs4 import BeautifulSoup
from IPython.display import HTML
import requests

# Para que el códio sea más legible y modular determino URL base y endponit
url_base = 'https://exactas.uba.ar/'
endpoint_calendario = 'calendario-academico/'
# Solicito el contenido html
html_obtenido = requests.get(url_base + endpoint_calendario)
# Creo una instancia de BeatifulSoup
soup = BeautifulSoup(html_obtenido.text, 'html.parser')
# Lo imprimo con éste método que me permite ver el codigo indexado y de una forma más prolija
print(soup.prettify())

<!DOCTYPE html>
<html lang="es" prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#">
 <head>
  <meta charset="utf-8"/>
  <title>
   Calendario Académico | Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires
  </title>
  <link href="http://gmpg.org/xfn/11" rel="profile"/>
  <link href="https://exactas.uba.ar/xmlrpc.php" rel="pingback"/>
  <link href="https://exactas.uba.ar/wp-content/uploads/2022/08/favicon.png" rel="shortcut icon" type="image/gif">
   <link href="https://fonts.googleapis.com/css?family=Raleway:400,700|Roboto+Condensed|Roboto+Slab:300,400,700" rel="stylesheet"/>
   <!-- Mobile Specific Metas 
   <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport">
    <meta content="max-image-preview:large" name="robots"/>
    <!-- Meta Tag Manager -->
    <meta content="606d3862f16c3d65cdd1f023c055ca59" name="WAS"/>
    <!-- / Meta Tag Manager -->
    <link href="//static.addtoany.com" rel="dns-prefetch">
   

### .find() & find_all()

In [40]:
# .find()

# Con este método voy a obtener el primer h2 del código HTML
first_h2 = soup.find('h2')
print(type(first_h2))
print(first_h2)

print(f'\n')

# De esta forma obtengo lo que está dentro de las etiquetas
first_h2_text = soup.find('h2').text
print(type(first_h2_text))
print(first_h2_text)

<class 'bs4.element.Tag'>
<h2>CURSO DE VERANO 2024 (7 semanas)</h2>


<class 'str'>
CURSO DE VERANO 2024 (7 semanas)


In [41]:
# .find_all()

# Con este método voy a obtener el todos los elementos h2 del código HTML
all_h2 = soup.find_all('h2')
print(type(all_h2))
print(all_h2)

# Como se devuleve una lista, no puedo aplicar .text, para ello crear un iterador
print(f'\nLos Todos los tíitulos\n')
for h2 in all_h2:
    print(h2.text)

# Puedo limitar la cantida de elementos
all_h2 = soup.find_all('h2', limit=3)

print(f'\nLos primeros 3 tíitulos\n')
for h2 in all_h2:
    print(h2.text)

<class 'bs4.element.ResultSet'>
[<h2>CURSO DE VERANO 2024 (7 semanas)</h2>, <h2>PRIMER CUATRIMESTRE 2024 (16 semanas)</h2>, <h2>Exámenes</h2>, <h2>CURSO DE INVIERNO 2024</h2>, <h2>SEGUNDO CUATRIMESTRE 2024 (16 semanas)</h2>, <h2>Exámenes</h2>]

Los Todos los tíitulos

CURSO DE VERANO 2024 (7 semanas)
PRIMER CUATRIMESTRE 2024 (16 semanas)
Exámenes
CURSO DE INVIERNO 2024
SEGUNDO CUATRIMESTRE 2024 (16 semanas)
Exámenes

Los primeros 3 tíitulos

CURSO DE VERANO 2024 (7 semanas)
PRIMER CUATRIMESTRE 2024 (16 semanas)
Exámenes


#### buscar por 'clase'

In [42]:
# Tengo que escribir 'class_' porque 'class' es una palabra reservada en python
next_events = soup.find('aside', class_='widget widget_my_calendar_upcoming_widget')
for event in next_events:
    print(event.text)

Agenda →

1 julio, 2024, 10.00: Exactas Solidaria - Campaña de donaciones para personas en situación de calle  | + INFO
2 julio, 2024, : Muestra "Activismo Gráfico #Defendemos la ciencia argentina"  | + INFO
3 julio, 2024, 13.00: Coloquios DCAO/CIMA/IFAECI, con Paola Salio, Hernan Bechis y Vito Galligani  | + INFO
3 julio, 2024, 17.00: Capacitación Uso y cuidado de la voz  | + INFO
4 julio, 2024, : Entrega del Premio Pellegrino Strobel y clase magistral  | + INFO
4 julio, 2024, : Jornadas de Química Biológica y la Red Federal REPARA: "Desafiando la resistencia antimicrobiana: un diálogo interdisciplinario"  | + INFO




In [43]:
links = soup.find_all('a', href=True, limit=3)
for l in links:
    print(l)
print(f'\nDatos ordenados')
for l in links:
    print(f'{l.text}: {l["href"]}')

<a href="https://exactas.uba.ar/institucional/la-facultad/"><span>Conocé Exactas</span></a>
<a href="https://exactas.uba.ar/ensenanza/carreras-de-grado/"><span>Carreras de Grado</span></a>
<a href="https://exactas.uba.ar/ensenanza/carreras-de-posgrado/"><span>Carreras de Posgrado</span></a>

Datos ordenados
Conocé Exactas: https://exactas.uba.ar/institucional/la-facultad/
Carreras de Grado: https://exactas.uba.ar/ensenanza/carreras-de-grado/
Carreras de Posgrado: https://exactas.uba.ar/ensenanza/carreras-de-posgrado/


#### buscar por 'atributo'

### Cookies

In [44]:
response = requests.get('https://www.kaggle.com/')
cookies = response.cookies
print(type(cookies))
print(cookies)

<class 'requests.cookies.RequestsCookieJar'>
<RequestsCookieJar[<Cookie CLIENT-TOKEN=eyJhbGciOiJub25lIiwidHlwIjoiSldUIn0.eyJpc3MiOiJrYWdnbGUiLCJhdWQiOiJjbGllbnQiLCJzdWIiOiIiLCJuYnQiOiIyMDI0LTA3LTAzVDIzOjA1OjAzLjM3NzQ5NTFaIiwiaWF0IjoiMjAyNC0wNy0wM1QyMzowNTowMy4zNzc0OTUxWiIsImp0aSI6ImFkNzljZDg2LTE5ZDktNDc3ZS1iMWQwLTgwNzM1YjZhN2I0OSIsImV4cCI6IjIwMjQtMDgtMDNUMjM6MDU6MDMuMzc3NDk1MVoiLCJhbm9uIjp0cnVlLCJmZiI6WyJLZXJuZWxzRmlyZWJhc2VMb25nUG9sbGluZyIsIkFsbG93Rm9ydW1BdHRhY2htZW50cyIsIkZyb250ZW5kRXJyb3JSZXBvcnRpbmciLCJSZWdpc3RyYXRpb25OZXdzRW1haWxTaWdudXBJc09wdE91dCIsIkRpc2N1c3Npb25zUmVhY3Rpb25zIiwiRGF0YXNldFVwbG9hZGVyRHVwbGljYXRlRGV0ZWN0aW9uIiwiRGF0YXNldHNMbG1GZWVkYmFja0NoaXAiLCJNZXRhc3RvcmVDaGVja0FnZ3JlZ2F0ZUZpbGVIYXNoZXMiLCJLTU1hdGVyaWFsVUlEaWFsb2ciLCJBbGxSb3V0ZXNUb1JlYWN0Um91dGVyIiwiTXVpVGFiQmFyIiwiUHJvZmlsZVZpc2liaWxpdHlDb250cm9scyIsIlVzZXJMaWNlbnNlQWdyZWVtZW50U3RhbGVuZXNzVHJhY2tpbmciXSwiZmZkIjp7Iktlcm5lbEVkaXRvckF1dG9zYXZlVGhyb3R0bGVNcyI6IjMwMDAwIiwiRW1lcmdlbmN5QWxlcnRCYW5uZXIiOiJ7fSIsIkNsaWV

In [45]:
for cookie in cookies:
  print('domain: ' ,cookie.domain)
  print('name: ', cookie.name)
  print('value: ', cookie.value)
  print('------------------------')

domain:  www.kaggle.com
name:  CLIENT-TOKEN
value:  eyJhbGciOiJub25lIiwidHlwIjoiSldUIn0.eyJpc3MiOiJrYWdnbGUiLCJhdWQiOiJjbGllbnQiLCJzdWIiOiIiLCJuYnQiOiIyMDI0LTA3LTAzVDIzOjA1OjAzLjM3NzQ5NTFaIiwiaWF0IjoiMjAyNC0wNy0wM1QyMzowNTowMy4zNzc0OTUxWiIsImp0aSI6ImFkNzljZDg2LTE5ZDktNDc3ZS1iMWQwLTgwNzM1YjZhN2I0OSIsImV4cCI6IjIwMjQtMDgtMDNUMjM6MDU6MDMuMzc3NDk1MVoiLCJhbm9uIjp0cnVlLCJmZiI6WyJLZXJuZWxzRmlyZWJhc2VMb25nUG9sbGluZyIsIkFsbG93Rm9ydW1BdHRhY2htZW50cyIsIkZyb250ZW5kRXJyb3JSZXBvcnRpbmciLCJSZWdpc3RyYXRpb25OZXdzRW1haWxTaWdudXBJc09wdE91dCIsIkRpc2N1c3Npb25zUmVhY3Rpb25zIiwiRGF0YXNldFVwbG9hZGVyRHVwbGljYXRlRGV0ZWN0aW9uIiwiRGF0YXNldHNMbG1GZWVkYmFja0NoaXAiLCJNZXRhc3RvcmVDaGVja0FnZ3JlZ2F0ZUZpbGVIYXNoZXMiLCJLTU1hdGVyaWFsVUlEaWFsb2ciLCJBbGxSb3V0ZXNUb1JlYWN0Um91dGVyIiwiTXVpVGFiQmFyIiwiUHJvZmlsZVZpc2liaWxpdHlDb250cm9scyIsIlVzZXJMaWNlbnNlQWdyZWVtZW50U3RhbGVuZXNzVHJhY2tpbmciXSwiZmZkIjp7Iktlcm5lbEVkaXRvckF1dG9zYXZlVGhyb3R0bGVNcyI6IjMwMDAwIiwiRW1lcmdlbmN5QWxlcnRCYW5uZXIiOiJ7fSIsIkNsaWVudFJwY1JhdGVMaW1pdFFwcyI6IjQwIiwi

## Ejercicio

### Ejercicio UBA

In [46]:
url_base = 'https://exactas.uba.ar/'
end_point = 'ensenanza/carreras-de-grado/'
html = requests.get(url_base+end_point)
soup = BeautifulSoup(html.text, 'html.parser')

# Creo una instancia BeaifulSoup con el primer elemento UL(List desordenada)
career = {}
ul = soup.find('ul', class_="listado carreras grado")
# A partur de ese elemento busco todos los elementos li(Lista ordenada)
for li in ul.find_all('li'):
    career[li.h2.text] = li.a['href']

#Creo un dataframe para visualizar mejor los datos
import pandas as pd
df_career = pd.DataFrame.from_dict(career, orient='index', columns=['Enlace'])
df_career

Unnamed: 0,Enlace
Ciencias Biológicas,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias de Datos,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias de la Atmósfera,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias de la Computación,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias Físicas,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias Geológicas,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias Matemáticas,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencias Químicas,https://exactas.uba.ar/ensenanza/carreras-de-g...
Ciencia y Tecnología de Alimentos,https://exactas.uba.ar/ensenanza/carreras-de-g...
Oceanografía,https://exactas.uba.ar/ensenanza/carreras-de-g...


### Ejercicio Cuentos

In [47]:
import os
import requests
from bs4 import BeautifulSoup
import string

# Este método establece un conjuntos de carácteres válidos y verifica que si el nombre del cuento tiene un
# caracter que no pertenece a esa lista se elimine
def sanitize_filename(filename):
    # %s%s" % (string.ascii_letters, string.digits) es lo mismo que escribir
    # abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789
    accented_chars = "áéíóúÁÉÍÓÚñÑüÜ"
    valid_chart = '-_.() %s%s%s' % (string.ascii_letters, accented_chars,string.digits,)
    sanitize_name = ''.join(c for c in filename if c in valid_chart)
    return sanitize_name

# Creo la ruta donde voy a guardar los cuentos descargados
base_path = r'C:\Users\emiga\OneDrive\Documentos\Data\Humai\3 - Web Scrapling\2 - Web Scraping'
folder_name = 'Cuentos Cortazar'
folder_path = os.path.join(base_path, folder_name)
# Me aseguro de que si la carpeta no existe la creo
if not os.path.exists(folder_path):
    os.makedirs(folder_name)
# Ingreso en esa carpeta
os.chdir(folder_path)

# Inicio una sesion par que sea más eficiente
with requests.Session() as session:
    # Creo la URL principal y el endpoint del autor Cortazar
    url_base = 'https://ciudadseva.com/'
    end_point= '/autor/julio-cortazar/cuentos/'
    # Peticiona el archivo HTML
    html = session.get(url_base + end_point)
    # Creo la instancia de Beatiful
    soup = BeautifulSoup(html.text, 'html.parser')
    # Filtro por la lista desordenadan que contiene la lista ordenada de los cuentos
    ul = soup.find('ul', class_='list-unstyled list-stories')
    # Filtro la lista ordenada en donde están los cuentos
    for li in ul.find_all('li'):
        # Guardo el nombre del cuento
        story_name = f'{li.a.text.strip()}.txt'
        sanitize_story_name = sanitize_filename(story_name)
        # Guardo la URL del cuenti
        story_url = li.a['href']
        # Peticiona el archivo HTML del cuento
        story_html = session.get(story_url)
        # Creo la instancia Beatiful del cuento
        story_soup = BeautifulSoup(story_html.text, 'html.parser')
        # Filtro el div donde se guardon los elementos p del cuento
        story_div = story_soup.find('div', class_='text-justify')
        story_text = story_div.text
        # Ahora determino que si existe el elemento div
        if story_div:
            # Se cree un archivo con el nombre del cuento
            with open(sanitize_story_name, 'w') as file:
                # En el archivo se escribe el texto
                file.write(story_text)

FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\emiga\\OneDrive\\Documentos\\Data\\Humai\\3 - Web Scrapling\\2 - Web Scraping/Cuentos Cortazar'

### Ejercicio MercadoLibre

In [48]:
import os
import requests
from bs4 import BeautifulSoup
import pandas as pd

url_base = 'https://listado.mercadolibre.com.ar/'
end_point = 'gibson'

ml_html = requests.get(url_base + end_point)
ml_soup = BeautifulSoup(ml_html.text, 'html.parser')

prices = []
prices_container = ml_soup.find_all('div', class_='ui-search-price ui-search-price--size-medium')
for price in prices_container:
    if prices_container:
        prices_text = price.find('span', class_='andes-money-amount__fraction').text
        prices_int = int(prices_text.replace('.',''))
        prices.append(prices_int)
prices_serie = pd.Series(prices)
prices_mean = int(prices_serie.mean())
print(f'El promedio de las guitrras Gibos es ${prices_mean}')

El promedio de las guitrras Gibos es $6478125


# 3 - Web Scraping Avanzado

In [50]:
from multiprocessing import Pool
from requests import get

## Encontrando APIs ocultas

1. Entramos al sitio: https://www.ambito.com/contenidos/dolar-informal.html
2. Vamos a _Inspeccionar_ ( ctrl+shift+i )
3. Vamos a la solapa _Network_ y seleccionamos XHR (El tipo de paquete que utilizan las APIs)
4. Recargamos el sitio y nos ponemos a revisar el _Response_ de cada paquete hasta encontrar cual contiene la información que buscamos
5. Copiamos el comando cURL necesario para consultarla
6. Utilizamos [curl.trillworks.com](https://curl.trillworks.com) para armar el request con código python y queda algo así

In [53]:
import requests

response = requests.get('https://mercados.ambito.com//dolar/informal/grafico/semanal')

# Si los datos son provistos en formato JSON podemos utilizar el metodo .json() para acceder a ellos.
response.json()

[['fecha', 'Dólar Informal'],
 ['26/06/2024', 1365],
 ['27/06/2024', 1355],
 ['28/06/2024', 1365],
 ['01/07/2024', 1405],
 ['02/07/2024', 1430],
 ['03/07/2024', 1405]]

Analizando la API se puede ver que tiene al menos un parámetro modificables, el periodo.

Podemos poner todo dentro de una función que extraiga los precios del dolar para un perioro determinado. De esta forma será más facil de usar y no necesitemos repetir el código.

In [55]:
import requests

def obtener_valor_dolar_blue(periodo):
  """Devuelve valor del dólar blue obteniéndolo de la API oculta de ambito.com

  periodo (str) -> Puede ser semana, mensual o anual.
  """
  headers = {
      'authority': 'mercados.ambito.com',
      'accept': '*/*',
      'accept-language': 'en-US,en;q=0.9,es-US;q=0.8,es;q=0.7',
      'origin': 'https://www.ambito.com',
      'referer': 'https://www.ambito.com/',
      'sec-ch-ua': '".Not/A)Brand";v="99", "Google Chrome";v="103", "Chromium";v="103"',
      'sec-ch-ua-mobile': '?0',
      'sec-ch-ua-platform': '"Linux"',
      'sec-fetch-dest': 'empty',
      'sec-fetch-mode': 'cors',
      'sec-fetch-site': 'same-site',
      'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
  }

  response = requests.get(f'https://mercados.ambito.com//dolar/informal/grafico/{periodo}', headers=headers)

  return response.json()

data = obtener_valor_dolar_blue('mensual')

In [56]:
# Cargo datos en un DataFrame y grafico
import pandas as pd
import plotly.express as px

df = pd.DataFrame(data)
df.columns = df.iloc[0]
df = df[1:]

display(df.head(3))

fig = px.line(df, x='fecha', y='Dólar Informal')
fig.show()

Unnamed: 0,fecha,Dólar Informal
1,03/06/2024,1235
2,04/06/2024,1265
3,05/06/2024,1250


## Scrapear por paquetes

1. Entramos al sitiol
2. Vamos a _Inspeccionar_ ( ctrl+shift+i )
3. Vamos a la solapa _Network_ y seleccionamos XHR (El tipo de paquete que utilizan las APIs)
4. Recargamos el sitio y nos ponemos a revisar el _Response_ de cada paquete hasta encontrar cual contiene la información que buscamos. Es útil seleccionar el elemento y utilizar la barra de tiempo para ver que paquete se actualizaamos
5. Copiamos el comando cURL necesario para consultarla
6. Utilizamo  [hasdata.com (https://hasdata.com/curl-to-python-converterm) para armar el request con código python y queda algo así

In [57]:
import requests
import pandas as pd
import plotly.express as px

In [58]:
# Hago una función en la cual se va a realizar el request
def get_values():
    # Se establecen los headers porque sin ellos hay error
    headers = {
        'accept': '*/*',
        'accept-language': 'es-ES,es;q=0.9,en;q=0.8',
        # 'cookie': 'tbla_id=58b62c0b-4cd0-4eee-8a15-018ed382cbe9-tuctcac8416; OTH=v=2&s=2&d=eyJraWQiOiIwMTY0MGY5MDNhMjRlMWMxZjA5N2ViZGEyZDA5YjE5NmM5ZGUzZWQ5IiwiYWxnIjoiUlMyNTYifQ.eyJjdSI6eyJndWlkIjoiTldXWFBaVFdXRk5MTlZaV0JDV1RHRFpSWEEiLCJwZXJzaXN0ZW50Ijp0cnVlLCJzaWQiOiIwNlJlOHpxanpFMmMifX0.iFGNzBL8FXInn8zKMV7hhXpknY0QJlJipnLuvWwjKvTIm9c6FBZHwPtbOv8HotsJemJP2MoAqdcnommAr3UEsyLUOKhcTO09-1jeib468Pkc-Tmla7LxnXeVCf1Fes6kZSkDvMoYyylLI1OQ6bnBuckoauFzJfwuXwuW9xzm-ow; T=af=JnRzPTE3MDc2MTM1NzkmcHM9bkx5eWM0MUtGMDhfRGpZQXk5YWFiUS0t&d=bnMBeWFob28BZwFOV1dYUFpUV1dGTkxOVlpXQkNXVEdEWlJYQQFhYwFBTVZwT012ZQFhbAF3YWx0ZXJlZzIwMDIBc2MBZGVza3RvcF93ZWIBZnMBWUxLVEFjNWx5QjJMAXp6AUwyQnlsQkE3RQFhAVFBRQFsYXQBTDJCeWxCAW51ATA-&kt=EAAVUF.24K5hBDGXg.wOFvHkQ--~I&ku=FAAS2ZePcvG1K48oYOcImE1wgyRrJdKsK.T2GiJkELO6PJIWQmVe_p9CUb6ZDnu2mVkd7JsBEkPeIuI8rJbH2QfAd7CFpMa559AVMovN1GI5nk_qSD5QK4BoMWdt_odJaCwxrpGR6mb3M0Oyt2PdjRe_TCwGK7hga4drP3DlyFXM7c-~E; F=d=GH5uNhc9vPBSZagXA6sdNc42ERX5nd5zMX.miyX7fH4-; PH=l=es-AR; Y=v=1&n=0cvqv4tju8h92&l=m0bj4h46sqqs/o&p=m20vvar00000000&iz=5505&r=ac&intl=ar; axids=gam=y-JndQbvxG2uIftG8HdnNtg8cNgGZKBHmpAUQ5fEC11oIAqWKR4g---A&dv360=eS1oS2VhdlFKRTJ1RU5Eb2R3WGZRNDFQbmVOYnFoYm1wSmVUc2RCTnpoYzJfb3FnXzlZcE5vT2l2WWJOSEtkb0Y4UGkua35B&ydsp=y-IKR0b5BE2uLS5m5I22PBuj6pVTpflMsu0JvK5Z1yliJhGZFV.uqm_g7R1FO4kXKVTrX9~A&tbla=y-lEOS34ZG2uJDXLTv7UeLc2J0GeIW6I7QQzl4zvzGFrKnlwfSUg---A; GUC=AQEBCAFmZ2dmk0Id0QR2&s=AQAAAHRpc6r5&g=ZmYeyw; A1=d=AQABBA95sWUCEA3seCbLQMbmRfnQv7T0i2MFEgEBCAFnZ2aTZgrrbmUB_eMBAAcID3mxZbT0i2MID73jUtFf5FOfRJN5R5VV5QkBBwoBXQ&S=AQAAAkFOY0PQB5dM11-O7o5Sg6o; A3=d=AQABBA95sWUCEA3seCbLQMbmRfnQv7T0i2MFEgEBCAFnZ2aTZgrrbmUB_eMBAAcID3mxZbT0i2MID73jUtFf5FOfRJN5R5VV5QkBBwoBXQ&S=AQAAAkFOY0PQB5dM11-O7o5Sg6o; A1S=d=AQABBA95sWUCEA3seCbLQMbmRfnQv7T0i2MFEgEBCAFnZ2aTZgrrbmUB_eMBAAcID3mxZbT0i2MID73jUtFf5FOfRJN5R5VV5QkBBwoBXQ&S=AQAAAkFOY0PQB5dM11-O7o5Sg6o; cmp=t=1717968581&j=0&u=1---; gpp=DBAA; gpp_sid=-1; PRF=t%3DM.BA',
        'origin': 'https://finance.yahoo.com',
        'priority': 'u=1, i',
        'referer': 'https://finance.yahoo.com/quote/M.BA/',
        'sec-ch-ua': '"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'empty',
        'sec-fetch-mode': 'cors',
        'sec-fetch-site': 'same-site',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36',
    }

    # Se realiza el requests
    response = requests.get(
        'https://query2.finance.yahoo.com/v8/finance/chart/M.BA?period1=1717423200&period2=1717977600&interval=1d&includePrePost=true&events=div%7Csplit%7Cearn&&lang=en-US&region=US',
        # En este caso las cookies no son necesarias
        #cookies=cookies,
        headers=headers,
    )

    # Se captura la repuesta y se la transforma a json()
    data = response.json()
    return data

In [59]:
# Se usa esta libreria para pasar los datos de fecha a formato fecha
from datetime import datetime

data = get_values()

# Relleno la columna de marca de tiempo(Fecha)
df_merval = pd.DataFrame(columns=['date','value'])
# Convertir los timestamps a fechas
timestamps = data['chart']['result'][0]['timestamp']
dates = [datetime.fromtimestamp(ts) for ts in timestamps]
df_merval['date'] = dates
# Relleno la columna de value con los datos del valor del MERVAL
df_merval['value'] = data['chart']['result'][0]['indicators']['quote'][0]['open']
# Creo un gráfico de linea
fig = px.line(df_merval, x='date', y='value', title='Valores Merval')
fig.show()

## Paralización con Pool

La función map es una función incorporada en Python que permite aplicar una función a todos los ítems de una lista (o cualquier otro iterable) y devolver una nueva lista con los resultados. La sintaxis básica es: map(function, iterable)

Forma clásica

In [60]:
# Está seria la forma clásica de realiazr multiples request
# Una función que hace el requesto segú el número que ingresa como parámetro
def get_number_text(number):
    url = f'http://numbersapi.com/{number}'
    return requests.get(url).text

# Una lista de números
number_list = [1,2,3,4,5,6,7,8,9,10]
# Un blucle que iteresa sobre la lista y va realizando los request
for n in number_list:
    text = get_number_text(n)
    print(text)

1 is the number of Gods in monotheism.
2 is the first magic number in physics.
3 is the number of consecutive successful attempts in a hat trick in sports.
4 is the number of nucleobase types in DNA and RNA – adenine, guanine, cytosine, thymine (uracil in RNA).
5 is the number of points in a pentagram.
6 is the number of symbolic foods placed on the Passover Seder Plate.
7 is the number of estimated objects that can be simultaneously held in human working memory.
8 is the number of furlongs in a mile.
9 is the number of innings in a regulation, non-tied game of baseball.
10 is the highest score possible in Olympics gymnastics competitions.


Parelización con Pool

In [61]:
def get_number_text(number):
    url = f'http://numbersapi.com/{number}'
    return requests.get(url).text

# Una lista de números
number_list = [1,2,3,4,5,6,7,8,9,10]

# Para la paralelización es recomdable usar este __name__ == '__main__'
# previene errores, es más modular, y seguridad
if __name__ == '__main__':
    with Pool(5) as p:
      # m.map devuleve una lista con todos los resultados
      result = p.map(get_number_text, number_list)
      # hago un for par que se impriman de a uno
      for r in result:
        print(r)

1 is the number of dimensions of a line.
2 is the first magic number in physics.
3 is the number of sets needed to be won to win the whole match in volleyball.
4 is the number of strings on a violin, a viola, a cello, double bass, a cuatro and a ukulele, and the number of string pairs on a mandolin.
5 is the number of points in a pentagram.
6 is the number of points on a Star of David.
7 is the number of days in a week.
8 is the number of bits in a byte.
9 is the number of circles of Hell in Dante's Divine Comedy.
10 is the number of kingdoms in Five Dynasties and Ten Kingdoms Period.


# 4 - Automatizacion II

## Scraping con Pandas

### Descargar table con Pandas

In [None]:
import pandas as pd
import numpy as np
from IPython.display import display

In [None]:
def clear_dataframe(df):
  try:
    # Borro la primera y la segunda columna porque son todos valores nulos
    # Paso una lista con los número de columna a borrar, con los nombres me daba error
    df.drop(df.columns[[0, 1]], axis=1, inplace=True)
    # Algunos datos numeros vienen como 0,...45. tengo que eliminar '...'
    df.replace('\.\.\.', '', regex=True, inplace=True)
    # Le cambio el nombre de las palabras para que no contengan un espacio " ", sino que se separa por "_"

    ## Acá doy formato al contenido
    df.columns = ['Name', 'Price', 'PctChnge_1h', 'PctChnge_24h', 'FullDiluted_MarketCap', 'Volume', 'Blockchain', 'Added_HoursAgo']
    # '[\$,]'. Uso [] para indicar que son una clase de carácteres. \$ para indicar literalmente $, y la ',' no hace falta pasarla como literal
    df['Price'] = df['Price'].replace('[\$,]', '', regex=True).astype(float)
    df['Volume'] = df['Price'].replace('[\$,]', '', regex=True).astype(float)
    df['FullDiluted_MarketCap'] = df['Price'].replace('[\$,]', '', regex=True).astype(float)
    # '[\%,]'. Uso [] para indicar que son una clase de carácteres. \% para indicar literalmente $, y la ',' no hace falta pasarla como literal.
    # Divido por 100 para que quede expreado como porcentaje
    df['PctChnge_1h'] = df['PctChnge_1h'].replace('[\%,]', '', regex=True).astype(float)/100
    df['PctChnge_24h'] = df['PctChnge_24h'].replace('[\%,]', '', regex=True).astype(float)/100
    # Con una funcion lambda elimino 'hourse ago' y 'day ago'. Hay un error porque horas no es lo mismo que días, pero en este caso lo dejare así
    df['Added_HoursAgo'] = df['Added_HoursAgo'].apply(lambda x: x[0])
    return df

  except Exception as e:
    print(f'Error en el proceso de limpiado {e}')
    return None

In [None]:
# Esta linea es para darle formato a la visualización de los número decimales
pd.set_option('display.float_format', lambda x: '%.7f' % x)

# url de la página a escrapear
url = 'https://coinmarketcap.com/new/'

try:
  # La página tiene un html con elemento tablas, es por eso que usamos pandas
  # pd_read_html() me devuelve un lsitado de dataframe.
  listadoTablas = pd.read_html(url)
  # pd_read_html() me devuelve un lsitado de dataframe.
  # print(type(listadoTablas[0])) -> <class 'pandas.core.frame.DataFrame'>

  df = listadoTablas[0]
  df = clear_dataframe(df)
  display(df)

except Exception as e:
  print(e)

Unnamed: 0,Name,Price,PctChnge_1h,PctChnge_24h,FullDiluted_MarketCap,Volume,Blockchain,Added_HoursAgo
0,Meme Man1MAN,0.0000010,0.0726000,0.0588000,0.0000010,0.0000010,Ethereum,1
1,Qudefi2QDFI,0.0298300,0.0006000,0.0499000,0.0298300,0.0298300,Ethereum,1
2,CATERPILLAR3CPL,0.0012410,0.0613000,1.4340000,0.0012410,0.0012410,BNB,1
3,SheiShei4SHEI,0.0044610,0.0598000,0.1900000,0.0044610,0.0044610,Ethereum,1
4,Marvin on Base5MOB,0.0000041,0.0026000,0.1297000,0.0000041,0.0000041,Base,1
...,...,...,...,...,...,...,...,...
95,ハチ公96HACHIKO,0.0031130,0.0247000,0.0363000,0.0031130,0.0031130,Ethereum,7
96,Republican97REP,0.0044740,0.0085000,0.0132000,0.0044740,0.0044740,Solana,7
97,KinetixFi98KAI,0.0120000,0.0234000,0.0484000,0.0120000,0.0120000,Own Blockchain,8
98,HGEN DAO99HGEN,0.1948000,0.0004000,0.0286000,0.1948000,0.1948000,Ethereum,8


### Conectar con Api de Google
El siguiente paso es conectar con la API de google, para ello tengo que seguir una secuencia de pasos en google cloud.

*Documentacion:* https://developers.google.com/workspace/guides/create-project?hl=es-419

#### Instalar gspread

In [None]:
# Instalamos y hacemos un upgrade de gspread porque la funcion que necesitamos esta a partir de la version 3.6
!pip install gspread --upgrade

Collecting gspread
  Downloading gspread-6.1.2-py3-none-any.whl (57 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.5/57.5 kB[0m [31m958.4 kB/s[0m eta [36m0:00:00[0m
Installing collected packages: gspread
  Attempting uninstall: gspread
    Found existing installation: gspread 6.0.2
    Uninstalling gspread-6.0.2:
      Successfully uninstalled gspread-6.0.2
Successfully installed gspread-6.1.2


#### Importar gspread

In [None]:
import gspread
print(f'Version de gspread:{gspread.__version__}')

Version de gspread:6.1.2


#### Crear hoja de cálculo

In [None]:
# El archivo de .json de la key lo guarde en los archivos de Colab (también cree una copia en drive)
# El nombre del arcihvo (daring-research-428102-i3-924013087865 en este caso), lo paso como path

# gspread.service_account() autentica el script de Python con la API de Google Sheets utilizando una cuenta de servicio.
# el archivo .json contiene las credenciales para la cuenta de servicio
gc = gspread.service_account(filename = '/content/daring-research-428102-i3-67bc4e78af8a.json')

# Creo la hoja de cálculo
name = 'Hoja de cálculo creada con Python'
spread_sheet = gc.create(name)

# Para hacer visible el archivo es necesario compartirlo
mail_share = 'emilianogarcia05@gmail.com'
spread_sheet.share(mail_share, perm_type='user', role='writer')

# Imprimir el URL de la nueva hoja de cálculo
print('Hoja de cálculo creada: ', spread_sheet.url)




Hoja de cálculo creada:  https://docs.google.com/spreadsheets/d/1mX6MSlyq5hCM_z8a2zMmO3_qhHORIy4wcmli7e00NNM


#### Abrir hoja de cálculo

In [None]:
# Abrir hoja existente
name = 'Hoja de cálculo creada con Python'
spread_sheet = gc.open(name)

# Selecciono la primera hoja
spread_sheet = spread_sheet.sheet1

# Cargo los datos a la hoja de cálculo
# df.columns.values.tolist() obtiene los nombres de las columnas del DataFrame df y los convierte en una lista.
# df.values.tolist() convierte todas las filas de datos del DataFrame df en una lista de listas.
spread_sheet.update([df.columns.values.tolist()] + df.values.tolist())


{'spreadsheetId': '1mX6MSlyq5hCM_z8a2zMmO3_qhHORIy4wcmli7e00NNM',
 'updatedRange': 'Sheet1!A1:H101',
 'updatedRows': 101,
 'updatedColumns': 8,
 'updatedCells': 808}

#### Obtener datos de hoja de calculo



1.   Ir a "Google Cloud", buscar en bibliotecas al APi de "Google Sheets"
2.   Crear una cuenta de servicio (Es como un mail alternativo)
3.  Crear una credencial "JSON".  Eso es un archivo que yo tengo que subir a Colab para darle acceso a crear y eitar los archivos de Google Sheets.

Tener en cuenta que Colab borra los archivos cuando se desconecta



In [None]:
# Autenticación con la cuenta de servicio y apertura de la hoja de cálculo existente
gc = gspread.service_account(filename='/content/daring-research-428102-i3-924013087865.json')
name = 'Hoja de cálculo creada con Python'

# Abre la hoja de cálculo por su nombre
spread_sheet = gc.open(name)
# Selecciona la primera hoja de la hoja de cálculo (cambia sheet1 por el nombre de la hoja si es distinto)
worksheet = spread_sheet.sheet1
# Obtén todos los valores de la hoja de cálculo
spread_sheet_data = worksheet.get_all_values()
# Crea un DataFrame de Pandas desde los datos obtenidos
df_from_sheet = pd.DataFrame(spread_sheet_data[1:], columns=spread_sheet_data[0])
# Muestra el DataFrame en el notebook
display(df_from_sheet)

Unnamed: 0,Name,Price,PctChnge_1h,PctChnge_24h,FullDiluted_MarketCap,Volume,Blockchain,Added_HoursAgo
0,LANDWOLF1LANDWOLF,0.008502,0.1654,0.8801,0.008502,0.008502,Ethereum,1
1,CHEWY2CHWY,0.002934,0.1135,0.727,0.002934,0.002934,Solana,1
2,Michi3MICHI,0.00003829,0.0849,1.1319,0.00003829,0.00003829,BNB,2
3,Tard4TARD,0.0007885,0.0365,2.1926,0.0007885,0.0007885,Solana,2
4,MAGA Momiji5MOMIJI,0.00003278,0.0057,0.0229,0.00003278,0.00003278,Ethereum,2
...,...,...,...,...,...,...,...,...
95,PEPE TREMP96TREMP,0.002638,0.0014,0.0818,0.002638,0.002638,Solana,7
96,Super Trump97STRUMP,0.000054,0,0.0175,0.000054,0.000054,Ethereum,8
97,SLUMBO98SLUMBO,0.00004049,0.0065,0.0833,0.00004049,0.00004049,Solana,8
98,Meme Cup99MEMECUP,0.002407,0,0.0174,0.002407,0.002407,Ethereum,9


## Recibiendo Datos desde Google Sheets y Google DataStudio

## Enviar mails con Python



1.   Ir a Google Acount -> Seguridad -> Verificacion 2 pasos
2.   Crear una "app password" (Buscar el browser de google account) y copiar la contraseña que se crea ahí.




In [None]:
# Implementa el protocolo SMTP (Simple Mail Transfer Protocol).
import smtplib
# Importo la clase del módulo email de Python.
from email.message import EmailMessage
import time
# Para adjuntar arhivos al mails
import imghdr

### Enviar un mail

In [None]:
# Creo una instancia de la clase EmailMessage
msg = EmailMessage()

# Creo los atributos del correo
msg['From'] = 'emilianogarcia05@gmail.com'
msg['To'] = 'agustinazapata25@gmail.com, emilianogarcia05@gmail.com'
msg['Subject'] = 'Y de pronto yo la cago y te digo una tontera como...'
mail_content =  '... Te amoooo. Hola fufi, este es un correo automático que envié desde un código con Python'
msg.set_content(mail_content)

# Configuro los parámetros para la conexión SMTP
smtp_server = 'smtp.gmail.com'
smtp_port = 587
smtp_username = 'emilianogarcia05@gmail.com'
smtp_password = 'unop prqn liiz xhma'

# Conecto al servidor. Uso un bloque with para manejar la conexión y cerrarla automáticamente al finalizar
with smtplib.SMTP(smtp_server, smtp_port) as server:
  # Inicio una conexión segura con TLS
  server.starttls()
  # Inicio sesión de la cuenta
  server.login(smtp_username, smtp_password)
  # Se envía el correo
  server.send_message(msg)
  # Si no uso el bloque with tengo que cerrar el servidor con server.quit()
  # server.quit()

### Enviar más de un mail

In [None]:
# Se pueden crear listas de los corres de destino de los cuerpos de mensaje
# en este ejercicio decidi variar los asuntos
subjet_list = ['1° Correo', '2° Correo', '3° Correo']

# Configuro los parámetros para la conexión SMTP
smtp_server = 'smtp.gmail.com'
smtp_port = 587
smtp_username = 'emilianogarcia05@gmail.com'
smtp_password = 'unop prqn liiz xhma'

# Creo el bloque with para asegurar que se cierre el servidor al finalizar
with smtplib.SMTP(smtp_server, smtp_port) as server:
    # Inicio una conexión segura con TLS
    server.starttls()
    # Inicio sesión de la cuenta
    server.login(smtp_username, smtp_password)
    # Configuro los parámetros para la conexión SMTP que no van a cambiar
    for s in subjet_list:
      # Creo una instancia de la clase EmailMessage por cada envio para prevenir errores
      msg = EmailMessage()
      msg['From'] = 'emilianogarcia05@gmail.com'
      msg['To'] = 'emilianogarcia05@gmail.com'
      msg['Subject'] = s
      mail_content = 'Mail de prueba del código de automatizacion de envío de varios correo a la vez'
      msg.set_content(mail_content)
      # Se envía el correo
      server.send_message(msg)
      # Espero entre envíos para que no haya sobrecarga de servidor
      time.sleep(2)
      print(f'Mail con asunto "{s}" enviado correctamente')

Mail "1° Correo" enviado correctamente
Mail "2° Correo" enviado correctamente
Mail "3° Correo" enviado correctamente


### Enviar correos con datos adjuntos

In [None]:
path_imagen = '/content/logo_humai.webp'

# Configuro los parámetros para la conexión SMTP
smtp_server = 'smtp.gmail.com'
smtp_port = 587
smtp_username = 'emilianogarcia05@gmail.com'
smtp_password = 'unop prqn liiz xhma'


# Creo una instancia de la clase EmailMessage
msg = EmailMessage()
# Creo los atributos del correo
msg['From']= 'emilianogarcia05@gmail.com'
msg['To']= 'emilianogarcia05@gmail.com'
msg['Subject']= 'Prueba de correo con archivos adjuntos'
mail_content = 'Correo enviado automáticamente con un códido de python'
msg.set_content(mail_content)


# Adjunto la imagen
# Utilizo bloue with porque siempre es más eficiente con el uso de archivos, ya que se encarga de cerrar el archivo
# automáticamente previniendo errores de fuga de recursos y hace el código más legible.
with open(path_imagen, 'rb') as f:
    # Leo la imagen
    image_data = f.read()
    # Determino el tipo de archivo
    image_type = imghdr.what(f.name)
    image_name = f.name # /content/logo_humai.webp
# Adjunto el archivo al correo
msg.add_attachment(image_data, maintype='image', subtype=image_type, filename=image_name)


# Conecto al servidor. Uso un bloque with para manejar la conexión y cerrarla automáticamente al finalizar
with smtplib.SMTP(smtp_server, smtp_port) as server:
  # Inicio una conexión segura con TLS
  server.starttls()
  # Inicio sesión de la cuenta
  server.login(smtp_username, smtp_password)
  # Se envía el correo
  server.send_message(msg)
  # Si no uso el bloque with tengo que cerrar el servidor con server.quit()
  # server.quit()

/content/logo_humai.webp


## Cron

Se Utiliza en Linux para automatizar script. Se ejecutan desde la terminal y se debe aclarar cuando se van a ejecutar con el sistema de abajo.
No lo profundice porque en Windows se utiliza el programador de tareas

In [1]:
# ┌───────────── Minutos (0 - 59)
# │ ┌───────────── Hora (0 - 23)
# │ │ ┌───────────── Dia del mes (1 - 31)
# │ │ │ ┌───────────── Mes (1 - 12) o jan,feb,mar,apr,may,jun,jul... (meses en inglés)
# │ │ │ │ ┌─────────────  día de la semana (0-6) (domingo=0 o 7) o sun,mon,tue,wed,thu,fri,sat (días en inglés)
# │ │ │ │ │
# │ │ │ │ │
# │ │ │ │ │
# * * * * *  comando_a_ejecutar