# Solicitudes a la web

Para hacer una solicitud a una pagina, debemos importar la libreria requests, y con ella ejecutaremos la solicitud que deseemos (GET,POST,PUT,DELETE,PATCH,OPTIONS).
Esto nos va a devolver un objeto response (que almacena el codigo fuente de la pagina en el caso del ejemplo), con el cual podemos interactuar luego.

In [6]:
import requests
response = requests.get('https://clarin.com')

<Response [200]>


Con la siguiente linea obtenemos todos los metodos que podemos utilizar con este objeto.

In [2]:
print(dir(response))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


Para ejecutar estos metodos basta con poner "responde.NombreMetodo" y nos tira una rta, por ejemplo:

In [5]:
print(response.url)
print(response.status_code)
print(response.reason)
print(response.raise_for_status)

https://www.clarin.com/
200
OK
<bound method Response.raise_for_status of <Response [200]>>


En particular, si vemos los 'headers' vemos que nos devuelve un diccionario de python, para navegar por él debemos usar un sistema de llaves.

In [20]:
print(response.headers)

{'Date': 'Sat, 08 Jan 2022 20:10:07 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Last-Modified': 'Sat, 08 Jan 2022 20:05:16 GMT', 'X-XSS-Protection': '1; mode=block', 'X-UA-Device-Type': 'common', 'Cache-Control': 'max-age=120', 'Vary': 'Accept-Encoding, User-Agent', 'X-AspNet-Version': '4.0.30319', 'X-Powered-By': 'ASP.NET', 'CF-Cache-Status': 'HIT', 'Age': '242', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '6ca81142c933f7d2-EZE', 'Content-Encoding': 'gzip', 'alt-svc': 'h3=":443"; ma=86400, h3-29=":443"; ma=86400, h3-28=":443"; ma=86400, h3-27=":443"; ma=86400'}


In [23]:
print(response.headers['Date'])
print(response.headers['Server'])

Sat, 08 Jan 2022 20:10:07 GMT
cloudflare


Entre los métodos tambien tenemos 'text' que nos imprime el codigo fuente html en formato de texto

In [24]:
print(response.text)

<!DOCTYPE html>
<html lang='es'>
<head>
<title>Noticias. Últimas noticias de Argentina y el Mundo | Clarín</title>
<script async src="https://securepubads.g.doubleclick.net/tag/js/gpt.js"></script>
<link rel="preconnect" href="https://images.clarin.com">
<link rel="preload" href="https://static.clarin.com/static/CLAClarin/fonts-v2/VelinoSans-Bold.woff2" as="font" type="font/woff2" crossorigin>
<link rel="preload" href="https://static.clarin.com/static/CLAClarin/fonts-v2/VelinoSans-Book.woff2" as="font" type="font/woff2" crossorigin>
<link rel="preload" href="https://static.clarin.com/static/CLAClarin/fonts-v2/VelinoHeadline-Bold.woff2" as="font" type="font/woff2" crossorigin>
<link rel="preload" href="https://static.clarin.com/static/CLAClarin/fonts-v2/VelinoHeadline-Book.woff2" as="font" type="font/woff2" crossorigin>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<meta http-equiv="Content-Language" content="es" />
<meta name="LANGUAGE" content="es" />
<meta nam

# Extracción de información de HTML

Para manipular HTML se utiliza la libreria 'BeautifulSoup4'. Lo que hace es transformar un HTML o XML a una estructura sobre la cual podemos ejecutar querys

In [25]:
import bs4
soup = bs4.BeautifulSoup(response.text,'html.parser')

Ahora que ya parseamos el objeto response que obtuvimos antes, podemos hacerles querys para obtener informacion mas facilmente de la pagina. Por ejemplo, obtener el 'title' en formato text

In [26]:
print(soup.title.text)

Noticias. Últimas noticias de Argentina y el Mundo | Clarín


Para poder utilizar un selector de CSS usamos 'soup.select()'
Para este ejemplo, voy a inspeccionar la página en clarin.com, donde me fijo que cada noticia tiene el link de referencia href en una clase CSS llamada 'link_articule', por lo cual la selecciono. 
Luego creo una variable 'news' que almacena en cada posicion un enlace a la noticia.
Luego simplemente hago un ciclo for, que recorre news e imprime por separado cada link

In [34]:
news_links = soup.select('.link_article')
news = [new['href'] for new in news_links]

for new in news:
    print(new)

/sociedad/coronavirus-argentina-confirman-101-689-nuevos-contagios-37-muertes_0_UlELif-kE.html
/economia/martin-guzman-sendero-riesgo-jugar-default-fmi_0_ad8OnDqsc.html
/mundo/tragedia-brasil-muerto-derrumbe-acantilado-cayo-lanchas-turistas_0_Dd17P4tu_.html
/sociedad/muertos-internados-graves-botulismo-comieron-mismos-chacinados-caseros_0_6nRMsHmmc.html
/politica/javier-milei-explico-vivira-sortear-sueldo-hizo-pronostico-apocaliptico-economia-armando-armagedon-_0_OolKiBGO3.html
/rural/fuerte-protesta-productores-medio-sequia-endurecen-gobierno-reclaman-medidas-mesa-enlace_0_HhnHFimPm.html
/sociedad/semana-tragedia-frontera-descontrol-picadas-cuatriciclos-paran-pinamar_0_w3N3VlNAD.html
/sociedad/leyenda-hizo-realidad-historia-maestra-curo-1000-grullas-papel-amor_0_amJpREWU8.html
/sociedad/chalten-historia-amor-termino-tragedia-avalancha-piedra-nieve_0_35RhmZh8B.html
/policiales/sonaba-ingeniera-mataron-tiro-nuca-celular_0_iGanHeEdj.html
/internacional/encuentran-muerto-hijo-adolescente-

## Experimentando con otro link

In [38]:
response2 = requests.get('https://clarin.com/sociedad/coronavirus-argentina-confirman-101-689-nuevos-contagios-37-muertes_0_UlELif-kE.html')

In [39]:
soup2 = bs4.BeautifulSoup(response2.text,'html.parser')

In [45]:
print(soup2.title.text)

Coronavirus en Argentina: por tercer día consecutivo el país superó los 100 mil contagios


# PANDAS
### TIPOS DE DATOS

## Series
Es un vector unidimensional, solo puede contener un tipo de datos (string, numeric, etc).

In [2]:
import pandas as pd
series_test = pd.Series([100, 200, 300])
series_test

0    100
1    200
2    300
dtype: int64

In [4]:
series_test2 = pd.Series({1999: 48, 2000: 65, 2001: 89})
series_test2

1999    48
2000    65
2001    89
dtype: int64

## DataFrames
Son tablas en donde las filas y columnas tienen etiqueta

In [7]:
df_test = pd.DataFrame({1999: [74, 38, 39],
                       2000: [32, 43, 53],
                        2001: [12, 12, 32]
                       })
df_test

Unnamed: 0,1999,2000,2001
0,74,32,12
1,38,43,12
2,39,53,32


In [9]:
df_test2 = pd.DataFrame([[74, 38, 39],
                       [32, 43, 53],
                       [12, 12, 32]])
df_test2

Unnamed: 0,0,1,2
0,74,38,39
1,32,43,53
2,12,12,32


In [12]:
df_test3 = pd.DataFrame([[74, 38, 39],
                       [32, 43, 53],
                       [12, 12, 32]], columns=[1999,2000,2001])
df_test3

Unnamed: 0,1999,2000,2001
0,74,38,39
1,32,43,53
2,12,12,32


# READ DATA

In [7]:
mouseml = pd.read_csv('./web_scrapper/mouseml_2022_01_18_articles.csv')

mouseml

Unnamed: 0,body,title
0,358.0,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro
5,7.85,Mouse vertical inalámbrico recargable Logitech...
6,4.445,Mouse de juego Razer Viper Mini negro
7,1.353,Mouse de juego VSG Hero negro
8,1.75,Mouse Genius Eco-8100 Wireless Black Recargabl...
9,969.0,Mouse inalámbrico Logitech M170 gris y negro


### HEAD <-- devuelve los primeros 5 datos

In [9]:
mouseml = pd.read_csv('./web_scrapper/mouseml_2022_01_18_articles.csv')

mouseml.head()

Unnamed: 0,body,title
0,358.0,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro


### TAIL <-- devuelve los ultimos 5 datos

In [10]:
mouseml = pd.read_csv('./web_scrapper/mouseml_2022_01_18_articles.csv')

mouseml.tail()

Unnamed: 0,body,title
51,9.899,Mouse de juego inalámbrico recargable Logitech...
52,904.0,Mouse inalámbrico Logitech M190 gris marengo
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...
54,2.599,Mouse de juego Redragon Cobra White M711-W white
55,426.0,Mouse inalámbrico Noganet NG-900U verde


### display.max_rows <-- Le indicamos cuantas filas mostrar como maximo

In [11]:
pd.options.display.max_rows = 10

mouseml = pd.read_csv('./web_scrapper/mouseml_2022_01_18_articles.csv')

mouseml

Unnamed: 0,body,title
0,358.000,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro
...,...,...
51,9.899,Mouse de juego inalámbrico recargable Logitech...
52,904.000,Mouse inalámbrico Logitech M190 gris marengo
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...
54,2.599,Mouse de juego Redragon Cobra White M711-W white


# Indices y selección
Existen muchas formas de acceder a los datos

## Dictionary like
Seleccionar una sola columna:

In [12]:
mouseml['title']

0                  Mouse Genius  DX-110 USB negro suave
1     Mouse inalámbrico Logitech  Multi-Device M585 ...
2     Mouse de juego Redragon  Centrophorus2 M601-RG...
3           Mouse de juego Redragon  Griffin M607 negro
4           Mouse de juego HyperX  Pulsefire Core negro
                            ...                        
51    Mouse de juego inalámbrico recargable Logitech...
52        Mouse inalámbrico Logitech  M190 gris marengo
53    Mouse de juego inalámbrico recargable Yindiao ...
54    Mouse de juego Redragon  Cobra White M711-W white
55             Mouse inalámbrico Noganet  NG-900U verde
Name: title, Length: 56, dtype: object

Seleccionar varias columnas:

In [13]:
mouseml[['body','title']]

Unnamed: 0,body,title
0,358.000,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro
...,...,...
51,9.899,Mouse de juego inalámbrico recargable Logitech...
52,904.000,Mouse inalámbrico Logitech M190 gris marengo
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...
54,2.599,Mouse de juego Redragon Cobra White M711-W white


## Numpy like
iloc = index location

Con esto le digo que me devuelva de la fila 0 a la 15

In [14]:
mouseml.iloc[0:15]

Unnamed: 0,body,title
0,358.000,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro
...,...,...
10,618.000,Mouse inalámbrico Genius NX-7000 passion red
11,7.418,Mouse inalámbrico recargable Logitech MX Anyw...
12,2.370,Mouse inalámbrico Logitech Pebble M350 rosa
13,3.910,Mouse de juego inalámbrico Logitech G Series ...


Con esto le digo que solo me traiga la fila 0 y exclusivamente el titulo de la misma

In [15]:
mouseml.iloc[0]['title']

'Mouse Genius  DX-110 USB negro suave'

:5 <-- Devolveme de la primer fila hasta la 5

0 <-- Quiero solo la primer columna

In [16]:
mouseml.iloc[:5,0]

0    358.000
1      2.363
2      1.641
3      1.849
4      2.199
Name: body, dtype: float64

## Label based

El primer parametro indica que quiero TODOS los registros
El segundo parametro indica que quiero desde la columna body hasta title

In [17]:
mouseml.loc[:,'body':'title']

Unnamed: 0,body,title
0,358.000,Mouse Genius DX-110 USB negro suave
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...
3,1.849,Mouse de juego Redragon Griffin M607 negro
4,2.199,Mouse de juego HyperX Pulsefire Core negro
...,...,...
51,9.899,Mouse de juego inalámbrico recargable Logitech...
52,904.000,Mouse inalámbrico Logitech M190 gris marengo
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...
54,2.599,Mouse de juego Redragon Cobra White M711-W white


Devolveme desde el principio hasta el ante ultimo dato

In [26]:
mouseml.loc[:-1,'body':'title']

Unnamed: 0,body,title


Devolveme desde la fila 50 en adelante

In [27]:
mouseml.loc[50:,'body':'title']

Unnamed: 0,body,title
50,830.0,Mouse inalámbrico Genius NX-7010 rojo
51,9.899,Mouse de juego inalámbrico recargable Logitech...
52,904.0,Mouse inalámbrico Logitech M190 gris marengo
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...
54,2.599,Mouse de juego Redragon Cobra White M711-W white
55,426.0,Mouse inalámbrico Noganet NG-900U verde


# Data Wrangling - Limpieza de datos

Podemos añadir una columna id:

In [28]:
mouseml['mouse_id'] = 'mouseml'
mouseml

Unnamed: 0,body,title,mouse_id
0,358.000,Mouse Genius DX-110 USB negro suave,mouseml
1,2.363,Mouse inalámbrico Logitech Multi-Device M585 ...,mouseml
2,1.641,Mouse de juego Redragon Centrophorus2 M601-RG...,mouseml
3,1.849,Mouse de juego Redragon Griffin M607 negro,mouseml
4,2.199,Mouse de juego HyperX Pulsefire Core negro,mouseml
...,...,...,...
51,9.899,Mouse de juego inalámbrico recargable Logitech...,mouseml
52,904.000,Mouse inalámbrico Logitech M190 gris marengo,mouseml
53,1.399,Mouse de juego inalámbrico recargable Yindiao ...,mouseml
54,2.599,Mouse de juego Redragon Cobra White M711-W white,mouseml
