# Ingeniería de Datos con Python

## Introducción

In [None]:
print('Hello, world!')

In [None]:
print('segunda linea')

## Tipos de datos

### Primitivos

In [None]:
from datetime import datetime

integer_type = 42
float_type = 3.14159
bool_type = False
hex_type = 0xff
oct_type = 0o23
today = datetime.now()
str_type = 'David'

### Estructurados

In [None]:
from IPython.display import Image

Image('mysql_table_example.png')

### Semi estructurados

In [None]:
Image('html_markup_example.png')

### No estructurados

Beautiful is better than ugly.

Explicit is better than implicit.

Simple is better than complex.

Complex is better than complicated.

Flat is better than nested.

Sparse is better than dense.

Readability counts.

Special cases aren't special enough to break the rules.

Although practicality beats purity.

Errors should never pass silently.

Unless explicitly silenced.

In the face of ambiguity, refuse the temptation to guess.

There should be one-- and preferably only one --obvious way to do it.

Although that way may not be obvious at first unless you're Dutch.

Now is better than never.

Although never is often better than *right* now.

If the implementation is hard to explain, it's a bad idea.

If the implementation is easy to explain, it may be a good idea.

Namespaces are one honking great idea -- let's do more of those!

### Solicitudes a la Web

In [None]:
import requests

response = requests.get('https://platzi.com')

In [None]:
response??

In [None]:
print(dir(response))

In [None]:
response.text

### Extraccion de datos de un Documento HTML

In [None]:
import bs4

soup = bs4.BeautifulSoup(response.text,'html.parser')

In [None]:
soup.select('meta[name=description]')

In [None]:
response2 = requests.get('https://platzi.com/categorias/desarrollo/')
soup2 = bs4.BeautifulSoup(response2.text,'html.parser')
cards = soup2.select('.CarrersItem')
cards_links = [card['href'] for card in cards]
cards_links

In [None]:
response3 = requests.get('https://impactolocal.com.ar')
soup3 = bs4.BeautifulSoup(response3.text,'html.parser')
news_elems = soup3.select('.entry-title a')
news_links = [news_elem['href'] for news_elem in news_elems]
news_texts = [requests.get(news_link).text for news_link in news_links]
news = []
for news_text in news_texts:
    news_soup = bs4.BeautifulSoup(news_text,'html.parser')
    title = news_soup.select('.td-post-title h1')[0].text
    body = [p.text for p in news_soup.select('.td-post-content p')]
    news.append({title:body})
news

## Pandas

In [1]:
import pandas as pd

##### Series

In [9]:
serie1 = pd.Series([1,2,3])
serie1

0    1
1    2
2    3
dtype: int64

In [10]:
serie2 = pd.Series({1900: 1, 1901: 2, 1902: 3})
serie2

1900    1
1901    2
1902    3
dtype: int64

##### DataFrames

In [18]:
df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [19]:
df = pd.DataFrame({1900: [1, 2, 3], 1901: [4, 5, 6], 1902: [7, 8, 9]})
df

Unnamed: 0,1900,1901,1902
0,1,4,7
1,2,5,8
2,3,6,9


In [20]:
df2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns=['col_a', 'col_b', 'col_c'])
df2

Unnamed: 0,col_a,col_b,col_c
0,1,2,3
1,4,5,6
2,7,8,9


### Indices y Seleccion

In [27]:
pd.options.display.max_rows = 10

In [28]:
impacto_local = pd.read_csv('./../web-scraper-async/impactolocal_13_03_2019.csv', encoding = 'ISO-8859-1')
impacto_local

Unnamed: 0,body_csv,title_csv,url_csv
0,\r\n\r\nEl concejal de Cambiemos junto a sus p...,El concejal Marcelo Matzkin presentó un proyec...,https://impactolocal.com.ar/2019/03/12/conceja...
1,\r\nFOTO: ARCHIVO\r\nEl oficial fue intercepta...,Policía Local de Campana se resistió a un robo...,https://impactolocal.com.ar/2019/03/08/policia...
2,\r\n\r\nMientras que todavía se mantiene el co...,Comunicado oficial de la Municipalidad: solici...,https://impactolocal.com.ar/2019/03/13/comunic...
3,\r\n\r\nDesde hace dos días los chicos que asi...,Los alumnos de la escuela agropecuaria del Tat...,https://impactolocal.com.ar/2019/03/13/los-alu...
4,\r\n\r\nLa diputada Sandra París participó de ...,Sandra París estuvo junto al presidente Macri ...,https://impactolocal.com.ar/2019/03/11/sandra-...
...,...,...,...
30,\r\nLos concejales de Cambiemos cuestionaron l...,Es llamativo el poco profesionalismo que tien...,https://impactolocal.com.ar/2019/03/08/llamati...
31,\r\n\r\nEl Tribunal Oral Criminal N° 1 de Moró...,Personal del Registro de violadores llegó a la...,https://impactolocal.com.ar/2019/03/08/persona...
32,\r\n\r\nEl Partido Obrero de Zárate mediante e...,Trabajo precarizado y persecución sindical en ...,https://impactolocal.com.ar/2019/03/12/trabajo...
33,\r\nA young male doctor examining an infant gi...,Soplos cardíacos en la etapa de crecimiento,https://impactolocal.com.ar/2018/11/15/soplos-...


#### Dictionary Like

In [34]:
impacto_local['url_csv']

0     https://impactolocal.com.ar/2019/03/12/conceja...
1     https://impactolocal.com.ar/2019/03/08/policia...
2     https://impactolocal.com.ar/2019/03/13/comunic...
3     https://impactolocal.com.ar/2019/03/13/los-alu...
4     https://impactolocal.com.ar/2019/03/11/sandra-...
                            ...                        
30    https://impactolocal.com.ar/2019/03/08/llamati...
31    https://impactolocal.com.ar/2019/03/08/persona...
32    https://impactolocal.com.ar/2019/03/12/trabajo...
33    https://impactolocal.com.ar/2018/11/15/soplos-...
34    https://impactolocal.com.ar/2019/03/11/detuvie...
Name: url_csv, Length: 35, dtype: object

In [33]:
impacto_local[['title_csv','url_csv']]

Unnamed: 0,url_csv
0,https://impactolocal.com.ar/2019/03/12/conceja...
1,https://impactolocal.com.ar/2019/03/08/policia...
2,https://impactolocal.com.ar/2019/03/13/comunic...
3,https://impactolocal.com.ar/2019/03/13/los-alu...
4,https://impactolocal.com.ar/2019/03/11/sandra-...
...,...
30,https://impactolocal.com.ar/2019/03/08/llamati...
31,https://impactolocal.com.ar/2019/03/08/persona...
32,https://impactolocal.com.ar/2019/03/12/trabajo...
33,https://impactolocal.com.ar/2018/11/15/soplos-...


##### Numpy Like

In [32]:
impacto_local.iloc[10:20]

Unnamed: 0,body_csv,title_csv,url_csv
10,\r\n\r\nZárate Basket recibirá el viernes a la...,Zárate Basket recibe a Presidente Derqui en un...,https://impactolocal.com.ar/2019/02/28/zarate-...
11,\r\n\r\nLuego del período de ajuste y promoció...,Comenzó a funcionar el nuevo servicio de Maste...,https://impactolocal.com.ar/2019/03/12/comenzo...
12,\r\n\r\nEl móvil sanitario de la Dirección de ...,Sarampión: el móvil sanitario sigue con las va...,https://impactolocal.com.ar/2018/11/12/sarampi...
13,\r\n\r\nGuillermo Bogliacino es el nuevo Direc...,Guillermo Bogliacino: Zárate Basket es un equ...,https://impactolocal.com.ar/2019/02/15/guiller...
14,\r\nEMPLEOS\r\nDurante esta semana la delegada...,El Gobierno Provincial presentó un portal de e...,https://impactolocal.com.ar/2019/03/13/gobiern...
15,\r\n\r\n\r\n\r\n\r\n\r\n\r\nEl equipo de la ci...,Zárate Basket confirmó la contratación de Guil...,https://impactolocal.com.ar/2019/03/07/zarate-...
16,\r\nMomento del robo captado por una cámara de...,Este mediodía: motochorros robaron a dos mujeres,https://impactolocal.com.ar/2019/03/12/este-me...
17,"\r\nLa jefa de Gabinete, Mariela Schvartz, rea...",Entregaron banderas a instituciones educativas...,https://impactolocal.com.ar/2019/03/13/entrega...
18,\r\n\r\nTras cortar la racha negativa de 7 der...,Zárate Basket quiere seguir en la senda ganadora,https://impactolocal.com.ar/2019/02/14/zarate-...
19,\r\n\r\nA raíz del intenso temporal la escuela...,La escuela del Tatú quedó bajo agua,https://impactolocal.com.ar/2015/08/08/la-escu...


In [37]:
impacto_local.iloc[22]['url_csv']

'https://impactolocal.com.ar/2018/10/17/la-justicia-ordeno-gobierno-vuelva-aplicar-las-vacunas-suspendidas-la-meningitis/'

In [41]:
impacto_local.iloc[1:5, 0]

1    \r\nFOTO: ARCHIVO\r\nEl oficial fue intercepta...
2    \r\n\r\nMientras que todavía se mantiene el co...
3    \r\n\r\nDesde hace dos días los chicos que asi...
4    \r\n\r\nLa diputada Sandra París participó de ...
Name: body_csv, dtype: object

##### Label based

In [43]:
impacto_local.loc[:, 'body_csv':'title_csv']

Unnamed: 0,body_csv,title_csv
0,\r\n\r\nEl concejal de Cambiemos junto a sus p...,El concejal Marcelo Matzkin presentó un proyec...
1,\r\nFOTO: ARCHIVO\r\nEl oficial fue intercepta...,Policía Local de Campana se resistió a un robo...
2,\r\n\r\nMientras que todavía se mantiene el co...,Comunicado oficial de la Municipalidad: solici...
3,\r\n\r\nDesde hace dos días los chicos que asi...,Los alumnos de la escuela agropecuaria del Tat...
4,\r\n\r\nLa diputada Sandra París participó de ...,Sandra París estuvo junto al presidente Macri ...
...,...,...
30,\r\nLos concejales de Cambiemos cuestionaron l...,Es llamativo el poco profesionalismo que tien...
31,\r\n\r\nEl Tribunal Oral Criminal N° 1 de Moró...,Personal del Registro de violadores llegó a la...
32,\r\n\r\nEl Partido Obrero de Zárate mediante e...,Trabajo precarizado y persecución sindical en ...
33,\r\nA young male doctor examining an infant gi...,Soplos cardíacos en la etapa de crecimiento


### Data wrangling

In [44]:
impacto_local['newspaper_uid'] = 'impactolocal'
impacto_local

Unnamed: 0,body_csv,title_csv,url_csv,newspaper_uid
0,\r\n\r\nEl concejal de Cambiemos junto a sus p...,El concejal Marcelo Matzkin presentó un proyec...,https://impactolocal.com.ar/2019/03/12/conceja...,impactolocal
1,\r\nFOTO: ARCHIVO\r\nEl oficial fue intercepta...,Policía Local de Campana se resistió a un robo...,https://impactolocal.com.ar/2019/03/08/policia...,impactolocal
2,\r\n\r\nMientras que todavía se mantiene el co...,Comunicado oficial de la Municipalidad: solici...,https://impactolocal.com.ar/2019/03/13/comunic...,impactolocal
3,\r\n\r\nDesde hace dos días los chicos que asi...,Los alumnos de la escuela agropecuaria del Tat...,https://impactolocal.com.ar/2019/03/13/los-alu...,impactolocal
4,\r\n\r\nLa diputada Sandra París participó de ...,Sandra París estuvo junto al presidente Macri ...,https://impactolocal.com.ar/2019/03/11/sandra-...,impactolocal
...,...,...,...,...
30,\r\nLos concejales de Cambiemos cuestionaron l...,Es llamativo el poco profesionalismo que tien...,https://impactolocal.com.ar/2019/03/08/llamati...,impactolocal
31,\r\n\r\nEl Tribunal Oral Criminal N° 1 de Moró...,Personal del Registro de violadores llegó a la...,https://impactolocal.com.ar/2019/03/08/persona...,impactolocal
32,\r\n\r\nEl Partido Obrero de Zárate mediante e...,Trabajo precarizado y persecución sindical en ...,https://impactolocal.com.ar/2019/03/12/trabajo...,impactolocal
33,\r\nA young male doctor examining an infant gi...,Soplos cardíacos en la etapa de crecimiento,https://impactolocal.com.ar/2018/11/15/soplos-...,impactolocal


In [48]:
from urllib.parse import urlparse
impacto_local['host'] = impacto_local['url_csv'].apply(lambda url: urlparse(url).netloc)
impacto_local

Unnamed: 0,body_csv,title_csv,url_csv,newspaper_uid,host
0,\r\n\r\nEl concejal de Cambiemos junto a sus p...,El concejal Marcelo Matzkin presentó un proyec...,https://impactolocal.com.ar/2019/03/12/conceja...,impactolocal,impactolocal.com.ar
1,\r\nFOTO: ARCHIVO\r\nEl oficial fue intercepta...,Policía Local de Campana se resistió a un robo...,https://impactolocal.com.ar/2019/03/08/policia...,impactolocal,impactolocal.com.ar
2,\r\n\r\nMientras que todavía se mantiene el co...,Comunicado oficial de la Municipalidad: solici...,https://impactolocal.com.ar/2019/03/13/comunic...,impactolocal,impactolocal.com.ar
3,\r\n\r\nDesde hace dos días los chicos que asi...,Los alumnos de la escuela agropecuaria del Tat...,https://impactolocal.com.ar/2019/03/13/los-alu...,impactolocal,impactolocal.com.ar
4,\r\n\r\nLa diputada Sandra París participó de ...,Sandra París estuvo junto al presidente Macri ...,https://impactolocal.com.ar/2019/03/11/sandra-...,impactolocal,impactolocal.com.ar
...,...,...,...,...,...
30,\r\nLos concejales de Cambiemos cuestionaron l...,Es llamativo el poco profesionalismo que tien...,https://impactolocal.com.ar/2019/03/08/llamati...,impactolocal,impactolocal.com.ar
31,\r\n\r\nEl Tribunal Oral Criminal N° 1 de Moró...,Personal del Registro de violadores llegó a la...,https://impactolocal.com.ar/2019/03/08/persona...,impactolocal,impactolocal.com.ar
32,\r\n\r\nEl Partido Obrero de Zárate mediante e...,Trabajo precarizado y persecución sindical en ...,https://impactolocal.com.ar/2019/03/12/trabajo...,impactolocal,impactolocal.com.ar
33,\r\nA young male doctor examining an infant gi...,Soplos cardíacos en la etapa de crecimiento,https://impactolocal.com.ar/2018/11/15/soplos-...,impactolocal,impactolocal.com.ar


In [49]:
impacto_local['host'].value_counts()

impactolocal.com.ar    35
Name: host, dtype: int64