# 1 - Data Wrangling

<br>

* El ***Data Wrangling*** (la lucha con los datos) es uno de los procesos mas “ingratos” en la ciencia de datos que tiene como finalidad ***obtener y mapear los datos en “bruto”*** (raw data) y pasarlos a un ***formato mas amigable*** y conveniente para su posterior tratamiento.


* Por tanto es un proceso del cual se tienen que obtener los datos y ***preparar los datasets*** para que esos puedan ser utilizados de forma conveniente en la fase del *Exploratory Data Analysis (EDA)*.


* El ***ETL*** (Extract-Transform-Load) consiste precisamente en ***extraer los datos del origen, transformarlos*** en un determinado formato y ***cargar o guardar esos datos transformados para sus posterior uso***.


* Las ***fuentes de los datos*** en bruto pueden ser muy diversas como por ejemplo:

    - ***datos de sensores***
    - ***logs de servidores***
    - ***redes sociales*** (APIs)
    - ***paginas web*** (scraping)
    - etc


<hr>


## Ejemplo de Obtención de Tweets


* Uno de los origenes de datos de ejemplo puede ser el de la red social de ***Twitter*** que dispone de un **API** para poder obtener información de esta red social:

    - Información de las cuentas
    - Tweets de cuentas
    - Tweets con determinados hashtags
    - Etc.
    

* Aunque se puede interactuar directamente con el API de Twitter (un servicio REST), existe en python una librería llamada "***Tweepy***" que nos permite hacer peticiones al API por medio de una serie de funciones (o métodos) implementados en esta librería.


###### ***NOTA***: En el fichero README.md se indica como instalar la librería tweepy, así como el resto de librerías necesarias para seguir este curso.


### Registro de una APP en Twitter


* Para poder interactuar con Twitter es necesario tener una cuenta de Twitter y registrar una applicación en: https://apps.twitter.com/. 


* Una vez registrada la app te deberá de proporcionar:
    1. consumer_key
    2. consumer_secret
    
 
* Luego se tiene que generar un:
    1. access_token
    2. access_token_secret


### Autenticación para obtener información de Twitter


* Nos tenemos que autenticar en Twitter con las credenciales proporcionadas una vez registrada la aplicación.

In [1]:
import tweepy
from pathlib2 import Path

# Claves de cliente y tokens de acceso
CONSUMER_KEY = 'fcCFQpt3lhMzeCgGhznWsb8C5'
CONSUMER_SECRET = 'lljbTkudnEvn0SWn6ZPw5Svam6TzD9q58AhBsgrsqGN9AdqrvF'
ACCESS_TOKEN = '1021745678974902279-7VhCtZkPsqhcaHPq4NFalaShazGbTV'
ACCESS_TOKEN_SECRET = '0xDVjwimkp1WKjjZpMpLuj0V3aRkAeKuvc4DiHkyfvYkZ'

# Proceso de autenticación OAuth
auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
api = tweepy.API(auth,wait_on_rate_limit=False)

<hr>


## Ejemplo 1 - Obtención de Tweets por Hashtag


* Por ejemplo podemos obtener los tweets que tienen un determinado Hashtag de la siguiente manera:

In [2]:
# Numero de tweets a pedir
n_tweets = 50

# Hashtags
hashtags = '#RealMadrid,#FCBarcelona'


# Leo los tweets disponibles
tweets = list()
for tw in tweepy.Cursor(api.search, q=hashtags, lang="es", tweet_mode="extended").items(n_tweets):
    tweets.append(tw.full_text.encode(encoding='utf-8').strip())

for i, tweet in enumerate(tweets):
    print('Tweet {num}: {tweet}\n'.format(num=i+1, tweet=tweet.decode("utf-8")))

Tweet 1: Los equipos de la @LaLiga nos eligen como proveedores de sus equipaciones
¿Y tú ? ¿Nos eliges tambíen?⚽⚽
.
https://t.co/xKILwCbAz3
.
#deporteshalcon #RealMadrid #Atletico #FCBarcelona #sportwear
*Serigafía tu equipación en tiendas https://t.co/ExuXWt9SMh

Tweet 2: 🇪🇸 SELECCIÓN | Ya tenemos a las 23 elegidas que lucharán por avanzar en la clasificación al Mundial 2023

Representación de jugadoras del #RealMadrid #FCBarcelona #ManchesterUnited #atleti #levanteud #valenciacf #realsociedad

#FIFAWWC

https://t.co/qbO8HILi6A

Tweet 3: 🇪🇸 SELECCIÓN | Ya tenemos a las 23 elegidas que lucharán por avanzar en la clasificación al Mundial 2023

Representación de jugadoras del #RealMadrid #FCBarcelona #ManchesterUnited #atleti #levanteud #valenciacf #realsociedad

#FIFAWWC

https://t.co/kuhpBqvdad

Tweet 4: 🇪🇸 SELECCIÓN | Ya tenemos a las 23 elegidas que lucharán por avanzar en la clasificación al Mundial 2023

Representación de jugadoras del #RealMadrid #FCBarcelona #ManchesterUnited #at

* Escribirmos los tweets en un fichero de texto para su almacenamiento:

In [3]:
# Fichero donde guardaremos los tweets obtenidos
file = "./data/resultados/ejemplo_tweets_por_hashtag.csv"

# Escribimos los datos en fichero
fichero = open(file, 'w', encoding='utf8')
for i, tweet in enumerate(tweets):
    fichero.write('{num},{tweet}\n'.format(num=i+1, tweet=tweet.decode("utf-8")))
fichero.close()

<hr>


## Ejemplo 2 - Obtención de tweets por cuenta


* Obtenemos los tweets de las cuentas de partidos políticos.

In [4]:
cuentas = [{'partido': 'pp', 'nombre_cuenta': 'PPopular'},
           {'partido': 'psoe', 'nombre_cuenta': 'PSOE'},
           {'partido': 'ciudadanos', 'nombre_cuenta': 'CiudadanosCs'},
           {'partido': 'podemos', 'nombre_cuenta': 'PODEMOS'},
           {'partido': 'vox', 'nombre_cuenta': 'vox_es'}]

# Numero de tweets a pedir por cuenta
n_tweets = 2

# Leo los tweets disponibles
tweets = list()
for i in cuentas:
    for user_status in api.user_timeline(screen_name=i['nombre_cuenta'], count = n_tweets, include_rts=False, tweet_mode="extended"):
        tweets.append('{cuenta}||{partido}||{tweet}'
                      .format(cuenta=i['nombre_cuenta'],
                              partido=i['partido'],
                              tweet=str(user_status.full_text.encode('utf-8').decode('utf-8')).strip()))

for i, tweet in enumerate(tweets):
    print('-> {tweet}\n'.format(tweet=tweet))


-> PPopular||pp||Recordamos que ahora estamos en @populares.

-> PSOE||psoe||Con la nueva FP formamos a nuestros trabajadores y desempleados para que, mejorando su cualificación, estén preparados antes cualquier imprevisto.

👉 Una formación vinculada a los sectores emergentes.

🌹 @Pilar_Alegria 

#CMin
#Avanzamos_ https://t.co/EeRVIIlU4H

-> PSOE||psoe||El Gobierno apuesta de manera clara y decidida por la educación infantil.

🌹 670M€ para la puesta en marcha de 65.382 nuevas plazas para niños y niñas de 0 a 3 años.

🗣️ @Pilar_Alegria 

#CMin 
#Avanzamos_ https://t.co/bwpcTTwLN6

-> CiudadanosCs||ciudadanos||💪 Insistimos en llevar los presupuestos al Consell de Garantías Estatutarias.

‼️ Incurren en gastos en acción exterior que son ilegales.

📡 @CarrizosaCarlos "Es inaudito que los partidos que defienden la unidad de España no defiendan el dinero de los catalanes" #ActualidadCs https://t.co/9ro0mIykXl

-> CiudadanosCs||ciudadanos||Esperábamos que la CUP se alinease con unos presupues

<hr>


# Bonus Track - Strings - Codificación y funciones básicas
 



## Codificación de Caracteres


* Uno de los quebraderos de cabeza que se tiene a la hora de trabajar con python (sobre todo con python 2.X) es el tema de la ***codificación de los textos (Strings)***.


* En un principio los ordenadores se diseñaron para utilizar el alfabeto ingles (que entre otras cosas no tiene ni acentos ni letras como la "ñ" para el Español) y por ese motivo se definió la codificación ***ASCII*** (***A***merican ***S***tandard ***C***ode for ***I***nformation ***I***nterchange) definido con 128 caracteres (7 bits para representar los 2<sup>7</sup> = 128 caracteres).


<img src="./imgs/01_01_ASCII.png" style="width: 500px;"/>


* Dado que en el resto de lenguas en el mundo hay muchos más caracteres, se definió una nueva codificación de caracteres denominada como ***UNICODE*** que representa alrededor de 110.000 caracteres.


* Por tanto para poder trabajar con Strings (codificados de diferente manera) se debería hacer lo siguiente:

    1. ¿Cual es la codificación de mi fichero original?
    2. **Decode**: Paso el string de mi fichero a Unicode (cambio de codificación)
    3. Realizo las operaciones que sean necesarias sobre los strings codificados en **Unicode**
    4. **Encode**: Escribo de **Unicode** a otra **codificación** el string con el que he trabajado


<img src="./imgs/01_02_Codificacion.png" style="width: 500px;"/>


<hr>


## Operaciones con Strings


* Muchas veces tenemos que realizar operaciones de transforación sobre palabras o textos. A continuación se muestran algunas de las funciones más útiles para trabajar con strings:

|Nombre Función|Funcionalidad|
|---|---|
|[s.find(t)](#M1)|index of first instance of string t inside s (-1 if not found)|
|[s.rfind(t)](#M2)|index of last instance of string t inside s (-1 if not found)|
|[s.index(t)](#M3)|like s.find(t) except it raises ValueError if not found|
|[s.rindex(t)](#M4)|like s.rfind(t) except it raises ValueError if not found|
|[s.join(text)](#M5)|combine the words of the text into a string using s as the glue|
|[s.split(t)](#M6)|split s into a list wherever a t is found (whitespace by default)|
|[s.splitlines()](#M7)|split s into a list of strings, one per line|
|[s.lower()](#M8)|a lowercased version of the string s|
|[s.upper()](#M9)|an uppercased version of the string s|
|[s.title()](#M10)|a titlecased version of the string s|
|[s.strip()](#M11)|a copy of s without leading or trailing whitespace|
|[s.replace(t, u)](#M12)|replace instances of t with u inside s|

<hr>


### <a name="M1">s.find(t)</a>


* Encuentra la posición (indice) del string que se pasa como parámetro empezando a contar desde la izquierda.


* Si no encuentra el string, devuelve valor -1.

In [5]:
s = 'Ricardo Moya'
s.find('Moya')

8

In [6]:
s.find('a')

3

In [7]:
s.find('e')

-1

<hr>


### <a name="M2">s.rfind(t)</a>


* Hace lo mismo que "s.find(t)" pero empezando a contar desde la derecha.

In [8]:
s.rfind('a')

11

In [9]:
s.rfind('Moya')

8

<hr>


### <a name="M3">s.index(t)</a>


* Hace lo mismo que "s.find(t)", con la única diferencia que devuelve un error (en vez de un -1) si no encuentra el string que se pasa como parámetro.

In [10]:
s.index('Moya')

8

In [11]:
s.index('a')

3

In [12]:
s.index('e') # Devuelve un error

ValueError: substring not found

<hr>


### <a name="M4">s.rindex(t)


* Hace lo mismo que "s.index(t)" pero empezando a contar desde la derecha.

In [13]:
s.rindex('a')

11

In [14]:
s.rfind('Moya')

8

<hr>


### <a name="M5">separador.join(text)</a>


* Une cada letra del string que se le pasa como parámetro con el separador.


In [15]:
'-'.join(s)

'R-i-c-a-r-d-o- -M-o-y-a'

* Esta es una función muy utilizada para formar una cadena de texto con separador (por ejemplo un espacio en blanco) a partir de una lista o tupla:

In [16]:
lista = ["Un", "radar", "multa", "a", "Mariano", "Rajoy", "por", "caminar", "demasiado", "rapido"]
' '.join(lista)

'Un radar multa a Mariano Rajoy por caminar demasiado rapido'

<hr>


### <a name="M6">s.split(t)</a>


* Divide el String "***s***" en una lista siempre que encuentre un separador "***t***".


* Por defecto el separador es el espacio en blanco.

In [17]:
texto = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
texto.split(' ')

['Un',
 'radar',
 'multa',
 'a',
 'Mariano',
 'Rajoy',
 'por',
 'caminar',
 'demasiado',
 'rapido']

<hr>


### <a name="M7">s.splitlines()</a>


* Divide un String "***s***" en una lista siempre que encuentre un salto de linea (\n).

In [18]:
texto = """ linea 1\nlinea 2
linea 3
"""

texto.splitlines()

[' linea 1', 'linea 2', 'linea 3']

<hr>


### <a name="M8">s.lower()</a>


* Transforma un String "***s***" a minúsculas.

In [19]:
s = "MiNuSCuLaS"
s.lower()

'minusculas'

<hr>


### <a name="M9">s.upper()</a>


* Transforma un String "***s***" a mayúsculas.

In [20]:
s = "mAyUscUlAs"
s.upper()

'MAYUSCULAS'

<hr>


### <a name="M10">s.title()</a>


* Transforma el String "***s***" en formato título; es decir, pone la primera letra de cada palabra de String en mayúsculas y el resto en minúsculas.

In [21]:
s = "rIcArdO mOyA"
s.title()

'Ricardo Moya'

<hr>


### <a name="M11">s.strip()</a>


* Elimina los espacios en blanco y caracteres espaciales que hay tanto a la decrecha como a la izquierda del String "***s***".


* Existen también las variantes de:
    - s.rstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la derecha del string.
    - s.lstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la izquierda del string.

In [22]:
s = "   \tRicardo Moya  \t  "
s.strip()

'Ricardo Moya'

In [23]:
s.rstrip()

'   \tRicardo Moya'

In [24]:
s.lstrip()

'Ricardo Moya  \t  '

<hr>


### <a name="M12">s.replace(t, u)</a>


* Dado un String "***s***" sustituye cada aparición "***t***" por "***u***", pasandose "***t***" y "***u***" como parámetro.

In [25]:
s = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
s.replace("Mariano Rajoy", "un tio")

'Un radar multa a un tio por caminar demasiado rapido'

<hr>

*Este Notebook ha sido desarrollado por **Ricardo Moya García** y registrado en Safe Creative como ***Atribución-NoComercial-CompartirIgual***.*

<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">