# numeros-fantasma-FMS
#### En este proyecto exploraré el análisis de datos utilizando textos de la batalla entre Lobo Estepario y Skiper para la FMS. Estos datos vienen de [@jmtoralc](https://twitter.com/jmtoralc) - su repositorio se encuentra en <https://github.com/jmtoral/red_bull_mx>.

<details>
    <summary><strong>Meta</strong></summary>
    La meta de este notebook es la exploración y la preparación de los datos de la batalla final de RedBull Batalla de los Gallos en México de Julio 2019 entre Lobo Estepario y Skiper.
    <ul>
        <li> Metas mensurables </li>
        <li> 1: Identificar si la transliteración del texto agrega valor a los datos.</li>
        <li> 2: Crear un <i>dataset trabajable</i> de los datos en bruto.</li>
    </ul>
</details>

<details>
    <summary><strong>Contexto</strong></summary>
    Juan Manuel Toral aka [@jmtoralc](https://twitter.com/jmtoralc) creó un dataset con el texto de la ronda final de la batalla final de la FMS en México 2019 - Lobo Estepario vs Skiper.<br>
    <li> Queremos explorar <pre>epitran</pre> como herramienta de transliteración. </li>
    <li> Los datos se encuentran en https://github.com/jmtoral/red_bull_mx </li>
</details>

## Preparación
1. importar bibliotecas necesarias.
2. organizar los `Path`s a donde se encuentran (o encontrarán) los datos.
3. cargar los datos.
4. preparar `epitran` para transliterar _español_.

In [1]:
import pandas as pd
import epitran
from pathlib import Path

from herramientas import arbol
import arrow
hoy = arrow.now().format("DD-MMM-YY", locale = "es")

hoy

'30-sep-19'

In [2]:
DATOS_BRUTOS = Path("../datos/brutos/")
DATOS_INTERINOS = Path("../datos/interinos/")
DATOS_PROCESADOS = Path("../datos/procesados/")
DATOS_EXTERNOS = Path("../datos/externos/")

In [3]:
datos = pd.read_csv("https://raw.githubusercontent.com/jmtoral/red_bull_mx/master/final_le_sk_rbmex19.csv", encoding = 'latin-1')

In [4]:
epi = epitran.Epitran("spa-Latn")

# Transliteración

In [5]:
epi.transliterate("¡Que onda perros!")

'¡ke onda peros!'

# Base de datos
por [@jmtoralc](https://twitter.com/jmtoralc)

In [7]:
datos.head()

Unnamed: 0,etapa,parte,mc,estrofa,verso,contenido
0,Final,minuto temática,lobo estepario,1,1,hoy improviso en esta ocasión te juro que aquí...
1,Final,minuto temática,lobo estepario,1,2,que tengo versos tan buenos te juro que aquí t...
2,Final,minuto temática,lobo estepario,1,3,no puedes decir que tú eres las redes sociales
3,Final,minuto temática,lobo estepario,1,4,porque el día de hoy te caes al igual que toda...
4,Final,minuto temática,lobo estepario,2,1,quieres hacerlo como yo cabrón


In [8]:
datos.shape

(226, 6)

In [9]:
def transliteracion_de_barras(serie):
    """
    Recibe una Series de pandas y translitera su contenido.
    """
    texto_transliterado = epi.transliterate(serie)
    return texto_transliterado

In [10]:
datos['transliteracion'] = datos['contenido'].apply(transliteracion_de_barras)

In [11]:
datos.head()

Unnamed: 0,etapa,parte,mc,estrofa,verso,contenido,transliteracion
0,Final,minuto temática,lobo estepario,1,1,hoy improviso en esta ocasión te juro que aquí...,oi impɾobiso en esta okasjon te xuɾo ke aki ia...
1,Final,minuto temática,lobo estepario,1,2,que tengo versos tan buenos te juro que aquí t...,ke tenɡo beɾsos tan bwenos te xuɾo ke aki te m...
2,Final,minuto temática,lobo estepario,1,3,no puedes decir que tú eres las redes sociales,no pwedes desiɾ ke tu eɾes las ɾedes sosiales
3,Final,minuto temática,lobo estepario,1,4,porque el día de hoy te caes al igual que toda...,poɾke el dja de oi te kaes al iɡwal ke todas t...
4,Final,minuto temática,lobo estepario,2,1,quieres hacerlo como yo cabrón,kjeɾes aseɾlo komo io kabɾon


In [12]:
datos.iloc[15]

etapa                                                     Final
parte                                           minuto temática
mc                                               lobo estepario
estrofa                                                       4
verso                                                         4
contenido           y tú qué mierda serías sin el puto internet
transliteracion      i tu ke mjeɾda seɾjas sin el puto inteɾnet
Name: 15, dtype: object

## Pregunta 1: ¿Riman las palabras finales de cada barra?

In [15]:
textos = ['contenido', 'transliteracion']

In [16]:
datos[textos]

Unnamed: 0,contenido,transliteracion
0,hoy improviso en esta ocasión te juro que aquí...,oi impɾobiso en esta okasjon te xuɾo ke aki ia...
1,que tengo versos tan buenos te juro que aquí t...,ke tenɡo beɾsos tan bwenos te xuɾo ke aki te m...
2,no puedes decir que tú eres las redes sociales,no pwedes desiɾ ke tu eɾes las ɾedes sosiales
3,porque el día de hoy te caes al igual que toda...,poɾke el dja de oi te kaes al iɡwal ke todas t...
4,quieres hacerlo como yo cabrón,kjeɾes aseɾlo komo io kabɾon
...,...,...
221,que ese culo te lo voy a dejar como llena,ke ese kulo te lo boi a dexaɾ komo ʝena
222,a ver a ver seamos sinceros carnal,a beɾ a beɾ seamos sinseɾos kaɾnal
223,yo me enfrenté a el Rapder con puto punchline,io me enfɾente a el ɾapdeɾ kon puto punt͡ʃline
224,me enfrenté al RC también a Lancer Lirical,me enfɾente al ɾk tambjen a lanseɾ liɾikal


In [18]:
def regresa_ultima_palabra(serie):
    """
    Toma una serie de pandas que contiene texto y regresa la ultima palabra.
    """
    
    ultima_palabra = serie.str.split().str[-1]
    return ultima_palabra

In [21]:
datos[textos].apply(regresa_ultima_palabra).head(35)

Unnamed: 0,contenido,transliteracion
0,saben,saben
1,frases,fɾases
2,sociales,sosiales
3,frases,fɾases
4,cabrón,kabɾon
5,improvisación,impɾobisasion
6,dicción,diksion
7,comunicación,komunikasion
8,versos,beɾsos
9,grueso,ɡɾweso
