<a href="https://colab.research.google.com/github/virf96/Basico/blob/main/Ingenier%C3%ADa_de_Variables_DummyNominalTexto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1 style="color:blue">Codificación de variables categóricas </h1>

- Hasta ahora nos aseguramos de que se utilizara la categoría más común para completar los valores faltantes. Ahora que esto es hecho, tenemos que dar un paso más.
    
- Cualquier algoritmo de aprendizaje automático, ya sea una regresión lineal o una utilización de KNN, requiere características de entrada numérica de las que aprender. 
- Hay varios métodos en los que podemos confiar para transformar nuestros datos categóricos en datos numéricos.

<h1 style="color:grey">Codificación a nivel nominal </h1>

El método principal que tenemos es transformar nuestros datos categóricos en 

---

variables "dummy". 

Las variables "dummy" toman el valor cero o uno para indicar la ausencia o presencia de un categoría. 
Son suplentes numéricos, para datos cualitativos.

Ejemplo: Género : "hombre","mujer", en este caso usaríamos un código ficticio cuando la persona es  mujer = 1,
y mujer = 0 cuando la persona es hombre.

Al trabajar con variables "dummy", es importante evitar información duplicada.


In [1]:
import pandas as pd
pd.set_option("display.max_columns",200)

In [None]:
#Mediante un diccionario indicamos las columnas y los registros
df= pd.DataFrame({'v_ciudad':['tokyo', "london", 'london', 'seattle', 'san francisco', 'tokyo'],
'v_boolean':['yes', 'no', "yes", 'no', 'no', 'yes'],
'v_columna':['intermedio', 'gusta',
'intermedio', 'gusta', 'intermedio', 'no_gusta'],
'c_columna':[1, 11, -.5, 10, 11,20]})

In [None]:
df

Unnamed: 0,v_ciudad,v_boolean,v_columna,c_columna
0,tokyo,yes,intermedio,1.0
1,london,no,gusta,11.0
2,london,yes,intermedio,-0.5
3,seattle,no,gusta,10.0
4,san francisco,no,intermedio,11.0
5,tokyo,yes,no_gusta,20.0


In [None]:
#Obtenemos una columna por cada categoría en la variable categorica a la que le apliquemos el método
pd.get_dummies(df,columns = ['v_ciudad', 'v_boolean'], prefix_sep='_') 

Unnamed: 0,v_columna,c_columna,v_ciudad_london,v_ciudad_san francisco,v_ciudad_seattle,v_ciudad_tokyo,v_boolean_no,v_boolean_yes
0,intermedio,1.0,0,0,0,1,0,1
1,gusta,11.0,1,0,0,0,1,0
2,intermedio,-0.5,1,0,0,0,0,1
3,gusta,10.0,0,0,1,0,1,0
4,intermedio,11.0,0,1,0,0,1,0
5,no_gusta,20.0,0,0,0,1,0,1


In [None]:
df=pd.get_dummies(df,columns = ['v_ciudad', 'v_boolean'], prefix_sep='_')

<h1 style="color:grey">Codificación a nivel ordinal</h1>

- En estas variables todavía hay información útil, sin embargo, necesitamos transformar las cadenas en datos numéricos. En el nivel ordinal, dado que hay un significado en los datos que tienen un orden específico, no tiene sentido usar dummys. Para mantener el orden, usaremos un codificador de etiquetas.

- Por codificador de etiquetas, queremos decir que cada etiqueta en nuestros datos ordinales tendrá un valor numérico asociado. En nuestro ejemplo, esto significa que los valores de la columna ordinal (no me gusta, intermedio, me gusta) se representarán como 0, 1 y 2.

In [None]:
#Con .map aplicamos la codificación a toda la variable
df["v_columna"]=df["v_columna"].map({"no_gusta":0,"intermedio":1,"gusta":2})

In [None]:
df

Unnamed: 0,v_columna,c_columna,v_ciudad_london,v_ciudad_san francisco,v_ciudad_seattle,v_ciudad_tokyo,v_boolean_no,v_boolean_yes
0,1,1.0,0,0,0,1,0,1
1,2,11.0,1,0,0,0,1,0
2,1,-0.5,1,0,0,0,0,1
3,2,10.0,0,0,1,0,1,0
4,1,11.0,0,1,0,0,1,0
5,0,20.0,0,0,0,1,0,1


<h1 style="color:grey">Construcción de características específicas de texto</h1>


- Hasta este punto, hemos estado trabajando con datos categóricos y numéricos. Si bien nuestros datos categóricos se han presentado en forma de una cadena, el texto ha sido parte de una sola categoría. Ahora profundizaremos en datos de texto de formato más largo. Esta forma de datos de texto es mucho más compleja que el texto de una sola categoría, porque ahora tenemos una serie de categorías o tokens. 

- Antes de seguir trabajando con datos de texto, asegurémonos de comprender bien lo que queremos decir cuando nos referimos a datos de texto. Considere un servicio como Yelp, donde los usuarios escriben reseñas de restaurantes y negocios para compartir sus pensamientos sobre su experiencia. Estas revisiones, todas escritas en formato de texto, contienen una gran cantidad de información que sería útil para fines de aprendizaje automático, por ejemplo, para predecir el mejor restaurante para visitar.

- Este tipo de trabajo puede denominarse procesamiento del lenguaje natural (NLP), es importante tener en cuenta que todos los modelos de aprendizaje automático requieren entradas numéricas, por lo que debemos ser creativos y pensar estratégicamente cuando trabajamos con texto y convertimos esos datos en características numéricas. Hay varias opciones para hacer.

<h2 style="color:grey">Bag of words</h2> 


- El scikit-learn tiene un módulo útil llamado feature_extraction que nos permite, como su nombre indica, extraer características para datos como texto en un formato compatible con algoritmos de aprendizaje automático.Este módulo tiene métodos que podemos utilizar cuando trabajamos con texto.

- El método más común para transformar un corpus en una representación numérica, un proceso conocido como vectorización, es mediante un método llamado bolsa de palabras. La idea básica detrás del enfoque de la bolsa de palabras es que los documentos se describen por apariciones de palabras mientras ignorando por completo la posición de las palabras en el documento. En su forma más simple, el texto se representa como una "bolsa", sin tener en cuenta la gramática o el orden de las palabras, y se mantiene como un conjunto, dando importancia a la multiplicidad.


- Una bolsa de representación de palabras se logra en el siguiendo tres pasos:
<h3 style="color:grey">Tokenización</h3>  
<h3 style="color:grey">Contando</h3> 
<h3 style="color:grey">Normalizando</h3> 

- Comencemos con la tokenización. Este proceso utiliza espacios en blanco y puntuación para separar palabras entre sí, convirtiéndolas en tokens. A cada token posible se le asigna un ID de número entero. 
- Luego viene el conteo. Este paso simplemente cuenta las apariciones de tokens dentro de un documento. Por último, viene la normalización, lo que significa que los tokens se ponderan con una importancia decreciente cuando aparecen en la mayoría de los documentos.


<h3 style="color:grey">a) CountVectorizer</h3> 

- Es el método más utilizado para convertir datos de texto en sus representaciones vectoriales. Es similar a las variables "dummy", en el sentido de que CountVectorizer convierte columnas de texto en matrices donde las columnas son tokens y los valores de celda son recuentos de apariciones de cada token en cada documento. La matriz resultante se conoce como matriz documento-término porque cada fila representará un documento.

- stop_words
- min_df
- ngram_range


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
tweet=pd.read_csv("/content/drive/My Drive/datasets/covid19_tweets.csv")

In [4]:
tweet[:50]

Unnamed: 0,user_name,user_location,user_description,user_created,user_followers,user_friends,user_favourites,user_verified,date,text,hashtags,source,is_retweet
0,ᏉᎥ☻լꂅϮ,astroworld,wednesday addams as a disney princess keepin i...,2017-05-26 05:46:42,624,950,18775,False,2020-07-25 12:27:21,If I smelled the scent of hand sanitizers toda...,,Twitter for iPhone,False
1,Tom Basile 🇺🇸,"New York, NY","Husband, Father, Columnist & Commentator. Auth...",2009-04-16 20:06:23,2253,1677,24,True,2020-07-25 12:27:17,Hey @Yankees @YankeesPR and @MLB - wouldn't it...,,Twitter for Android,False
2,Time4fisticuffs,"Pewee Valley, KY",#Christian #Catholic #Conservative #Reagan #Re...,2009-02-28 18:57:41,9275,9525,7254,False,2020-07-25 12:27:14,@diane3443 @wdunlap @realDonaldTrump Trump nev...,['COVID19'],Twitter for Android,False
3,ethel mertz,Stuck in the Middle,#Browns #Indians #ClevelandProud #[]_[] #Cavs ...,2019-03-07 01:45:06,197,987,1488,False,2020-07-25 12:27:10,@brookbanktv The one gift #COVID19 has give me...,['COVID19'],Twitter for iPhone,False
4,DIPR-J&K,Jammu and Kashmir,🖊️Official Twitter handle of Department of Inf...,2017-02-12 06:45:15,101009,168,101,False,2020-07-25 12:27:08,25 July : Media Bulletin on Novel #CoronaVirus...,"['CoronaVirusUpdates', 'COVID19']",Twitter for Android,False
5,🎹 Franz Schubert,Новоро́ссия,🎼 #Новоро́ссия #Novorossiya #оставайсядома #S...,2018-03-19 16:29:52,1180,1071,1287,False,2020-07-25 12:27:06,#coronavirus #covid19 deaths continue to rise....,"['coronavirus', 'covid19']",Twitter Web App,False
6,hr bartender,"Gainesville, FL",Workplace tips and advice served up in a frien...,2008-08-12 18:19:49,79956,54810,3801,False,2020-07-25 12:27:03,How #COVID19 Will Change Work in General (and ...,"['COVID19', 'Recruiting']",Buffer,False
7,Derbyshire LPC,,,2012-02-03 18:08:10,608,355,95,False,2020-07-25 12:27:00,You now have to wear face coverings when out s...,,TweetDeck,False
8,Prathamesh Bendre,,"A poet, reiki practitioner and a student of law.",2015-04-25 08:15:41,25,29,18,False,2020-07-25 12:26:59,Praying for good health and recovery of @Chouh...,"['covid19', 'covidPositive']",Twitter for Android,False
9,Member of Christ 🇨🇳🇺🇸🇮🇳🇮🇩🇧🇷🇳🇬🇧🇩🇷🇺,👇🏻location at link below👇🏻,"Just as the body is one & has many members, & ...",2014-08-17 04:53:22,55201,34239,29802,False,2020-07-25 12:26:54,POPE AS GOD - Prophet Sadhu Sundar Selvaraj. W...,"['HurricaneHanna', 'COVID19']",Twitter for iPhone,False


In [5]:
#Eliminamos la variable "user_description"
tweet=tweet.dropna(subset=["user_description"])

In [6]:
#Definimos un data frame
df= pd.DataFrame({'t_columna':['wednesday addams as a disney princess', "When your cat has more baking soda than Ninja", 'New York City', 'seattle', 'I love music, any kind of music, I love music', 'Queens lifer representing Eastern Queens',"eeee"],
'c_columna':[1, 11, -.5, 10, 11,20,11]})

In [7]:
df.head()

Unnamed: 0,t_columna,c_columna
0,wednesday addams as a disney princess,1.0
1,When your cat has more baking soda than Ninja,11.0
2,New York City,-0.5
3,seattle,10.0
4,"I love music, any kind of music, I love music",11.0


In [8]:
#Guardamos la variable "t_columna" en X
X = df['t_columna']

In [10]:
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
#Guardamos la función CountVectorizer, indicando que el idioma es Inglés
vect = CountVectorizer(stop_words="english")
#En array guardamos vect.fit_transform para transformar los datos a la matriz de palabras
array = vect.fit_transform(X)

In [12]:
pd.DataFrame(array.toarray(),columns=vect.get_feature_names())

Unnamed: 0,addams,baking,cat,city,disney,eastern,eeee,kind,lifer,love,music,new,ninja,princess,queens,representing,seattle,soda,wednesday,york
0,1,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0
1,0,1,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0
2,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,1
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0
4,0,0,0,0,0,0,0,1,0,2,3,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,1,0,0,1,0,0,0,0,0,2,1,0,0,0,0
6,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0


In [13]:
#Volvemos a correr la función dado que el idioma Inglés ya está por default
vect = CountVectorizer()
array = vect.fit_transform(X)

In [14]:
#Imprimimos las dimensiones de la matriz
pd.DataFrame(array.toarray(),columns=vect.get_feature_names()).shape

(7, 28)

In [15]:
#Ahora guardamos la variable "user_description" en  X
X=tweet["user_description"]

In [16]:
#Transformamos el documento "X" en una matriz con su respectivo conteo de palabras
vect = CountVectorizer()
array = vect.fit_transform(X)

In [17]:
#Imprimos las dimensiones de la matriz obtenida
array.shape

(168822, 132738)

In [18]:
#Volvemos a transformar el conjunto de documento pero ahora:
# solo incluiremos las palabras que aparecen en almenos  5% dentro de los documentos del corpus
vect = CountVectorizer(min_df=.05) 
array = vect.fit_transform(X)

In [19]:
#Dimensiones de la matriz
array.shape

(168822, 22)

In [20]:
#Volvemos a transformar el conjunto de documento pero ahora:
# solo incluiremos las palabras que aparecen como máximo en el 80% de los documentos
vect = CountVectorizer(max_df=.5) 
array = vect.fit_transform(X)

In [21]:
#Dimensiones de la matriz
array.shape

(168822, 132738)

- "ngram_range",este parámetro toma una tupla donde el límite inferior y superior del rango de n-valores indica el número de n-gramos diferentes que se extraerán. Los N-gramas representan frases, por lo que un valor de uno representaría una ficha, sin embargo, un valor de dos representaría dos fichas juntas. Como puede imaginar, esto ampliará significativamente nuestro conjunto.

In [22]:
#Guardamos la variable 't_columna' para trabajar con ella
X = df['t_columna']

In [23]:
vect = CountVectorizer(ngram_range=(1, 5))# también incluye frases de 1-5 palabras
array = vect.fit_transform(X)

In [24]:
#Imprimimos las dimensiones de la matriz
array.shape

(7, 98)

In [25]:
#Visualizamos lo obtenido
pd.DataFrame(array.toarray(),columns=vect.get_feature_names())

Unnamed: 0,addams,addams as,addams as disney,addams as disney princess,any,any kind,any kind of,any kind of music,any kind of music love,as,as disney,as disney princess,baking,baking soda,baking soda than,baking soda than ninja,cat,cat has,cat has more,cat has more baking,cat has more baking soda,city,disney,disney princess,eastern,eastern queens,eeee,has,has more,has more baking,has more baking soda,has more baking soda than,kind,kind of,kind of music,kind of music love,kind of music love music,lifer,lifer representing,lifer representing eastern,lifer representing eastern queens,love,love music,love music any,love music any kind,love music any kind of,more,more baking,more baking soda,more baking soda than,more baking soda than ninja,music,music any,music any kind,music any kind of,music any kind of music,music love,music love music,new,new york,new york city,ninja,of,of music,of music love,of music love music,princess,queens,queens lifer,queens lifer representing,queens lifer representing eastern,queens lifer representing eastern queens,representing,representing eastern,representing eastern queens,seattle,soda,soda than,soda than ninja,than,than ninja,wednesday,wednesday addams,wednesday addams as,wednesday addams as disney,wednesday addams as disney princess,when,when your,when your cat,when your cat has,when your cat has more,york,york city,your,your cat,your cat has,your cat has more,your cat has more baking
0,1,1,1,1,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,1,1,1,1,1,0,0,1,1,1,1,1
2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,0,2,2,1,1,1,0,0,0,0,0,3,1,1,1,1,1,1,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


- Conceptualmente, las palabras se construyen a partir de palabras raíz, o raíces, y podemos construir un analizador personalizado que tenga en cuenta esto. La derivación es un método común de procesamiento del lenguaje natural que nos permite derivar nuestra vocabulario, o hacerlo más pequeño convirtiendo palabras a sus raíces. Existe un kit de herramientas de lenguaje natural, conocido como NLTK, que tiene varios paquetes que nos permiten realizar operaciones sobre datos de texto.

pip install nltk

In [26]:
from nltk.stem.snowball import SnowballStemmer

In [27]:
#Guardamos la función 'SnowballStemmer' para llevar a su forma raíz las palabras 
stemmer = SnowballStemmer('english')

In [28]:
stemmer.stem('interesante')

'interesant'

In [29]:
stemmer.stem('derivación')

'derivación'

In [30]:
#Creamos un pipeline para derivar las palabras y tokezarlas
def word_tokenize(text):
    words = text.split(' ') 
    return [stemmer.stem(word) for word in words]

In [31]:
word_tokenize("Conceptualmente, las palabras se construyen a partir de palabras raíz, o raíces, y podemos construir un analizador personalizado que tenga en cuenta esto.")

['conceptualmente,',
 'las',
 'palabra',
 'se',
 'construyen',
 'a',
 'partir',
 'de',
 'palabra',
 'raíz,',
 'o',
 'raíces,',
 'y',
 'podemo',
 'construir',
 'un',
 'analizador',
 'personalizado',
 'que',
 'tenga',
 'en',
 'cuenta',
 'esto.']

<h3 style="color:grey">b) Tf-idf vectorizer</h3> 

- Un Tf-idfVectorizer se puede dividir en dos componentes. 
- Primero, la parte tf, que representa la frecuencia del término, y la parte idf, que significa frecuencia inversa del documento. Es un método de ponderación de términos que tiene aplicaciones en la recuperación y agrupación de información.
- Se da un peso para evaluar qué tan importante es una palabra para un documento en un corpus. Veamos cada parte un poco más:
- tf: frecuencia del término: mide la frecuencia con la que aparece un término en un documento. Dado que los documentos pueden tener una longitud diferente, es posible que un término aparezca muchas más veces en documentos más largos que en documentos más cortos. Por lo tanto, la frecuencia de los términos a menudo se divide por la longitud del documento, o el número total de términos en el documento, como una forma de normalización.
- idf: frecuencia inversa del documento: mide la importancia de un término. Al calcular la frecuencia de los términos, todos los términos se consideran igualmente importantes. Sin embargo, ciertos términos, como "la", "de" y "y", pueden aparecer muchas veces pero tienen poca importancia. Por lo tanto, debemos ponderar menos los términos frecuentes, mientras que ampliamos los raros.
- Para volver a enfatizar, un TfidfVectorizer es lo mismo que CountVectorizer, en el sentido de que construye características a partir de tokens, pero va un paso más allá y normaliza los conteos a la frecuencia de ocurrencias en un corpus.

https://www.ceadesc.org/article/how-to-process-textual-data-using-tf-idf-in-python-26fec0/

In [32]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [33]:
#Trabajaremos con la función "t_columna"
X=df["t_columna"]

In [34]:
#Visualicemos la matriz de conteo de palabras
vect = CountVectorizer()# también incluye frases hasta 5palabras
array = vect.fit_transform(X)

In [35]:
pd.DataFrame(array.toarray(),columns=vect.get_feature_names())

Unnamed: 0,addams,any,as,baking,cat,city,disney,eastern,eeee,has,kind,lifer,love,more,music,new,ninja,of,princess,queens,representing,seattle,soda,than,wednesday,when,york,your
0,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0,0
1,0,0,0,1,1,0,0,0,0,1,0,0,0,1,0,0,1,0,0,0,0,0,1,1,0,1,0,1
2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,1,0,2,0,3,0,0,1,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,2,1,0,0,0,0,0,0,0
6,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


In [36]:
pd.DataFrame(array.toarray(),columns=vect.get_feature_names()).iloc[0].mean()

0.17857142857142858

In [37]:
#Ahora veamos la matriz de importancia de palabras que genera 'TfidfVectorizer()'
vect = TfidfVectorizer()
array_1= vect.fit_transform(X)

In [38]:
pd.DataFrame(array_1.toarray(),columns=vect.get_feature_names())

Unnamed: 0,addams,any,as,baking,cat,city,disney,eastern,eeee,has,kind,lifer,love,more,music,new,ninja,of,princess,queens,representing,seattle,soda,than,wednesday,when,york,your
0,0.447214,0.0,0.447214,0.0,0.0,0.0,0.447214,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.447214,0.0,0.0,0.0,0.0,0.0,0.447214,0.0,0.0,0.0
1,0.0,0.0,0.0,0.333333,0.333333,0.0,0.0,0.0,0.0,0.333333,0.0,0.0,0.0,0.333333,0.0,0.0,0.333333,0.0,0.0,0.0,0.0,0.0,0.333333,0.333333,0.0,0.333333,0.0,0.333333
2,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.57735,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.25,0.0,0.5,0.0,0.75,0.0,0.0,0.25,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.377964,0.0,0.0,0.0,0.377964,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.755929,0.377964,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [39]:
import pandas as pd

In [40]:
#Definimos un nuevo data frame
df= pd.DataFrame({'t_columna':["When your  has more  baking soda than Ninja",  'I cat love music, any kind of music, I love music', 'Queens lifer representing Eastern Queens'],
'c_columna':[1, 11, -.5]})

In [41]:
df

Unnamed: 0,t_columna,c_columna
0,When your has more baking soda than Ninja,1.0
1,"I cat love music, any kind of music, I love music",11.0
2,Queens lifer representing Eastern Queens,-0.5


In [42]:
X=df["t_columna"]

In [43]:
vect = TfidfVectorizer(smooth_idf=False)
array_1= vect.fit_transform(X)

In [44]:
pd.DataFrame(array_1.toarray(),columns=vect.get_feature_names())

Unnamed: 0,any,baking,cat,eastern,has,kind,lifer,love,more,music,ninja,of,queens,representing,soda,than,when,your
0,0.0,0.353553,0.0,0.0,0.353553,0.0,0.0,0.0,0.353553,0.0,0.353553,0.0,0.0,0.0,0.353553,0.353553,0.353553,0.353553
1,0.242536,0.0,0.242536,0.0,0.0,0.242536,0.0,0.485071,0.0,0.727607,0.0,0.242536,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.377964,0.0,0.0,0.377964,0.0,0.0,0.0,0.0,0.0,0.755929,0.377964,0.0,0.0,0.0,0.0
