# Cargar datos de Google Docs

https://docs.google.com/spreadsheets/d/15CGVDsx96eJOivSEdcatWaCOmBO465soHz_gQ_q7LhA/edit?usp=sharing

In [16]:
url = "https://docs.google.com/spreadsheets/d/15CGVDsx96eJOivSEdcatWaCOmBO465soHz_gQ_q7LhA/edit?usp=sharing"

Ahora debemos modificar la url para poder abrir el archivo en Python. Esto lo hacemos eliminando todo lo que este después de la llave y agregando `gviz/tq?tqx=out:csv`. La llave de un Google Sheets es lo que esta después de `/d/`

In [36]:
url.rsplit("/",1)[0]

'https://docs.google.com/spreadsheets/d/15CGVDsx96eJOivSEdcatWaCOmBO465soHz_gQ_q7LhA'

In [40]:
new_url = url.rsplit("/",1)[0] + "/gviz/tq?tqx=out:csv"
new_url

'https://docs.google.com/spreadsheets/d/15CGVDsx96eJOivSEdcatWaCOmBO465soHz_gQ_q7LhA/gviz/tq?tqx=out:csv'

In [41]:
import pandas as pd

data = pd.read_csv(new_url)

In [42]:
data.head()

Unnamed: 0,#,Nombre,¿Por qué estás estudiando análitica estratégica de datos?,Sistema Operativo,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26
0,1,Viviana Márquez,"Me gustan mucho las matemáticas, la programaci...",macOSx,,,,,,,...,,,,,,,,,,
1,2,Jorge Gomez,Desarrollo profesional y proyecto personal.,Windows x64,,,,,,,...,,,,,,,,,,
2,3,Ilvar Dario Sanabria,Muchas de las decisiones se basan en datos y c...,Windows x64,,,,,,,...,,,,,,,,,,
3,4,Camilo Rojas,Trabajo con temas relacionados a gestión de in...,Windows x64,,,,,,,...,,,,,,,,,,
4,5,Xiomy Díaz,En mi experiencia en investigación de mercados...,Windows x64,,,,,,,...,,,,,,,,,,


In [46]:
# Eliminamos columnas vacias

data.dropna(axis=1, inplace=True)

data.head()

Unnamed: 0,#,Nombre,¿Por qué estás estudiando análitica estratégica de datos?,Sistema Operativo
0,1,Viviana Márquez,"Me gustan mucho las matemáticas, la programaci...",macOSx
1,2,Jorge Gomez,Desarrollo profesional y proyecto personal.,Windows x64
2,3,Ilvar Dario Sanabria,Muchas de las decisiones se basan en datos y c...,Windows x64
3,4,Camilo Rojas,Trabajo con temas relacionados a gestión de in...,Windows x64
4,5,Xiomy Díaz,En mi experiencia en investigación de mercados...,Windows x64


In [50]:
# Cambiamos el nombre de la columna porque es muy largo

data.rename(columns={'¿Por qué estás estudiando análitica estratégica de datos?': 'Respuesta'}, inplace=True)

data.head()

Unnamed: 0,#,Nombre,Respuesta,Sistema Operativo
0,1,Viviana Márquez,"Me gustan mucho las matemáticas, la programaci...",macOSx
1,2,Jorge Gomez,Desarrollo profesional y proyecto personal.,Windows x64
2,3,Ilvar Dario Sanabria,Muchas de las decisiones se basan en datos y c...,Windows x64
3,4,Camilo Rojas,Trabajo con temas relacionados a gestión de in...,Windows x64
4,5,Xiomy Díaz,En mi experiencia en investigación de mercados...,Windows x64


# Contar el número de palabras por estudiante

Pista:

In [1]:
"Hola, ¿Cómo estás?".split()

['Hola,', '¿Cómo', 'estás?']

Esto se puede hacer de muchas maneras. Aquí lo voy hacer creando una nueva columna con una función lambda.

In [51]:
data['Contar'] = data['Respuesta'].apply(lambda fila: len(fila.split()))

In [52]:
data.head()

Unnamed: 0,#,Nombre,Respuesta,Sistema Operativo,Contar
0,1,Viviana Márquez,"Me gustan mucho las matemáticas, la programaci...",macOSx,24
1,2,Jorge Gomez,Desarrollo profesional y proyecto personal.,Windows x64,5
2,3,Ilvar Dario Sanabria,Muchas de las decisiones se basan en datos y c...,Windows x64,22
3,4,Camilo Rojas,Trabajo con temas relacionados a gestión de in...,Windows x64,27
4,5,Xiomy Díaz,En mi experiencia en investigación de mercados...,Windows x64,64


Para organizar por mayor número de palabras, usamos el siguiente comando:

In [54]:
data.sort_values(['Contar'], ascending=False).head()

Unnamed: 0,#,Nombre,Respuesta,Sistema Operativo,Contar
4,5,Xiomy Díaz,En mi experiencia en investigación de mercados...,Windows x64,64
10,11,Arturo Hernández Carvajal,Trabajo con altos volúmenes de información est...,Windows x64,63
19,20,Duberney Agudelo Delgadillo,Mi interés en la especialización es tener un c...,Windows x64,56
7,8,Norma Yuliana Cala Martinez,En mi carrera profesional es muy útil y porque...,Windows x64,34
28,29,Daileny Dorado Delgado,Me parece que la tecnología es lo que rige el ...,Windows x64,29


# Palabra más utilizada

Pista

In [3]:
" ".join(["hola mundo", "chao mundo"])

'hola mundo chao mundo'

Como todo en Python, para resolver este problema hay muchas maneras. Aquí les voy a mostrar una manera:

In [60]:
data['Respuesta'].values # Lista con cada una de las respuestas

cadena = " ".join(data['Respuesta'].values)

cadena

'Me gustan mucho las matemáticas, la programación y la comunicación. Pienso que la ciencia de datos es una buena mezcla entre esas tres áreas. Desarrollo profesional y proyecto personal. Muchas de las decisiones se basan en datos y creo que nos aportan mucho tanto en lo personal como en lo profesional Trabajo con temas relacionados a gestión de información y estoy interesado en aprender a utilizar herramientas que faciliten la toma de decisiones en mi lugar de trabajo. En mi experiencia en investigación de mercados y mercadeo empecé a descubrir el mundo de la analítica y me apasiona saber que podemos usar los avances tecnológicos y la gran cantidad de datos que hay, para entender mejor a los clientes y desarrollar proyectos que ayuden a facilitar los procesos en las organizaciones, además es útil en mi trabajo como analista de investigación digital Me gustan mucho los datos y quiero aprenden como aprovecharlos al maximo Me encuentro interesado en aprender diferentes métodos, metodologí

In [62]:
cadena = cadena.split() # Separamos por palabra 

cadena

['Me',
 'gustan',
 'mucho',
 'las',
 'matemáticas,',
 'la',
 'programación',
 'y',
 'la',
 'comunicación.',
 'Pienso',
 'que',
 'la',
 'ciencia',
 'de',
 'datos',
 'es',
 'una',
 'buena',
 'mezcla',
 'entre',
 'esas',
 'tres',
 'áreas.',
 'Desarrollo',
 'profesional',
 'y',
 'proyecto',
 'personal.',
 'Muchas',
 'de',
 'las',
 'decisiones',
 'se',
 'basan',
 'en',
 'datos',
 'y',
 'creo',
 'que',
 'nos',
 'aportan',
 'mucho',
 'tanto',
 'en',
 'lo',
 'personal',
 'como',
 'en',
 'lo',
 'profesional',
 'Trabajo',
 'con',
 'temas',
 'relacionados',
 'a',
 'gestión',
 'de',
 'información',
 'y',
 'estoy',
 'interesado',
 'en',
 'aprender',
 'a',
 'utilizar',
 'herramientas',
 'que',
 'faciliten',
 'la',
 'toma',
 'de',
 'decisiones',
 'en',
 'mi',
 'lugar',
 'de',
 'trabajo.',
 'En',
 'mi',
 'experiencia',
 'en',
 'investigación',
 'de',
 'mercados',
 'y',
 'mercadeo',
 'empecé',
 'a',
 'descubrir',
 'el',
 'mundo',
 'de',
 'la',
 'analítica',
 'y',
 'me',
 'apasiona',
 'saber',
 'que',
 

In [63]:
from collections import Counter

Counter(cadena)

Counter({'Me': 7,
         'gustan': 2,
         'mucho': 7,
         'las': 11,
         'matemáticas,': 1,
         'la': 19,
         'programación': 1,
         'y': 37,
         'comunicación.': 1,
         'Pienso': 1,
         'que': 24,
         'ciencia': 1,
         'de': 41,
         'datos': 13,
         'es': 12,
         'una': 5,
         'buena': 1,
         'mezcla': 1,
         'entre': 4,
         'esas': 1,
         'tres': 1,
         'áreas.': 1,
         'Desarrollo': 1,
         'profesional': 7,
         'proyecto': 1,
         'personal.': 1,
         'Muchas': 1,
         'decisiones': 6,
         'se': 2,
         'basan': 1,
         'en': 28,
         'creo': 1,
         'nos': 1,
         'aportan': 1,
         'tanto': 1,
         'lo': 4,
         'personal': 4,
         'como': 4,
         'Trabajo': 2,
         'con': 7,
         'temas': 3,
         'relacionados': 1,
         'a': 17,
         'gestión': 1,
         'información': 5,
         'estoy

Para verlo ordenado

In [64]:
Counter(cadena).most_common()

[('de', 41),
 ('y', 37),
 ('en', 28),
 ('que', 24),
 ('la', 19),
 ('a', 17),
 ('el', 14),
 ('para', 14),
 ('datos', 13),
 ('es', 12),
 ('mi', 12),
 ('las', 11),
 ('los', 11),
 ('Me', 7),
 ('mucho', 7),
 ('profesional', 7),
 ('con', 7),
 ('aprender', 7),
 ('herramientas', 7),
 ('un', 7),
 ('decisiones', 6),
 ('me', 6),
 ('valor', 6),
 ('una', 5),
 ('información', 5),
 ('gusta', 5),
 ('entre', 4),
 ('lo', 4),
 ('personal', 4),
 ('como', 4),
 ('toma', 4),
 ('Quiero', 4),
 ('analitica', 4),
 ('temas', 3),
 ('mundo', 3),
 ('saber', 3),
 ('al', 3),
 ('muy', 3),
 ('día', 3),
 ('conocimientos', 3),
 ('interesante', 3),
 ('Aprender', 3),
 ('vida', 3),
 ('nuevas', 3),
 ('analisis', 3),
 ('Por', 3),
 ('datos,', 3),
 ('gustan', 2),
 ('se', 2),
 ('Trabajo', 2),
 ('interesado', 2),
 ('En', 2),
 ('investigación', 2),
 ('analítica', 2),
 ('gran', 2),
 ('cantidad', 2),
 ('mejor', 2),
 ('procesos', 2),
 ('útil', 2),
 ('trabajo', 2),
 ('porque', 2),
 ('genera', 2),
 ('interes', 2),
 ('mis', 2),
 ('web', 

#### ¿Mayúsculas? ¿Tíldes? ¿Palabras muy frecuentes? ¿Cómo lo visualizamos? 

... En el próximo capítulo de NLP

# Subir a GitHub, enviar link al aula virtual