# Como realizar el analisis de datos en Jupyter 

[PyCon Ar en PyVideo.org](https://pyvideo.org/events/pycon-ar-2011.html)

- Explorar los datos

In [19]:
import pathlib

carpeta_datos = pathlib.Path('./datos')

In [33]:
archivos = [ elemento for elemento in carpeta_datos.glob('*/videos/*.json') ]

In [34]:
len(archivos)

237

In [35]:
{archivo.suffix for archivo in archivos }

{'.json'}

In [31]:
archivos[0].suffix

''

- Importar los datos con pandas

In [36]:
import pandas

In [58]:
def safe_df(archivo):
    try:
        df = pandas.read_json(archivo,typ='series')
    except ValueError as err:
        df = pandas.DataFrame()
        print('Fallo al cargar: ', archivo)
    return df

In [59]:
series = [ safe_df(archivo) for archivo in archivos ]

In [69]:
df = pandas.concat(series,axis=1).T

In [73]:
speakers = df.speakers.explode()

In [82]:
import bqplot.pyplot as plt

pandas.set_option('plotting.backend', 'bqplot.pyplot')

In [83]:
df.speakers.apply(len).sort_values().plot()
plt.show()

VBox(children=(Figure(axes=[Axis(scale=LinearScale(), side='bottom'), Axis(orientation='vertical', scale=Linea…

In [127]:
import bqplot

In [164]:
x=df.speakers.explode().value_counts()
x =  x[x.between(2,10)]
plt.figure()
plt.scales(scales={'x':bqplot.OrdinalScale(),'y':plt.LinearScale()})
bar = plt.bar(x.index,x.values,orientation='horizontal')
plt.show()

VBox(children=(Figure(axes=[Axis(orientation='vertical', scale=OrdinalScale()), Axis(scale=LinearScale())], fi…

In [147]:
df.recorded = pandas.to_datetime( df.recorded  )

In [161]:
recorded = df.recorded.dt.year.value_counts()
plt.figure()
plt.scatter('index','recorded',data=recorded.reset_index())
plt.xlabel('Anio')
plt.ylabel('Cantidad de charlas')
plt.show()

VBox(children=(Figure(axes=[Axis(label='Anio', scale=LinearScale()), Axis(label='Cantidad de charlas', orienta…

In [170]:
df.description.str.split(' ')

0      [Alan, Runyan, y, su, charla, en, el, auditori...
1      ["Los, Diferidos", es, posiblemente, el, tema,...
2      [Descripción, de, la, charla:, DBus, permite, ...
3      [Descripción, de, la, charla:, Cocción, de, un...
4      [Arduino, es, una, plataforma, de, hardware, y...
                             ...                        
232    [Usamos, Python, para, la, conversión, de, la,...
233    [Keynote, presented, on, Saturday, in, the, Py...
234    [Reescribir, una, gran, parte, de, un, proyect...
235    [Machine, learning, productivo,, en, el, mundo...
236    [Async, está, de, moda,, y, todo, el, mundo, d...
Name: description, Length: 237, dtype: object

In [184]:
df[ df.title.str.contains('python') ]

Unnamed: 0,description,language,recorded,speakers,thumbnail_url,title,videos,tags,copyright_text,duration,related_urls,alias,category,id,quality_notes,slug,summary
64,Over the last decade Brazilian government embr...,spa,2012-11-17,[Erico Andrei],https://i.ytimg.com/vi/qqleysomo14/maxresdefau...,How Brazil is building a digital nation with o...,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,2477.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
70,"Se introducirá aima-python, una biblioteca Pyt...",spa,2012-11-16,[Rafael Carrascosa],https://i.ytimg.com/vi/da2l8tYWfgs/maxresdefau...,"Inteligencia Artificial con aima-python, un re...","[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,2464.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
75,Muchos de nosotros programamos Python pero nos...,spa,2012-11-17,[Daniel F. Moisset],https://i.ytimg.com/vi/x7QMAdFnESA/maxresdefau...,Javascript para programadores python,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,2673.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
81,Tomar ventaja del multiprocesamiento de los si...,spa,2012-11-17,[Claudio Freire],https://i.ytimg.com/vi/ZH4z4KbbpVk/maxresdefau...,Multiprocesamiento en python,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,2668.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
82,En el mundo del hardware se usan lenguajes de ...,spa,2012-11-17,[Martín Gaitán],https://i.ytimg.com/vi/05HfBi2skiw/maxresdefau...,"MyHDL, de python al silicio","[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,2688.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
83,En esta charla vamos a aprender cómo desarroll...,spa,2012-11-17,[Ezequiel Gutesman],https://i.ytimg.com/vi/hN-STUjbzY8/maxresdefau...,No toca BOTOn: Amazon Web Services desde python,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,3327.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
97,| Usando python y unittest/testtools como fram...,spa,2012-11-17,[Sergio Schvezov],https://i.ytimg.com/vi/BWF9N18Qy2Q/maxresdefau...,Testing funcional con python,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Creative Commons Attribution license (reuse al...,1570.0,"[{'label': 'Event schedule', 'url': 'https://w...",,,,,,
104,Durante la charla se presentará una introducci...,spa,2013-10-24,[Ariel Rossanigo],https://i.ytimg.com/vi/KGoNhV_l940/hqdefault.jpg,"Aprendizaje por refuerzo, una versión pythonica","[{'type': 'youtube', 'url': 'https://www.youtu...",,,,,,,,,,
119,"¿Qué significa que un código sea ""pythónico""? ...",spa,2013-10-24,[Martín Gaitán],https://i.ytimg.com/vi/dByxE2C-daI/hqdefault.jpg,La pythonicidad al palo,"[{'type': 'youtube', 'url': 'https://www.youtu...",,,,"[{'label': 'talk slides', 'url': 'https://gith...",,,,,,
164,PyconAR 2016 - Bahía Blanca\n\nMicropython en ...,spa,2016-11-25,[Martin Ribelotta],https://i.ytimg.com/vi/pT-AOUzZBsw/maxresdefau...,Micropython en EDU-CIAA,"[{'type': 'youtube', 'url': 'https://www.youtu...",[],Standard YouTube License,2375.0,[http://ar.pycon.org/proposals/document/24/02f...,,,,,,


In [188]:
df.title.str.lower().str.replace(':','3')

0                                                  plone
1                                   todo sobre deferreds
2                                dbus con el pie derecho
3                  plone 4: tiempo de cocción 30 minutos
4                          robótica con python y arduino
                             ...                        
232    reverse-engineering 170 mil líneas de document...
233                   keynote: sharing, by carol willing
234    sobreviviendo al síndrome del segundo sistema ...
235             testing en proyectos de machine learning
236                 todo lo que no querés saber de async
Name: title, Length: 237, dtype: object

In [189]:
import string

In [190]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [192]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [249]:
titulos = ( df.title
    .str.lower()
    .str.replace('\W',' ',regex=True)
    .str.replace('\s+',' ',regex=True)
    .str.translate(str.maketrans('áéíóúñ','aeioun'))
)

In [224]:
df.iloc[:3].title.str.translate(str.maketrans('aeiou','AEIOU'))

0                      PlOnE
1       TOdO sObrE dEfErrEds
2    DBUs cOn El pIE dErEchO
Name: title, dtype: object

In [243]:
set(''.join( x for x in df.title.str.lower() ) )

{' ',
 '!',
 '"',
 '%',
 "'",
 '(',
 ')',
 '+',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 '=',
 '?',
 '[',
 ']',
 '_',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '¡',
 '¿',
 'á',
 'é',
 'í',
 'ñ',
 'ó',
 'ú',
 '‘',
 '’',
 '“',
 '”'}

In [325]:
(titulos.str.split(' ',expand=True)
        .stack()
#         .reset_index(drop=True)
        .value_counts()
        .to_frame(name='cuentas')
        .reset_index()
        .rename(columns={'index':'palabra'})
)
#         .groupby('palabras',as_index=False).count())

Unnamed: 0,palabra,cuentas
0,de,56
1,python,52
2,,48
3,con,46
4,11,30
...,...,...
711,paralela,1
712,intento,1
713,artificial,1
714,durar,1


In [326]:
a = _

In [328]:
a['longitud'] = a['palabra'].apply(len)

In [330]:
set(a.loc[a.longitud<3,'palabra'])

{'',
 '0',
 '00',
 '01',
 '02',
 '03',
 '05',
 '06',
 '07',
 '08',
 '1',
 '10',
 '11',
 '12',
 '14',
 '15',
 '16',
 '17',
 '18',
 '19',
 '2',
 '20',
 '24',
 '25',
 '28',
 '29',
 '3',
 '30',
 '32',
 '35',
 '36',
 '3d',
 '4',
 '40',
 '42',
 '44',
 '45',
 '46',
 '48',
 '50',
 '52',
 '54',
 '55',
 '56',
 '57',
 '59',
 '7',
 '90',
 'a',
 'al',
 'at',
 'be',
 'br',
 'by',
 'c',
 'cv',
 'd',
 'de',
 'e',
 'el',
 'en',
 'es',
 'fu',
 'is',
 'it',
 'la',
 'lo',
 'me',
 'mi',
 'no',
 'o',
 'of',
 's',
 'so',
 't',
 'to',
 'tu',
 'ui',
 'un',
 'up',
 'va',
 'wx',
 'y'}

In [336]:
a

Unnamed: 0,palabra,cuentas,longitud
0,de,56,2
1,python,52,6
2,,48,0
3,con,46,3
4,11,30,2
...,...,...,...
711,paralela,1,8
712,intento,1,7
713,artificial,1,10
714,durar,1,5


In [356]:
plt.figure()
def_tt = bqplot.Tooltip(fields=['x', 'y','name'], formats=['', '.2f',''])
sct = plt.scatter('longitud','cuentas',data=a,colors=['dodgerblue'],
                            tooltip=def_tt, stroke='black', names=a.palabra,
                            display_names=False,
                            unhovered_style={'opacity': 0.5})
plt.show()

VBox(children=(Figure(axes=[Axis(scale=LinearScale()), Axis(orientation='vertical', scale=LinearScale())], fig…