In [1]:
import pandas as pd

df_users_limpio = pd.read_csv('Dataset/datos_users_limpio.csv')

### Familiarización con los datos

In [2]:
# Imprimimos todas las columnas del describe
pd.set_option('display.max_columns', 500)

df_users_limpio

Unnamed: 0,usuario_id,nombre,num_opiniones,util,gracioso,guay,experto,amigos,num_amigos,seguidores,media_puntuacion,like_moda,like_extras,like_perfil,like_formato,like_lista,like_comentario,like_simple,like_guay,like_divertido,like_textos,like_fotos,anyo_reg,mes_reg,dia_reg,hora_reg
0,l6BmjZMeQD3rDxWUbiAiow,Rashmi,95,84,17,25,201520162017,"c78V-rj8NQcQjOI8KP3UEA, alRMgPcngYSCJ5naFRBz5g...",99,5,4.03,2,0,0,0,0,1,1,1,1,2,0,2013,10,8,23
1,4XChL029mKr5hydo79Ljxg,Jenna,33,48,22,16,Ninguno,"kEBTgDvFX754S68FllfCaA, aB2DynOxNOJK9st2ZeGTPg...",1152,4,3.63,1,0,0,0,0,0,0,1,1,0,0,2013,2,21,22
2,bc8C_eETBWL0olvFSJJd0w,David,16,28,8,10,Ninguno,"4N-HU_T32hLENLntsNKNBg, pSY2vwWLgWfGVAAiKQzMng...",15,0,3.71,0,0,0,0,0,1,0,0,0,0,0,2013,10,4,0
3,dD0gZpBctWGdWo9WlGuhlA,Angela,17,30,4,14,Ninguno,"RZ6wS38wnlXyj-OOdTzBxA, l5jxZh1KsgI8rMunm-GN6A...",525,5,4.85,1,0,0,0,0,0,2,0,0,1,0,2014,5,22,15
4,MM4RJAeH6yuaN8oZDSt0RA,Nancy,361,1114,279,665,2015201620172018,"mbwrZ-RS76V1HoJ0bF_Geg, g64lOV39xSLRZO0aQQ6DeQ...",231,39,4.08,28,1,0,0,1,16,57,80,80,25,5,2013,10,23,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1637133,oC4BjbB4I-wx5KBAO1k2Gg,Jiaxin,2,0,0,0,Ninguno,SinAmigos,0,0,4.50,0,0,0,0,0,0,0,0,0,0,0,2016,2,24,19
1637134,LKd_-BT2GMWp8_1ho18kOg,Wes,8,0,0,0,Ninguno,SinAmigos,0,0,4.00,0,0,0,0,0,0,0,0,0,0,0,2017,2,25,23
1637135,ib_elCBhGOamS0AALkh4Og,Lee,4,8,0,0,Ninguno,SinAmigos,0,0,3.40,0,0,0,0,0,0,0,0,0,0,0,2009,8,19,22
1637136,WV27LoSFDG_YmiDKTLKKLA,Melissa,1,1,0,0,Ninguno,SinAmigos,0,0,3.00,0,0,0,0,0,0,0,0,0,0,0,2018,10,15,17


Nos encontramos en un dataset de usuarios, por lo que cada línea fila del dataset es un usuario. Cabe destacar que todos los números de cada fila hacen referencia al total que ese usuario ha tenido en el sistema. Para entender correctamente qué significa cada atributo, vamos a explicarlos uno a uno y a exponer algunas suposición que nos hacemos apriori:

- **num_opiniones**: Opiniones que el usuario ha hecho en total a lo largo de su trayectoria. Un número elevado de opiniones puede significar muchos años siendo experto, muchos seguidores y con ser influencer. 


- **util, gracioso y guay**: Veces que el usuario ha sido puntuado como útil, gracioso o guay, respectivamente. Podría estar relacionado con número de seguidores, todos los tipos de likes e incluso número de opiniones.


- **experto**: Lista con los años en los que el usuario ha sido experto en el sistema. Las personas que no han sido experto (que son la mayoría), tienen el string "Ninguno".


- **amigos**: Lista de los ID de los amigos que tiene ese usuario. Algunos usuarios **no tienen amigos**. Esto es puntualizado con el string "SinAmigos".

- **num_amigos**: Número de amigos que tiene el usuario. Introducimos esta columna ya que tratar con la lista de amigos no es útil en la mayoría de los casos.

- **seguidores**: Número de seguidores que ese usuario tiene en total. Los usuarios con un número de seguidores elevado pueden ser significativos.


- **media_puntuacion**: Puntuación media que tiene el usuario en todas sus opiniones. Una media bastante alta podría ser un indicativo de que ha sido experto durante muchos años. Podría ocurrir que una persona tuviera muchísimas opiniones pero todas tuvieran una puntuación muy baja. Estos usuarios podrían ser denominados **"spammers"**.


- **like_X**: Todas las columnas de like se refieren al número de likes del tipo X que ha recibido el usuario a lo largo de su trayectoria en el sistema. Al igual que util, gracioso y guay, podría estar relacionado con número de opiniones y seguidores.


- **año_reg, mes_reg, etc...**: Fecha de registro fraccionada en año, mes, día y hora. Podría ser que hubiera días en los que se produjeran más registros a lo largo de la semana, **generando patrones interesantes**. En algunos momentos, se pueden producir **registros masivos** debido a algún evento especial (algún anuncio nuevo, se habla del sistema en la televisión, etc...)


<span style="color:red">Podríamos plantearnos añadir una nueva collumna que fuera hacer cuántos años ser registró el usuario en la aplicación ya que puede estar directamente relacionado con los años expertos. Esto es a largo plazo, para los modelos</span>

### Análisis descriptivo de los datos

In [3]:
# Lo ponemos de esta forma para quitar la notación científica
df_users_limpio.describe().apply(lambda s: s.apply(lambda x: format(x, 'g')))

Unnamed: 0,num_opiniones,util,gracioso,guay,num_amigos,seguidores,media_puntuacion,like_moda,like_extras,like_perfil,like_formato,like_lista,like_comentario,like_simple,like_guay,like_divertido,like_textos,like_fotos,anyo_reg,mes_reg,dia_reg,hora_reg
count,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0,1637140.0
mean,22.2877,40.5277,17.9178,21.8805,45.7152,1.46565,3.68146,2.24223,0.332595,0.213513,0.190208,0.0835849,1.50394,3.09027,3.10682,3.10682,1.16533,1.13843,2013.47,6.4201,15.7372,12.5857
std,76.9224,470.242,330.35,401.968,137.863,15.6832,1.15104,80.2182,13.6785,16.2668,12.698,10.8956,63.276,92.1142,88.2326,88.2326,32.6826,95.4914,2.60379,3.36132,8.80282,8.11387
min,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2004.0,1.0,1.0,0.0
25%,2.0,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2012.0,4.0,8.0,4.0
50%,5.0,3.0,0.0,0.0,2.0,0.0,3.89,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2014.0,6.0,16.0,16.0
75%,15.0,13.0,3.0,3.0,39.0,0.0,4.6,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2015.0,9.0,23.0,20.0
max,13278.0,154202.0,130207.0,148658.0,14995.0,9538.0,5.0,34167.0,13500.0,14173.0,13654.0,12669.0,57833.0,52103.0,32266.0,32266.0,15442.0,82602.0,2018.0,12.0,31.0,23.0


Observando la tabla descriptiva de los datos, podemos obtener la siguiente información con importancia:

- num_opiniones: La mayor parte de los usuarios tienen un **número de opiniones relativamente bajo** (los tres primeros cuartiles están por debajo de 16 opiniones). **Número de opiniones máximo en todos los usuarios de 13.278**, bastante elevado con respecto al resto de usuarios. Aún habiendo un máximo muy elevado, la media y la desviación estándar no toman valores muy elevados, lo cual nos quiere decir que **no hay demasiada gente con muchas opiniones**.


- util, gracioso y guay: El **75% de los usuarios del sistema reciben "util"** y solo un **50% reciben al menos un "gracioso" y "guay"**. Las tres columnas tienen un máximo muy elevado lo cual indica la **existencia de algunas opiniones virales o de usuarios con muchas opiniones muy útiles**.

- num_amigos: Hay un **25% de usuarios sin amigos**. Un **25% tiene más de 39 amigos**. La media es de 45 amigos, lo cual nos quiere decir que del 25% recién mencionado (el que tiene 39 amigos o más), debe haber gente con muchos amigos. El **máximo es muy elevado**, como en el resto de columnas recientemente mencionadas (14995 amigos). 