## En este Jupyter Notebook vamos a analizar diferentes estadísticas del CSV de imágenes clasificadas generadas por la aplicación

## Gráfico de torta que muestra los porcentajes según el tipo de imagenes
1. Importamos todas las librerías que vamos a necesitar 

2. Obtenemos la ruta del archivo CSV.

3. Luego, lo leemos con Pandas para generar un DataFrame.

4. A continuación, seleccionamos todas las filas de la columna que vamos a analizar.

5. Generamos el gráfico de torta con las características deseadas.

6. Por último, mostramos el gráfico.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import os

ruta_csv = os.path.join('..', 'UnlpImage','Assets' ,'metadata.csv')
#print(ruta_csv)
df = pd.read_csv(ruta_csv)
#print(df[6])

#Me guardo todos los tipos
tipos = df.iloc[: , 6].value_counts()
#print(tipos)

# Defino una lista de colores para el gráfico de torta
colores = ['#FADBD8', '#D2B4DE', '#F9E79F']

# Genero el gráfico de torta
plt.pie(tipos, colors=colores, autopct='%1.1f%%', startangle=120, labeldistance=1.1)
plt.axis('equal')
plt.title("Tipos de imágenes")
plt.legend(tipos.index)

# Mostrar el gráfico
plt.show()



## Valor máximo de ancho y alto de las imágenes

1. Obtenemos todos los datos de la columna 'alto' y los guardamos en la variable 'alto'.

2. Hacemos lo mismo, pero esta vez para obtener los datos de la columna 'ancho' y los guardamos en la variable 'ancho'.

3. Aplicamos la función 'max' a ambas variables para obtener el valor máximo de altura y ancho, respectivamente.

4. Imprimimos el valor máximo de altura y ancho.

In [None]:
#print(df.iloc[:,3])
#print(df.iloc[:,4])

#Obtenemos los datos de la columna de alto
alto = df['alto']

#obtenemos los datos de la columna de ancho
ancho = df['ancho']

#Calculamos el máximo para ambos 
alto_maximo = max(alto)
ancho_maximo = max(ancho)

#Imprimimos la info 
print(f'Máximo alto:{alto_maximo}px')
print(f'Máximo alto:{ancho_maximo}px')

## Gráfico de dispersión para visualizar la relación entre el ancho y el alto de las imágenes

Utilizando las variables generadas en el código anterior, generamos un gráfico de dispersión para visualizar la relación entre el ancho y el alto de las imágenes.

In [None]:
#plt.style.use('seaborn')

#Generamos el grafico
plt.scatter(ancho,alto)

plt.title('Tamaño de imágenes')

plt.show()


## Gráfico de barras que muestra la cantidad de cambios realizados para cada día de la semana

1. Importamos la librería necesaria, en este caso, la librería `datetime` que no había sido importada anteriormente.

2. Como nuestro archivo CSV tenía un formato de timestamp en segundos, utilizamos una función lambda para convertir estos valores a un formato más manejable, en este caso, objetos de tipo `datetime`. Luego, creamos una nueva columna llamada 'fecha' en el DataFrame y asignamos los valores convertidos.

3. Agrupamos los datos por día de la semana utilizando la función `groupby` y contamos la cantidad de veces que aparece cada día utilizando la función `size()`.

4. Generamos el gráfico de barras utilizando los nombres de los días de la semana como etiquetas en el eje x y la cantidad de cambios como altura de las barras. También configuramos los colores de las barras.

5. Finalmente, agregamos un título al gráfico y lo mostramos.



In [None]:
# dia_s= fecha.dt.dayofweek
# dias = dia_s.value_counts()
# print(fecha)
# #print(dia_s)
# print(dias)

# Importamos la librería datetime para trabajar con fechas
from datetime import datetime

# Convertimos la columna 'time' a objetos de tipo datetime y la asignamos a una nueva columna 'fecha'
df['fecha'] = df['time'].apply(lambda x: datetime.fromtimestamp(x))

# Creamos una columna 'dia' que contiene el nombre del día de la semana correspondiente a cada fecha
df['dia'] = df['fecha'].dt.day_name()

# Agrupamos por el día de la semana y contamos la cantidad de registros
dias = df.groupby(df['fecha'].dt.day_of_week).size()

# Definimos los nombres de los días de la semana
nombres_dias = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

# Realizamos el conteo de operaciones por día y reindexamos para que aparezcan todos los días de la semana
dias = df.groupby('dia').size()
dias = dias.reindex(nombres_dias, fill_value=0)

# Definimos los colores para cada barra del gráfico
colores = ["#FF69B4", "#ECECB3", "#458B00", "#6495ED", "#D8BFD8", "#FFA07A", "#00CED1"]

# Generamos un gráfico de barras utilizando los nombres de los días como etiquetas y la cantidad de registros como altura de las barras
plt.bar(nombres_dias, dias, color=colores)

# Agregamos un título al gráfico
plt.title('Cambios')

# Mostramos el gráfico
plt.show()


## Gráfico de líneas para visualizar la evolución de la cantidad de actualizaciones a lo largo del tiempo.

1. Agrupamos los datos por la columna "fecha" y utilizamos la función `size()` para obtener la cantidad de actualizaciones por fecha.

2. Generamos el gráfico de líneas utilizando los datos obtenidos en el paso anterior.


In [None]:

# Agrupamos los datos por fecha, obteniendo el conteo de actualizaciones por día
actualizaciones_por_dia= df.groupby(df['fecha'].dt.date).size()

#print(actualizaciones_por_dia)

# Graficamos los datos utilizando un gráfico de línea, marcando cada punto con un círculo
plt.plot(actualizaciones_por_dia.index, actualizaciones_por_dia, marker='o')

# Agregamos un título al gráfico
plt.title('Actualizaciones')

# Ajustamos el diseño del gráfico para que los elementos no se superpongan
plt.tight_layout()

# Mostramos el gráfico
plt.show()


## Nube de palabras con los tags

1. Importamos la librería `WordCloud` que será utilizada para generar la nube de palabras.

2. Creamos una copia del dataframe original para trabajar con ella.

3. Convertimos los tags, que estaban en formato string, a una lista cada tags se separa con ",".

4. Definimos la función `plot_cloud` que se encargará de graficar la nube de palabras.

5. Obtenemos una lista de todos los tags sin repetidos.
Filtramos los tags para eliminar conectores y palabras cortas.

6. Convertimos los tags filtrados en un solo texto, separado por espacios.

7. Generamos la nube de palabras utilizando la librería `WordCloud`.

8. Graficamos la nube de palabras utilizando la función `plot_cloud`.

In [None]:
from wordcloud import WordCloud, STOPWORDS

# Hacemos una copia del dataframe original
df2 = df.copy()

# Convertimos los tags de formato string a lista
df2['tags'] = df['tags'].str.split(',')
print(df2['tags'])
#print(df2)

# Definimos una función para plotear la nube de palabras
def plot_cloud(wordcloud):
    plt.figure(figsize=(40, 30))
    plt.imshow(wordcloud)
    plt.axis('off')

# Obtenemos una lista plana de todos los tags, eliminando duplicados
tags = [tag for sublist in df2['tags'].tolist() for tag in sublist if isinstance(tag, str)]
tags_sin_repetidos = set(tags)

# Filtramos los tags que tienen una longitud mayor o igual a 3 caracteres
tags_sin_conectores = [tag for tag in tags_sin_repetidos if len(tag) >= 3]

# Convertimos los tags filtrados en un solo texto separado por espacios
tags_text = ' '.join(tags_sin_conectores)

#print(tags)

# Generamos la nube de palabras
wordcloud = WordCloud(width=300, height=200, random_state=1, background_color='white', colormap='Set2', collocations=False, stopwords=STOPWORDS).generate(tags_text)

# Plot

# Graficamos la nube de palabras
plot_cloud(wordcloud)


## Informe de los 3 tags más utilizados

1. Se crea un diccionario llamado cant_tags que cuenta la cantidad de veces que se utiliza cada tag en la lista de tags.

2. Se crea una lista llamada tag_mas_utilizados que contiene los 3 tags más utilizados, ordenados de mayor a menor frecuencia de uso.

3. Se imprime una tabla con el encabezado "Tags más utilizados" y las siguientes columnas: número de orden, nombre del tag y cantidad de veces utilizado.

In [None]:
#Creo un diccionario que la contraseña es el nombre del tags y el valor tiene la cantidad de veces que aparecio
cant_tags = {tag: tags.count(tag) for tag in tags}
#print(cant_tags)
#Creo una lista con los mas utilizados los ordento en forma descente y tomo los primeros 3 elementos
tag_mas_utilizados = sorted(cant_tags.items(), key = lambda x: x[1], reverse = True)[:3]


#imprimo en formato tabla 
print("Tags más utilizados")
print("\n #\tTags\t\tUsos")
print("_" * 30)

print('\n'.join([f"{i}\t{tag}\t\t{count}" for i, (tag, count) in enumerate(tag_mas_utilizados, 1)]))


## Tamaño en bytes promedio de las imágenes actualizadas por cada perfil
1. Abrimos el archivo JSON que contiene los datos de los perfiles.

2. Definimos una función que recibe una cadena de texto con el tamaño de las imágenes y su unidad correspondiente. Esta función convierte el tamaño a bytes, dependiendo de la unidad.

3. Definimos otra función que recibe un número en bytes y lo devuelve en kilobytes.

4. Cargamos los datos del archivo JSON.

5. Creamos un DataFrame con los datos de los perfiles.

6. Combinamos el DataFrame de perfiles con el DataFrame original utilizando la columna 'Nick' como clave de combinación.

7. Aplicamos la función convertirB a cada fila de la columna 'tamaño' y guardamos los tamaños convertidos en una nueva columna del DataFrame combinado.

8. Agrupamos los tamaños por perfil.

9. Calculamos el tamaño promedio por perfil utilizando una función lambda.

10. Para los perfiles que no realizaron actualizaciones, asignamos un valor de 0 para que aparezcan en la tabla.

11. Creamos una nueva tabla que contiene el nick del perfil y el tamaño promedio.

12. Imprimimos la tabla con los resultados.


In [None]:
import json

ruta_json = ruta_csv = os.path.join('..', 'UnlpImage', 'Assets', 'info_perfil.json')

# Función para convertir el tamaño a bytes
def convertirB(num):
    unidad = num[-2:].upper()
    if unidad == "KB":
        numero = int(float(num[:-2])) * 1024
    else:
        numero = int(float(num[:-2])) * 1024 * 1024
    return numero

# Función para convertir el tamaño a KB
def volverU(num):
    numero = num / 1024
    return f"{numero:.2f} KB"

# Cargar los perfiles desde el archivo JSON
with open(ruta_json, 'r') as arch:
    perfiles = json.load(arch)

# Crear un DataFrame con los perfiles
df_perfiles = pd.DataFrame(perfiles)

# Combinar el DataFrame de perfiles con el DataFrame df usando la columna 'Nick'
df_merge = pd.merge(df_perfiles, df, on='Nick')

# Aplicar la función convertirB a la columna 'tamaño' para obtener el tamaño en bytes
df_merge['tamaño_bytes'] = df_merge['tamaño'].map(convertirB)

# Agrupar los tamaños por perfil
perfiles_tamaños = df_merge.groupby('Nick')['tamaño_bytes'].apply(list)
#print(perfiles_tamaños)

# Calculo el tamaño promedio por perfil
tamaño_promedio = perfiles_tamaños.map(lambda x: sum(x) / len(x))
#print(tamaño_promedio)

# Aplicar la función volverU para formatear los tamaños promedio
tamaño_promedio = tamaño_promedio.map(volverU)


# Completar los perfiles que no hayan realizado actualizaciones
# Obtener la lista de perfiles del DataFrame de perfiles
nicks = df_perfiles['Nick']

# Completar los perfiles que no hayan realizado actualizaciones
tamaño_promedio = tamaño_promedio.reindex(nicks).fillna(0)
#print(tamaño_promedio)

# Crear una nueva tabla con el nombre de usuario y el promedio de tamaños
tabla_resultados = pd.DataFrame({'perfil': tamaño_promedio.index, 'tamaño_promedio': tamaño_promedio.values})

# Imprimir la tabla de resultados
print("Imágenes promedio")

print(f"\n{tabla_resultados}")
