## **Metas**
 Identificar patrones en las adquisiciones de obras de arte que puedan mejorar la gestión y planeación futura del museo. Esto podría incluir tendencias en las adquisiciones, análisis de la representación de artistas por nacionalidad y género, y análisis de años de adquisición.


## ***Introducción***

**Contexto comercial.**
 El museo necesita optimizar sus adquisiciones de obras de arte en función de tendencias históricas y representación de artistas. Identificar patrones podría mejorar decisiones de compra y generar una colección más inclusiva y representativa.
 Los datos utilizados en este análisis provienen de un museo que ha estado recopilando información sobre sus adquisiciones de obras de arte a lo largo de varios años. Estas adquisiciones incluyen detalles sobre los artistas, sus nacionalidades, el género de los artistas, y el año en que las obras fueron compradas. El museo, como muchas otras instituciones culturales, enfrenta el desafío de mantener una colección diversa y representativa de artistas de todo el mundo.




**Contexto analítico.**
El análisis se centra en entender cómo se distribuyen las adquisiciones de arte a lo largo del tiempo, según el género y la nacionalidad de los artistas. A partir de los datos históricos, buscamos insights que permitan mejorar la representación de artistas y diversificar la colección.Para abordar el objetivo de mejorar la planificación de adquisiciones del museo, se utilizan datos históricos sobre las obras de arte adquiridas. Estos datos incluyen información sobre:
Fecha de adquisición: permite analizar tendencias a lo largo del tiempo y detectar patrones de compra.
Nacionalidad de los artistas: permite evaluar la diversidad cultural representada en la colección.
Género de los artistas: posibilita medir la representación equitativa entre artistas masculinos y femeninos.
Características de las obras: como técnica, estilo y valor estimado, para evaluar la diversidad artística.
El análisis de estos datos se lleva a cabo mediante técnicas de visualización y resúmenes numéricos que permiten identificar patrones en las adquisiciones, tales como la concentración de obras de artistas de ciertos países o la falta de representación de mujeres artistas. Estas técnicas permiten extraer insights clave que apoyarán en la toma de decisiones estratégicas para las futuras adquisiciones del museo, fomentando una colección más equilibrada y representativa.



## ***Exploración de datos***

Recomendaciones basadas en los insights observados

*  Equilibrio en la representación por género: Uno de los insights más claros es la desproporción entre artistas masculinos y femeninos. Aquí podrías sugerir que el museo enfoque parte de sus adquisiciones futuras en obras de mujeres artistas, para equilibrar la balanza y promover la diversidad de la colección. Es una oportunidad para ser parte de un movimiento global de inclusión en el arte.
*  Diversificación de nacionalidades: Si el análisis mostró que ciertas nacionalidades están subrepresentadas, podrías recomendar que el museo amplíe su red de adquisiciones a artistas de regiones menos representadas. Esto no solo aportaría una mayor diversidad cultural, sino que también atraería a un público más amplio y variado, interesado en ver reflejada una pluralidad de voces.


*  Años de adquisición y patrones históricos: Observaste picos en adquisiciones en ciertos años. Esto podría ser una señal de cómo los factores externos, como las crisis económicas o las políticas del gobierno, afectan las decisiones de compra del museo. Aquí, podrías sugerir que el museo planifique sus adquisiciones de manera más constante, independientemente de las fluctuaciones externas, para evitar esos picos o valles pronunciados.


*  Priorización de adquisiciones según la demanda: Basado en los datos históricos, podrías identificar las épocas o tipos de obras que han tenido mayor demanda o interés en el pasado. Esto podría ayudar al museo a priorizar futuras adquisiciones que generen un mayor atractivo para sus visitantes.













## ***Aprendizaje Supervisado***
 El objetivo principal es utilizar los datos históricos del museo para predecir tendencias futuras, como la cantidad de adquisiciones, la representación de artistas por género y nacionalidad, y el comportamiento de las adquisiciones a lo largo del tiempo.
Este enfoque es el más adecuado porque se dispone de datos con etiquetas claras (por ejemplo, el número de adquisiciones, nacionalidad, género, año de adquisición), que permiten entrenar un modelo con el fin de realizar predicciones. En este contexto, el aprendizaje supervisado permitirá al museo optimizar sus decisiones de compra y asegurar una representación más equilibrada en su colección.
Posibles modelos de resolución
Para resolver este problema, se pueden considerar varios modelos de aprendizaje supervisado que se ajustan al tipo de datos y a los objetivos del análisis:

*Regresión lineal/múltiple*
Objetivo: Predecir el número de adquisiciones futuras en función de variables como el año, la nacionalidad de los artistas, el género, o el estilo artístico.
Justificación: Este modelo es útil para entender cómo las variables independientes (por ejemplo, el año y la nacionalidad) afectan una variable dependiente continua, como el número de adquisiciones. Sería un buen modelo inicial para prever cuántas adquisiciones podría hacer el museo en un futuro cercano.

*Árboles de decisión*
Objetivo: Identificar las variables más importantes que afectan las adquisiciones y hacer predicciones basadas en esas variables.
Justificación: Los árboles de decisión son fáciles de interpretar y permiten visualizar cómo diferentes factores, como la nacionalidad o el género, influyen en el número de adquisiciones. Además, pueden manejar relaciones no lineales entre las variables.

*Random Forest*
Objetivo: Mejorar la precisión de las predicciones y evitar sobreajustes mediante el uso de múltiples árboles de decisión.
Justificación: Random Forest es un modelo robusto que utiliza un conjunto de árboles de decisión para generar predicciones más precisas y reducir la varianza. Es ideal para situaciones en las que los datos pueden tener ruido o complejidad no capturada por un solo árbol de decisión.

*Regresión logística*
Objetivo: Predecir la probabilidad de un evento binario, como si una adquisición será de un artista de género femenino o masculino, o si una obra será adquirida o no en un determinado año.
Justificación: Aunque es comúnmente utilizada para problemas de clasificación binaria, este modelo podría ser útil para determinar la probabilidad de ciertos tipos de adquisiciones, como prever si un artista de una nacionalidad subrepresentada tiene una mayor probabilidad de ser adquirido en función de las tendencias históricas.

Support Vector Machines (SVM)
Objetivo: Clasificar adquisiciones futuras en función de variables como el género o la nacionalidad del artista.
Justificación: SVM es un modelo poderoso para problemas de clasificación y podría ser útil si se desea segmentar las adquisiciones en categorías específicas.


In [6]:
import pandas as pd
import numpy as np
import gc
from google.colab import drive
import os

drive.mount('/content/gdrive')
os.chdir('/content/gdrive/MyDrive/Coder /Dataset')

df = pd.read_csv('df_moma.csv', dtype={
    'ObjectID': 'object',
    'Circumference (cm)': 'object',
    'Depth (cm)': 'object',
    'Diameter (cm)': 'object',
    'Height (cm)': 'object',
    'Length (cm)': 'object',
    'Width (cm)': 'object',
}, low_memory=False)


columns_to_drop = ['Title', 'ArtistBio', 'Dimensions', 'ObjectID', 'AccessionNumber',
                   'CreditLine', 'Seat Height (cm)', 'Duration (sec.)']
df.drop(columns=columns_to_drop, inplace=True)


df['Medium'] = df['Medium'].astype('category')
df['Classification'] = df['Classification'].astype('category')
df['Department'] = df['Department'].astype('category')


if 'YearAcquired' in df.columns:

    df['YearAcquired'] = pd.to_numeric(df['YearAcquired'], errors='coerce', downcast='integer')
else:

    print("La columna 'YearAcquired' no se encuentra en el DataFrame.")


df['DateAcquired'] = pd.to_datetime(df['DateAcquired'], errors='coerce')


if 'YearAcquired' in df.columns:
    df['YearAcquired'] = df['DateAcquired'].dt.year
    df.dropna(subset=['YearAcquired'], inplace=True)
else:

    df['YearAcquired'] = df['DateAcquired'].dt.year
    df.dropna(subset=['YearAcquired'], inplace=True)

def process_data(temp_df):
    del temp_df
    gc.collect()

df.to_csv('df_moma_cleaned.csv', index=False)


Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).
La columna 'YearAcquired' no se encuentra en el DataFrame.


## **Entrenamiento de modelos**



In [7]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split # Import the train_test_split function

df_moma_cleaned = pd.read_csv('df_moma_cleaned.csv')

df_sample = df_moma_cleaned.sample(frac=0.2, random_state=42)

X_sample = df_sample[['Medium', 'Classification', 'Department', 'Nationality', 'Date']]
y_sample = df_sample['YearAcquired']

X_sample = pd.get_dummies(X_sample, drop_first=True)

X_train, X_test, y_train, y_test = train_test_split(X_sample, y_sample, test_size=0.2, random_state=42)



#MODELO DE REGRESION
from sklearn.tree import DecisionTreeRegressor

regressor = DecisionTreeRegressor(random_state=42)
regressor.fit(X_train, y_train)

y_pred_reg = regressor.predict(X_test)


#MODELO DE CLASIFICACION
from sklearn.tree import DecisionTreeClassifier

classifier = DecisionTreeClassifier(random_state=42)
classifier.fit(X_train, y_train)

y_pred_class = classifier.predict(X_test)


## **Calculo de metricas Modelo de Regresion**

In [8]:
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

r2 = r2_score(y_test, y_pred_reg)
mae = mean_absolute_error(y_test, y_pred_reg)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_reg))

print(f"R²: {r2:.2f}")
print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")


R²: 0.57
MAE: 6.91
RMSE: 14.73


## **Calculo de metricas Modelo de Clasificacion**

In [9]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

accuracy = accuracy_score(y_test, y_pred_class)
conf_matrix = confusion_matrix(y_test, y_pred_class)
class_report = classification_report(y_test, y_pred_class)

print(f"Accuracy: {accuracy:.2f}")
print(f"Confusion Matrix:\n{conf_matrix}")
print(f"Classification Report:\n{class_report}")


Accuracy: 0.61
Confusion Matrix:
[[ 0  0  0 ...  0  0  0]
 [ 0  3  0 ...  0  0  0]
 [ 0  0  3 ...  0  0  0]
 ...
 [ 0  0  0 ... 89  1  0]
 [ 0  0  0 ...  1 42  1]
 [ 0  0  0 ...  0  2 23]]
Classification Report:
              precision    recall  f1-score   support

      1932.0       0.00      0.00      0.00         1
      1933.0       1.00      0.75      0.86         4
      1934.0       0.38      0.50      0.43         6
      1935.0       0.92      0.61      0.73        18
      1936.0       0.33      0.25      0.29         8
      1937.0       0.40      0.43      0.41        14
      1938.0       0.00      0.00      0.00         7
      1939.0       0.28      0.41      0.33        17
      1940.0       0.40      0.67      0.50        52
      1941.0       0.49      0.51      0.50        35
      1942.0       0.39      0.64      0.48        25
      1943.0       0.75      0.80      0.78        50
      1944.0       0.56      0.28      0.37        18
      1945.0       0.86      0.

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## ***Conclusión***

*  *Influencia del Artista en las Adquisiciones.*
  La influencia del artista parece no tener el suficiente impacto como para generar un modelo altamente preciso. Tanto en regresión como en clasificación, los errores indican que aunque el artista es relevante, no es un factor determinante absoluto en las adquisiciones.
  El modelo de clasificación muestra mejores resultados para ciertos años en los que algunos artistas están más representados, lo que podría sugerir una relación, pero no es constante para todos los años.
  
  Aunque el modelo indica que hay cierta relación entre el artista y las adquisiciones en años específicos, el error en la predicción y la variabilidad en las métricas sugieren que el artista no es el único factor relevante. Otros factores, como la técnica o el origen del artista, también parecen influir en las adquisiciones.


*  *Influencia del País de Origen en las Adquisiciones.*
   En los modelos de clasificación y regresión, los errores tienden a ser mayores cuando se considera el país de origen como una característica clave para predecir las adquisiciones. Esto sugiere que, aunque el país de origen pueda tener alguna relevancia, no es suficiente para mejorar significativamente la precisión del modelo.
   
   El país de origen no parece ser un factor fuerte en la predicción de las adquisiciones, al menos no en aislamiento. Puede que esté vinculado a otros elementos (como el artista o la época), pero por sí solo no parece tener una correlación alta con las adquisiciones en el museo.



*  Tendencias en la Técnica o Material en las Adquisiciones.
  Esta hipótesis es la que parece tener más respaldo según los resultados de los modelos. La regresión tiene un R² de 0.57, lo que indica que las variables seleccionadas, incluidas las técnicas o materiales, explican más de la mitad de la variabilidad en las adquisiciones. Sin embargo, los altos valores de error (MAE y RMSE) indican que no es una predicción completamente precisa.
  Las técnicas o materiales sí parecen tener una influencia considerable en las adquisiciones. Sin embargo, el modelo aún comete errores notables, lo que sugiere que estos factores deben combinarse con otros (como el artista o el país de origen) para obtener una predicción más precisa.



En base a los resultados obtenidos con los modelos de regresión y clasificación, podemos concluir que:
    Las adquisiciones del museo parecen estar impulsadas por una combinación de factores, siendo la técnica o material el más relevante, seguido de la influencia del artista. El país de origen, por otro lado, parece jugar un papel menor. Para futuros análisis, sería interesante explorar modelos más complejos o incluso probar con otros tipos de datos que puedan mejorar la capacidad predictiva.