In [1]:
import os
import sys
import numpy as np
import pandas as pd

In [2]:
"""
Crea el dataframe con la lista de superconductores.
"""

supercond = './superconductors.csv'

df_supercond_all = pd.read_csv(supercond)

# Crear un nuevo DataFrame con solo la última columna
df_supercond = pd.DataFrame(df_supercond_all.iloc[:, -1])

In [15]:
"""
Cambia el formato del dataframe
"""

def eliminar_puntos(formula):
    return formula.replace('.', '')

df_supercond['material'] = df_supercond['material'].apply(eliminar_puntos)

df_supercond.head()

print(df_supercond)

                 material
0           Ba02La18Cu1O4
1      Ba01La19Ag01Cu09O4
2           Ba01La19Cu1O4
3         Ba015La185Cu1O4
4           Ba03La17Cu1O4
...                   ...
21258    Tm084Lu016Fe3Si5
21259     Tl1Ba2Ca3Cu4O11
21260            Nb08Pd02
21261          Nb069Pd031
21262         Fe1Se02Te08

[21263 rows x 1 columns]


In [5]:
"""
Creacion del data set de los datos disponibles
"""

# Definir la ruta base donde se encuentran las carpetas con los archivos .txt
ruta_base = './Data_raw'

# Inicializar una lista para almacenar los datos de los archivos
datos_archivos = []

# Recorrer todas las carpetas y archivos en la ruta base
for carpeta_raiz, carpetas, archivos in os.walk(ruta_base):
    for nombre_archivo in archivos:
        if nombre_archivo.endswith('.txt'):
            ruta_archivo = os.path.join(carpeta_raiz, nombre_archivo)
            
            # Extraer los datos del nombre del archivo
            nombre_split = nombre_archivo.split('_')
            red_de_bravais = nombre_split[0]
            formula = nombre_split[1]
            icsd = nombre_split[-1].split('.')[0]
            
            # Agregar los datos a la lista
            datos_archivos.append([red_de_bravais, formula, icsd])

# Crear un DataFrame a partir de la lista de datos
df_data = pd.DataFrame(datos_archivos, columns=['Red de Bravais', 'material', 'ICSD'])

# Mostrar el DataFrame
df_data.head()


Unnamed: 0,Red de Bravais,material,ICSD
0,BCC,Bi4Ge3O12,260560
1,BCC,Fe5O12Y3,28561
2,BCC,P3Rh1,43724
3,BCC,Mn1,44932
4,BCC,Rh7Sb6Yb4,409885


In [6]:
""" 
Miro cuantos materiales son comunes
"""

# Supongamos que tienes dos DataFrames df1 y df2
# Cada uno tiene una columna llamada "Material" que contiene los nombres de los materiales

# Crear un DataFrame con los nombres de materiales comunes entre df1 y df2
df_comunes = pd.merge(df_supercond, df_data, how='inner', on='material')

# Mostrar el DataFrame con los materiales comunes
print(df_comunes)

        material Red de Bravais    ICSD
0         Ba6C60            BCC   70062
1      Ce1Co1In5            TET  102108
2      Ce1Co1In5            TET  102108
3      Ce1Co1In5            TET  102108
4      Ce1Co1In5            TET  102108
...          ...            ...     ...
19479     Sb2Te3            RHL  185952
19480     Sb2Te3            RHL  185946
19481     Sb2Te3            RHL  262171
19482     Sb2Te3            RHL  185949
19483     Sb2Te3            RHL  185948

[19484 rows x 3 columns]


In [11]:
# Obtener los elementos únicos de la columna "Material"
elementos_unicos = df_comunes['material'].unique()

# Mostrar los elementos únicos
cond = len(elementos_unicos)
print(cond)

639


In [9]:
# Realizar un merge de los dos DataFrames
df_merge = pd.merge(df_data, df_supercond, on='material', how='outer', indicator=True)

# Filtrar el DataFrame para obtener los elementos que están en un DataFrame pero no en el otro
elementos_no_coincidentes = df_merge[df_merge['_merge'] != 'both']

# Eliminar la columna de indicador de merge
elementos_no_coincidentes.drop(columns=['_merge'], inplace=True)

# Mostrar el DataFrame con los elementos no coincidentes
print(elementos_no_coincidentes)

      Red de Bravais          material    ICSD
0                BCC         Bi4Ge3O12  260560
1                BCC         Bi4Ge3O12   39227
2                BCC         Bi4Ge3O12  108872
3                BCC         Bi4Ge3O12  156438
4                BCC         Bi4Ge3O12   86276
...              ...               ...     ...
95175            NaN         Ti1Ir1Si1     NaN
95176            NaN         Ti1Ir1Si1     NaN
95177            NaN  Tm084Lu016Fe3Si5     NaN
95178            NaN          Nb08Pd02     NaN
95179            NaN        Nb069Pd031     NaN

[75696 rows x 3 columns]


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  elementos_no_coincidentes.drop(columns=['_merge'], inplace=True)


In [13]:
# Obtener los elementos únicos de la columna "Material"
elementos_unicos = elementos_no_coincidentes['material'].unique()

# Mostrar los elementos únicos
nocond = len(elementos_unicos)
print(nocond)

42070


In [14]:
100*cond/(cond+nocond)

1.4961717670748553