In [13]:
# Quiero ver los datos de contacto.csv como DF:
# Librería:
import pandas as pd

In [14]:
# Ruta del archivo .csv
ruta_archivo = "contacto.csv"

try:
    # Lee el archivo CSV y lo carga en un DataFrame de pandas
    df = pd.read_csv(ruta_archivo)
    
    # Muestra las primeras 5 filas del DataFrame
    print("DataFrame creado a partir de 'contacto.csv':")
    print(df.head())
    
    # Información sobre el DataFrame, como el tipo de datos y los valores no nulos
    print("\nInformación del DataFrame:")
    df.info()

except FileNotFoundError:
    print(f"Error: El archivo '{ruta_archivo}' no se encontró.")
except Exception as e:
    print(f"Ocurrió un error al leer el archivo: {e}")

DataFrame creado a partir de 'contacto.csv':
                                             empresa  \
0  AGRUPACION EUROPEA DE INDUSTRIAS DE TRANSFORMA...   
1             INGENIERIA DIGITAL Y MEDIO AMBIENTE SL   
2                                   AUCAR TRAILER SL   
3                                    DEIMOS SPACE SL   
4             VALORIZA SERVICIOS MEDIOAMBIENTALES SA   

                                                 url  \
0  https://www.iberinform.es/empresa/218653/agrup...   
1  https://www.einforma.com/informacion-empresa/i...   
2                  https://aucartrailer.com/contacto   
3                          https://deimos-space.com/   
4             https://www.valorizasm.com/es/contacto   

                             email       telefono      direccion error  
0                    No encontrado      818296328  No encontrado   NaN  
1  20clientes@einforma.comContacta      900 10 30  No encontrado   NaN  
2           aucar@aucartrailer.com      93 752 42  No encontra

In [15]:
df.head(100)

Unnamed: 0,empresa,url,email,telefono,direccion,error
0,AGRUPACION EUROPEA DE INDUSTRIAS DE TRANSFORMA...,https://www.iberinform.es/empresa/218653/agrup...,No encontrado,818296328,No encontrado,
1,INGENIERIA DIGITAL Y MEDIO AMBIENTE SL,https://www.einforma.com/informacion-empresa/i...,20clientes@einforma.comContacta,900 10 30,No encontrado,
2,AUCAR TRAILER SL,https://aucartrailer.com/contacto,aucar@aucartrailer.com,93 752 42,No encontrado,
3,DEIMOS SPACE SL,https://deimos-space.com/,info@deimos-space.com,+34 91 806 34,No encontrado,
4,VALORIZA SERVICIOS MEDIOAMBIENTALES SA,https://www.valorizasm.com/es/contacto,No encontrado,No encontrado,No encontrado,
...,...,...,...,...,...,...
95,THE & PARTNERSHIP IBERIA PUBLICIDAD SL,https://empresite.eleconomista.es/THE-PARTNERS...,No encontrado,No encontrado,No encontrado,
96,SERVICIOS ARTISTICOS INSULARES SLU,https://serviciosartisticosinsulares.es/contacto,PEZdistribucion@serviciosartisticosinsulares.c...,676 772 050,No encontrado,
97,UTE ROMA INGENIEROS CONSULTORES SL INCRESCENDO...,https://romaingenieros.net/contacto,830romaingenieros@romaingenieros.net,955 677 872,No encontrado,
98,ALLIANCE LAUNDRY SYSTEMS SPAIN SLU,https://alliancelaundry.com/es/contacta-con-no...,,,,TimeoutError


In [16]:
# --- Análisis de URLs ---

print("--- ANALIZANDO ESTADO DE LAS URLs ---")

# Ruta del archivo de URLs
ruta_urls = "urls.csv"

try:
    # Lee el archivo CSV de URLs y lo carga en un DataFrame
    df_urls = pd.read_csv(ruta_urls)
    
    # Muestra el número total de empresas procesadas
    total_empresas = len(df_urls)
    print(f"Total de empresas procesadas: {total_empresas}\n")

    # Cuenta las URL según su estado
    urls_correctas_validas = df_urls[~df_urls['ESTADO'].isin(['Error en la búsqueda', 'Sin resultados', 'Error'])]
    num_correctas = len(urls_correctas_validas)
    
    # Calcula el porcentaje
    porcentaje_correctas = (num_correctas / total_empresas) * 100
    
    # Imprime los resultados
    print(f"URLs correctas encontradas: {num_correctas} de {total_empresas}")
    print(f"Porcentaje de éxito en la búsqueda: {porcentaje_correctas:.2f}%\n")
    
    # Muestra una tabla con los recuentos de cada estado
    print("Desglose por estado de la búsqueda:")
    conteo_estados = df_urls['ESTADO'].value_counts(dropna=False)
    print(conteo_estados)

except FileNotFoundError:
    print(f"Error: El archivo '{ruta_urls}' no se encontró.")
except Exception as e:
    print(f"Ocurrió un error al leer el archivo de URLs: {e}")

print("\n" + "="*50 + "\n")

# --- Análisis de Datos de Contacto ---

print("--- ANALIZANDO DATOS DE CONTACTO ---")

# Ruta del archivo de contacto
ruta_contacto = "contacto.csv"

try:
    # Lee el archivo CSV de contacto y lo carga en un DataFrame
    df_contacto = pd.read_csv(ruta_contacto)

    # Define las columnas que quieres analizar
    columnas_a_analizar = ["direccion", "telefono", "email"]
    
    # Cuenta las coincidencias y el porcentaje para cada columna
    total_registros_contacto = len(df_contacto)

    for columna in columnas_a_analizar:
        # Reemplaza los valores que indican error/no-encontrado con NaN
        df_contacto[columna].replace(["No encontrado", ""], pd.NA, inplace=True)
        
        # Cuenta las celdas que no son nulas
        coincidencias = df_contacto[columna].count()
        
        # Calcula el porcentaje de coincidencias
        porcentaje = (coincidencias / total_registros_contacto) * 100
        
        # Imprime los resultados
        print(f"Estadísticas para la columna '{columna}':")
        print(f"  - Cantidad de coincidencias: {coincidencias} de {total_registros_contacto}")
        print(f"  - Porcentaje de coincidencia: {porcentaje:.2f}%\n")

except FileNotFoundError:
    print(f"Error: El archivo '{ruta_contacto}' no se encontró.")
except Exception as e:
    print(f"Ocurrió un error al leer el archivo de contacto: {e}")

--- ANALIZANDO ESTADO DE LAS URLs ---
Total de empresas procesadas: 100

URLs correctas encontradas: 100 de 100
Porcentaje de éxito en la búsqueda: 100.00%

Desglose por estado de la búsqueda:
ESTADO
Dominio válido    100
Name: count, dtype: int64


--- ANALIZANDO DATOS DE CONTACTO ---
Estadísticas para la columna 'direccion':
  - Cantidad de coincidencias: 6 de 100
  - Porcentaje de coincidencia: 6.00%

Estadísticas para la columna 'telefono':
  - Cantidad de coincidencias: 69 de 100
  - Porcentaje de coincidencia: 69.00%

Estadísticas para la columna 'email':
  - Cantidad de coincidencias: 54 de 100
  - Porcentaje de coincidencia: 54.00%



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_contacto[columna].replace(["No encontrado", ""], pd.NA, inplace=True)
