In [20]:
import pandas as pd
import numpy as np
import networkx as nx 
import matplotlib.pyplot as plt
import operator
import itertools
import datetime
import os

In [21]:
df_totales = []

for year in range(2002, 2022):
    file = f'totales_{year}.csv'
    df = pd.read_csv(file)
    df['Quantity'] = pd.to_numeric(df['Quantity'], errors='coerce').fillna(0)
    df_totales.append(df)

# Aplicar la operación a todos los DataFrames en df_totales
for df in df_totales:
    df['Value'] = pd.to_numeric(df['Value'], errors='coerce').fillna(0)

# Imprimir los DataFrames modificados
for df in df_totales:
    print(df)


         Year  Exporter  Importer  Product category     Value  Quantity
0        2002         4        12             20230  2270.583   872.973
1        2002         4        12             80232     4.732     6.560
2        2002         4        12            121110     0.547     3.706
3        2002         4        12            121190     2.870     9.400
4        2002         4        12            130212     1.155     3.910
...       ...       ...       ...               ...       ...       ...
6640457  2002       894       842            970300   155.008     6.773
6640458  2002       894       842            970600     0.500     0.200
6640459  2002       894       891             10690     0.196     0.036
6640460  2002       894       891            100510     0.114     0.784
6640461  2002       894       891            630900     0.655     0.130

[6640462 rows x 6 columns]
         Year  Exporter  Importer  Product category   Value  Quantity
0        2003         4        12     

The code above is a Python script that reads multiple CSV files and modifies their contents. The script starts by creating an empty list called `df_totales` to store the DataFrames that will be read from the CSV files. 

Next, the script enters a `for` loop that iterates over a range of years from 2002 to 2022. Inside the loop, the script creates a string variable called `file` that contains the name of the CSV file to be read. The `pd.read_csv()` function is then called to read the CSV file into a DataFrame object called `df`. 

The script then applies a transformation to the `Quantity` column of the DataFrame using the `pd.to_numeric()` function to convert the column to a numeric data type. The `errors='coerce'` parameter is used to convert any non-numeric values to `NaN` values. The `fillna(0)` method is then called to replace any `NaN` values with `0`. The modified DataFrame is then appended to the `df_totales` list.

After all the CSV files have been read and modified, the script enters another `for` loop that iterates over each DataFrame in the `df_totales` list. Inside the loop, the script applies a similar transformation to the `Value` column of the DataFrame. The modified DataFrame is then printed to the console.

In summary, this script reads multiple CSV files, converts certain columns to numeric data types, and prints the modified DataFrames to the console. The script uses the Pandas library to read and manipulate the CSV files. 

To improve the readability of the code, the script could use more descriptive variable names. Additionally, the script could benefit from comments that explain the purpose of each section of code. Finally, the script could be optimized for performance by using the `dtype` parameter of the `pd.read_csv()` function to specify the data types of each column, rather than converting the columns after they have been read into DataFrames.

In [22]:
for df in df_totales:
    # Asegúrate de que las columnas Quantity y Value sean de tipo flotante
    df['Quantity'] = df['Quantity'].astype(float)
    df['Value'] = df['Value'].astype(float)
    
    # Calcula la columna 'razón' como Quantity / Value
    df['ratio'] = df['Quantity'] / df['Value']

# Ahora cada DataFrame en tu lista tiene una nueva columna llamada 'razón'

In [40]:
import networkx as nx

# Crear una lista de grafos dirigidos
grafo_lista_ratio_nn = [nx.DiGraph() for _ in range(2002, 2022)]

# Iterar a través de los DataFrames en df_totales y los grafos en lista_grafos
for df, G_dirigido in zip(df_totales, grafo_lista_ratio_nn):
    # Seleccionar columnas relevantes
    df_nx = df[['Exporter', 'Importer', 'ratio']]  # Seleccionar la columna 'ratio'

    # Crear una función para agregar los bordes al grafo
    def add_edge(row):
        exporter = row['Exporter']
        importer = row['Importer']
        value = row['ratio']  # Use the value as is, without normalization
        G_dirigido.add_edge(exporter, importer, weight=value)

    # Aplicar la función a cada fila del DataFrame
    df_nx.apply(add_edge, axis=1)
    
    # Imprimir mensaje de aviso cuando se ha creado y procesado el grafo
    print(f"Grafo procesado.")
    print(f"Número de nodos: {len(G_dirigido.nodes)}")
    print(f"Número de bordes: {len(G_dirigido.edges)}")

Grafo procesado.
Número de nodos: 222
Número de bordes: 20873
Grafo procesado.
Número de nodos: 222
Número de bordes: 23381
Grafo procesado.
Número de nodos: 222
Número de bordes: 25572
Grafo procesado.
Número de nodos: 222
Número de bordes: 27011
Grafo procesado.
Número de nodos: 223
Número de bordes: 28388
Grafo procesado.
Número de nodos: 223
Número de bordes: 29188
Grafo procesado.
Número de nodos: 223
Número de bordes: 29804
Grafo procesado.
Número de nodos: 223
Número de bordes: 30036
Grafo procesado.
Número de nodos: 224
Número de bordes: 30548
Grafo procesado.
Número de nodos: 226
Número de bordes: 30974
Grafo procesado.
Número de nodos: 226
Número de bordes: 31181
Grafo procesado.
Número de nodos: 227
Número de bordes: 31644
Grafo procesado.
Número de nodos: 226
Número de bordes: 31268
Grafo procesado.
Número de nodos: 226
Número de bordes: 31752
Grafo procesado.
Número de nodos: 226
Número de bordes: 31979
Grafo procesado.
Número de nodos: 226
Número de bordes: 32179
Grafo pr

In [44]:
import networkx as nx

# Crear una lista de tuplas (año, grafo dirigido)
grafo_lista_value_nn = [nx.DiGraph() for _ in range(2002, 2022)]

# Iterar a través de los DataFrames en df_totales y los grafos en grafo_lista_ratio_nn
for  df, G_dirigido in zip(df_totales, grafo_lista_value_nn):
    # Seleccionar columnas relevantes
    df_nx = df[['Exporter', 'Importer', 'Value']]  # Seleccionar la columna 'ratio'

    # Crear una función para agregar los bordes al grafo
    def add_edge(row):
        exporter = row['Exporter']
        importer = row['Importer']
        value = row['Value']  # Use the value as is, without normalization
        G_dirigido.add_edge(exporter, importer, weight=value)

    # Aplicar la función a cada fila del DataFrame
    df_nx.apply(add_edge, axis=1)
    
    # Imprimir mensaje de aviso cuando se ha creado y procesado el grafo
    print(f"Grafo para el año con 'Value procesado.")
   # print(f"Año {year}:")       
    print(f"Número de nodos: {len(G_dirigido.nodes)}")
    print(f"Número de bordes: {len(G_dirigido.edges)}")

Grafo para el año con 'Value procesado.
Número de nodos: 222
Número de bordes: 20873
Grafo para el año con 'Value procesado.
Número de nodos: 222
Número de bordes: 23381
Grafo para el año con 'Value procesado.
Número de nodos: 222
Número de bordes: 25572
Grafo para el año con 'Value procesado.
Número de nodos: 222
Número de bordes: 27011
Grafo para el año con 'Value procesado.
Número de nodos: 223
Número de bordes: 28388
Grafo para el año con 'Value procesado.
Número de nodos: 223
Número de bordes: 29188
Grafo para el año con 'Value procesado.
Número de nodos: 223
Número de bordes: 29804
Grafo para el año con 'Value procesado.
Número de nodos: 223
Número de bordes: 30036
Grafo para el año con 'Value procesado.
Número de nodos: 224
Número de bordes: 30548
Grafo para el año con 'Value procesado.
Número de nodos: 226
Número de bordes: 30974
Grafo para el año con 'Value procesado.
Número de nodos: 226
Número de bordes: 31181
Grafo para el año con 'Value procesado.
Número de nodos: 227
Núme

In [45]:
import networkx as nx

# Crear una lista de tuplas (año, grafo dirigido)

grafo_lista_Quantity_nn = [nx.DiGraph() for _ in range(2002, 2022)]


# Iterar a través de los DataFrames en df_totales y los grafos en grafo_lista_ratio_nn
for df, G_dirigido in zip(df_totales, grafo_lista_Quantity_nn):
    # Seleccionar columnas relevantes
    df_nx = df[['Exporter', 'Importer', 'Quantity']]  # Seleccionar la columna 'ratio'

    # Crear una función para agregar los bordes al grafo
    def add_edge(row):
        exporter = row['Exporter']
        importer = row['Importer']
        value = row['Quantity']  # Use the value as is, without normalization
        G_dirigido.add_edge(exporter, importer, weight=value)

    # Aplicar la función a cada fila del DataFrame
    df_nx.apply(add_edge, axis=1)
    
    # Imprimir mensaje de aviso cuando se ha creado y procesado el grafo
    print(f"Grafo para el año  con 'Quantity' procesado.")
    #print(f"Año {year}:")       
    print(f"Número de nodos: {len(G_dirigido.nodes)}")
    print(f"Número de bordes: {len(G_dirigido.edges)}")

Grafo para el año  con 'Quantity' procesado.
Número de nodos: 222
Número de bordes: 20873
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 222
Número de bordes: 23381
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 222
Número de bordes: 25572
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 222
Número de bordes: 27011
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 223
Número de bordes: 28388
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 223
Número de bordes: 29188
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 223
Número de bordes: 29804
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 223
Número de bordes: 30036
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 224
Número de bordes: 30548
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 226
Número de bordes: 30974
Grafo para el año  con 'Quantity' procesado.
Número de nodos: 226
Número de bordes: 31181
Grafo para

In [None]:
grafo_lista_Quantity_nn[0].nodes

2002

In [None]:
# Iterar a través de los grafos dirigidos en la lista
for year, G_dirigido in grafo_lista_value_nn:
    # Imprimir el número de nodos del grafo dirigido
    print(f"El grafo dirigido del año {year} tiene {len(G_dirigido.nodes)} nodos.")

El grafo dirigido del año 2002 tiene 222 nodos.
El grafo dirigido del año 2003 tiene 222 nodos.
El grafo dirigido del año 2004 tiene 222 nodos.
El grafo dirigido del año 2005 tiene 222 nodos.
El grafo dirigido del año 2006 tiene 223 nodos.
El grafo dirigido del año 2007 tiene 223 nodos.
El grafo dirigido del año 2008 tiene 223 nodos.
El grafo dirigido del año 2009 tiene 223 nodos.
El grafo dirigido del año 2010 tiene 224 nodos.
El grafo dirigido del año 2011 tiene 226 nodos.
El grafo dirigido del año 2012 tiene 226 nodos.
El grafo dirigido del año 2013 tiene 227 nodos.
El grafo dirigido del año 2014 tiene 226 nodos.
El grafo dirigido del año 2015 tiene 226 nodos.
El grafo dirigido del año 2016 tiene 226 nodos.
El grafo dirigido del año 2017 tiene 226 nodos.
El grafo dirigido del año 2018 tiene 227 nodos.
El grafo dirigido del año 2019 tiene 226 nodos.
El grafo dirigido del año 2020 tiene 226 nodos.
El grafo dirigido del año 2021 tiene 226 nodos.
El grafo dirigido del año 2022 tiene 0 n

In [None]:
len(grafo_lista_value_nn[0])
print(len(grafo_lista_value_nn))
print(len(grafo_lista_ratio_nn))
print(len(grafo_lista_Quantity_nn))

20
20
20


In [None]:
for grafo in grafo_lista_value_nn:
    print(len(grafo[1].nodes))
print(len(grafo_lista_value_nn))

222
222
222
222
223
223
223
223
224
226
226
227
226
226
226
226
227
226
226
226
20


In [None]:
for G, _ in grafo_lista_value_nn:
    print(type(G))


<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>
<class 'int'>


In [None]:
sumas = [df['Value'].sum() for df in df_totales]

# Crea un nuevo DataFrame llamado df_totales con las sumas
value_suma = pd.DataFrame({'Suma Total': sumas})

# df_totales contendrá las sumas totales para cada DataFrame en la lista
print(value_suma)

suma2= [df['Quantity'].sum() for df in df_totales]
Quantity_suma = pd.DataFrame({'Suma Total': suma2})
print(Quantity_suma)

In [None]:

# Create a list of your graphs (replace this with your actual list)
 # Replace with your graphs

for idx, G in enumerate(grafo_lista_value_nn):
    edge_weights = [data['weight'] for _, _, data in G.edges(data=True)]
    edge_weights.sort()  # Sort the edge weights
    num_edges = len(edge_weights)
    cumulative_weights = [sum(edge_weights[:i + 1]) for i in range(num_edges)]

    # Calculate the cumulative distribution
    cumulative_distribution = [x / cumulative_weights[-1] for x in cumulative_weights]

    # Plot the cumulative distribution
    plt.plot(edge_weights, cumulative_distribution, label=f'Graph {idx + 1}')

plt.xlabel('Edge Weights')
plt.ylabel('Cumulative Distribution')
plt.legend()
plt.grid()
plt.show()


In [None]:
import matplotlib.pyplot as plt
from collections import Counter

for idx, G in enumerate(grafo_lista_value_nn):
    edge_weights = [data['weight'] for _, _, data in G.edges(data=True)]

    # Calculate the PDF
    weights, pdf = zip(*sorted(Counter(edge_weights).items()))
    total = sum(pdf)
    pdf = [count / total for count in pdf]

    # Plot the PDF in semilogy
    plt.semilogy(weights, pdf, label=f'Graph {idx + 1}')

plt.xlabel('Edge Weights')
plt.ylabel('Probability Density')
plt.legend()
plt.grid()
plt.show()
