# Limpieza de la dataset de criptomonedas

In [86]:
import pandas as pd
import numpy as np

df = pd.read_csv('data_criptomonedas.csv')

In [87]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2950 entries, 0 to 2949
Data columns (total 21 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   id                                2950 non-null   int64  
 1   name                              2950 non-null   object 
 2   symbol                            2950 non-null   object 
 3   slug                              2950 non-null   object 
 4   num_market_pairs                  2950 non-null   int64  
 5   date_added                        2950 non-null   object 
 6   tags                              2950 non-null   object 
 7   max_supply                        2480 non-null   float64
 8   circulating_supply                2950 non-null   float64
 9   total_supply                      2950 non-null   float64
 10  platform                          2848 non-null   object 
 11  is_active                         2950 non-null   int64  
 12  infini

In [88]:
# Verificar duplicados
duplicates = df.duplicated().sum()
print("Numero de filas duplicadas:", duplicates)

Numero de filas duplicadas: 263


In [89]:
df = df.drop_duplicates()

In [90]:
duplicates = df.duplicated().sum()
print("Numero de filas duplicadas:", duplicates)

Numero de filas duplicadas: 0


In [91]:
valores_nulos_por_columna = df.isnull().sum()
print("Valores nulos por columna:\n", valores_nulos_por_columna)

Valores nulos por columna:
 id                                     0
name                                   0
symbol                                 0
slug                                   0
num_market_pairs                       0
date_added                             0
tags                                   0
max_supply                           425
circulating_supply                     0
total_supply                           0
platform                              94
is_active                              0
infinite_supply                        0
cmc_rank                             933
is_fiat                                0
self_reported_circulating_supply     528
self_reported_market_cap             528
tvl_ratio                           2686
last_updated                           0
quote                                  0
Category Name                          0
dtype: int64


In [92]:
#Al ver que la columna tvl_ratio esta practicamente vacia, la dropeamos
df = df.drop(columns=['tvl_ratio'])

In [93]:
#En el caso de self_reported_circulating_supply y self_reported_market_cap al ser una gran cantidad de datos los reemplazamos
promedio_market_cap = df['self_reported_market_cap'].mean()
promedio_circulating_supply = df['self_reported_circulating_supply'].mean()

# Llenar los valores faltantes con los promedios
df['self_reported_market_cap'].fillna(promedio_market_cap, inplace=True)
df['self_reported_circulating_supply'].fillna(promedio_circulating_supply, inplace=True)

In [94]:
#Para el caso de las columnas max_supply y platform se decidio ponerles valor 0 
#por lo que representa esta falta de datos
df['max_supply'].fillna(0, inplace=True)
df['platform'].fillna(0, inplace=True)
#De forma similar para cmc_rank, ya que estos representan los ultimos lugares
df['cmc_rank'].fillna(0, inplace=True)

In [95]:
#Verificamos que no queden datos vacios
valores_nulos_por_columna = df.isnull().sum()
print("Valores nulos por columna:\n", valores_nulos_por_columna)

Valores nulos por columna:
 id                                  0
name                                0
symbol                              0
slug                                0
num_market_pairs                    0
date_added                          0
tags                                0
max_supply                          0
circulating_supply                  0
total_supply                        0
platform                            0
is_active                           0
infinite_supply                     0
cmc_rank                            0
is_fiat                             0
self_reported_circulating_supply    0
self_reported_market_cap            0
last_updated                        0
quote                               0
Category Name                       0
dtype: int64


In [96]:
#Verificamos duplicados en columnas unicas

# Verificar duplicados en la columna 'id'
duplicados_id = df[df.duplicated(['id'], keep=False)]
print("Duplicados en la columna 'id':")
print(duplicados_id.shape)

# Verificar duplicados en la columna 'name'
duplicados_name = df[df.duplicated(['name'], keep=False)]
print("Duplicados en la columna 'name':")
print(duplicados_name.shape)

# Verificar duplicados en la columna 'symbol'
duplicados_symbol = df[df.duplicated(['symbol'], keep=False)]
print("Duplicados en la columna 'symbol':")
print(duplicados_symbol.shape)

Duplicados en la columna 'id':
(404, 20)
Duplicados en la columna 'name':
(488, 20)
Duplicados en la columna 'symbol':
(806, 20)


In [97]:
#Para estar seguros que no pertenecientes a diferentes categorias tambien los filtraremos con esa variable

# Verificar duplicados en la columna 'id' y 'Category Name'
duplicados_id_categoria = df[df.duplicated(['id', 'Category Name'], keep=False)]
print("Duplicados en la columna 'id' y 'Category Name':")
print(duplicados_id_categoria.shape)

# Verificar duplicados en la columna 'name' y 'Category Name'
duplicados_name_categoria = df[df.duplicated(['name', 'Category Name'], keep=False)]
print("Duplicados en la columna 'name' y 'Category Name':")
print(duplicados_name_categoria.shape)

# Verificar duplicados en la columna 'symbol' y 'Category Name'
duplicados_symbol_categoria = df[df.duplicated(['symbol', 'Category Name'], keep=False)]
print("Duplicados en la columna 'symbol' y 'Category Name':")
print(duplicados_symbol_categoria.shape)

Duplicados en la columna 'id' y 'Category Name':
(311, 20)
Duplicados en la columna 'name' y 'Category Name':
(395, 20)
Duplicados en la columna 'symbol' y 'Category Name':
(667, 20)


In [98]:
# Finalmente borramos los registros duplicados

# Eliminar duplicados en la columna 'id' y 'Category Name'
df = df.drop_duplicates(['id', 'Category Name'], keep='first')

# Eliminar duplicados en la columna 'name' y 'Category Name'
df = df.drop_duplicates(['name', 'Category Name'], keep='first')

# Eliminar duplicados en la columna 'symbol' y 'Category Name'
df = df.drop_duplicates(['symbol', 'Category Name'], keep='first')

In [99]:
#Verificamos ahora que no queden valores duplicados

duplicados_id_categoria = df[df.duplicated(['id', 'Category Name'], keep=False)]
print("Duplicados en la columna 'id' y 'Category Name':")
print(duplicados_id_categoria.shape)
duplicados_name_categoria = df[df.duplicated(['name', 'Category Name'], keep=False)]
print("Duplicados en la columna 'name' y 'Category Name':")
print(duplicados_name_categoria.shape)
duplicados_symbol_categoria = df[df.duplicated(['symbol', 'Category Name'], keep=False)]
print("Duplicados en la columna 'symbol' y 'Category Name':")
print(duplicados_symbol_categoria.shape)

Duplicados en la columna 'id' y 'Category Name':
(0, 20)
Duplicados en la columna 'name' y 'Category Name':
(0, 20)
Duplicados en la columna 'symbol' y 'Category Name':
(0, 20)


In [100]:
# Verificar si 'circulating_supply' es menor o igual que 'total_supply'
inconsistencias = df[df['circulating_supply'] > df['total_supply']]
print("Filas con 'circulating_supply' mayor que 'total_supply':")
print(inconsistencias.shape)

Filas con 'circulating_supply' mayor que 'total_supply':
(0, 20)


In [109]:
# Identificar valores anómalos en la columna 'self_reported_market_cap'
media_market_cap = df['self_reported_market_cap'].mean()
desviacion_estandar_market_cap = df['self_reported_market_cap'].std()

# Definir límites para identificar valores anómalos (por ejemplo, +/- 3 desviaciones estándar de la media)
limite_superior = media_market_cap + 3 * desviacion_estandar_market_cap
limite_inferior = media_market_cap - 3 * desviacion_estandar_market_cap

#filtrando el valor anomalo
df_filtrado = df[(df['self_reported_market_cap'] <= limite_superior) & (df['self_reported_market_cap'] >= limite_inferior)]
print(df.shape)
print(df_filtrado.shape)


(2273, 20)
(2272, 20)


In [108]:
#Guardando el nuevo data set

df.to_csv('data_criptomonedas_limpio.csv')

# Limpieza de la dataset de exchanges

In [110]:
df = pd.read_csv('exchanges.csv')

In [111]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 12 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   id                               100 non-null    object 
 1   name                             100 non-null    object 
 2   year_established                 81 non-null     float64
 3   country                          89 non-null     object 
 4   description                      34 non-null     object 
 5   url                              100 non-null    object 
 6   image                            100 non-null    object 
 7   has_trading_incentive            98 non-null     object 
 8   trust_score                      100 non-null    int64  
 9   trust_score_rank                 100 non-null    int64  
 10  trade_volume_24h_btc             100 non-null    float64
 11  trade_volume_24h_btc_normalized  100 non-null    float64
dtypes: float64(3), int64(2)

In [112]:
# Verificar duplicados
duplicates = df.duplicated().sum()
print("Numero de filas duplicadas:", duplicates)

Numero de filas duplicadas: 0


In [113]:
#Verificar valores faltantes
valores_nulos_por_columna = df.isnull().sum()
print("Valores nulos por columna:\n", valores_nulos_por_columna)

Valores nulos por columna:
 id                                  0
name                                0
year_established                   19
country                            11
description                        66
url                                 0
image                               0
has_trading_incentive               2
trust_score                         0
trust_score_rank                    0
trade_volume_24h_btc                0
trade_volume_24h_btc_normalized     0
dtype: int64


In [116]:
#Empezamos a completar los valores faltantes

# Calcular el promedio de los valores existentes en la columna 'year_established'
promedio_year_established = df['year_established'].mean()

# Llenar los valores faltantes en la columna 'year_established' con el promedio
df['year_established'].fillna(promedio_year_established, inplace=True)

In [117]:
# Calcular la moda de la columna 'country'
moda_country = df['country'].mode()[0]

# Llenar los valores faltantes en la columna 'country' con la moda
df['country'].fillna(moda_country, inplace=True)

In [118]:
# Calcular la moda de la columna 'has_trading_incentive'
moda_has_trading_incentive = df['has_trading_incentive'].mode()[0]

# Llenar los valores faltantes en la columna 'has_trading_incentive' con la moda
df['has_trading_incentive'].fillna(moda_has_trading_incentive, inplace=True)

In [119]:
#Verificamos valores faltantes nuevamente
#en el caso de las descripciones no lo tomamos en cuenta
valores_nulos_por_columna = df.isnull().sum()
print("Valores nulos por columna:\n", valores_nulos_por_columna)

Valores nulos por columna:
 id                                  0
name                                0
year_established                    0
country                             0
description                        66
url                                 0
image                               0
has_trading_incentive               0
trust_score                         0
trust_score_rank                    0
trade_volume_24h_btc                0
trade_volume_24h_btc_normalized     0
dtype: int64


In [124]:
#Verificamos valores unicos por columna, tomando en cuenta sobretodo id, y name
print(df.shape)
for columna in df.columns:
    cantidad_valores_unicos = df[columna].nunique()
    print(f"Cantidad de valores únicos en la columna '{columna}': {cantidad_valores_unicos}")

(100, 12)
Cantidad de valores únicos en la columna 'id': 100
Cantidad de valores únicos en la columna 'name': 100
Cantidad de valores únicos en la columna 'year_established': 14
Cantidad de valores únicos en la columna 'country': 31
Cantidad de valores únicos en la columna 'description': 34
Cantidad de valores únicos en la columna 'url': 95
Cantidad de valores únicos en la columna 'image': 100
Cantidad de valores únicos en la columna 'has_trading_incentive': 1
Cantidad de valores únicos en la columna 'trust_score': 6
Cantidad de valores únicos en la columna 'trust_score_rank': 100
Cantidad de valores únicos en la columna 'trade_volume_24h_btc': 100
Cantidad de valores únicos en la columna 'trade_volume_24h_btc_normalized': 100


In [126]:
#Guardando el nuevo data set

df.to_csv('exchanges_limpio.csv')