# <font color='2b6fa8ff'>**Extracción de la Información**</font>


## <font color='2b6fa8ff'>**Librerías**</font>

In [30]:
import pandas as pd
import requests
import logging

## <font color='2b6fa8ff'>**Helpers**</font>

In [56]:
def create_logger():
  '''
  Crea la base de logging.

  Args:
  -----
      None

  Returns:
  --------
      None

  Examples:
  ---------
      >>> create_logger()
  '''
  logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
  )
  logger = logging.getLogger("Logger")
  logger.info("Logger creado")
  return logger

In [57]:
# Función de consumo a la base de datos de Firebase para cargar el DataSet
def download_firebase(url,logger):
  '''
    Extrae la base de datos que fue previamente almacenada en Firebase en un CSV para facilitar su acceso

    Args:
    -----
        url : str
              URL de acceso público al CSV que contiene la información.

    Returns:
    --------
        pandas df
               Dataframe con la información extraída.

    Examples:
    ---------
        >>> download_firebase(url)
  '''
  logger.info("Extrayendo el archivo desde Firebase")
  df = None
  try:
    df = pd.read_csv(url)
    logger.info("Archivo cargado")
  except requests.exceptions.RequestException as e:
    logger.error(f"Error al descargar el archivo CSV: {e}")
  except pd.errors.EmptyDataError:
    logger.error("El archivo CSV está vacío.")
  except Exception as e:
    logger.error(f"Ocurrió un error inesperado: {e}")
  return df

## <font color='2b6fa8ff'>**Script**</font>

In [58]:
logger = create_logger()

In [60]:
url ='https://firebasestorage.googleapis.com/v0/b/personalwp-8822c.appspot.com/o/diabetes_prediction_dataset.csv?alt=media&token=4d70d154-c3d0-4fa0-a3aa-9b9972dd3b95'
df = download_firebase(url,logger)

In [62]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 9 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   gender               100000 non-null  object 
 1   age                  100000 non-null  float64
 2   hypertension         100000 non-null  int64  
 3   heart_disease        100000 non-null  int64  
 4   smoking_history      100000 non-null  object 
 5   bmi                  100000 non-null  float64
 6   HbA1c_level          100000 non-null  float64
 7   blood_glucose_level  100000 non-null  int64  
 8   diabetes             100000 non-null  int64  
dtypes: float64(3), int64(4), object(2)
memory usage: 6.9+ MB
