## **Monkey D. Luffy**

El presente jupiter notebook muestra el uso de las distintas funciones que contiene el script.py llamado **`'luffy'`**, sobre un set de datos que representa la información de FIDES. Estas son:
|**Funciones**|**Descripción**|
|:---:|---|
|import_df()   | Cargar datos desde un archivo CSV o Excel y devolver un DataFrame de pandas|
|describe_df() | Proporciona un resumen del DataFrame, incluida la forma, los tipos de datos, las estadísticas básicas, e información sobre valores nulos|
|detect_duplicates()| Detecta los registros duplicados en un dataframe, los almacena y muestra en pantalla|
|handle_null_values()|Permite manipular valores nulos en un DataFrame de pandas|
|convert_data_types()| Realiza múltiples conversiones de tipos de datos para columnas seleccionadas en un DataFrame|
|filter_df()   | Filtre un DataFrame en función de diferentes tipos de filtros para cadenas y columnas numéricas|
|groupby_df()  | Realiza operaciones y agrupación de datos en un Dataframe|
|export_df()   | Exporte un marco de datos de pandas a formato CSV o Excel|

### **1. Importación del set de datos**

En este caso se va a importar un dataframe cuyo path esta contenido en el *luffy* por lo que ejecutando la funcion `fides()` logramos importarlo sin necesidad de facilitar un path. De otro modo, se podria utilizar la función `import_df()`, facilitando el path del archivo a importar. En el caso de que el archivo a importar sea de tipo Excel con varias hojas, se podria indicar que hoja importar usando el parámetro *sheet_name* igualandolo al nombre de la hoja Excel. Por defecto, coge la primera si no se indica ninguna hoja.

In [11]:
df = lf.fides()

  fides = pd.read_csv(path)


### **2. Descripción del set de datos**

La función **`describe_df`** desempeña un papel fundamental en el proceso de descripción de un conjunto de datos. Esta es una etapa crucial en el análisis de datos, ya que proporciona una visión general y una comprensión de la información que contiene. Durante esta fase, se examina cuidadosamente la estructura del conjunto de datos, lo que incluye identificar los diferentes tipos de datos presentes, como numéricos, categóricos o de texto. Además, se realiza un análisis exhaustivo de los valores nulos y no nulos para evaluar la integridad de los datos y determinar si es necesario realizar imputaciones o tratamientos especiales para manejar dichos valores faltantes.

La identificación de valores únicos dentro del conjunto de datos también es esencial, ya que permite detectar patrones y entender mejor la variabilidad de los datos. Además, se calcula la dimensión del conjunto de datos, es decir, el número de filas y columnas, para tener una idea de la cantidad de información disponible y el tamaño de la muestra representativa.

En esta etapa, se calculan estadísticos básicos, como la media, mediana, desviación estándar y cuartiles, para obtener una visión más profunda de las características centrales y la dispersión de los datos. Estos estadísticos ayudan a resumir y describir las distribuciones de las variables numéricas presentes en el conjunto de datos, brindando información valiosa sobre tendencias y variaciones dentro de los datos.

In [28]:
lf.describe_df(df).head(10)

Unnamed: 0,Column,Data Type,Non-null Count,Null Count,Unique Values,Shape,mean,std,min,25%,50%,75%,max
0,Country,object,367798,0,1,"367798 rows, 20 columns",,,,,,,
1,Year,int64,367798,0,11,"367798 rows, 20 columns",2017.672146,2.798887,2012.0,2015.0,2018.0,2020.0,2022.0
2,Period,int64,367798,0,12,"367798 rows, 20 columns",6.378751,3.421124,1.0,3.0,6.0,9.0,12.0
3,Periodicity,object,367798,0,2,"367798 rows, 20 columns",,,,,,,
4,Regional Sp,object,52975,314823,96,"367798 rows, 20 columns",,,,,,,
5,Regional Area,object,52975,314823,137,"367798 rows, 20 columns",,,,,,,
6,FAO Sp,object,367798,0,4971,"367798 rows, 20 columns",,,,,,,
7,FAO Area,object,363932,3866,156,"367798 rows, 20 columns",,,,,,,
8,Stock,object,52975,314823,253,"367798 rows, 20 columns",,,,,,,
9,SW,object,364524,3274,54,"367798 rows, 20 columns",,,,,,,


### **3. Detección de duplicados del set de datos**

La función **`detect_duplicates`** es una herramienta valiosa para la limpieza y análisis de datos en Python. La detección de duplicados en un conjunto de datos es esencial para garantizar la calidad y la integridad de los resultados del análisis. Al eliminar duplicados, se puede evitar la redundancia en los datos y reducir la probabilidad de errores en los resultados.

In [15]:
lf.detect_duplicates(df)

Unnamed: 0,Country,Year,Period,Periodicity,Regional Sp,Regional Area,FAO Sp,FAO Area,Stock,SW,Catch Status,Landing Ind,Landing Pl,Vessel Cfr,Fishing cat,Gear,Number,Type,Weight(t),Weight(kg)


### **4. Manipulación de valores nulos**

La función **`handle_null_values`** es una herramienta versátil para manipular valores nulos en un DataFrame de pandas. Permite a los usuarios:

- Examinar valores nulos: obtenga filas con valores nulos en una columna específica.
- Rellenar valores nulos: imputar valores nulos con un valor definido por el usuario, evitando duplicados.
  
Su flexibilidad y manejo de errores lo hacen adecuado para el preprocesamiento de datos, asegurando la integridad de los datos en varios análisis y tareas de modelado.


In [12]:
# Muestra los registros con valores nulos en la columna 'FAO Sp'
null_records_df = lf.handle_null_values(df, 'FAO Sp')
print("Registros con valores nulos:")
print(null_records_df)

# Rellenar los valores nulos con un valor de relleno (e.g., 'Unknown')
lf.handle_null_values(df, 'FAO Sp', fill_value='Unknown')

284

### **5. Conversión de tipos de datos**

La función **`convert_data_types`** realiza múltiples conversiones de tipos de datos para columnas seleccionadas en un DataFrame de pandas. 

Toma el DataFrame y los nombres de las columnas como claves en un diccionario junto a los tipos de datos deseados como valores. La función maneja automáticamente las conversiones utilizando el método *astype()*, lo que la convierte en una herramienta concisa y eficiente para las tareas de preprocesamiento de datos. También incluye una verificación de errores para garantizar que todos los nombres de columna especificados existan en el DataFrame, generando un *ColumnNotFoundError* si falta alguna columna.

In [24]:
lf.convert_data_types(df, 
                   {'Year' : object,
                    'Periodicity' : str
                   })

Unnamed: 0,Country,Year,Period,Periodicity,Regional Sp,Regional Area,FAO Sp,FAO Area,Stock,SW,Catch Status,Landing Ind,Landing Pl,Vessel Cfr,Fishing cat,Gear,Number,Type,Weight(t),Weight(kg)
0,ESP,2012,4,Quarterly,,,AAA,37.1.1,,XEU,,,ESP,,,,,CR-NQ,0.060,60.0
1,ESP,2012,4,Quarterly,,,AAA,27.9.a,,XEU,,,ESP,,,,,CR-NQ,0.010,10.0
2,ESP,2012,2,Quarterly,,,AAB,21.6.C,,XIN,,,ESP,,,,,CR-NQ,10.000,10000.0
3,ESP,2012,4,Quarterly,,,AAB,27.8.c,,XEU,,,ESP,,,,,CR-NQ,0.004,4.0
4,ESP,2012,4,Quarterly,,,AAB,37.1.1,,XEU,,,ESP,,,,,CR-NQ,0.229,229.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
367793,ESP,2022,12,Monthly,EFF2,MED1_TR2,Unknown,,EFF2/MED1_TR2,,,,,,,,85.5,ACDR-EFFORT,0.000,0.0
367794,ESP,2022,12,Monthly,EFF1,MED1_TR4,Unknown,,EFF1/MED1_TR4,,,,,,,,1204.0,ACDR-EFFORT,0.000,0.0
367795,ESP,2022,12,Monthly,EFF2,MED1_TR3,Unknown,,EFF2/MED1_TR3,,,,,,,,1003.5,ACDR-EFFORT,0.000,0.0
367796,ESP,2022,12,Monthly,EFF1,MED1_TR3,Unknown,,EFF1/MED1_TR3,,,,,,,,3813.5,ACDR-EFFORT,0.000,0.0


In [25]:
lf.convert_data_types(df, 
                   {'Year' : object,
                    'Periodicity' : str,
                    'Pepe' : int 
                   })

ColumnNotFoundError: Column 'Pepe' does not exist in the DataFrame.

### **6. Filtrado del set de datos**

La función **`filter_df`** desempeña un papel fundamental en el proceso de filtrado y manipulación de datos en un DataFrame. La importancia de esta función radica en su capacidad para realizar filtros personalizados y específicos, tanto para columnas de tipo cadena como para columnas numéricas, lo que permite una exploración más profunda y significativa de los datos.

El filtrado de datos es esencial para extraer la información relevante de un conjunto de datos, ya que nos permite seleccionar y trabajar únicamente con los datos que cumplen con ciertos criterios específicos. Al utilizar filtros basados en valores de búsqueda, como *"contains"*, *"start_with"* o *"end_with"* para columnas de tipo cadena, podemos identificar y aislar registros que contengan información relevante para nuestro análisis.

Por otro lado, al aplicar filtros para columnas numéricas, como *"equals"*, *"not_equals"*, *"greater_than"* o *"less_than"*, podemos segmentar y comparar diferentes segmentos de datos, lo que es valioso para la realización de análisis comparativos y la identificación de tendencias o patrones dentro de los datos numéricos.

La manipulación de datos realizada por esta función permite obtener un DataFrame filtrado, lo que a su vez simplifica la realización de análisis posteriores y la generación de informes más precisos y específicos.


In [166]:
df_filtered = lf.filter_df(df, {
    'FAO Sp' : ('start_with', 'U'),
    'Weight(kg)' : {'greater_than' : 50, 'less_than' : 100}
})

### **7. Operaciones y agrupación del set de datos**

La función **`groupby_df`** juega un papel vital en el análisis de datos al permitir la agrupación de datos y realizar operaciones específicas en un DataFrame. Su importancia radica en su capacidad para agrupar datos en función de columnas seleccionadas y aplicar varias operaciones, lo que proporciona información valiosa sobre la estructura y las relaciones de los datos.

La agrupación de datos es crucial para obtener una comprensión más profunda de los datos mediante la agregación de registros en función de criterios específicos. Al especificar *groupby_cols*, los usuarios pueden segmentar los datos en subconjuntos que comparten características comunes, lo que permite un análisis detallado de estos subconjuntos.

El parámetro *operation_choices* proporciona flexibilidad para realizar operaciones en diferentes columnas dentro de los datos agrupados. Esto permite a los usuarios calcular varias estadísticas, como *sum*, *mean*, *count* y más, para resumir y analizar los datos según sus requisitos específicos.

La salida de la función, un DataFrame de pandas con los resultados agrupados y agregados, simplifica el análisis posterior al presentar los datos en un formato estructurado. Además, restablecer el índice permite convertir las columnas agrupadas en columnas regulares, lo que facilita la interpretación y manipulación de los datos.


In [172]:
grouped_levels = ['Year', 'Period', 'FAO Sp']
operations_levels = {'Weight(t)' : 'sum'}

df_g = lf.groupby_df(
    df_filtered,
    grouped_levels,
    operations_levels
)

### **8. Exportación del set de datos**

La función **`export_df`** es esencial para el análisis de datos, lo que permite a los usuarios exportar marcos de datos de pandas a formatos CSV o Excel con facilidad. Ofrece flexibilidad a través de parámetros opcionales como file_type, sheet_name, index y append_to_excel. El formato CSV es adecuado para compartir datos ligeros y ampliamente admitidos, mientras que el formato Excel permite conjuntos de datos complejos con varias hojas. La opción de incluir o excluir el índice, junto con agregar DataFrames como hojas nuevas en archivos de Excel existentes, mejora la organización y administración de datos.


In [175]:
lf.export_df(df_g,
                r'C:\Users\jubeda2\Desktop\tina.xlsx',
                file_type = 'excel',
                sheet_name='PEPI')

DataFrame exportado a Excel con éxito.


In [177]:
lf.export_df(df_filtered,
                    r'C:\Users\jubeda2\Desktop\tina.xlsx',
                    file_type = 'excel',
                    sheet_name='IPEP',
                    append_to_excel = True)



DataFrame incluido como una nueva Hoja en el archivo Excel existence: C:\Users\jubeda2\Desktop\tina.xlsx
