 # **<font color="DarkBlue">Ingesta de datos, almacenamiento y formatos de archivos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Definiciones</font>**

<p align="justify"> 🚀 La <b>ingesta de datos</b> es el primer paso en el análisis de datos, donde se capturan datos desde diferentes fuentes para ser procesados y analizados. En el contexto de negocios, es común obtener datos desde archivos CSV, Excel, bases de datos o APIs. Pandas, junto con Google Colab, permite una ingesta rápida y eficiente, facilitando la manipulación de grandes volúmenes de información.



<p align="justify"> 🚀 El <b>almacenamiento</b> es crucial después de manipular o procesar los datos. Una vez que se han realizado cálculos o transformaciones en los datos, es necesario guardarlos en un formato adecuado para su consulta futura o para generar informes que apoyen las decisiones empresariales. Pandas permite almacenar los datos en diferentes formatos como CSV, Excel y JSON.



<p align="justify"> 🚀 El <b>formato de archivos</b> determina cómo los datos se guardan y cómo pueden ser compartidos o utilizados en diferentes sistemas. Los formatos más comunes incluyen CSV, Excel y JSON, cada uno adecuado para diferentes necesidades. CSV es ideal para grandes volúmenes de datos tabulares, Excel para informes más personalizados y JSON para intercambio de datos entre aplicaciones.



 # **<font color="DarkBlue">Ingesta de datos</font>**

In [None]:
import pandas as pd

 ## **<font color="DarkBlue">Lectura de una planilla Excel</font>**

<p align="justify">
La ingesta de datos de Excel suele utilizarse porque este formato es ampliamente utilizado para gestionar bases de datos, reportes financieros, listas de inventarios, entre otros usos que se pueden encontrar.
<br><br>
Pandas ofrece una forma eficiente de realizar la ingesta de datos desde una planilla Excel mediante el método <code>pd.read_excel()</code>. Este método permite cargar los datos de uno o más archivos Excel en un DataFrame, la estructura de datos tabular de Pandas que facilita la manipulación y análisis de información.
<br><br>
En el siguiente ejemplo, vamos a ingestar una planilla Excel que está alojada en GitHub.


In [None]:
provincia = pd.read_excel("https://github.com/cristiandarioortegayubro/BDS/blob/main/datasets/maestro-provincias.xlsx?raw=true")

<p align="justify"> 🤯 Para poder ingestar un archivo excel desde GitHub, al final del nombre del archivo debe agregarse <code>?raw=true</code>

In [None]:
provincia

Unnamed: 0,sucursales_provincia,provincia
0,AR-C,CABA
1,AR-B,Buenos Aires
2,AR-K,Catamarca
3,AR-H,Chaco
4,AR-U,Chubut
5,AR-X,Córdoba
6,AR-W,Corrientes
7,AR-E,Entre Ríos
8,AR-P,Formosa
9,AR-Y,Jujuy


 ## **<font color="DarkBlue">Lectura de un archivo CSV</font>**

In [None]:
comercio = pd.read_csv("https://github.com/cristiandarioortegayubro/BDS/blob/main/datasets/comercio.csv?raw=true", sep="|")

In [None]:
productos = pd.read_csv("https://github.com/cristiandarioortegayubro/BDS/blob/main/datasets/productos.csv?raw=true", sep="|")

In [None]:
sucursales = pd.read_csv("https://github.com/cristiandarioortegayubro/BDS/blob/main/datasets/sucursales.csv?raw=true", sep="|")

In [None]:
comercio

Unnamed: 0,id_comercio,id_bandera,comercio_cuit,comercio_razon_social,comercio_bandera_nombre,comercio_bandera_url,comercio_ultima_actualizacion,comercio_version_sepa
0,3,1.0,30516190000.0,DEHEZA S.A.I.C.F. e I.,DEHEZA S.A.I.C.F. e I.,,2024-10-01T16:00:02-03:00,1.0
1,Ultima actualizacion: 2024-10-01T16:00:01-03:00,,,,,,,


<p align="justify"> 👀 Ahora vamos a desactivar la notación científica en los datos numericos, para que el CUIT lo muestre como tiene que ser...


In [None]:
# Desactivar la notación científica para los números flotantes
pd.set_option('display.float_format', '{:.0f}'.format)

In [None]:
comercio

Unnamed: 0,id_comercio,id_bandera,comercio_cuit,comercio_razon_social,comercio_bandera_nombre,comercio_bandera_url,comercio_ultima_actualizacion,comercio_version_sepa
0,3,1.0,30516186670.0,DEHEZA S.A.I.C.F. e I.,DEHEZA S.A.I.C.F. e I.,,2024-10-01T16:00:02-03:00,1.0
1,Ultima actualizacion: 2024-10-01T16:00:01-03:00,,,,,,,


In [None]:
productos.head()

Unnamed: 0,id_comercio,id_bandera,id_sucursal,id_producto,productos_ean,productos_descripcion,productos_cantidad_presentacion,productos_unidad_medida_presentacion,productos_marca,productos_precio_lista,productos_precio_referencia,productos_cantidad_referencia,productos_unidad_medida_referencia,productos_precio_unitario_promo1,productos_leyenda_promo1,productos_precio_unitario_promo2,productos_leyenda_promo2
0,3,1,3,7791813421580,1,7UP FREE PET X 1.5L,1,unidad,,2700,2700,1,unidad,,,,
1,3,1,3,7798260050226,1,ACEITE DE COCO NEUTRO 360ML,360,cm3,,740,2056,1,l,,,,
2,3,1,3,23897,0,AFEITADORA BIC COMFORT 3,1,unidad,,820,820,1,unidad,,,,
3,3,1,3,7790580109882,1,AGUILA EXTRAFINO 60% CACAO X 150 GR,1,unidad,,6790,6790,1,unidad,,,,
4,3,1,3,7790040133594,1,AGUILA MINITORTA BROWNIE X 72G,1,unidad,,1650,1650,1,unidad,,,,


In [None]:
sucursales.head()

Unnamed: 0,id_comercio,id_bandera,id_sucursal,sucursales_nombre,sucursales_tipo,sucursales_calle,sucursales_numero,sucursales_latitud,sucursales_longitud,sucursales_observaciones,...,sucursales_codigo_postal,sucursales_localidad,sucursales_provincia,sucursales_lunes_horario_atencion,sucursales_martes_horario_atencion,sucursales_miercoles_horario_atencion,sucursales_jueves_horario_atencion,sucursales_viernes_horario_atencion,sucursales_sabado_horario_atencion,sucursales_domingo_horario_atencion
0,3,1,2,ACASSUSO,Autoservicio,AV. LIBERTADOR,15301,-34,-59,,...,1641,ACASSUSO,AR-B,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00
1,3,1,3,RIVER,Autoservicio,AV. F.ALCORTA,7786,-35,-58,,...,1428,CAPITAL FEDERAL,AR-C,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00
2,3,1,29,CABILDO,Autoservicio,CABILDO,4701,-35,-58,,...,1429,CAPITAL FEDERAL,AR-C,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00
3,3,1,31,CENTENARIO,Autoservicio,AV. F. ALCORTA,3099,-35,-58,,...,1425,CAPITAL FEDERAL,AR-C,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00
4,3,1,36,LINCOLN Y NUEVA YORK,Autoservicio,AV. LINCOLN,3999,-35,-59,,...,1419,CAPITAL FEDERAL,AR-C,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00,00:00 a 24:00


<br>
<br>
<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>
