#### __Taller I: Ciencia de Datos para Auditores 2024/2025__
##### Duración: 2hs

**Temas**:

- Primer paso: Planificar el objetivo y entender el negocio.
- Porqué Python? Diferentes entornos. Porque Google Collab? Que es un notebook? Texto enriquecido. Librerias.
- Leer bases de datos de diferentes orígenes. Caso 1) Local CSV o Excel. Caso 2) De la nube una base de datos abierta.
- Introducción a Pandas: head, tall, metodos estadísticos, Subgrupos con una o mas condiciones. Introducción al análisis exploratorio.
- Limpieza de datos: datos duplicados, datos faltantes y posibles soluciones.
- Ordenando, agrupando y creando tablas pivot.
- Muestreo aleatorio en base a un nivel de confianza y margen de error parametrizado.
- Ley de Bedford.
- Guardar bases de datos en CSV y Excel.

#### __Introducción: Planificando el objetivo y entendiendo el negocio. Preguntas de Auditoría.__
Primeros pasos con Python. Entornos. Librerías.

#### __Instalando Librerías__

La primera vez que utilicemos una librería, debemos instalarla (si utilizamos Google Colab, las librerías más populares se encuentran pre instaladas)
Para instalar una librería, ejecutaremos en una celda de código: *!pip install libreria*

In [1]:
# Para insertar un comentario en una celda de códgio, debemos anteponer el #

# ! pip install seaborn
# ! pip install pandas
# ! pip install matplotlib
# ! pip install openpyxl

#### __Importamos las librerías__

In [9]:
# Importamos las librerías a utilizar

import numpy as np  # Librería más utilizada para funciones numéricas
import pandas as pd  # Librería para gestionar estructuras de datos en formato de filas y columnas
import matplotlib.pyplot as plt  # Librería para realizar gráficos
from openpyxl import Workbook  # Librería para exportar Excel

# Ocultamos los mensajes de advertencia
import warnings
warnings.filterwarnings('ignore')

import sys
import math

# Ajustamos algunos parámetros en Pandas
pd.options.display.max_rows = 99  # Establece el límite de filas a mostrar de un DataFrame
# Ajustamos la visualización de números con decimales, separando los miles y dejando solo 2 decimales
pd.set_option('display.float_format', '{:,.2f}'.format)


In [7]:
!pip install openpyxl

Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5



[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: python.exe -m pip install --upgrade pip


#### __Leer bases de datos de diferentes orígenes.__
El proceso de leer y empezar a trabajar con una base de datos depende de sus características, tales como configuración correcta de símbolos (encoding), especificación de sus columnas y tipos de datos. Para el caso de archivos de texto con un delimitador (csv) es importante especificar correctamente el mismo.

Podemos optar por lee una Base de Datos guardada localmente por lo que les sugerimos guaradr la Base de Datos en el mismo directorio que nuestro Notebook (.ipnb).

También les dejamos aquí un ejemplo para leer la misma Base de Datos desde el portal de datos abiertos de la Ciudad de Buenos Aires en la Nube.

In [None]:
#CSV = pd.read_csv('C:\Users\fvillagra\Downloads\CIENCIA DE DATOS PARA AUDITORES\compras-coronavirus.csv' ,sep=';', encoding-'iso-8859-1')

##### __Como vemos en el ejemplo de arriba, a veces hay que especificar el separador y/o encoding.__

In [None]:
# Montar Google Drive para entorno Colab
from google.colab import drive
drive.mount('/content/gdrive')

In [16]:
# Verificamos si el archivo CSV existe o no:
import os

ruta = r'C:\Users\fvillagra\Downloads\CIENCIA DE DATOS PARA AUDITORES\compras-coronavirus.csv'

if os.path.exists(ruta):
    print("El archivo existe")
else:
    print("El archivo NO existe")

El archivo existe


In [17]:
# Usamos open() para verificar permisos:
with open(ruta, 'r', encoding='utf-8') as file:
    print("El archivo se abrió correctamente")

El archivo se abrió correctamente


In [24]:
!pip install chardet

Collecting chardet


[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: python.exe -m pip install --upgrade pip



  Using cached chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Using cached chardet-5.2.0-py3-none-any.whl (199 kB)
Installing collected packages: chardet
Successfully installed chardet-5.2.0


In [25]:
# Detectar la codificación:
import chardet

with open('compras-coronavirus.csv', 'rb') as f:
    result = chardet.detect(f.read())
    
print(result['encoding'])

ISO-8859-1


In [36]:
import pandas as pd

# Cargar el CSV en un DataFrame
df = pd.read_csv('compras-coronavirus.csv', encoding='ISO-8859-1', delimiter=';')

# Ver el contenido del DataFrame
print(df)

                    fecha     nro_pliego  nro_orden_de_compra   \
0     2020-01-06 00:00:00  410-0571-LPU20        410-5743-OC20   
1     2020-01-06 00:00:00  421-3460-CME19        421-5768-OC20   
2     2020-01-06 00:00:00  421-3460-CME19        421-5768-OC20   
3     2020-01-06 00:00:00  421-3460-CME19        421-5768-OC20   
4     2020-01-06 00:00:00  422-0575-LPU20        422-5795-OC20   
...                   ...             ...                  ...   
1793  2021-06-28 00:00:00  418-0812-CDI21        418-7265-OC21   
1794  2021-06-28 00:00:00  439-0966-CME21        439-7337-OC21   
1795  2021-06-28 00:00:00  432-1204-CME21        432-7333-OC21   
1796  2021-06-28 00:00:00  425-1398-CME21        425-7120-OC21   
1797  2021-06-29 00:00:00  418-0579-CDI21        418-7358-OC21   

                     unidad_ejecutora         jurisdiccion  \
0          410 - HTAL.TEODORO ALVAREZ  MINISTERIO DE SALUD   
1          421 - HTAL. PEDRO LAGLEYZE  MINISTERIO DE SALUD   
2          421 - HTAL

#### __Introducción a Pandas__
Head, Tail, información general, accesos, métodos estadísticos, outliers y subconjuntos de datos con condiciones.

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos: https://pandas.pydata.org/

__Las principales características de Pandas son:__
- Manejo fácil y ágil de estructuras de datos.
- Permite leer y escribir fácilmente bases en formato CSV, Excel y SQL.
- Permite acceder a los datos mediante índices o nombres para filas y columnas.
- Ofrece métodos para reordenar, dividir y combinar conjuntos de datos.
- Permite trabajar con series temporales.
- Realiza todas estas operaciones de manera muy eficiente.

#### __Para convertir la base en una estructura dentro de pandas, utilizamos Data Frame__

In [None]:
Para leer un archivo CSV, se debe usar pd.read_csv(), que es la función diseñada para eso. Asi se debe hacer:

import pandas as pd

# Leer el archivos CSV en un DataFrame
df = pd.read_csv('compras-coronavirus.csv', delimiter=';', encoding='ISO-8859-1')

# Ver el contenido del DataFrame
print(df)

La funcion read_csv() se encarga de convertir el archivos CSV en un DataFrame, por lo que no se necesita usar pd.DataFrame() en este caso.

##### Conociendo los datos: __Head y Tail__ - Visualizando primer/últimos registros:

In [41]:
# Mostramos las primeras N filas (si no establecemos la cantidad, por defecto son 5)
df.head(2)

Unnamed: 0,fecha,nro_pliego,nro_orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
0,2020-01-06 00:00:00,410-0571-LPU20,410-5743-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,EGLIS S.A,30-59401076-7,12100,BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS ....,2000,Salud
1,2020-01-06 00:00:00,421-3460-CME19,421-5768-OC20,421 - HTAL. PEDRO LAGLEYZE,MINISTERIO DE SALUD,GENBIOTECH SRL,30-70941519-7,13500,MICROPIPETA AUTOMATICA Modelo: De volumen vari...,1,Salud


In [42]:
# Mostramos las últimas N filas (si no establecemos la cantidad, por defectos son 5)
df.tail(3)

Unnamed: 0,fecha,nro_pliego,nro_orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
1795,2021-06-28 00:00:00,432-1204-CME21,432-7333-OC21,432 - HTAL. MANUEL ROCCA,MINISTERIO DE SALUD,DROGUERIA FARMATEC S.A.,30-70714285-1,17520,OXIMETRO DE PULSO - SATUROMETRO - PULSIOXIMETR...,8,Salud
1796,2021-06-28 00:00:00,425-1398-CME21,425-7120-OC21,425 - HTAL. JOSE M. PENNA,MINISTERIO DE SALUD,FEAS ELECTRONICA S.A,30-70770219-9,3121625,OXIMETRO DE PULSO - SATUROMETRO - PULSIOXIMETR...,5,Salud
1797,2021-06-29 00:00:00,418-0579-CDI21,418-7358-OC21,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,ANTIGUA SAN ROQUE S.R.L.,30-65687578-6,88000,GUANTE PARA CIRUGIA Con dedos largos de forma ...,400,Salud


##### __Accediendo a una columna del DataFrame con llave o punto:__
El acceso con llave sirve para una df ['col1'] o mas columnas df[['col1','col2']]:

In [43]:
df[['proveedor','importe']]

Unnamed: 0,proveedor,importe
0,EGLIS S.A,12100
1,GENBIOTECH SRL,13500
2,GENBIOTECH SRL,13500
3,GENBIOTECH SRL,1200
4,EGLIS S.A,6050
...,...,...
1793,Air Liquide Argentina S.A,137636532
1794,CEEMED S.A.,355716
1795,DROGUERIA FARMATEC S.A.,17520
1796,FEAS ELECTRONICA S.A,3121625


El acceso con punto nos permite acceder rápidamente a una columna df.col:

In [44]:
df.proveedor

0                       EGLIS S.A
1                  GENBIOTECH SRL
2                  GENBIOTECH SRL
3                  GENBIOTECH SRL
4                       EGLIS S.A
                  ...            
1793    Air Liquide Argentina S.A
1794                  CEEMED S.A.
1795      DROGUERIA FARMATEC S.A.
1796         FEAS ELECTRONICA S.A
1797     ANTIGUA SAN ROQUE S.R.L.
Name: proveedor, Length: 1798, dtype: object

__Asignación de una variable:__
Creamos una nueva variable llamada "lista_proveedores" donde le asignaremos los valores de la columna proveedores de nuestro DataFrame.

In [45]:
# Lista_proveedores es el nombre de la variable. Podría haber sido cualquiera
lista_proveedores = df.proveedor

__Viendo el contenido de una variable:__
Podemos ver el contenido poniendo el nombre de la variable o utilizando la función (variable):

In [46]:
lista_proveedores # o print(lista_proveedores)

0                       EGLIS S.A
1                  GENBIOTECH SRL
2                  GENBIOTECH SRL
3                  GENBIOTECH SRL
4                       EGLIS S.A
                  ...            
1793    Air Liquide Argentina S.A
1794                  CEEMED S.A.
1795      DROGUERIA FARMATEC S.A.
1796         FEAS ELECTRONICA S.A
1797     ANTIGUA SAN ROQUE S.R.L.
Name: proveedor, Length: 1798, dtype: object

#### __Visualizar información General de un Panda DataFrame:__
Con .info() información relevante de nuestro Panda DataFrame, como ser cantidad de filas, nombre de las columnas, tipo de dato de cada columna y valores faltantes (la diferencia entre el total y la cantidad de instancias de cada columna)

In [47]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1798 entries, 0 to 1797
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   fecha                 1798 non-null   object
 1   nro_pliego            1444 non-null   object
 2   nro_orden_de_compra   1798 non-null   object
 3   unidad_ejecutora      1460 non-null   object
 4   jurisdiccion          1798 non-null   object
 5   proveedor             1798 non-null   object
 6   cuit                  1798 non-null   object
 7   importe               1798 non-null   object
 8   descripcion           1444 non-null   object
 9   cantidad              1773 non-null   object
 10  descripcion_rubro     1444 non-null   object
dtypes: object(11)
memory usage: 154.6+ KB


#### __Columns.values los nombres de las columnas:__
De esta forma, podremos verificar si existe algún error o si quisieramos cambiar luego el nombre de alguna columna:

In [48]:
# Listamos los nombres de las columnas:
list(df.columns.values)

['fecha',
 'nro_pliego ',
 'nro_orden_de_compra ',
 'unidad_ejecutora',
 'jurisdiccion',
 'proveedor',
 'cuit',
 'importe',
 'descripcion',
 'cantidad',
 'descripcion_rubro']

#### __Cambiando el nombre de las columnas con rename():__
Verificamos que algunas columnas tienen un espacio dentro del nombre que dificultara nuestro trabajo, por lo que vamos a renombrarlas:


In [50]:
# Renombrando una columna y asignandolo al mismo DataFrame
df = df.rename(columns={"nro_pliego ": "pliego"})
df = df.rename(columns={"nro_orden_de_compra ": "orden_de_compra"})
df.head(2)

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
0,2020-01-06 00:00:00,410-0571-LPU20,410-5743-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,EGLIS S.A,30-59401076-7,12100,BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS ....,2000,Salud
1,2020-01-06 00:00:00,421-3460-CME19,421-5768-OC20,421 - HTAL. PEDRO LAGLEYZE,MINISTERIO DE SALUD,GENBIOTECH SRL,30-70941519-7,13500,MICROPIPETA AUTOMATICA Modelo: De volumen vari...,1,Salud


La info general, todos los datos son del tipo **object**, lo cual nos va a impedir realizar algunas operaciones, por lo que debemos asignar el tipo de dato correcto a las columnas que querramos utilizar.

Para esto utilizaremos las funciones:

convert_dtypes(): Intenta adivinar el tipo de dato dentro de la columna. Luego de utilizarlo, debemos verificar y configurar los que hayan quedado mal (numeros y fechas).

to_datetime(): convierte una cadena de texto al tipo fecha.

to_numeric(): convierte una cadena de texto a numero.

In [51]:
df = df.convert_dtypes(infer_objects=True)
df['fecha'] = pd.to_datetime(df['fecha'])
df['importe'] = pd.to_numeric(df['importe'], errors='coerce', downcast='signed')
df['cantidad'] = pd.to_numeric(df['cantidad'], errors='coerce', downcast='signed')

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1798 entries, 0 to 1797
Data columns (total 11 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   fecha              1798 non-null   datetime64[ns]
 1   pliego             1444 non-null   string        
 2   orden_de_compra    1798 non-null   string        
 3   unidad_ejecutora   1460 non-null   string        
 4   jurisdiccion       1798 non-null   string        
 5   proveedor          1798 non-null   string        
 6   cuit               1798 non-null   string        
 7   importe            1555 non-null   Float64       
 8   descripcion        1444 non-null   string        
 9   cantidad           1772 non-null   Float64       
 10  descripcion_rubro  1444 non-null   string        
dtypes: Float64(2), datetime64[ns](1), string(8)
memory usage: 158.2 KB


#### __Período auditado en la Base de Datos__
Para esto utilizaremos las funciones min() y max() aplicadas al campo fecha para seleccionar el registro mas antiguo y el mas nuevo.

In [53]:
desde = df.fecha.min().strftime("%d/%m/%Y")
hasta = df.fecha.max().strftime("%d/%m/%Y")
print ("El período auditado comprende: ")
print ("Desde: ", desde)
print ("Hasta: ", hasta)
print ("Cantidad de días: ", df.fecha.max() - df.fecha.min())

El período auditado comprende: 
Desde:  06/01/2020
Hasta:  29/06/2021
Cantidad de días:  540 days 00:00:00


#### __Métodos y funciones más utilizados en un DataFrame:__
Para valores numéricos:

In [None]:
.count() : Devuelve el número de elementos que no son nulos.
.sum() : Devuelve la suma de datos numéricos. 
.cumsum(): Devuelve la suma acumulada de los datos numéricos. 
.min() y max() : Devuelven el menor y el mayor de los datos. 
.std() : Devuelve la desviación standar de los datos numéricos. 
.describe(): Devuelve una serie con un resumen descriptivo que incluye el número de datos, su suma, el mínimo, el máximo, la media, la desviación

- Para valores categóricos:

In [None]:
.value_counts(): Devuelve la frecuencia (número de repeticiones) de cada valor. 

Algunos ejemplos:

In [54]:
df.count() # Cantidad de datos por cada columna

fecha                1798
pliego               1444
orden_de_compra      1798
unidad_ejecutora     1460
jurisdiccion         1798
proveedor            1798
cuit                 1798
importe              1555
descripcion          1444
cantidad             1772
descripcion_rubro    1444
dtype: int64

In [55]:
df.importe.sum() # El total de la columna importe

np.float64(5391310486.110001)

In [56]:
df.proveedor.value_counts().head(10) # Veamos los 10 proveedores con mayor ordenes de compra (frecuencia)

proveedor
RH+ S.A                       128
CEGENS S.A.                   116
DROGUERIA MARTORANI S.A.       72
DROGUERIA FARMATEC S.A.        63
Medibel SA                     60
Laboratorios Britania SA       37
GEDOX S.A.                     36
GASES COMPRIMIDOS S.A          34
PANELES DE CABECERA TH SRL     33
COVIDIEN ARGENTINA SA          32
Name: count, dtype: Int64

#### __Generando un subconjunto de mi DataFrame en base a condiciones utilizando LOC:__
Loc se utiliza para FILTRAR filas o columnas con una determinada condición.

**Utilizamos la función str.contanins() para FILTRAR aquellas filas que contengan la palabra 'EQUIPO' en la columna df.descripción:**

In [58]:
df.loc [ df.descripcion.str.contains('EQUIPO')].head() # con .head solo visualizamos las primeras 5

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
13,2020-01-06,439-0897-CME20,439-5825-OC20,439 - HTAL. BONORINO UDAONDO,MINISTERIO DE SALUD,BIODIAGNOSTICO S.A.,30-63927711-5,194880.0,EQUIPO PARA REACCION EN CADENA DE LA POLIMERAS...,3.0,Salud
153,2020-04-12,401-1400-CDI20,401-12951-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,CROMOION S.R.L.,30-61547465-3,4893480.0,EQUIPO PARA REACCION EN CADENA DE LA POLIMERAS...,6210.0,Salud
382,2020-05-20,418-0547-CDI20,418-5444-OC20,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,UNIC COMPANY SRL,30-60012470-2,407160.0,EQUIPO PARA RESUCITACION PARA ADULTOS . Modelo...,60.0,Salud
455,2020-05-27,418-0649-CDI20,418-5661-OC20,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,BECTON DICKINSON ARGENTINA SRL,30-70047365-8,19500000.0,EQUIPO PARA REACCION EN CADENA DE LA POLIMERAS...,10000.0,Salud
467,2020-05-28,412-1078-CME20,412-5718-OC20,412 - HTAL. COSME ARGERICH,MINISTERIO DE SALUD,DROGUERIA MARTORANI S.A.,30-70296606-6,409940.0,EQUIPO PARA RESUCITACION PARA ADULTOS . Modelo...,50.0,Salud


**FILTRAMOS aquellas filas cuyo importe sea superior a 100.000**

In [59]:
df.loc [ df.importe > 100000].head() # con .head solo visualizamos las primeras 5

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
13,2020-01-06,439-0897-CME20,439-5825-OC20,439 - HTAL. BONORINO UDAONDO,MINISTERIO DE SALUD,BIODIAGNOSTICO S.A.,30-63927711-5,194880.0,EQUIPO PARA REACCION EN CADENA DE LA POLIMERAS...,3.0,Salud
16,2020-01-06,410-0571-LPU20,410-5747-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,Laboratorios Britania SA,33-64529398-9,102000.0,HISOPO Modelo: De plástico y dacron en tubo...,3000.0,Salud
17,2020-01-06,401-0590-CDI20,401-5846-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,CINMOR SRL,30-71400415-4,4364400.0,"CAMISOLIN DE UN SOLO USO TELA: SMS uso Médico,...",20000.0,Salud
18,2020-01-06,401-0590-CDI20,401-5846-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,CINMOR SRL,30-71400415-4,1721600.0,"CAMISOLIN DE UN SOLO USO TELA: SMS uso Médico,...",5000.0,Salud
19,2020-01-06,401-0590-CDI20,401-5845-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,PROPATO HNOS. S.A.I.C.,30-55425869-3,1482855.0,ANTIPARRA DE SEGURIDAD BIOLOGICA . Modelo: Par...,1900.0,Seguridad


__Como hacemos para SELECCIONAR/FILTRAR filas con 2 condiciones?__

- Condición 1 & Condición 2: Se deben cumplir ambas condiciones:
Seleccionamos los registros que contengan la palabra "BARBIJO" en el campo descripción y cuya fecha sea posterior a 1 de Enero de 2021.

& = AMPERSAN /// 
**>** = MAYOR A XXXX FECHA

In [61]:
df.loc [(df.descripcion.str.contains('BARBIJO')) & (df.fecha > '2021-01-01')].head(3) # con .head solo visualizamos las primeras 3

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
1250,2021-01-25,418-1726-CDI20,418-0114-OC21,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,DROGUERIA PROMEDIC SRL,30-70889514-4,1197000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,3000.0,Salud
1253,2021-01-25,418-1726-CDI20,418-0114-OC21,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,DROGUERIA PROMEDIC SRL,30-70889514-4,1197000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,3000.0,Salud
1389,2021-03-30,418-0301-CDI21,418-2578-OC21,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,DROGUERIA PROMEDIC SRL,30-70889514-4,1494000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,6000.0,Salud


Para el campo FECHA debemos respetar el formato asignado por Python, en este caso aaaa-mm-dd

Seleccionamos los registros cuya unidad_ejecutora contenga la palabra GUTIERREZ o ALVAREZ.

In [62]:
df.loc [(df.unidad_ejecutora.str.contains('GUTIERREZ')) | (df.unidad_ejecutora.str.contains('ALVAREZ'))].head(5) # con .head solo visualizamos las primeras 3

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
0,2020-01-06,410-0571-LPU20,410-5743-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,EGLIS S.A,30-59401076-7,12100.0,BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS ....,2000.0,Salud
14,2020-01-06,410-0571-LPU20,410-5743-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,EGLIS S.A,30-59401076-7,12100.0,BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS ....,2000.0,Salud
16,2020-01-06,410-0571-LPU20,410-5747-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,Laboratorios Britania SA,33-64529398-9,102000.0,HISOPO Modelo: De plástico y dacron en tubo...,3000.0,Salud
26,2020-01-06,410-0571-LPU20,410-5747-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,Laboratorios Britania SA,33-64529398-9,102000.0,HISOPO Modelo: De plástico y dacron en tubo...,3000.0,Salud
27,2020-01-06,420-0644-CDI20,420-5813-OC20,420 - HTAL. RICARDO GUTIERREZ,MINISTERIO DE SALUD,MEDIPACK S.A.,30-70816309-7,210000.0,"PARACETAMOL . Modelo: Al 2,4 %, jarabe, en fra...",2000.0,Salud


Para Python __BARBIJO, Barbijo y barbijo__, son 3 palabras distintas por lo que debemos tener cuidado con las mayúsculas, minúsculas y acentos.
Si queremos que la función str.contains NO DISTINGA MAYÚSCULAS y minúsculas, debemos agregarle el parámetro (case=False).
Como el símbolo = se usa para asignar un valor en Python, al comparar textos debemos utilizar == para preguntar si es distinto.

- Seleccionemos los registros que contengan "SALUD" en el campo ['Jurisdicción'] y que NO CONTENGAN "SALUD" en ['descripción_rubro']:

In [66]:
df.loc [(df.jurisdiccion.str.contains('salud', case=False)) & (df.descripcion_rubro != 'Salud')].head() # La funcion str.contains() es sensible a MAYUSCULAS Y MINUSCULAS

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
19,2020-01-06,401-0590-CDI20,401-5845-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,PROPATO HNOS. S.A.I.C.,30-55425869-3,1482855.0,ANTIPARRA DE SEGURIDAD BIOLOGICA . Modelo: Par...,1900.0,Seguridad
22,2020-01-06,401-0590-CDI20,401-5845-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,PROPATO HNOS. S.A.I.C.,30-55425869-3,1482855.0,ANTIPARRA DE SEGURIDAD BIOLOGICA . Modelo: Par...,1900.0,Seguridad
43,2020-02-06,623-1394-LPU18,410-5863-OC20,410 - HTAL.TEODORO ALVAREZ,MINISTERIO DE SALUD,Servicios para la Higiene S.A,30-71158542-3,23425.0,AGUA LAVANDINA (HIPOCLORITO DE SODIO) Líquido ...,500.0,"Perfumería, Limpieza y Contenedores Comerciale..."
59,2020-02-12,446-1243-LPU20,446-12717-OC20,446 - INSTITUTO DE REHABILITACION PSICOFICA,MINISTERIO DE SALUD,GASES COMPRIMIDOS S.A,30-54398920-3,58980.0,TUBO PARA OXIGENO Demás especificaciones deber...,2.0,Máquinas y Herramientas
65,2020-03-06,401-0590-CDI20,401-5942-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,DROGUERIA MARTORANI S.A.,30-70296606-6,1524750.0,PROTECTOR FACIAL (MASCARA PARA FILTRO) . Model...,7500.0,Seguridad


- Seleccionemos los registros que contengan 'MINISTERIO DE SALUD' en el campo jusrisdicción y que CONTENGAN "BARBIJO" en descripción:

In [65]:
df.loc [       (df.descripcion_rubro == 'Salud') & (df.descripcion.str.contains('BARBIJO', case=False))].head() # En Python = se utiliza para valores numéricos. Para comparar variables se utiliza ==

Unnamed: 0,fecha,pliego,orden_de_compra,unidad_ejecutora,jurisdiccion,proveedor,cuit,importe,descripcion,cantidad,descripcion_rubro
73,2020-03-07,401-0794-CDI20,401-7004-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,MACOR INSUMOS HOSPITALARIOS SRL,33-66036317-9,1003140.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,3000.0,Salud
149,2020-04-09,412-1925-CME20,412-9331-OC20,412 - HTAL. COSME ARGERICH,MINISTERIO DE SALUD,DROGUERIA PROMEDIC SRL,30-70889514-4,780000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,1200.0,Salud
545,2020-06-11,418-1411-CDI20,418-11714-OC20,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,DROGUERIA PROMEDIC SRL,30-70889514-4,975000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,1500.0,Salud
680,2020-07-17,401-0794-CDI20,401-7495-OC20,401 - MINISTERIO DE SALUD,MINISTERIO DE SALUD,MACOR INSUMOS HOSPITALARIOS SRL,33-66036317-9,501570.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,1500.0,Salud
841,2020-08-31,418-1210-CDI20,418-9120-OC20,418 - HTAL. JUAN A. FERNANDEZ,MINISTERIO DE SALUD,Medibel SA,33-69039665-9,1341000.0,BARBIJO TIPO MASCARILLA DE ALTA EFICIENCIA N95...,3000.0,Salud


Para finalizar esta sección, combinamos un filtro por dos condiciones, y al finalizar, contaremos la frencuencia con value_counts.
Visualizamos cuantas ordenes de compra de barbijos tuvo cada unidad ejecutora antes del 1/10/2020.

In [64]:
df.unidad_ejecutora.loc [   (df.fecha < '2020-10-01') & (df.descripcion.str.contains('BARBIJO', case=False))].value_counts()

unidad_ejecutora
401 - MINISTERIO DE SALUD             2
412 - HTAL. COSME ARGERICH            2
418 - HTAL. JUAN A. FERNANDEZ         2
431 - HTAL. BERNARDINO RIVADAVIA      1
Name: count, dtype: Int64

#### __Limpieza de datos:__
Análisis de valores duplicados y valores faltantes:

Este proceso que cambiará en función de cada base de datos y cada objetivo que tengamos. Es importante reflexionar para cada columna que impacto tendría un dato faltante o que datos deben repetirse para considerar un registro duplicado.
En ese caso, tomaremos como duplicado aquellos registros que coincidan en todas sus columnas. Como primer paso, vamos a eliminar las filas con valores faltantes (NaN) y que podrían estar ocasionando algunos dulplicados.

__Utilizamos la función df.duplicated()__ para buscar registros duplicados en un DataFrame:
Esta función nos dice si un registro tiene duplicados, pero NO sabremos de esta forma cuantas veces se encuentra repetido:

In [67]:
# La función len() nos da el largo, es decir, la cantidad de registros.
print('La base tiene: ',len(df[df.duplicated()]), ' registros duplicados')

La base tiene:  289  registros duplicados
