#### __Taller I: Ciencia de Datos para Auditores 2024/2025__
##### Duración: 2hs

**Temas**:

- Primer paso: Planificar el objetivo y entender el negocio.
- Porqué Python? Diferentes entornos. Porque Google Collab? Que es un notebook? Texto enriquecido. Librerias.
- Leer bases de datos de diferentes orígenes. Caso 1) Local CSV o Excel. Caso 2) De la nube una base de datos abierta.
- Introducción a Pandas: head, tall, metodos estadísticos, Subgrupos con una o mas condiciones. Introducción al análisis exploratorio.
- Limpieza de datos: datos duplicados, datos faltantes y posibles soluciones.
- Ordenando, agrupando y creando tablas pivot.
- Muestreo aleatorio en base a un nivel de confianza y margen de error parametrizado.
- Ley de Bedford.
- Guardar bases de datos en CSV y Excel.

#### __Introducción: Planificando el objetivo y entendiendo el negocio. Preguntas de Auditoría.__
Primeros pasos con Python. Entornos. Librerías.

#### __Instalando Librerías__

La primera vez que utilicemos una librería, debemos instalarla (si utilizamos Google Colab, las librerías más populares se encuentran pre instaladas)
Para instalar una librería, ejecutaremos en una celda de código: *!pip install libreria*

In [1]:
# Para insertar un comentario en una celda de códgio, debemos anteponer el #

# ! pip install seaborn
# ! pip install pandas
# ! pip install matplotlib
# ! pip install openpyxl

#### __Importamos las librerías__

In [9]:
# Importamos las librerías a utilizar

import numpy as np  # Librería más utilizada para funciones numéricas
import pandas as pd  # Librería para gestionar estructuras de datos en formato de filas y columnas
import matplotlib.pyplot as plt  # Librería para realizar gráficos
from openpyxl import Workbook  # Librería para exportar Excel

# Ocultamos los mensajes de advertencia
import warnings
warnings.filterwarnings('ignore')

import sys
import math

# Ajustamos algunos parámetros en Pandas
pd.options.display.max_rows = 99  # Establece el límite de filas a mostrar de un DataFrame
# Ajustamos la visualización de números con decimales, separando los miles y dejando solo 2 decimales
pd.set_option('display.float_format', '{:,.2f}'.format)


In [7]:
!pip install openpyxl

Collecting openpyxl
  Using cached openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Using cached et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Using cached openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Using cached et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5



[notice] A new release of pip is available: 24.3.1 -> 25.0
[notice] To update, run: python.exe -m pip install --upgrade pip


#### __Leer bases de datos de diferentes orígenes.__
El proceso de leer y empezar a trabajar con una base de datos depende de sus características, tales como configuración correcta de símbolos (encoding), especificación de sus columnas y tipos de datos. Para el caso de archivos de texto con un delimitador (csv) es importante especificar correctamente el mismo.

Podemos optar por lee una Base de Datos guardada localmente por lo que les sugerimos guaradr la Base de Datos en el mismo directorio que nuestro Notebook (.ipnb).

También les dejamos aquí un ejemplo para leer la misma Base de Datos desde el portal de datos abiertos de la Ciudad de Buenos Aires en la Nube.

In [None]:
#CSV = pd.read_csv('C:\Users\fvillagra\Downloads\CIENCIA DE DATOS PARA AUDITORES\compras-coronavirus.csv' ,sep=';', encoding-'iso-8859-1')

##### __Como vemos en el ejemplo de arriba, a veces hay que especificar el separador y/o encoding.__

In [None]:
# Montar Google Drive para entorno Colab
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
CSV = pd.read_csv('/content/gdrive/MyDrive/taller_python/db.csv')

#### __Introducción a Pandas__
Head, Tail, información general, accesos, métodos estadísticos, outliers y subconjuntos de datos con condiciones.

Pandas es una librería de Python especializada en el manejo y análisis de estructuras de datos: https://pandas.pydata.org/