<a href="https://colab.research.google.com/github/francovillagra/GoogleColab/blob/main/Untitled2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Taller 1
## (Duracion 2hs)

### Temas:
#### 1. Primer Paso: Planificar el Objetivo y entender el negocio.
#### 2. Porqué Python? Diferentes entornos. Porque Google Collab? Qué es una notebook? Texto enriquecido. Librerías.
#### 3. Leer bases de datos de diferentes orígenes. Caso 1) Lolcal CSV o Excel. Caso 2) De la nube una base de datos abierta.
#### 4. Introduccion a Pandas: head, tall, metodos estadisticos, subgrupos con una o mas condiciones. Introduccion al analisis exploratorio.
#### 5. Limpieza de datos: datos duplicados, datos faltantes y posibles soluciones.
#### 6. Ordenando, agrupando y creando tablas pivot.
#### 7. Muestreo aleatorio en base a un nivel de confianza y margen de error parametrizado.
#### 8. Ley de Bedford.
#### 9. Guardar bases de datos en CSV y Excel


# Introducción: Planificando el Objetivo y entendiendo el negocio. Preguntas de Auditoría.

# 2. Primeros pasos con Python. Entornos. Librerías.

## Instalando librerías

### La primera vez que utilicemos una librería, debemos instalarla (si utilizamos Google Colab las librerías más populares se encuentran pre-instaladas).
### Para instalar una librería ejecutaremos en una celda de códgio: ! pip install librería

In [None]:
# Para insertar un comentario en una celda de codigo, debemos anteponer el #

# ! pip install seaborn
# ! pip install pandas
# ! pip install matplotlib
# ! pip install openpyxl

## Importamos las librerías

In [1]:
# Importamos las librerías a utilizar
import numpy as np  # Librería para funciones numéricas
import pandas as pd  # Librería para gestionar estructuras de datos en formato de filas y columnas. 
                     # Un Data Frame de Pandas tiene una estructura similar a una hoja de Excel.
import matplotlib.pyplot as plt  # Librería base para realizar gráficos
from openpyxl.workbook import Workbook  # Librería para exportar a Excel

# Ocultamos los mensajes de advertencia
import warnings
warnings.filterwarnings('ignore')

import sys
import math

# Ajustamos algunos parámetros en Pandas
pd.options.display.max_rows = 99  # Establece el límite de filas a mostrar de un DataFrame. 
# Este código ajusta la visualización de números con decimales, separando los miles y dejando solo dos decimales.
pd.set_option('display.float_format', '{:,.2f}'.format)

# 3. Lee bases de datos de diferentes orígenes.

### El proceso de leer y empezar a trabajar con una base de datos depende de sus característica, tales como configuración correcta de símbolos (encoding), especificacmente de sus columnas y tipos de datos. Para el caso de archivos de texto con un delimitaro (CSV) es importante especificar correctamente el mismo.
### Podemos optar por leer una BD desde diferentes origenes como la nube (datos abiertos) o en nuestro equipo localmente.
### En este taller vamos a trabajar leyendo una BD guardada localmente por lo que les sugerimos guardar la BD en el mismo directorio que nuestro Notebook (.ipnb)
### Tambien les dejamos aqui un ejemplo para leer la misma BD desde el portal de datos abiertos de la Ciudad de Buenos Aires en la Nube:

In [None]:
[] #CSV - pd.read_csv('https://cdn.buenosaires.gob.ar/datosabiertos/datasets/economia/compras-coronavirus/compras-coronavirus.csv' ,sep-';', encodign-'iso-8859-1')

### Como vemos en el ejemplo de arriba, a veces hay que especificar el separador y/o el encoding.

In [2]:
# Montar Google Drive para entorno Colab
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
!pip install --upgrade --force-reinstall chardet


Collecting chardet
  Downloading chardet-5.2.0-py3-none-any.whl.metadata (3.4 kB)
Downloading chardet-5.2.0-py3-none-any.whl (199 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/199.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.4/199.4 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: chardet
  Attempting uninstall: chardet
    Found existing installation: chardet 5.2.0
    Uninstalling chardet-5.2.0:
      Successfully uninstalled chardet-5.2.0
Successfully installed chardet-5.2.0


In [4]:
# Chardet es un detector de codificacion de caracteres universal para Python

import chardet
print("chardet instalado correctamente")


chardet instalado correctamente


In [5]:
file_path = '/content/drive/MyDrive/Taller_Python/compras-coronavirus.csv'

with open(file_path, 'rb') as f:
    result = chardet.detect(f.read())

print("Codificación detectada:", result['encoding'])


Codificación detectada: ISO-8859-1


In [6]:
# Leer las primeras 10 líneas del archivo para detectar inconsistencias con mas precision
with open('/content/drive/MyDrive/Taller_Python/compras-coronavirus.csv', 'r', encoding='ISO-8859-1') as file:
    for i, line in enumerate(file):
        print(f"Línea {i + 1}: {line.strip()}")
        if i == 9:  # Mostrar solo las primeras 10 líneas
            break


Línea 1: fecha;nro_pliego ;nro_orden_de_compra ;unidad_ejecutora;jurisdiccion;proveedor;cuit;importe;descripcion;cantidad;descripcion_rubro
Línea 2: 2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen,no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo,con solapa de cierre definitivo.;2000;Salud
Línea 3: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 100-1000µL, con cuerpo y extremidad resistente a los agentes quimicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.;1;Salud
Línea 4: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-

In [7]:
# Detectar inconsistencias en el numero de columnas

from collections import Counter

# Ruta del archivo
file_path = '/content/drive/MyDrive/Taller_Python/compras-coronavirus.csv'

# Detectar inconsistencias en el número de columnas
with open(file_path, 'r', encoding='ISO-8859-1') as file:
    column_counts = []
    for i, line in enumerate(file):
        # Dividir la línea por el delimitador (por defecto, coma)
        columns = line.strip().split(',')
        column_counts.append(len(columns))

# Contar las frecuencias de cada número de columnas
count_stats = Counter(column_counts)
print(f"Distribución de columnas: {count_stats}")

# Detectar el número de columnas más frecuente
expected_columns = count_stats.most_common(1)[0][0]
print(f"Número esperado de columnas: {expected_columns}")

# Identificar líneas problemáticas
with open(file_path, 'r', encoding='ISO-8859-1') as file:
    for i, line in enumerate(file):
        if len(line.strip().split(',')) != expected_columns:
            print(f"Línea problemática encontrada en la línea {i + 1}: {line.strip()}")

Distribución de columnas: Counter({1: 452, 2: 408, 3: 274, 5: 124, 4: 122, 6: 82, 7: 74, 8: 70, 11: 32, 14: 28, 15: 25, 9: 24, 10: 20, 25: 14, 13: 14, 44: 10, 16: 6, 22: 4, 26: 3, 29: 3, 39: 2, 17: 2, 23: 2, 18: 1, 30: 1, 41: 1, 43: 1})
Número esperado de columnas: 1
Línea problemática encontrada en la línea 2: 2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen,no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo,con solapa de cierre definitivo.;2000;Salud
Línea problemática encontrada en la línea 3: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 100-1000µL, con cuerpo y extremidad resistente a los agentes quimicos agresivos, con display digital, para ser utilizadas con tips 

In [8]:
# Especificar manualmente los posibles delimitadores

possible_delimiters = [',', ';', '|', '\t']

for delim in possible_delimiters:
    with open(file_path, 'r', encoding='ISO-8859-1') as file:
        sample = file.read(1024)  # Leer una muestra
        if delim in sample:
            print(f"Posible delimitador detectado: '{delim}'")
            break
else:
    print("No se pudo detectar el delimitador automáticamente.")


Posible delimitador detectado: ','


In [9]:
#Identificar y aislar filas problematicas - localiza las líneas problematicas

expected_columns = 3  # Cambia este número según lo esperado en tu archivo

with open(file_path, 'r', encoding='ISO-8859-1') as file:
    for i, line in enumerate(file):
        columns = line.strip().split(delim)
        if len(columns) != expected_columns:
            print(f"Línea {i + 1} problemática: {line.strip()} (Columnas: {len(columns)})")


Línea 1 problemática: fecha;nro_pliego ;nro_orden_de_compra ;unidad_ejecutora;jurisdiccion;proveedor;cuit;importe;descripcion;cantidad;descripcion_rubro (Columnas: 1)
Línea 3 problemática: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 100-1000µL, con cuerpo y extremidad resistente a los agentes quimicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.;1;Salud (Columnas: 5)
Línea 4 problemática: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 10-100 µL, con cuerpo y extremidad resistente a los agentes qumicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.

In [10]:
import pandas as pd

In [11]:
df = pd.read_csv(file_path, delimiter=delim, encoding='ISO-8859-1', on_bad_lines='skip')
print("Archivo cargado, ignorando líneas problemáticas.")
print(df.head())

Archivo cargado, ignorando líneas problemáticas.
                                                                                                      fecha;nro_pliego ;nro_orden_de_compra ;unidad_ejecutora;jurisdiccion;proveedor;cuit;importe;descripcion;cantidad;descripcion_rubro
2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC2... no tóxico.Con doble compartimiento para la mues...        con solapa de cierre definitivo.;2000;Salud                                                                                
2020-01-06 00:00:00;421-3460-CME19;421-5768-OC2...  plástica;1000;Salud                                                                              NaN                                                                                
2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC2... no tóxico.Con doble compartimiento para la mues...        con solapa de cierre definitivo.;1000;Salud                                                                                
2020-01-06 00:00:00

In [12]:
with open(file_path, 'r', encoding='ISO-8859-1') as file, open('archivo_limpio.csv', 'w', encoding='ISO-8859-1') as clean_file:
    for i, line in enumerate(file):
        columns = line.strip().split(delim)
        if len(columns) == expected_columns:  # Solo incluir filas correctas
            clean_file.write(line)
        else:
            print(f"Línea {i + 1} problemática ignorada: {line.strip()}")


Línea 1 problemática ignorada: fecha;nro_pliego ;nro_orden_de_compra ;unidad_ejecutora;jurisdiccion;proveedor;cuit;importe;descripcion;cantidad;descripcion_rubro
Línea 3 problemática ignorada: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 100-1000µL, con cuerpo y extremidad resistente a los agentes quimicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.;1;Salud
Línea 4 problemática ignorada: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 10-100 µL, con cuerpo y extremidad resistente a los agentes qumicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.;

In [13]:
df = pd.read_csv('archivo_limpio.csv', delimiter=delim, encoding='ISO-8859-1')
print(df.head())


  2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen  \
0  2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...                                                                                                                                                             
1  2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC...                                                                                                                                                             
2  2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...                                                                                                                                                             
3  2020-01-12 00:00:00;434-1422-CME20;434-12665-O...                                                                                                            

In [14]:
with open(file_path, 'r', encoding='ISO-8859-1') as file, open('archivo_corregido.csv', 'w', encoding='ISO-8859-1') as corrected_file:
    for i, line in enumerate(file):
        columns = line.strip().split(delim)
        if len(columns) < expected_columns:
            # Rellenar con valores vacíos
            columns += [''] * (expected_columns - len(columns))
        elif len(columns) > expected_columns:
            # Combinar columnas adicionales
            columns = columns[:expected_columns - 1] + [delim.join(columns[expected_columns - 1:])]
        corrected_file.write(delim.join(columns) + '\n')


In [15]:
with open(file_path, 'r', encoding='ISO-8859-1') as file:
    for i, line in enumerate(file):
        print(f"Línea {i + 1}: {line.strip()}")
        if i == 9:  # Mostrar solo las primeras 10 líneas
            break


Línea 1: fecha;nro_pliego ;nro_orden_de_compra ;unidad_ejecutora;jurisdiccion;proveedor;cuit;importe;descripcion;cantidad;descripcion_rubro
Línea 2: 2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen,no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo,con solapa de cierre definitivo.;2000;Salud
Línea 3: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-70941519-7;13500;MICROPIPETA AUTOMATICA Modelo: De volumen variable de 100-1000µL, con cuerpo y extremidad resistente a los agentes quimicos agresivos, con display digital, para ser utilizadas con tips universales, con eyector de tips incorporado al cuerpo de la pipeta.;1;Salud
Línea 4: 2020-01-06 00:00:00;421-3460-CME19;421-5768-OC20;421 - HTAL. PEDRO LAGLEYZE;MINISTERIO DE SALUD;GENBIOTECH SRL;30-

In [16]:
# Mostrar las primeras filas
print(df.head())

# Información general del DataFrame
print(df.info())

# Revisión rápida de valores únicos en las columnas
for column in df.columns:
    print(f"Columna '{column}': {df[column].nunique()} valores únicos")


  2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen  \
0  2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...                                                                                                                                                             
1  2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC...                                                                                                                                                             
2  2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...                                                                                                                                                             
3  2020-01-12 00:00:00;434-1422-CME20;434-12665-O...                                                                                                            

In [17]:
df.to_csv('archivo_procesado.csv', index=False, encoding='ISO-8859-1')
print("Archivo guardado como 'archivo_procesado.csv'")


Archivo guardado como 'archivo_procesado.csv'


### 3. Introduccion a Pandas
#### head, tail, informacion general, accesos, metodos estadisticos, outliers y subconjuntos de datos con condiciones.
#####Pandas es una libreria de Python especializada en el manejo y analisis de estructuras de datos: https://pandas.pydata.org/

### Las principales caracteristicas de Pandas son:
#### - Manejo facil y agil de estructura de datos.
#### - Permite leer y escribir facilmente bases en formato CSV, Excel y SQL.
#### - Ofrece metodos para reordenar, dividir y combinar conjuntos de datos.
#### - Permite trabajar con series temporales.
#### - Realiza todas estas operaciones de manera muy eficiente.

### Para convertir la base en una estructura dentro de pandas, utilizamos DataFrame:

#### Atencion! al convertir una base en dataframe, es indispensable escribirlo correctamente con D y F mayusculas pd.DataFrame(base)

### Conociendo los datos: Head y Tail - Visualizando primeros/ultimos registros:

In [18]:
# mostramos las primeras N filas (si no establecemos la cantidad, por defectos son 5)
df.head(3)

Unnamed: 0,2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen,no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo,con solapa de cierre definitivo.;2000;Salud
0,2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...,no tóxico.Con doble compartimiento para la mue...,con solapa de cierre definitivo.;1000;Salud
1,2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC...,no tóxico.Con doble compartimiento para la mu...,con solapa de cierre definitivo. ;2000;Salud
2,2020-01-06 00:00:00;422-0575-LPU20;422-5795-OC...,no tóxico.Con doble compartimiento para la mu...,con solapa de cierre definitivo. ;1000;Salud


In [19]:
# mostramos las ultimas N filas (si no establecemos la cantidad, por defectos son 5)
df.tail(3)

Unnamed: 0,2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen,no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo,con solapa de cierre definitivo.;2000;Salud
270,2021-06-15 00:00:00;412-0856-CME21;412-6801-OC...,modelo PM 9000,para medición de temperatura de piel ;26;Salud
271,2021-06-25 00:00:00;416-0190-CME21;416-7221-OC...,de plástico con tapa a rosca,estéril descartable ;50;Salud
272,2021-06-26 00:00:00;427-0785-CDI21;427-7054-OC...,modelo PM 9000,para sensor de oxímetro de pulso ;16;Salud


In [20]:
print(df.columns)


Index(['2020-01-06 00:00:00;410-0571-LPU20;410-5743-OC20;410 - HTAL.TEODORO ALVAREZ;MINISTERIO DE SALUD;EGLIS S.A;30-59401076-7;12100;BOLSA PARA TRANSPORTE DE MUESTRAS BIOLOGICAS . Modelo: De polipropileno virgen',
       'no tóxico.Con doble compartimiento para la muestra y el protocolo de trabajo',
       'con solapa de cierre definitivo.;2000;Salud'],
      dtype='object')


In [21]:
df.columns = df.columns.str.strip()  # Elimina espacios al inicio y final


In [22]:
df.columns = df.columns.str.strip().str.lower()


In [23]:
for col in df.columns:
    print(f"'{col}'")


'2020-01-06 00:00:00;410-0571-lpu20;410-5743-oc20;410 - htal.teodoro alvarez;ministerio de salud;eglis s.a;30-59401076-7;12100;bolsa para transporte de muestras biologicas . modelo: de polipropileno virgen'
'no tóxico.con doble compartimiento para la muestra y el protocolo de trabajo'
'con solapa de cierre definitivo.;2000;salud'


### Accediento a una columna del DataFrame con llave o punto:
#### El acceso con llave sirve para una df ['col1'] o mas columnas df [['col1','col2']]:

In [24]:
df = pd.read_csv('archivo_limpio.csv', delimiter=delim, encoding='ISO-8859-1', header=0)


In [None]:
# Asigna la primera fila como los encabezados
df.columns = df.iloc[0]
# Elimina la primera fila (que ahora es redundante)
df = df.drop(0)


In [None]:
df = pd.read_csv('archivo_limpio.csv', delimiter=delim, encoding='ISO-8859-1', header=0)


In [None]:
df[['proveedor','importe']]

KeyError: "None of [Index(['proveedor', 'importe'], dtype='object')] are in the [columns]"

### El acceso con punto nos permite acceder rapidamente a una columna df.col:

In [None]:
df.proveedor

### - Asignacion de una variable:
#### Creamos una nueva variable llamada "lista_proveedores" donde le asignaremos los valores de la columna proveedores de nuestro DataFrame