# Guia 2
### Producto

Escribir en un archivo tipo html de Jupyter  bloques de código y Markdown donde se tomen las variables de una base dada y se les realice lo siguiente:
* Limpieza de un carácter especial.
* Reducción de los nits de longitud mayor a 9.

In [1]:
# Importacion de recursos
from Config.config import Dataset as DR
from Services.etl import LeerDatos
from Services.encoding import DeteccionEncoding

## Limpieza de Caracteres Especiales

En el proceso de limpieza de datos, es fundamental validar el tipo de codificación de los archivos antes de su procesamiento. La codificación adecuada garantiza que los caracteres se interpreten correctamente y evita la introducción de caracteres especiales indeseados.

En algunos casos, los archivos que se necesitan procesar pueden provenir de diferentes fuentes con distintas codificaciones. Esta variabilidad puede generar problemas al leer los datos, lo que a menudo resulta en la aparición de caracteres especiales inesperados.

Para manejar este desafío, es recomendable implementar un bloque de código que intente leer los archivos utilizando diferentes codificaciones y maneje adecuadamente las excepciones en caso de falla. A continuación, se presenta un ejemplo en Python:

```python
try:
    # Intentar leer el archivo con la codificación especificada
    df = pd.read_csv('archivo.csv', encoding='utf-8')
except UnicodeDecodeError:
    # Si falla, intentar con otra codificación
    df = pd.read_csv('archivo.csv', encoding='latin-1')


### Tipos de Codificación de Caracteres

#### ASCII
- **Descripción:** Es una codificación de 7 bits que representa 128 caracteres, incluyendo letras, números y símbolos básicos.
- **Uso:** Adecuado para inglés y sistemas antiguos.
  
#### UTF-8
- **Descripción:** Codificación variable que usa de 1 a 4 bytes por carácter. Compatible con ASCII y capaz de representar cualquier carácter Unicode.
- **Uso:** Es el estándar más utilizado en la web y sistemas modernos.

#### UTF-16
- **Descripción:** Usa 2 o 4 bytes por carácter. Diseñado para equilibrar el tamaño y la compatibilidad con textos multilingües.
- **Uso:** Común en sistemas operativos como Windows.

#### ISO-8859-1 (Latin-1)
- **Descripción:** Codificación de 8 bits que representa 256 caracteres. Incluye caracteres de idiomas europeos occidentales.
- **Uso:** Anteriormente común en la web antes de la adopción generalizada de UTF-8.

#### Unicode
- **Descripción:** Es un estándar que define un conjunto universal de caracteres para todos los sistemas de escritura del mundo.
- **Uso:** Base para UTF-8, UTF-16, y otras codificaciones.


In [2]:
# Verificacion de encoding del Dataset de datos
DeteccionEncoding(archivo=DR.dataset)

utf-8


<Services.encoding.DeteccionEncoding at 0x298dbfb77a0>

#### RTA: Para el caso del archivo actual la codificacion correcta es utf-8

## Lectura de DataFrame y generacion de limpieza de datos

In [3]:
# Creacion de instancia Leerdatos y generacion de DataFrame
df = LeerDatos(ruta_completa=DR.dataset,tipo_archivo='csv')
df.leer_archivo_csv(separador=',')
df.read_DataFrame(datos=df.df)

In [4]:
# Descripcion general de los datos
df.df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   NIT                     20000 non-null  int64 
 1   RAZÓN SOCIAL            19998 non-null  object
 2   SUPERVISOR              20000 non-null  object
 3   REGIÓN                  20000 non-null  object
 4   DEPARTAMENTO DOMICILIO  20000 non-null  object
 5   CIUDAD DOMICILIO        20000 non-null  object
 6   CIIU                    20000 non-null  int64 
 7   MACROSECTOR             20000 non-null  object
 8   INGRESOS OPERACIONALES  20000 non-null  object
 9   GANANCIA (PÉRDIDA)      20000 non-null  object
 10  TOTAL ACTIVOS           20000 non-null  object
 11  TOTAL PASIVOS           20000 non-null  object
 12  TOTAL PATRIMONIO        20000 non-null  object
 13  Año de Corte            20000 non-null  int64 
dtypes: int64(3), object(11)
memory usage: 2.1+ MB


In [5]:
# Tranformar los valores a enteros
valores_enteros = [
    'INGRESOS OPERACIONALES', 
    'GANANCIA (PÉRDIDA)',     
    'TOTAL ACTIVOS',          
    'TOTAL PASIVOS',          
    'TOTAL PATRIMONIO'
]
df.formato_entero(lista_columnas=valores_enteros)

Unnamed: 0,NIT,RAZÓN SOCIAL,SUPERVISOR,REGIÓN,DEPARTAMENTO DOMICILIO,CIUDAD DOMICILIO,CIIU,MACROSECTOR,INGRESOS OPERACIONALES,GANANCIA (PÉRDIDA),TOTAL ACTIVOS,TOTAL PASIVOS,TOTAL PATRIMONIO,Año de Corte
0,899999068,ECOPETROL S.A,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,610,MINERO,144,33,216,125,91,2022
1,900112515,REFINERIA DE CARTAGENA S.A.S,SUPERSOCIEDADES,Costa Atlántica,BOLIVAR,CARTAGENA-BOLIVAR,1921,MANUFACTURA,27,2,42,16,26,2022
2,830095213,ORGANIZACIÓN TERPEL S.A.,SUPERFINANCIERA,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,4661,COMERCIO,23,0,7,4,3,2022
3,860069804,CARBONES DEL CERREJON LIMITED,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,16,6,10,9,1,2022
4,800021308,DRUMMOND LTD,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,510,MINERO,15,2,14,6,7,2022
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,900440256,EFIVENTAS Y SERVICIOS SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,7490,SERVICIOS,0,0,0,0,0,2021
19996,890115230,QUIMIFEX SAS,SUPERSOCIEDADES,Costa Atlántica,ATLANTICO,BARRANQUILLA-ATLANTICO,4664,COMERCIO,0,0,0,0,0,2021
19997,901021850,EDGE NETWORK SERVICES COLOMBIA SAS,SUPERSOCIEDADES,Bogotá - Cundinamarca,BOGOTA D.C.,BOGOTA D.C.-BOGOTA D.C.,6190,SERVICIOS,0,0,0,0,0,2021
19998,900350192,DESTINO COMERCIAL SAS,SUPERSOCIEDADES,Antioquia,ANTIOQUIA,SABANETA-ANTIOQUIA,4771,COMERCIO,0,0,0,0,0,2021


In [6]:
# Deteccion de caracteres especiales
df.resumen_caracteres_especiales()

{'RAZÓN SOCIAL': 6397,
 'REGIÓN': np.int64(10452),
 'DEPARTAMENTO DOMICILIO': np.int64(7866),
 'CIUDAD DOMICILIO': np.int64(20000)}

## Evaluacion de caracteres especiales

In [8]:
# El metodo caracteres_especiales_encontrados() encuentra los caracteres especiales
df.caracteres_especiales_encontrados()

{'RAZÓN SOCIAL': ['¿',
  '´',
  '.',
  "'",
  '|',
  '"',
  '+',
  '–',
  ':',
  '-',
  '/',
  '(',
  '&',
  ')',
  '’',
  '?',
  ','],
 'REGIÓN': ['-'],
 'DEPARTAMENTO DOMICILIO': ['.'],
 'CIUDAD DOMICILIO': [')', '-', '.', '(']}

In [None]:
# Limpiar los campos con caracteres especiales
df.Limpiar_multiples_columnas()