# **G34 - ANÁLISIS DE DATOS**

# **Carga de Datos en Python**



Se explorarán las diferentes formas de cargar datos en Python utilizando varias bibliotecas populares. Se cubrirán:

1. Archivos CSV
2. Archivos Excel
3. Archivos JSON
4. Bases de datos SQL

Para cada método se proporcionarán los métodos para crear los archivos y la carga de estos.

## **Preparar el Entorno**

In [1]:
# Se habilita el Drive para la carga de archivos

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import numpy as np
import pandas as pd
from PIL import Image
from io import BytesIO
import os
import json
import sqlite3

## **Crear dataframe**

In [3]:
# Se crea un array de datos
array_datos = np.array([
    ["Helena", "F", "Pereira", "13"],
    ["Esteban", "M", "Medellin", "24"],
    ["Edith", "F", "Pereira", "59"],
    ["Jairo", "M", "Cali", "60"],
    ["José", "M", "Cali", "45"],
    ["María", "F", "Cali", "28"],
    ["Carlos", "M", "Medellin", "32"],
    ["Ana", "F", "Pereira", "19"],
    ["Juan", "M", "Cali", "41"],
    ["Laura", "F", "Pereira", "26"],
    ["Diego", "M", "Armenia", "35"],
    ["Camilo", "M", "Pereira", "22"],
    ["Luis", "M", "Medellin", "50"],
    ["Isabella", "F", "Manizales", "31"],
    ["Jorge", "M", "Medellin", "47"],
    ["Valentina", "F", "Armenia", "29"],
    ["Andrés", "M", "Armenia", "38"],
    ["Daniel", "M", "Manizales", "24"],
    ["Santiago", "M", "Pereira", "27"],
    ["Natalia", "F", "Pereira", "33"],
    ["Óscar", "M", "Medellin", "42"],
    ["Gabriel", "M", "Cali", "21"],
    ["Ricardo", "M", "Cali", "55"],
    ["Julian", "M", "Pereira", "30"],
    ["Fernando", "M", "Pereira", "39"],
    ["Sara", "F", "Medellin", "25"],
    ["Alberto", "M", "Manizales", "48"],
    ["Mónica", "F", "Manizales", "36"],
    ["Hernán", "M", "Manizales", "44"],
    ["Patricia", "F", "Manizales", "52"]
    ])

# Se crean los índices y los títulos
titulos=["Nombre","Género","Ciudad","Edad"]
indices=["R1", "R2", "R3", "R4", "R5",
        "R6", "R7", "R8", "R9", "R10",
        "R11", "R12", "R13", "R14", "R15",
        "R16", "R17", "R18", "R19", "R20",
        "R21", "R22", "R23", "R24", "R25",
        "R26", "R27", "R28", "R29", "R30"]

# Se crea el dataframe array_df a partir de los datos y se utilizan los indices y los títulos
df = pd.DataFrame(data=array_datos, index=indices, columns=titulos)
df['Edad'] = df['Edad'].astype(int)  # Convertir edad a numérico

# Resetear el Índice
df = df.reset_index()

# Cambiar nombres de columnas
df.columns = ["Registro","Nombre","Genero","Ciudad","Edad"]

print(f"Dataframe:\n{df}")

Dataframe:
   Registro     Nombre Genero     Ciudad  Edad
0        R1     Helena      F    Pereira    13
1        R2    Esteban      M   Medellin    24
2        R3      Edith      F    Pereira    59
3        R4      Jairo      M       Cali    60
4        R5       José      M       Cali    45
5        R6      María      F       Cali    28
6        R7     Carlos      M   Medellin    32
7        R8        Ana      F    Pereira    19
8        R9       Juan      M       Cali    41
9       R10      Laura      F    Pereira    26
10      R11      Diego      M    Armenia    35
11      R12     Camilo      M    Pereira    22
12      R13       Luis      M   Medellin    50
13      R14   Isabella      F  Manizales    31
14      R15      Jorge      M   Medellin    47
15      R16  Valentina      F    Armenia    29
16      R17     Andrés      M    Armenia    38
17      R18     Daniel      M  Manizales    24
18      R19   Santiago      M    Pereira    27
19      R20    Natalia      F    Pereira    33
20

# **Creación y Almacenamiento de Archivos**

## **1. Archivos CSV**

El formato CSV (Comma Separated Values) es uno de los formatos más comunes para almacenar datos tabulares. Utilizaremos la biblioteca **'pandas'** para cargar datos desde un archivo CSV.

In [4]:
# Creación del archivo .csv para posterior acceso

ruta_1 = '/content/drive/MyDrive/Archivos'

os.makedirs(ruta_1, exist_ok=True)    # Crear carpeta si no existe

# Guardar el CSV en Google Drive
ruta_csv = os.path.join(ruta_1, 'datos.csv')

try:
  df.to_csv(ruta_csv, index=False)
  print(f"Archivo guardado en: {ruta_csv}")
except:
  print("No se pudo crear el archivo.")

Archivo guardado en: /content/drive/MyDrive/Archivos/datos.csv


## **Archivos Excel**

Los archivos de Excel son muy populares para almacenar y compartir datos. Utilizaremos 'pandas' para cargar datos desde un archivo Excel.

In [5]:
# Creación del archivo .xlsx para posterior acceso

ruta_2 = '/content/drive/MyDrive/Archivos'

os.makedirs(ruta_2, exist_ok=True)

# Guardar el Excel en Google Drive
ruta_excel = os.path.join(ruta_2, 'datos.xlsx')

try:
  df.to_excel(ruta_excel, sheet_name='Datos', index=False)
  print(f"Archivo guardado en: {ruta_excel}")
except:
  print("No se pudo crear el archivo.")

Archivo guardado en: /content/drive/MyDrive/Archivos/datos.xlsx


## **3. Archivos JSON**

El formato JSON (JavaScript Object Notation) es muy utilizado para intercambiar datos entre servidores y aplicaciones web. Utilizaremos 'pandas' para cargar datos desde un archivo JSON.

In [None]:
# Creación del archivo .json para posterior acceso

df_dic = {} # Diccionario con los datos del df
for index, fila in df.iterrows():
  print(index, "\n", fila)
  df_dic.update({fila['Registro'] : {"Nombre": fila['Nombre'], "Genero": fila['Genero'], "Ciudad": fila['Ciudad'], "Edad": fila['Edad']}})
  print(df_dic)

ruta_3 = '/content/drive/MyDrive/Archivos'

os.makedirs(ruta_3, exist_ok=True)

# Guardar el JSON en Google Drive
ruta_json = os.path.join(ruta_3, 'datos.json')

try:
  with open(ruta_json, 'w') as f:
      json.dump(df_dic, f)
  print(f"Archivo guardado en: {ruta_json}")
except:
  print("No se pudo crear el archivo.")

## **4. Bases de datos SQL**

Las bases de datos SQL son muy comunes para almacenar grandes volúmenes de datos estructurados. Utilizaremos 'pandas' junto con 'sqlalchemy' para cargar datos desde una base de datos SQL.

In [11]:
# Escribir la base de datos .sqlite

# El DataFrame original df
df_sql = pd.DataFrame({
    'Registro': ['R1', 'R2', 'R3', 'R4', 'R5', 'R6', 'R7', 'R8', 'R9', 'R10',
                 'R11', 'R12', 'R13', 'R14', 'R15', 'R16', 'R17', 'R18', 'R19', 'R20',
                 'R21', 'R22', 'R23', 'R24', 'R25', 'R26', 'R27', 'R28', 'R29', 'R30'],
    'Nombre': ['Helena', 'Esteban', 'Edith', 'Jairo', 'José', 'María', 'Carlos', 'Ana',
               'Juan', 'Laura', 'Diego', 'Camilo', 'Luis', 'Isabella', 'Jorge', 'Valentina',
               'Andrés', 'Daniel', 'Santiago', 'Natalia', 'Óscar', 'Gabriel', 'Ricardo',
               'Julian', 'Fernando', 'Sara', 'Alberto', 'Mónica', 'Hernán', 'Patricia'],
    'Genero': ['F', 'M', 'F', 'M', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'M', 'M', 'F',
               'M', 'F', 'M', 'M', 'M', 'F', 'M', 'M', 'M', 'M', 'M', 'F', 'M', 'F', 'M', 'F'],
    'Ciudad': ['Pereira', 'Medellin', 'Pereira', 'Cali', 'Cali', 'Cali', 'Medellin',
               'Pereira', 'Cali', 'Pereira', 'Armenia', 'Pereira', 'Medellin', 'Manizales',
               'Medellin', 'Armenia', 'Armenia', 'Manizales', 'Pereira', 'Pereira', 'Medellin',
               'Cali', 'Cali', 'Pereira', 'Pereira', 'Medellin', 'Manizales', 'Manizales',
               'Manizales', 'Manizales'],
    'Edad': [13, 24, 59, 60, 45, 28, 32, 19, 41, 26, 35, 22, 50, 31, 47, 29, 38, 24,
             27, 33, 42, 21, 55, 30, 39, 25, 48, 36, 44, 52]
})

try:
  # Conectar a la base de datos SQLite
  conn = sqlite3.connect('pruebas.db')
  cursor = conn.cursor()

  # Crear tabla 'registros' con la estructura del DataFrame
  cursor.execute('''
  CREATE TABLE IF NOT EXISTS registros (
      registro TEXT PRIMARY KEY,
      nombre TEXT NOT NULL,
      genero TEXT NOT NULL,
      ciudad TEXT NOT NULL,
      edad INTEGER NOT NULL
  )
  ''')

  # Verificar si la tabla está vacía
  cursor.execute('SELECT COUNT(*) FROM registros')
  if cursor.fetchone()[0] == 0:
      # Insertar datos del DataFrame
      for _, row in df_sql.iterrows():
          cursor.execute('''
          INSERT INTO registros (registro, nombre, genero, ciudad, edad)
          VALUES (?, ?, ?, ?, ?)
          ''', (row['Registro'], row['Nombre'], row['Genero'], row['Ciudad'], row['Edad']))
      conn.commit()
      print("Datos del DataFrame insertados correctamente en la tabla 'registros'")
  else:
      print("La tabla 'registros' ya contenía datos (no se insertaron nuevos)")


  # Cerrar conexión
  conn.close()

except:
  print("Error en la conexión con la Base de Datos.")

Datos del DataFrame insertados correctamente en la tabla 'registros'


# **Cargue de Archivos**

## **1. Archivos CSV**

In [17]:
# Lectura del archivo .csv

try:
  df_csv = pd.read_csv(ruta_csv)

  # Mostramos las 5 primeras filas del DataFrame
  print(df_csv.head())

  print("\n", df_csv)
  print(df_csv.shape)

except:
  print("No se pudo abrir el archivo.")

  Registro   Nombre Genero    Ciudad  Edad
0       R1   Helena      F   Pereira    13
1       R2  Esteban      M  Medellin    24
2       R3    Edith      F   Pereira    59
3       R4    Jairo      M      Cali    60
4       R5     José      M      Cali    45

    Registro     Nombre Genero     Ciudad  Edad
0        R1     Helena      F    Pereira    13
1        R2    Esteban      M   Medellin    24
2        R3      Edith      F    Pereira    59
3        R4      Jairo      M       Cali    60
4        R5       José      M       Cali    45
5        R6      María      F       Cali    28
6        R7     Carlos      M   Medellin    32
7        R8        Ana      F    Pereira    19
8        R9       Juan      M       Cali    41
9       R10      Laura      F    Pereira    26
10      R11      Diego      M    Armenia    35
11      R12     Camilo      M    Pereira    22
12      R13       Luis      M   Medellin    50
13      R14   Isabella      F  Manizales    31
14      R15      Jorge      M   Med

## **Archivos Excel**

In [22]:
# Lectura del archivo .xlsx

try:
  df_excel = pd.read_excel(ruta_excel, sheet_name='Datos')

  # Mostramos las 5 primeras filas del DataFrame
  print(df_excel.head())

  #print("\n", df_excel)
  print(df_excel.shape)
except:
  print("No se pudo abrir el archivo.")

  Registro   Nombre Genero    Ciudad  Edad
0       R1   Helena      F   Pereira    13
1       R2  Esteban      M  Medellin    24
2       R3    Edith      F   Pereira    59
3       R4    Jairo      M      Cali    60
4       R5     José      M      Cali    45
(30, 5)


## **3. Archivos JSON**

In [24]:
# Lectura del archivo .json

try:
  df_json = pd.read_json(ruta_json)

  # Mostramos las 5 primeras filas del DataFrame
  print(df_json.head())
  print(df_json.shape)

except:
  print("No se pudo abrir el archivo.")

             R1        R2       R3     R4    R5     R6        R7       R8  \
Nombre   Helena   Esteban    Edith  Jairo  José  María    Carlos      Ana   
Genero        F         M        F      M     M      F         M        F   
Ciudad  Pereira  Medellin  Pereira   Cali  Cali   Cali  Medellin  Pereira   
Edad         13        24       59     60    45     28        32       19   

          R9      R10  ...       R21      R22      R23      R24       R25  \
Nombre  Juan    Laura  ...     Óscar  Gabriel  Ricardo   Julian  Fernando   
Genero     M        F  ...         M        M        M        M         M   
Ciudad  Cali  Pereira  ...  Medellin     Cali     Cali  Pereira   Pereira   
Edad      41       26  ...        42       21       55       30        39   

             R26        R27        R28        R29        R30  
Nombre      Sara    Alberto     Mónica     Hernán   Patricia  
Genero         F          M          F          M          F  
Ciudad  Medellin  Manizales  Manizales 

## **4. Bases de datos SQL**

In [25]:
# Lectura de la base de datos .sqlite

try:
  # Conectar a la base de datos SQLite
  conn = sqlite3.connect('pruebas.db')
  cursor = conn.cursor()

  # Leer los datos usando pandas
  df_sql = pd.read_sql('SELECT * FROM registros', conn)

  # Mostrar resultados
  print("\nContenido de la tabla 'registros':")
  print(df_sql)

  # Cerrar conexión
  conn.close()

except:
  print("Error en la conexión con la Base de Datos.")


Contenido de la tabla 'registros':
   registro     nombre genero     ciudad  edad
0        R1     Helena      F    Pereira    13
1        R2    Esteban      M   Medellin    24
2        R3      Edith      F    Pereira    59
3        R4      Jairo      M       Cali    60
4        R5       José      M       Cali    45
5        R6      María      F       Cali    28
6        R7     Carlos      M   Medellin    32
7        R8        Ana      F    Pereira    19
8        R9       Juan      M       Cali    41
9       R10      Laura      F    Pereira    26
10      R11      Diego      M    Armenia    35
11      R12     Camilo      M    Pereira    22
12      R13       Luis      M   Medellin    50
13      R14   Isabella      F  Manizales    31
14      R15      Jorge      M   Medellin    47
15      R16  Valentina      F    Armenia    29
16      R17     Andrés      M    Armenia    38
17      R18     Daniel      M  Manizales    24
18      R19   Santiago      M    Pereira    27
19      R20    Natalia  

### **Referencias**

- [Pandas Documentation](https://pandas.pydata.org/pandas-docs/stable/)
- [SQLAlchemy Documentation](https://docs.sqlalchemy.org/en/14/)
- [Requests Documentation](https://docs.python-requests.org/en/latest/)



---



---



## **Ejemplo de Conexión a MySQL para insertar el DataFrame**

In [None]:
pip install mysql-connector-python

import pandas as pd
import mysql.connector
from mysql.connector import Error

# Configuración de la conexión MySQL
config = {
    'host': 'localhost',  # o la IP de tu servidor MySQL
    'user': 'tu_usuario',
    'password': 'tu_contraseña',
    'database': 'nombre_base_datos'
}

# Tu DataFrame (el mismo que mostraste antes)
df = pd.DataFrame({
    'Registro': ['R1', 'R2', 'R3', 'R4', 'R5', 'R6', 'R7', 'R8', 'R9', 'R10',
                'R11', 'R12', 'R13', 'R14', 'R15', 'R16', 'R17', 'R18', 'R19', 'R20',
                'R21', 'R22', 'R23', 'R24', 'R25', 'R26', 'R27', 'R28', 'R29', 'R30'],
    'Nombre': ['Helena', 'Esteban', 'Edith', 'Jairo', 'José', 'María', 'Carlos', 'Ana',
              'Juan', 'Laura', 'Diego', 'Camilo', 'Luis', 'Isabella', 'Jorge', 'Valentina',
              'Andrés', 'Daniel', 'Santiago', 'Natalia', 'Óscar', 'Gabriel', 'Ricardo',
              'Julian', 'Fernando', 'Sara', 'Alberto', 'Mónica', 'Hernán', 'Patricia'],
    'Genero': ['F', 'M', 'F', 'M', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'M', 'M', 'F',
              'M', 'F', 'M', 'M', 'M', 'F', 'M', 'M', 'M', 'M', 'M', 'F', 'M', 'F', 'M', 'F'],
    'Ciudad': ['Pereira', 'Medellin', 'Pereira', 'Cali', 'Cali', 'Cali', 'Medellin',
              'Pereira', 'Cali', 'Pereira', 'Armenia', 'Pereira', 'Medellin', 'Manizales',
              'Medellin', 'Armenia', 'Armenia', 'Manizales', 'Pereira', 'Pereira', 'Medellin',
              'Cali', 'Cali', 'Pereira', 'Pereira', 'Medellin', 'Manizales', 'Manizales',
              'Manizales', 'Manizales'],
    'Edad': [13, 24, 59, 60, 45, 28, 32, 19, 41, 26, 35, 22, 50, 31, 47, 29, 38, 24,
            27, 33, 42, 21, 55, 30, 39, 25, 48, 36, 44, 52]
})

try:
    # Establecer conexión
    conn = mysql.connector.connect(**config)

    if conn.is_connected():
        cursor = conn.cursor()

        # Crear tabla si no existe
        cursor.execute('''
        CREATE TABLE IF NOT EXISTS registros (
            registro VARCHAR(10) PRIMARY KEY,
            nombre VARCHAR(50) NOT NULL,
            genero CHAR(1) NOT NULL,
            ciudad VARCHAR(20) NOT NULL,
            edad INT NOT NULL
        )
        ''')

        # Verificar si la tabla está vacía
        cursor.execute('SELECT COUNT(*) FROM registros')
        if cursor.fetchone()[0] == 0:
            # Insertar datos del DataFrame
            for _, row in df.iterrows():
                cursor.execute('''
                INSERT INTO registros (registro, nombre, genero, ciudad, edad)
                VALUES (%s, %s, %s, %s, %s)
                ''', (row['Registro'], row['Nombre'], row['Genero'], row['Ciudad'], row['Edad']))
            conn.commit()
            print(f"Se insertaron {len(df)} registros en la tabla 'registros'")

        # Leer datos con pandas
        data_sql = pd.read_sql('SELECT * FROM registros', conn)
        print("\nContenido de la tabla 'registros':")
        print(data_sql)

except Error as e:
    print(f"Error de MySQL: {e}")

finally:
    # Cerrar conexión
    if conn.is_connected():
        cursor.close()
        conn.close()
        print("\nConexión a MySQL cerrada")