## Importar Datos desde Archivo CSV hacia SQL


En algunas ocasiones es necesario cargar los datos hacia un DBMS como PostreSQL, MySQL, Oracle, etc. buscando que los procesos de preparación, carga y actualización de los datos sean eficientes. Utilizando la librería pandas y sqlalchemy es posible realizar esta tarea

In [1]:
import pandas as pd
from sqlalchemy import create_engine

df = pd.read_csv('C:/HOME/DATA ANALYSIS/tweet_activity_metrics_rdvillal_20211118_20211216_es.csv')
df.head()

Unnamed: 0,ID del Tweet,Enlace permanente de Tweet,Texto del Tweet,hora,impresiones,interacciones,tasa de interacción,retweets,respuestas,me gusta,...,clics de etiquetas promocionado,ampliaciones de detalles promocionado,clics en enlaces permanentes promocionado,Se abre la aplicación promocionado,descargas de app promocionado,seguimientos promocionado,enviar Tweet por correo electrónico promocionado,marcar teléfono promocionado,visualizaciones multimedia promocionado,interacciones con el contenido multimedia promocionado
0,1471230310914433032,https://twitter.com/rdvillal/status/1471230310...,Yo creía que aquella mujer estaba loca. Luego ...,2021-12-15 21:26 +0000,11.0,0.0,0.0,0.0,0.0,0.0,...,-,-,-,-,-,-,-,-,-,-
1,1468299003443953666,https://twitter.com/rdvillal/status/1468299003...,"Allá, de donde venimos ahora, al menos te entr...",2021-12-07 19:18 +0000,68.0,0.0,0.0,0.0,0.0,0.0,...,-,-,-,-,-,-,-,-,-,-
2,1468297844306161673,https://twitter.com/rdvillal/status/1468297844...,Hay pueblos que saben a desdicha. Se les conoc...,2021-12-07 19:14 +0000,63.0,0.0,0.0,0.0,0.0,0.0,...,-,-,-,-,-,-,-,-,-,-
3,1467217224498913282,https://twitter.com/rdvillal/status/1467217224...,"He aparejado las bestias y ya están listas, ¿t...",2021-12-04 19:40 +0000,79.0,3.0,0.037975,0.0,1.0,1.0,...,-,-,-,-,-,-,-,-,-,-
4,1467185723514265604,https://twitter.com/rdvillal/status/1467185723...,@AlexisGS007 spotify wrapped 👏👏👏,2021-12-04 17:35 +0000,22.0,0.0,0.0,0.0,0.0,0.0,...,-,-,-,-,-,-,-,-,-,-


Visualizamos los datos que previamente exportamos desde Twitter. Estos se leen desde un archivo separado por comas y ahora por medio de la librería pandas han sido instanciados en un objeto DataFrame. Estando en el DataFrame será muy fácil cargarlo al DBMS sin necesidad de diseñar la tabla con algún comando de CREATE TABLE, los tipos de datos y estructura son automáticamente interpretados posteriormente con la ayuda del objeto Engine de SQLAlchemy.

Previo a la ejecución del siguiente código he instalado la base de datos postgres en localhost, en el puerto 5432, usuario postgres, contraseña root. He creado una base de datos llamada dataengineering, ahí subiré el archivo en una nueva tabla que se llamará Tweets. Utilizamos index = False para evitar que tome la columna de índice que Pandas genera automáticamente en los DataFrame

In [5]:
engine = create_engine('postgresql://postgres:root@localhost:5432/dataengineering')
df.to_sql('Tweets', con = engine, index = False)

Si se consulta en la base postgres se confirmará que se tiene una nueva tabla llamada Tweets ya cargada con la información del archivo CSV. Sin embargo, ya que la instrucción anterior sobreescribe la tabla en caso de que ya exista, a continuación agregaré otro archivo con información con el objetivo de mostrar cómo ingestar datos con el mismo método sin perder los ya cargados

In [6]:
df2 = pd.read_csv('C:/HOME/DATA ANALYSIS/tweet_activity_metrics_rdvillal_20220801_20220901_es.csv')
df2.head()

Unnamed: 0,ID del Tweet,Enlace permanente de Tweet,Texto del Tweet,hora,impresiones,interacciones,tasa de interacción,retweets,respuestas,me gusta,...,clics de etiquetas promocionado,ampliaciones de detalles promocionado,clics en enlaces permanentes promocionado,Se abre la aplicación promocionado,descargas de app promocionado,seguimientos promocionado,enviar Tweet por correo electrónico promocionado,marcar teléfono promocionado,visualizaciones multimedia promocionado,interacciones con el contenido multimedia promocionado
0,1564781187100442624,https://twitter.com/rdvillal/status/1564781187...,Con el Covid no quisimos creernos aquello de q...,2022-08-31 01:04 +0000,80.0,4.0,0.05,1.0,0.0,3.0,...,-,-,-,-,-,-,-,-,-,-
1,1564103508097368064,https://twitter.com/rdvillal/status/1564103508...,@EBCG1987 Ya anda incluso buscando el apoyo de...,2022-08-29 04:11 +0000,46.0,7.0,0.152174,0.0,0.0,3.0,...,-,-,-,-,-,-,-,-,-,-
2,1564099453983899649,https://twitter.com/rdvillal/status/1564099453...,Lord Corlys Velaryon está a un episodio de sal...,2022-08-29 03:55 +0000,254.0,12.0,0.047244,0.0,1.0,5.0,...,-,-,-,-,-,-,-,-,-,-
3,1564048591307653121,https://twitter.com/rdvillal/status/1564048591...,Este día he reproducido I could have lied - Re...,2022-08-29 00:33 +0000,214.0,1.0,0.004673,0.0,0.0,1.0,...,-,-,-,-,-,-,-,-,-,-
4,1564048149802516482,https://twitter.com/rdvillal/status/1564048149...,Por lo que he podido investigar la canción más...,2022-08-29 00:31 +0000,243.0,2.0,0.00823,0.0,0.0,0.0,...,-,-,-,-,-,-,-,-,-,-


In [7]:
df2.to_sql('Tweets', con = engine, if_exists = 'append', index= False)