# 2. Leer y escribir un archivo CSV 

Este notebook muestra:

- como leer (o importar) un archivo CSV desde Python y manipular los datos que contiene. 


- como escribir (o exportar) otro archivo CSV desde Python.

## 2.1 Leer un CSV generado por Crowtangle (CT) para manipular posts de Instagram

- Pandas (https://pandas.pydata.org/) es una libreria para facilitar el análisis de datos en Python (Python Data Analysis Library)
- Pandasql (Query Language) es una libreria que permite hacer consultas sobre los datos

In [1]:
!pip install pandas



In [2]:
!pip install pandasql



In [3]:
import pandas
from pandasql import sqldf 

- Se define dónde está el archivo que queremos leer:

In [14]:
archivo = "./data/milicogate.csv"

- La función "read_csv" de pandas permite leer un archivo CSV

In [15]:
corpus = pandas.read_csv(archivo)

In [16]:
corpus

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date
0,0,753309.0,chile,horas24,https://www.24horas.cl/nacional/contralor-de-l...,Contralor de la República confirma auditoría e...,"El Contralor General de la República, Jorge Be...",2016-05-04
1,1,698303.0,chile,horas24,https://www.24horas.cl/nacional/milicogate-eje...,"""MilicoGate"": Ejército sancionará a 31 funcion...",Noticias relacionadas Sumario revela que caso ...,2016-08-26
2,2,4312019.0,chile,elciudadano,https://www.elciudadano.com/politica/milicogat...,Milicogate: Justicia civil verá aumento de pat...,El Séptimo Juzgado de Garantía de Santiago de...,2017-02-10
3,3,753286.0,chile,horas24,https://www.24horas.cl/nacional/denuncian-que-...,Denuncian que hijos de general Oviedo recibier...,Una nueva denuncia compromete al alto mando de...,2016-05-04
4,4,755113.0,chile,horas24,https://www.24horas.cl/nacional/abogado-daza-p...,"Abogado Daza por caso Fuente-Alba: ""Es sólo la...",Continúan las investigaciones en el caso denom...,2016-05-02
...,...,...,...,...,...,...,...,...
159,159,4417021.0,chile,elciudadano,https://www.elciudadano.com/politica/querella-...,"Querella de Bachelet: ¿Acierto, nuevo error o ...",Si ya el anuncio de la decisión de la preside...,2016-06-03
160,160,4417432.0,chile,elciudadano,https://www.elciudadano.com/politica/querella-...,"Querella de Bachelet: ¿Acierto, nuevo error o ...",Si ya el anuncio de la decisión de la preside...,2016-06-03
161,161,5457455.0,chile,latercera,https://www.latercera.com/nacional/noticia/eje...,Ejército reconoce ante la Corte de Apelaciones...,En medio de la polémica que provocaron los dic...,2018-11-28
162,162,5815420.0,chile,elciudadano,https://www.elciudadano.com/justicia/polemica-...,Polémica en El Ciudadano: Ejército desmiente a...,"El pasado jueves 1 de octubre de 2020, El Ciud...",2020-10-05


- Nuestro archivo tiene muchas columnas vacias al final:

In [11]:
print(corpus.columns.tolist())

['Account', 'Followers at Posting', 'Post Created Date', 'Post Created Time', 'Type', 'Total Interactions', 'Likes', 'Comments', 'Views', 'Like and View Counts Disabled', 'Link', 'Photo', 'Title', 'Description', 'Image Text', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21', 'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30', 'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33', 'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37', 'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41', 'Unnamed: 42', 'Unnamed: 43', 'Unnamed: 44', 'Unnamed: 45', 'Unnamed: 46', 'Unnamed: 47', 'Unnamed: 48', 'Unnamed: 49', 'Unnamed: 50', 'Unnamed: 51', 'Unnamed: 52', 'Unnamed: 53', 'Unnamed: 54', 'Unnamed: 55', 'Unnamed: 56', 'Unnamed: 57', 'Unnamed: 58', 'Unnamed: 59', 'Unnamed: 60', 'Unnamed: 61', 'Unnamed: 62', 'Unnamed: 63', 'Unnamed: 64', 'Unnamed: 65', 'Unnamed:

- Podemos suprimir las columnas una por una con la función "drop()"...

In [39]:
corpus.drop('Unnamed: 60', inplace=True, axis=1)

In [37]:
corpus

Unnamed: 0,Account,Followers at Posting,Post Created Date,Post Created Time,Type,Total Interactions,Likes,Comments,Views,Like and View Counts Disabled,...,Unnamed: 57,Unnamed: 59,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Unnamed: 66,Unnamed: 67
0,24horascl,1198966,2021-09-16,13:07:45,Photo,576,539,37,0,false,...,,,,,,,,,,
1,LUN,418709,2021-09-16,13:00:28,Photo,16,16,0,0,false,...,,,,,,,,,,
2,Cooperativa,1033028,2021-09-16,12:53:49,Photo,651,642,9,0,false,...,,,,,,,,,,
3,CNNChile,812602,2021-09-16,12:46:10,IGTV,11,10,1,869,false,...,,,,,,,,,,
4,Diario El Mostrador,443051,2021-09-16,12:39:45,Photo,241,230,11,0,false,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45087,T13,1247012,2020-09-16,13:46:02,Photo,3,424,3384,40,0,...,,,,,,,,,,
45088,24horascl,981473,2020-09-16,13:42:03,Photo,1,634,1364,270,0,...,,,,,,,,,,
45089,Meganoticias,1842734,2020-09-16,13:32:36,Photo,27,182,26072,1110,0,...,,,,,,,,,,
45090,24horascl,981473,2020-09-16,13:30:29,Photo,7,848,7696,152,0,...,,,,,,,,,,


- ... o utilizar una bocle para suprimirlas todas :-)

In [42]:
for i in range(57,58):
    corpus.drop('Unnamed: '+str(i), inplace=True, axis=1)

In [43]:
corpus

Unnamed: 0,Account,Followers at Posting,Post Created Date,Post Created Time,Type,Total Interactions,Likes,Comments,Views,Like and View Counts Disabled,...,Title,Description,Image Text,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Unnamed: 66,Unnamed: 67
0,24horascl,1198966,2021-09-16,13:07:45,Photo,576,539,37,0,false,...,,⭕ Cerca de las 14:00 horas de este jueves lleg...,O24HORAS 24 HORAS ÚLTIMO MINUTO RODRIGO ROJAS ...,,,,,,,
1,LUN,418709,2021-09-16,13:00:28,Photo,16,16,0,0,false,...,,"El partido por la Paz traerá a Chile a Figo, T...",,,,,,,,
2,Cooperativa,1033028,2021-09-16,12:53:49,Photo,651,642,9,0,false,...,,🎶🙌🇨🇱 Mientras se van preparando los asados y l...,cooperativa 33 ചാട SVRT32AM2 2 ¿LO SUPERAMOS E...,,,,,,,
3,CNNChile,812602,2021-09-16,12:46:10,IGTV,11,10,1,869,false,...,[Siemens #MineralsWeek],"El analista Matthew Wopata, principal analyst ...",,,,,,,,
4,Diario El Mostrador,443051,2021-09-16,12:39:45,Photo,241,230,11,0,false,...,,Diferencias significativas entre la venta de e...,elme Sigue el festival de irregularidades de R...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45087,T13,1247012,2020-09-16,13:46:02,Photo,3,424,3384,40,0,...,https://scontent-sea1-1.cdninstagram.com/v/t51...,,Se percibió entre las regiones de Atacama y O'...,,,,,,,
45088,24horascl,981473,2020-09-16,13:42:03,Photo,1,634,1364,270,0,...,https://scontent-sea1-1.cdninstagram.com/v/t51...,,"A través de su cuenta de Twitter, el ministro ...",,,,,,,
45089,Meganoticias,1842734,2020-09-16,13:32:36,Photo,27,182,26072,1110,0,...,https://scontent-sea1-1.cdninstagram.com/v/t51...,,¡Todos tienen una mascota favorita! 🤭🥰 ¿Hay al...,,,,,,,
45090,24horascl,981473,2020-09-16,13:30:29,Photo,7,848,7696,152,0,...,https://scontent-sea1-1.cdninstagram.com/v/t51...,,¡Los hermanos Warner están de vuelta! 😱😱😱😱\n\n...,,,,,,,


- Con pandas, la función head() permite ver las primeras lineas del corpus.

In [15]:
corpus.head(5)

Unnamed: 0,Account,Followers at Posting,Post Created Date,Post Created Time,Type,Total Interactions,Likes,Comments,Views,Like and View Counts Disabled,Link,Photo,Title,Description,Image Text
0,24horascl,1198966,2021-09-16,13:07:45,Photo,576,539,37,0,False,https://www.instagram.com/p/CT4-wD6h5wT/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,⭕ Cerca de las 14:00 horas de este jueves lleg...,O24HORAS 24 HORAS ÚLTIMO MINUTO RODRIGO ROJAS ...
1,LUN,418709,2021-09-16,13:00:28,Photo,16,16,0,0,False,https://www.instagram.com/p/CT496U3gROz/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,"El partido por la Paz traerá a Chile a Figo, T...",
2,Cooperativa,1033028,2021-09-16,12:53:49,Photo,651,642,9,0,False,https://www.instagram.com/p/CT49J9IgOHx/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,🎶🙌🇨🇱 Mientras se van preparando los asados y l...,cooperativa 33 ചാട SVRT32AM2 2 ¿LO SUPERAMOS E...
3,CNNChile,812602,2021-09-16,12:46:10,IGTV,11,10,1,869,False,https://www.instagram.com/tv/CT48KGihB7F/,https://scontent-sea1-1.cdninstagram.com/v/t51...,[Siemens #MineralsWeek],"El analista Matthew Wopata, principal analyst ...",
4,Diario El Mostrador,443051,2021-09-16,12:39:45,Photo,241,230,11,0,False,https://www.instagram.com/p/CT47i6StJWr/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,Diferencias significativas entre la venta de e...,elme Sigue el festival de irregularidades de R...


In [7]:
len(corpus)

2931

In [17]:
corpus.rename(columns={'Post Created Date': 'Date'}, index={'ONE': 'Row_1'}, inplace=True)

In [8]:
corpus

Unnamed: 0.1,Unnamed: 0,id_news,country,media_outlet,url,title,text,date
0,0,243393.0,chile,horas24,https://www.24horas.cl/nacional/instituto-naci...,Instituto Nacional de Derechos Humanos amplía ...,El Instituto Nacional de Derechos Humanos (IND...,2019-06-22
1,1,5163425.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/268476-pa...,Padre de Catrillanca solicita presencia de Bac...,Hasta el Palacio de la Moneda llegó Marcelo Ca...,2019-07-17
2,2,13829736.0,chile,emol,https://www.emol.com/noticias/Nacional/2019/03...,"Adolescente que acompañaba a Catrillanca: ""Hab...",SANTIAGO.- A casi cuatro meses de la muerte de...,2019-03-10
3,3,5439896.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/245535-ca...,Cartas enviadas a familia de Camilo Catrillanc...,"Hace unos días Marcelo Catrillanca, padre de C...",2018-12-30
4,4,5442943.0,chile,ahoranoticiasmega,https://www.meganoticias.cl/nacional/245302-ca...,Caso Catrillanca: Comuneros mapuche se toman l...,"Durante la mañana de este jueves, un grupo de ...",2018-12-27
...,...,...,...,...,...,...,...,...
2926,2926,5798626.0,chile,elciudadano,https://www.elciudadano.com/especiales/chilede...,La situación actual de los presos políticos de...,"Acusados por incendios, porte y lanzamiento de...",2021-01-05
2927,2927,5797077.0,chile,elciudadano,https://www.elciudadano.com/chile/mauricio-her...,"Mauricio Hernández Norambuena, con más de 18 a...",Mauricio Hernández Norambuena (62) pasó 17 año...,2020-12-22
2928,2928,5797960.0,chile,elciudadano,https://www.elciudadano.com/chile/mauricio-her...,"Mauricio Hernández Norambuena, con más de 18 a...",Mauricio Hernández Norambuena (62) pasó 17 año...,2020-12-22
2929,2929,6818961.0,chile,latercera,https://www.latercera.com/masdeco/talentos-201...,Talentos 2019 parte II,ARTE Delight lab: Artistas y activistas lumíni...,2019-11-14


## 2.2 Ejemplos de análisis

### 2.2.1 ¿Cuál es la cantidad de posts por día?

In [9]:
result = sqldf("SELECT date, count(*) as nb_noticias FROM corpus GROUP BY date ORDER BY date ASC")
result

Unnamed: 0,date,nb_noticias
0,2018-11-14,11
1,2018-11-15,103
2,2018-11-16,91
3,2018-11-17,35
4,2018-11-18,65
...,...,...
429,2021-01-19,13
430,2021-01-21,2
431,2021-01-28,10
432,2021-03-01,1


In [20]:
result.to_csv("./output/cantidad_posts_por_dia.csv")

### 2.2.2 ¿Cuál es la cantidad de posts por medios de prensa?

In [10]:
result = sqldf("SELECT media_outlet, count(*) as nb_posts FROM corpus GROUP BY media_outlet ORDER BY count(*) DESC")
result

Unnamed: 0,media_outlet,nb_posts
0,latercera,986
1,emol,536
2,ahoranoticiasmega,469
3,horas24,336
4,elciudadano,319
5,biobiochile,212
6,elmostrador,73


In [22]:
result.to_csv("./output/cantidad_posts_por_medio.csv")

### 2.2.3 ¿Cuál es la cantidad de Likes por medios de prensa?

In [23]:
result = sqldf("SELECT Account, sum(Likes) as Likes FROM corpus GROUP BY Account ORDER BY sum(Likes) DESC")
result

Unnamed: 0,Account,Likes
0,Meganoticias,3533751
1,24horascl,3309943
2,T13,2607657
3,CNNChile,2561513
4,BioBioChile,2534835
5,Diario El Mostrador,1863622
6,Cooperativa,1823419
7,LUN,1646876
8,La Tercera,547431


### 2.2.3 ¿Cuáles son los medios que generan más likes por posts

In [24]:
result = sqldf("SELECT Account, sum(Likes) as Likes, count(*) as nb_posts FROM corpus GROUP BY Account ORDER BY Account DESC")
result

Unnamed: 0,Account,Likes,nb_posts
0,T13,2607657,5182
1,Meganoticias,3533751,7034
2,La Tercera,547431,1295
3,LUN,1646876,5485
4,Diario El Mostrador,1863622,4913
5,Cooperativa,1823419,3671
6,CNNChile,2561513,5679
7,BioBioChile,2534835,5080
8,24horascl,3309943,6753


In [25]:
result2 = sqldf("SELECT Account, Likes/nb_posts as ratio FROM result GROUP BY Account ORDER BY ratio DESC")
result2

Unnamed: 0,Account,ratio
0,T13,503
1,Meganoticias,502
2,BioBioChile,498
3,Cooperativa,496
4,24horascl,490
5,CNNChile,451
6,La Tercera,422
7,Diario El Mostrador,379
8,LUN,300


### 2.2.4 ¿Cuáles son los posts que generaron más comentarios?

In [26]:
result = sqldf("SELECT * FROM corpus ORDER BY comments DESC LIMIT 5")
result

Unnamed: 0,Account,Followers at Posting,Date,Post Created Time,Type,Total Interactions,Likes,Comments,Views,Like and View Counts Disabled,Link,Photo,Title,Description,Image Text
0,Meganoticias,2458108,2021-08-30,12:25:49,Photo,595,572,563858,31714,0,https://www.instagram.com/p/CTNIb-Pt3Uw/,https://www.instagram.com/p/CTNIb-Pt3Uw/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,🔴 Este lunes 30 de agosto se confirmó la lamen...
1,Meganoticias,2411636,2021-08-01,16:53:06,Photo,252,855,249392,3463,0,https://www.instagram.com/p/CSC7-T7L0nn/,https://www.instagram.com/p/CSC7-T7L0nn/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,El actor #JohnnyDepp por primera vez desde que...
2,Meganoticias,2350559,2021-06-16,09:26:20,Photo,247,811,240864,6947,0,https://www.instagram.com/p/CQLsR1-tuVY/,https://www.instagram.com/p/CQLsR1-tuVY/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,🔴 Lo que parecía ser una comida familiar para ...
3,Meganoticias,2469088,2021-08-30,22:24:49,Photo,237,882,236693,1189,0,https://www.instagram.com/p/CTOM_PTIDh3/,https://www.instagram.com/p/CTOM_PTIDh3/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,😞 Este lunes 30 de agosto se confirmó la lamen...
4,Meganoticias,2411636,2021-08-01,10:07:44,Photo,235,453,234011,1442,0,https://www.instagram.com/p/CSCNlV2Nv1W/,https://www.instagram.com/p/CSCNlV2Nv1W/,https://scontent-sea1-1.cdninstagram.com/v/t51...,,La realidad superó a la ficción 😱😱 Una misión ...


In [27]:
result["Photo"]

0    https://www.instagram.com/p/CTNIb-Pt3Uw/
1    https://www.instagram.com/p/CSC7-T7L0nn/
2    https://www.instagram.com/p/CQLsR1-tuVY/
3    https://www.instagram.com/p/CTOM_PTIDh3/
4    https://www.instagram.com/p/CSCNlV2Nv1W/
Name: Photo, dtype: object