<a href="https://colab.research.google.com/github/masterNLPIA2223/SeminarioComputacionProgramacion/blob/main/Python/Sesion3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesión 3: Cargando datos en Python

En este notebook veremos cómo cargar datos en Python que están almacenados en ficheros locales de nuestro ordenador. También veremos cómo guardar datos para interactuar con ellos en el futuro. 


## Ficheros de texto plano

Los ficheros de texto plano son aquellos que únicamente contienen texto formado por caracteres que son legibles por humanos, careciendo de cualquier tipo de formato tipográfico.

En Python existe el tipo fichero, y se utilizan funciones específicas de cada sistema operativo para manipularlos. 

La interacción con un fichero va a ser siempre la misma. 

1.  Abrimos el fichero. Mediante la función ``open(fichero, modo)``.
2.  Manipulamos el contenido del mismo. Leyendo su contenido o escribiendo en el mismo. 
3.  Cerramos el fichero. Mediante el método ``close()``.

Veamos en primer lugar qué hace el método ``open()``.

In [12]:
??open

### Escribiendo texto en un fichero

Vamos a abrir un fichero para escribir sobre el mismo. 

In [3]:
fichero = open("prueba.txt", "w")

Para escribir sobre un fichero debemos utilizar el método `write()`. 

In [4]:
fichero.write("Esta es la primera línea\n")
fichero.write("Vamos por la segunda\n")
fichero.write("La tercera ya llegó\n")
fichero.write("Y finalizamos con la cuarta\n")

28

El número que se muestra al final de la ejecución anterior, es el número de caracteres que se escribieron con el último comando. 

Finalmente, es necesario cerrar el fichero para que se guarden los cambios en el mismo. 

In [5]:
fichero.close()

Ahora en el panel de la izquierda, puedes ver un icono con una carpeta, si pinchas en ella verás los archivos que son accesibles desde Colab (estos archivos se eliminan al terminar la sesión así que si quieres almacenarlos en local, debes asegurarte de guardarlos). En dicha carpeta veremos nuestro archivo llamado `prueba.txt`.

Para asegurarnos de cerrar siempre un fichero, es común usar la siguiente sintaxis.

```
with open(<nombre_fichero_fisico>) as <nombre_fichero_variable>:
   # Manipular fichero
```

Con dicha sintaxis se cierra automáticamente el fichero al terminar la ejecución. Construyamos otro fichero con esta nueva sintaxis. 


In [6]:
with open("prueba2.txt", "w") as fichero:
  fichero.write("Esta es la primera línea\n")
  fichero.write("Vamos por la segunda\n")
  fichero.write("La tercera ya llegó\n")
  fichero.write("Y finalizamos con la cuarta\n")

### Leyendo ficheros

Los métodos más comunes utilizados para leer un fichero son `read` y `readlines`. Notar que en los comandos siguientes no le indicamos el modo a la función `open` ya que por defecto los ficheros se abren en modo lectura. 

In [8]:
with open("prueba.txt") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

Esta es la primera línea
Vamos por la segunda
La tercera ya llegó
Y finalizamos con la cuarta



In [9]:
with open("prueba.txt") as fichero:
  textoPorLinea = fichero.readlines()

print(textoPorLinea)

['Esta es la primera línea\n', 'Vamos por la segunda\n', 'La tercera ya llegó\n', 'Y finalizamos con la cuarta\n']


También es posible ir recorriendo línea a línea del fichero e ir procesando cada una de ellas con la siguiente sintaxis:

```
with open(<nombre_fichero_fisico>) as <nombre_fichero_variable>:
   for <variable_linea> in <nombre_fichero_variable>:
      # Operar sobre la línea
```

Por ejemplo, vamos a pasar todo el texto a minúsculas. 

In [11]:
with open("prueba.txt") as fichero:
  for linea in fichero:
    print(linea.lower())

esta es la primera línea

vamos por la segunda

la tercera ya llegó

y finalizamos con la cuarta



### Codificación

Por defecto, cuando abrimos y guardamos un fichero en Python este se guarda con la codificación `UTF-8`, sin embargo podemos elegir otra codificación. 

Por ejemplo, vamos a crear un fichero con codificación `latin2`.

In [14]:
with open("prueba3.txt", "w",encoding="latin2") as fichero:
  fichero.write("Esta es la primera línea\n")
  fichero.write("Vamos por la segunda\n")
  fichero.write("La tercera ya llegó\n")
  fichero.write("Y finalizamos con la cuarta\n")

¿Qué ocurre ahora si intentamos leer el contenido de dicho fichero?

In [15]:
with open("prueba3.txt") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

UnicodeDecodeError: ignored

Podemos ver que se produce un error al intentar leer el fichero, esto se debe a que por defecto Python intenta leer el fichero con codificación UTF-8, y este no es el caso. Por lo que si queremos leer el fichero creado previamente, debemos indicar la codificación.

In [16]:
with open("prueba3.txt",encoding="latin2") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

Esta es la primera línea
Vamos por la segunda
La tercera ya llegó
Y finalizamos con la cuarta



## Manipulando datos tabulares

Los datos normalmente están almacenados en forma de tablas (por ejemplo, ficheros Excel o ficheros CSV). La manera más sencilla de cargar estos datos en Python es mediante la librería [pandas](https://pandas.pydata.org/).

Vamos a ver cómo se trabaja con esta librería, para lo cual lo primero que vamos a hacer es descargar dos ficheros.



In [17]:
!wget https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/frequencies_intensifiers.csv -O frequencies_intensifiers.csv
!wget https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/concordance_corpus.xlsx -O concordance_corpus.xlsx

--2022-09-19 09:03:11--  https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/frequencies_intensifiers.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 104596 (102K) [text/plain]
Saving to: ‘frequencies_intensifiers.csv’


2022-09-19 09:03:11 (8.18 MB/s) - ‘frequencies_intensifiers.csv’ saved [104596/104596]

--2022-09-19 09:03:11--  https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/concordance_corpus.xlsx
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 62526 (61K) [application/octet-stream]

Ahora vamos a cargar la librería pandas. Normalmente, para llamar a los métodos de esta librería se utiliza el acrónimo `pd`, para lo cual hay que cargar la librería del siguiente modo.

In [18]:
import pandas as pd

Ahora ya podemos cargar las tablas en Python, o utilizando el término de pandas, los `DataFrames`. Empezamos cargando el archivo excel mediante el método `read_excel`.

In [19]:
df = pd.read_excel("concordance_corpus.xlsx")

In [20]:
type(df)

pandas.core.frame.DataFrame

Podemos mostrar el contenido de la variable `df`.

In [21]:
df

Unnamed: 0,newadvent.org,"by Theodor Mommsen , undertook its monumental publication , the",Corpus/Corpus/NP,"Inscriptionum Latinarum "" , it sent a flattering letter to"
0,newadvent.org,Mommsen . The latter 's numerous collaborators...,Corpus/Corpus/NP,""" , among them Edwin Bormann , the noted autho..."
1,newadvent.org,") , concerning the preparatory work for the ab...",Corpus/Corpus/NP,"Inscriptionum "" , which appeared in the monthl..."
2,freerepublic.com,", or arrest the MD assembly , or suspend habeus",corpus/corpus/NN,", or invade sovereign states . ​He​ ​did​ ​n't..."
3,hinduism.co.za,"corporeal being in the fullness of time , assu...",corpus/corpus/NN,. It arises and perishes in due order . And
4,lg-legal.com,relation to the takeover offer announced today...,Corpora/corpus/NNS,valuing Archipelago at £ 340 m. 27 Sep 2013 MORE
...,...,...,...,...
848,blogs.ulster.ac.uk,"University . For example , Corpus Christi Coll...",Corpus/Corpus/NP,"Irish Missal , 12 th century ( MS 282 )"
849,ginnysaustin.com,set by a youth cutting my teeth on tacos in,Corpus/Corpus/NP,"Christi ( RIP Elva ’s ) . Now , I"
850,patriotsquestion911.com,"of the Geneva Conventions , and the repeal of ...",corpus/corpus/NN,( a fundamental point of law that has been with
851,biblicalarchaeology.org,"Keel recently pointed out , even in the highly...",Corpus/Corpus/NP,of West Semitic Stamp Seals published by Nahma...


Podemos ver que al cargar los datos anteriores, ha usado la primera fila como cabecera; sin embargo, nuestro fichero no tiene cabecera, por lo que debemos indicar que el atributo `header` está vacío. 

In [22]:
df = pd.read_excel("concordance_corpus.xlsx", header=None)
df

Unnamed: 0,0,1,2,3
0,newadvent.org,"by Theodor Mommsen , undertook its monumental ...",Corpus/Corpus/NP,"Inscriptionum Latinarum "" , it sent a flatteri..."
1,newadvent.org,Mommsen . The latter 's numerous collaborators...,Corpus/Corpus/NP,""" , among them Edwin Bormann , the noted autho..."
2,newadvent.org,") , concerning the preparatory work for the ab...",Corpus/Corpus/NP,"Inscriptionum "" , which appeared in the monthl..."
3,freerepublic.com,", or arrest the MD assembly , or suspend habeus",corpus/corpus/NN,", or invade sovereign states . ​He​ ​did​ ​n't..."
4,hinduism.co.za,"corporeal being in the fullness of time , assu...",corpus/corpus/NN,. It arises and perishes in due order . And
...,...,...,...,...
849,blogs.ulster.ac.uk,"University . For example , Corpus Christi Coll...",Corpus/Corpus/NP,"Irish Missal , 12 th century ( MS 282 )"
850,ginnysaustin.com,set by a youth cutting my teeth on tacos in,Corpus/Corpus/NP,"Christi ( RIP Elva ’s ) . Now , I"
851,patriotsquestion911.com,"of the Geneva Conventions , and the repeal of ...",corpus/corpus/NN,( a fundamental point of law that has been with
852,biblicalarchaeology.org,"Keel recently pointed out , even in the highly...",Corpus/Corpus/NP,of West Semitic Stamp Seals published by Nahma...


Para poder interactuar con las columnas, es conveniente asignarles un nombre. Esto lo hacemos a través del atributo `names` del método `read_excel`. 

In [24]:
df = pd.read_excel("concordance_corpus.xlsx", header=None, 
    names=["domain", "left", "kwic", "right"])
df

Unnamed: 0,domain,left,kwic,right
0,newadvent.org,"by Theodor Mommsen , undertook its monumental ...",Corpus/Corpus/NP,"Inscriptionum Latinarum "" , it sent a flatteri..."
1,newadvent.org,Mommsen . The latter 's numerous collaborators...,Corpus/Corpus/NP,""" , among them Edwin Bormann , the noted autho..."
2,newadvent.org,") , concerning the preparatory work for the ab...",Corpus/Corpus/NP,"Inscriptionum "" , which appeared in the monthl..."
3,freerepublic.com,", or arrest the MD assembly , or suspend habeus",corpus/corpus/NN,", or invade sovereign states . ​He​ ​did​ ​n't..."
4,hinduism.co.za,"corporeal being in the fullness of time , assu...",corpus/corpus/NN,. It arises and perishes in due order . And
...,...,...,...,...
849,blogs.ulster.ac.uk,"University . For example , Corpus Christi Coll...",Corpus/Corpus/NP,"Irish Missal , 12 th century ( MS 282 )"
850,ginnysaustin.com,set by a youth cutting my teeth on tacos in,Corpus/Corpus/NP,"Christi ( RIP Elva ’s ) . Now , I"
851,patriotsquestion911.com,"of the Geneva Conventions , and the repeal of ...",corpus/corpus/NN,( a fundamental point of law that has been with
852,biblicalarchaeology.org,"Keel recently pointed out , even in the highly...",Corpus/Corpus/NP,of West Semitic Stamp Seals published by Nahma...


Notar que la tabla anterior puede convertirse en una [tabla interactiva](https://colab.research.google.com/notebooks/data_table.ipynb) en Google Colab.

Ahora podemos interactuar con la tabla. Por ejemplo, podemos mostrar el contenido de una de las filas. 

In [25]:
df["domain"]

0                newadvent.org
1                newadvent.org
2                newadvent.org
3             freerepublic.com
4               hinduism.co.za
                ...           
849         blogs.ulster.ac.uk
850           ginnysaustin.com
851    patriotsquestion911.com
852    biblicalarchaeology.org
853        rrojasdatabank.info
Name: domain, Length: 854, dtype: object

Si queremos ver cuántos dominios únicos hay, lo podemos ver combinando varios métodos vistos previamente. 

In [26]:
len(set(df["domain"]))

234

También es posible extraer más de una fila.

In [28]:
df[["domain", "kwic"]]

Unnamed: 0,domain,kwic
0,newadvent.org,Corpus/Corpus/NP
1,newadvent.org,Corpus/Corpus/NP
2,newadvent.org,Corpus/Corpus/NP
3,freerepublic.com,corpus/corpus/NN
4,hinduism.co.za,corpus/corpus/NN
...,...,...
849,blogs.ulster.ac.uk,Corpus/Corpus/NP
850,ginnysaustin.com,Corpus/Corpus/NP
851,patriotsquestion911.com,corpus/corpus/NN
852,biblicalarchaeology.org,Corpus/Corpus/NP


Veremos más operaciones en los ejercicios de esta semana. Así que veamos ahora brevemente como cargar otro tipo de ficheros, que son los ficheros [csv](https://es.wikipedia.org/wiki/Valores_separados_por_comas). 

La manera de cargar estos ficheros es análoga a los ficheros de Excel, pero mediante la función `read_csv`.

In [30]:
df = pd.read_csv(
    "frequencies_intensifiers.csv",
    sep=";",
    header=None,
    names=["rank", "collocation", "freq", "empty"]
)

También es posible guardar DataFrames en un fichero mediante el método `to_csv`. 

In [31]:
df.to_csv('ejemplo.csv',index=None)