<a href="https://colab.research.google.com/github/masterNLPIA2223/SeminarioComputacionProgramacion/blob/main/Python/Sesion3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesión 3: Cargando datos en Python

En este notebook veremos cómo cargar datos en Python que están almacenados en ficheros locales de nuestro ordenador. También veremos cómo guardar datos para interactuar con ellos en el futuro. 


## Ficheros de texto plano

Los ficheros de texto plano son aquellos que únicamente contienen texto formado por caracteres que son legibles por humanos, careciendo de cualquier tipo de formato tipográfico.

En Python existe el tipo fichero, y se utilizan funciones específicas de cada sistema operativo para manipularlos. 

La sintaxis recomendada para trabajar con ficheros es la siguiente.

```
with open(<nombre_fichero_fisico>, <modo>) as <nombre_fichero_variable>:
   # Manipular fichero
```

Con dicha sintaxis se (1) abre el fichero `<nombre_fichero_fisico>`, (2) se manipula el fichero mediante operaciones asociadas a `<nombre_fichero_variable>`, y (3) se cierra automáticamente el fichero al terminar la ejecución. El `<modo>` nos indica si vamos a abrir el fichero en modo lectura o en modo escritura. 


In [None]:
??open

### Escribiendo texto en un fichero

Vamos a escribir texto en un fichero con la sintaxis anterior. 

In [None]:
with open("prueba.txt", "w") as fichero:
  fichero.write("Esta es la primera línea\n")
  fichero.write("Vamos por la segunda\n")
  fichero.write("La tercera ya llegó\n")
  fichero.write("Y finalizamos con la cuarta\n")

Si ahora pinchas en el icono de la carpeta que aparece a la izquierda, verás que se ha creado dicho fichero. 

### Leyendo ficheros

Los métodos más comunes utilizados para leer un fichero son `read` y `readlines`. Notar que en los comandos siguientes no le indicamos el modo a la función `open` ya que por defecto los ficheros se abren en modo lectura. 

In [None]:
with open("prueba.txt") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

In [None]:
with open("prueba.txt") as fichero:
  textoPorLinea = fichero.readlines()

print(textoPorLinea)

También es posible ir recorriendo línea a línea del fichero e ir procesando cada una de ellas con la siguiente sintaxis:

```
with open(<nombre_fichero_fisico>) as <nombre_fichero_variable>:
   for <variable_linea> in <nombre_fichero_variable>:
      # Operar sobre la línea
```

Por ejemplo, vamos a pasar todo el texto a minúsculas. 

In [None]:
with open("prueba.txt") as fichero:
  for linea in fichero:
    print(linea.lower())

### Codificación

Por defecto, cuando abrimos y guardamos un fichero en Python este se guarda con la codificación `UTF-8`, sin embargo podemos elegir otra codificación. 

Por ejemplo, vamos a crear un fichero con codificación `latin2`.

In [None]:
with open("prueba2.txt", "w",encoding="latin2") as fichero:
  fichero.write("Esta es la primera línea\n")
  fichero.write("Vamos por la segunda\n")
  fichero.write("La tercera ya llegó\n")
  fichero.write("Y finalizamos con la cuarta\n")

¿Qué ocurre ahora si intentamos leer el contenido de dicho fichero?

In [None]:
with open("prueba2.txt") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

Podemos ver que se produce un error al intentar leer el fichero, esto se debe a que por defecto Python intenta leer el fichero con codificación UTF-8, y este no es el caso. Por lo que si queremos leer el fichero creado previamente, debemos indicar la codificación.

In [None]:
with open("prueba2.txt",encoding="latin2") as fichero:
  textoCompleto = fichero.read()
  
print(textoCompleto)

## Manipulando datos tabulares

Los datos normalmente están almacenados en forma de tablas (por ejemplo, ficheros Excel o ficheros CSV). La manera más sencilla de cargar estos datos en Python es mediante la librería [pandas](https://pandas.pydata.org/).

Vamos a ver cómo se trabaja con esta librería, para lo cual lo primero que vamos a hacer es descargar dos ficheros.



In [None]:
!wget https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/frequencies_intensifiers.csv -O frequencies_intensifiers.csv
!wget https://raw.githubusercontent.com/v4py/v4py.github.io/source/src/data/concordance_corpus.xlsx -O concordance_corpus.xlsx

Ahora vamos a cargar la librería pandas. Normalmente, para llamar a los métodos de esta librería se utiliza el acrónimo `pd`, para lo cual hay que cargar la librería del siguiente modo.

In [None]:
import pandas as pd

Ahora ya podemos cargar las tablas en Python, o utilizando el término de pandas, los `DataFrames`. Empezamos cargando el archivo excel mediante el método `read_excel`.

In [None]:
df = pd.read_excel("concordance_corpus.xlsx")

In [None]:
type(df)

Podemos mostrar el contenido de la variable `df`.

In [None]:
df

Podemos ver que al cargar los datos anteriores, ha usado la primera fila como cabecera; sin embargo, nuestro fichero no tiene cabecera, por lo que debemos indicar que el atributo `header` está vacío. 

In [None]:
df = pd.read_excel("concordance_corpus.xlsx", header=None)
df

Para poder interactuar con las columnas, es conveniente asignarles un nombre. Esto lo hacemos a través del atributo `names` del método `read_excel`. 

In [None]:
df = pd.read_excel("concordance_corpus.xlsx", header=None, 
    names=["domain", "left", "kwic", "right"])
df

Notar que la tabla anterior puede convertirse en una [tabla interactiva](https://colab.research.google.com/notebooks/data_table.ipynb) en Google Colab.

Ahora podemos interactuar con la tabla. Por ejemplo, podemos mostrar el contenido de una de las filas. 

In [None]:
df["domain"]

Si queremos ver cuántos dominios únicos hay, lo podemos ver combinando varios métodos vistos previamente. 

In [None]:
len(set(df["domain"]))

También es posible extraer más de una fila.

In [None]:
df[["domain", "kwic"]]

Veremos más operaciones en los ejercicios de esta semana. Así que veamos ahora brevemente como cargar otro tipo de ficheros, que son los ficheros [csv](https://es.wikipedia.org/wiki/Valores_separados_por_comas). 

La manera de cargar estos ficheros es análoga a los ficheros de Excel, pero mediante la función `read_csv`.

In [None]:
df = pd.read_csv(
    "frequencies_intensifiers.csv",
    sep=";",
    header=None,
    names=["rank", "collocation", "freq", "empty"]
)

También es posible guardar DataFrames en un fichero mediante el método `to_csv`. 

In [None]:
df.to_csv('ejemplo.csv',index=None)

In [None]:
df

# Fin