# 1. Introducción

Hasta ahora hemos introducido la información directamente en nuestras líneas de código. Sin embargo, en la práctica esto limita la funcionalidad de nuestros programas. Es por esto que existen varias maneras de introducir datos a programas de Python. 

Los métodos existentes son:

* Línea de comando: La información se introduce directamente a la terminal de la computadora.
* Entrada estándar: Los programas toman información de otros programas.
* Entrada por teclado: El usuario introduce manualmente información que pide el programa.
* Entrada-salida por archivos: El programa puede leer y escribir directamente sobre archivos. En este curso nos enfocaremos en archivos de texto, pero se pueden usar otro tipo de archivos también (como archivos de audio).
* Web: Se puede leer información directamente de sitios web.

# 2. Entrada por teclado

Para pedirle al usuario que ingrese información desde su teclado, simplemente usamos la función `input()`. Lo que el usuario introduzca se guarda en una variable que puede ser utilizada después.

In [None]:
n1 = input('Introduce un número: ')
n2 = input('Introduce un número: ')

n3 = int(n1) + int(n2) # define la suma entre enteros

print('La suma es:', n3) # imprime el resultado

Introduce un número: 10
Introduce un número: 20
La suma es: 30


In [None]:
# Este programa genera una letra aleatoria
# luego pide al usuario ingresar una letra 
# finalmente, el usuario debe advinar la letra generada
# aleatoriamente. Cuando esto suceda el programa termina.
import random

letras = 'abcdefghijklmnopqrstuvwxyz'

# toma una letra aleatoria
aleatoria = letras[random.randint(0, 25)] # aleatoria = letras[5] = f

# ejecuta mientras sea cierto
while True: 
  adivina = input('Escribe una letra minúscula: ') # z ingresada por usuario
  # checa que lo que se ingresó sí es una letra minúscula
  if adivina not in letras:
    print("Esto no es una letra minúscula.") 
    break
  # si se ingresó una letra minúscula, imprime "Bien"  
  if adivina == aleatoria: 
    print("Adivinaste la letra del programa :)")
    break
  # consejo: la letra del programa esta después, en orden alfabético
  if adivina > aleatoria:
    print("La letra secreta esta antes en el alfabeto.") 
  # consejo: la letra del programa esta antes, en orden alfabético
  else:
    print("La letra secreta esta después en el alfabeto.")

Escribe una letra minúscula: z
La letra secreta esta después en el alfabeto.
Escribe una letra minúscula: f
La letra secreta esta después en el alfabeto.
Escribe una letra minúscula: a
La letra secreta esta antes en el alfabeto.
Escribe una letra minúscula: b
Adivinaste la letra del programa :)


# 2. Cargar archivos

A continuación estudiaremos cómo abrir archivos de texto para manipulación con Python.

In [None]:
# abre un archivo con extensión .txt
archivo = open('/content/drive/MyDrive/Intro a PLN/NLP - UNAM 2021/paises.txt','r')
# lee el archivo usando la función read()
lectura = archivo.read() 
# cierra el archivo
archivo.close() 
# imprime los contenidos del archivo ya guardados en la variable lectura
print(lectura) 

[
 "Afganistán",
 "Alandia",
 "Albania",
 "Argelia",
 "Samoa Americana",
 "Andorra",
 "Angola",
 "Anguilla",
 "Antártida",
 "Antigua y Barbuda",
 "Argentina",
 "Armenia",
 "Aruba",
 "Australia",
 "Austria",
 "Azerbaiyán",
 "Bahamas",
 "Bahrein",
 "Bangladesh",
 "Barbados",
 "Bielorrusia",
 "Bélgica",
 "Belice",
 "Benín",
 "Bermudas",
 "Bután",
 "Bolivia",
 "Bosnia y Herzegovina",
 "Botswana",
 "Isla Bouvet",
 "Brasil",
 "Territorio Británico del Océano Índico",
 "Islas Ultramarinas Menores de Estados Unidos",
 "Islas Vírgenes del Reino Unido",
 "Islas Vírgenes de los Estados Unidos",
 "Brunei",
 "Bulgaria",
 "Burkina Faso",
 "Burundi",
 "Camboya",
 "Camerún",
 "Canadá",
 "Cabo Verde",
 "Islas Caimán",
 "República Centroafricana",
 "Chad",
 "Chile",
 "China",
 "Isla de Navidad",
 "Islas Cocos o Islas Keeling",
 "Colombia",
 "Comoras",
 "Congo",
 "Congo (Rep. Dem.)",
 "Islas Cook",
 "Costa Rica",
 "Croacia",
 "Cuba",
 "Chipre",
 "República Checa",
 "Dinamarca",
 "Yibuti",
 "Dominica",
 "

In [None]:
len(lectura)

3692

In [None]:
variable = 'Escribe texto... '

In [None]:
# abre un archivo con extensión .txt
archivo = open('/content/drive/MyDrive/Intro a PLN/NLP - UNAM 2021/paises.txt','r')
# lee el archivo usando la función read()
lectura = archivo.read() 
# cierra el archivo
archivo.close() 

for linea in lectura:
  print('Número de letras en esta línea: ',
        len(linea), ',', linea)

# 3. Librería Pandas: carga y exploración de bases de datos

https://github.com/jpposadas/FakeNewsCorpusSpanish

In [None]:
import pandas as pd

In [None]:
# Muy importante especificar la ruta en donde se 
# encuentra localizado el archivo a abrir

RUTA = '/content/drive/MyDrive/Intro a PLN/NLP - UNAM 2021/train.xlsx'

# Guarda la información del archivo de Excel en 
# una variable "archivo". Esta variable contendrá
# toda la información del archivo de Excel, y nos 
# permitirá manipular la información contenida en él.
archivo = pd.read_excel(RUTA)

In [None]:
archivo

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link
0,1,Fake,Education,El Ruinaversal,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...","RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",http://www.elruinaversal.com/2017/06/10/rae-in...
1,2,Fake,Education,Hay noticia,"La palabra ""haiga"", aceptada por la RAE","La palabra ""haiga"", aceptada por la RAE La Rea...",https://haynoticia.es/la-palabra-haiga-aceptad...
2,3,Fake,Education,El Ruinaversal,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,http://www.elruinaversal.com/2018/05/06/yordi-...
3,4,True,Education,EL UNIVERSAL,UNAM capacitará a maestros para aprobar prueba...,UNAM capacitará a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
4,5,Fake,Education,Lamula,pretenden aprobar libros escolares con conteni...,Alerta: pretenden aprobar libros escolares con...,https://redaccion.lamula.pe/2018/06/19/memoria...
...,...,...,...,...,...,...,...
671,672,Fake,Entertainment,El Dizque,Madonna será la nueva imagen del Chocolate Abu...,Madonna será la nueva imagen del Chocolate Abu...,https://www.eldizque.com/madonna-sera-la-nueva...
672,673,True,Entertainment,Radio Formula,"Filtran material íntimo de Zelina Vega, luchad...","Filtran material íntimo de Zelina Vega, luchad...",http://www.radioformula.com.mx/notas.asp?Idn=7...
673,674,Fake,Entertainment,La Voz Popular,CBS PLANEA GRAN HERMANO EN LA CASA BLANCA CON ...,CBS PLANEA GRAN HERMANO EN LA CASA BLANCA CON ...,http://lavozpopular.com/cbs-planea-gran-herman...
674,675,Fake,Entertainment,El Dizque,TV Azteca anuncia que cambiará su nombre por u...,TV Azteca anuncia que cambiará su nombre por u...,https://www.eldizque.com/tv-azteca-anuncia-que...


In [None]:
archivo['Category'].value_counts()

True    338
Fake    338
Name: Category, dtype: int64

In [None]:
archivo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 676 entries, 0 to 675
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Id        676 non-null    int64 
 1   Category  676 non-null    object
 2   Topic     676 non-null    object
 3   Source    676 non-null    object
 4   Headline  676 non-null    object
 5   Text      676 non-null    object
 6   Link      676 non-null    object
dtypes: int64(1), object(6)
memory usage: 37.1+ KB


In [None]:
archivo.columns

Index(['Id', 'Category', 'Topic', 'Source', 'Headline', 'Text', 'Link'], dtype='object')

In [None]:
archivo['Text'] # regresa sólo las primeras y últimas filas

0      RAE INCLUIRÁ LA PALABRA "LADY" EN EL DICCIONAR...
1      La palabra "haiga", aceptada por la RAE La Rea...
2      YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...
3      UNAM capacitará a maestros para aprobar prueba...
4      Alerta: pretenden aprobar libros escolares con...
                             ...                        
671    Madonna será la nueva imagen del Chocolate Abu...
672    Filtran material íntimo de Zelina Vega, luchad...
673    CBS PLANEA GRAN HERMANO EN LA CASA BLANCA CON ...
674    TV Azteca anuncia que cambiará su nombre por u...
675    MUERTE DE PETER EL ANGUILA POR SOBREDOSIS\nPet...
Name: Text, Length: 676, dtype: object

In [None]:
archivo['Topic'].value_counts() 

Politics         226
Entertainment    103
Society           93
Sport             86
Science           62
Health            32
Economy           30
Security          29
Education         15
Name: Topic, dtype: int64

Pandas permite cargar datos en diversos formatos. 

https://pandas.pydata.org/pandas-docs/stable/reference/io.html

# 4. Escritura en archivos

Para escribir en un archivo, primero se debe crear (en caso de que no exista ya) en una ruta especificada. Una vez creado el nuevo archivo, se escriben en él los datos deseados. Finalmente, se debe cerrar el archivo, pues Python necesita saber explicitamente que los cambios han finalizado y se puede guardar el nuevo archivo.

Si se desea escribir sobre un archivo ya existente, primero se debe abrir el archivo (como lo hicimos anteriormente). Luego, se escribe la información deseada, y finalmente se cierra el archivo.

A continuación un ejemplo de cómo crear un nuevo archivo de texto en el que se guardarán dos líneas de texto.

In [None]:
# Muy importante especificar la ruta en donde se guardará el archivo nuevo
PATH = '/content/drive/MyDrive/...' # ingresar la ruta particular al Drive de cada usuario

# Abre el archivo nuevo
archivo_de_salida = open(PATH + '/archivo_prueba.txt','w') # la 'w' indica escritura (write)
# Escribe en el archivo
archivo_de_salida.write('algo de texto.\n') 
archivo_de_salida.write('...y más texto !\n') 
archivo_de_salida.close() # cierra el archivo

Cuando se genera información a partir de un programa de Python, es conveniente guardar los resultados en un archivo .txt, pues esta extensión es ligera, fácil de cargar y de manipular por diversos lenguajes de programación. No es conveniente guardar resultados en archivos de Word, pues los archivos de Word contienen información que puede meter ruido a nuestros resultados. Otro formato conveniente es .csv, pues este permite ordenar la información en filas y columnas (como Excel, pero de una manera más eficiente y ligera. Excel tampoco es un formato conveniente).

## 5. Ejercicio

De la base de datos cargada anteriormente, crear un nuevo archivo de texto (.txt) que contenga únicamente la columna "Text". La información en dicha columna debe empezar con una mayúscula, y el resto del texto debe estar en minúsculas. Asímismo, el archivo de texto debe contener, al final, la cuenta del número de veces que aparece la palabra "UNAM" en la columna "Text".

In [None]:
columna_deseada = str(archivo['Text'])

In [None]:
columna_deseada

'0      RAE INCLUIRÁ LA PALABRA "LADY" EN EL DICCIONAR...\n1      La palabra "haiga", aceptada por la RAE La Rea...\n2      YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...\n3      UNAM capacitará a maestros para aprobar prueba...\n4      Alerta: pretenden aprobar libros escolares con...\n                             ...                        \n671    Madonna será la nueva imagen del Chocolate Abu...\n672    Filtran material íntimo de Zelina Vega, luchad...\n673    CBS PLANEA GRAN HERMANO EN LA CASA BLANCA CON ...\n674    TV Azteca anuncia que cambiará su nombre por u...\n675    MUERTE DE PETER EL ANGUILA POR SOBREDOSIS\\nPet...\nName: Text, Length: 676, dtype: object'

In [None]:
columna_deseada[100]

'R'

In [None]:
len(mayusculas)

In [None]:
textos = []

for fila in archivo['Text']:
  textos.append(fila)

In [None]:
len(textos)

676

In [None]:
textos[0]

'RAE INCLUIRÁ LA PALABRA "LADY" EN EL DICCIONARIO DEL IDIOMA ESPAÑOL COMO DEFINICIÓN DE "MUJER PROBLEMÁTICA"\nEspaña.- El presidente de la Real Academia Española (RAE), Darío Villanueva, informó en conferencia de prensa que a partir del próximo mes se incluirá el término "Lady" como una nueva palabra en el diccionario del idioma español.\nDarío señaló que "Lady" servirá para definir a una "mujer problemática" o a una "mujer que causa problemas", y mencionó que esta palabra será una de las pocas que también se utilizan en el idioma inglés pero que en castellano tiene un significado diferente:\n"Son contadas las palabras del idioma inglés que se utilizan en el español pero que tienen otro significado. Con la globalización las personas han comenzado a adoptar términos anglosajones pero los utilizan con su significado real, sin embargo en este caso la expresión Lady no significará lo mismo que en su idioma original ("dama" en inglés) sino que se usará para definir a una mujer que es proble

In [None]:
contador = 0

for fila in textos:
  if 'UNAM' in fila:
    contador = contador + 1

print('La palabra UNAM aparece', contador, 'veces en total.')

La palabra UNAM aparece 16 veces en total.


fila = segundo elemento de la lista textos
textos = lista con 676 elementos

if 'UNAM' in primer elemento de la lista textos
contador = 0 +1 = 1

In [None]:
formato = []

for fila in textos:
  minusculas = fila.lower()
  mayusculas = minusculas.capitalize()
  formato.append(mayusculas)

In [None]:
type(formato)

list

In [None]:
fila = textos[1]
fila

'La palabra "haiga", aceptada por la RAE La Real Academia de la Lengua (RAE), ha aceptado el uso de "HAIGA", para su utilización en las tres personas del singular del presente del subjuntivo del verbo hacer, aunque asegura que la forma más recomendable en la lengua culta para este tiempo, sigue siendo "haya".\nAsí lo han confirmado fuentes de la RAE, que explican que este cambio ha sido propuesto y aprobado por el pleno de la Academia de la Lengua, tras la extendida utilización por todo el territorio nacional, sobre todo, empleado por personas carentes de estudios o con estudios básicos de graduado escolar. Ya no será objeto de burla ese compañero que a diario repite aquello de "Mientras que haiga faena, no podemos quejarnos" o esa abuela que repite aquello de "El que haiga sacao los juguetes, que los recoja".\nEntre otras palabras novedosas que ha aceptado la RAE, contamos también con "Descambiar", significa deshacer un cambio, por ejemplo "devolver la compra". Visto lo visto, nadie a

In [None]:
minusculas = fila.lower()
minusculas

'la palabra "haiga", aceptada por la rae la real academia de la lengua (rae), ha aceptado el uso de "haiga", para su utilización en las tres personas del singular del presente del subjuntivo del verbo hacer, aunque asegura que la forma más recomendable en la lengua culta para este tiempo, sigue siendo "haya".\nasí lo han confirmado fuentes de la rae, que explican que este cambio ha sido propuesto y aprobado por el pleno de la academia de la lengua, tras la extendida utilización por todo el territorio nacional, sobre todo, empleado por personas carentes de estudios o con estudios básicos de graduado escolar. ya no será objeto de burla ese compañero que a diario repite aquello de "mientras que haiga faena, no podemos quejarnos" o esa abuela que repite aquello de "el que haiga sacao los juguetes, que los recoja".\nentre otras palabras novedosas que ha aceptado la rae, contamos también con "descambiar", significa deshacer un cambio, por ejemplo "devolver la compra". visto lo visto, nadie a

In [None]:
mayusculas = minusculas.capitalize()
mayusculas

'La palabra "haiga", aceptada por la rae la real academia de la lengua (rae), ha aceptado el uso de "haiga", para su utilización en las tres personas del singular del presente del subjuntivo del verbo hacer, aunque asegura que la forma más recomendable en la lengua culta para este tiempo, sigue siendo "haya".\nasí lo han confirmado fuentes de la rae, que explican que este cambio ha sido propuesto y aprobado por el pleno de la academia de la lengua, tras la extendida utilización por todo el territorio nacional, sobre todo, empleado por personas carentes de estudios o con estudios básicos de graduado escolar. ya no será objeto de burla ese compañero que a diario repite aquello de "mientras que haiga faena, no podemos quejarnos" o esa abuela que repite aquello de "el que haiga sacao los juguetes, que los recoja".\nentre otras palabras novedosas que ha aceptado la rae, contamos también con "descambiar", significa deshacer un cambio, por ejemplo "devolver la compra". visto lo visto, nadie a

In [None]:
print(formato[0])

Rae incluirá la palabra "lady" en el diccionario del idioma español como definición de "mujer problemática"
españa.- el presidente de la real academia española (rae), darío villanueva, informó en conferencia de prensa que a partir del próximo mes se incluirá el término "lady" como una nueva palabra en el diccionario del idioma español.
darío señaló que "lady" servirá para definir a una "mujer problemática" o a una "mujer que causa problemas", y mencionó que esta palabra será una de las pocas que también se utilizan en el idioma inglés pero que en castellano tiene un significado diferente:
"son contadas las palabras del idioma inglés que se utilizan en el español pero que tienen otro significado. con la globalización las personas han comenzado a adoptar términos anglosajones pero los utilizan con su significado real, sin embargo en este caso la expresión lady no significará lo mismo que en su idioma original ("dama" en inglés) sino que se usará para definir a una mujer que es problemáti

In [None]:
cuenta_UNAM = 'La palabra UNAM aparece ' + str(contador) + ' veces en total.'

formato.append(cuenta_UNAM)

In [None]:
print(formato[-1])

La palabra UNAM aparece 16 veces en total.


In [None]:
PATH = '/content/drive/MyDrive/...' # Ruta particular al Drive de cada usuario

# Abre el archivo nuevo
archivo_de_salida = open(PATH + '/archivo_final.txt','w')

# Escribe en el archivo
for fila in formato:
  archivo_de_salida.write(fila)

archivo_de_salida.close() # cierra el archivo

### Ejercicio: Obtener un archivo .txt que contenga la información en la columna "Headline". El texto debe estar todo en mayúsculas, salvo la primera letra de cada línea.
