# **Introducción a Python**
# FP28. Tarea Final 01
## Trabajando con archivos CSV

¡Bienvenido Agente! Analicemos cómo trabajar con archivos CSV (**Comma Separeted Values**) en Python. Un archivo con la extensión de archivo CSV es un archivo de valores separados por comas. Todos los archivos CSV son de texto sin formato, contienen caracteres alfanuméricos y estructuran los datos contenidos en ellos en forma tabular. No confunda los archivos de Excel con los archivos csv, mientras que los archivos csv tienen un formato muy similar al de los archivos de Excel, no tienen tipos de datos para sus valores, todos son cadenas sin fuente ni color. Tampoco tienen hojas de trabajo como lo hace un archivo de Excel. Python tiene varias bibliotecas para trabajar con archivos de Excel, puede consultarlas [aquí](http://www.python-excel.org/) y [aquí](https://www.xlwings.org/).

Los archivos en formato CSV se utilizan generalmente para intercambiar datos, generalmente cuando hay una gran cantidad, entre diferentes aplicaciones. Los programas de bases de datos, el software analítico y otras aplicaciones que almacenan cantidades masivas de información (como contactos y datos de clientes), generalmente admitirán el formato CSV.

Exploremos cómo podemos abrir un archivo csv con la biblioteca csv incorporada de Python.

## <font color='green'>Misión</font>

Has conseguido acceso a un archivo clasificado de agentes.
Tu misión consiste en lo siguiente:<br>
1. Abrir el archivo
2. Leer el archivo
3. Interpreta qué tipo de información tiene el archivo
4. Extrae los emails del archivo
5. Extrae los nombres reales completos
6. Escribe en un archivo csv nuevo

## <font color='green'>Tarea 1:</font> Abrir archivo CSV

Nombre del archivo: *agentes.csv*

TIP:

1. Utiliza la sentencia  **with open()**
2. Utiliza la librería **cvs**; investiga su uso

In [None]:
# Primero debemos montar el archivo
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Luego debemos definir el path de lectura.
path1 = '/content/drive/MyDrive/Colab Python/01. Fundamentos de Python/FP28-TareaFinal-01-Trabajando-con-Archivos-csv/'


In [None]:
# Finalmente abrimos el archivo.
 #El archivo tiene un nombre  diferente al señalado en las instrucciones. 
 # Por ello abrimos example.csv en vez de agentes.csv.
import csv
with open(path1 + 'example.csv', newline='') as myfile:
    lines = csv.reader(myfile)

## <font color='green'>Tarea 2:</font> Leer archivo CVS y verificar codificación

Confirma que *agentes.csv* se abrió correctamente. Lee el archivo y verifica si está bien codificado. En algunos entornos de Python, los archivos csv pueden contener caracteres que no pueden interpretarse correctamente; los símbolos **@**, o incluso caracteres con tildes pueden producir esto. 

TIP:

1. Para leer utiliza la función **reader** de la libreria **csv**
2. Si la lectura tuvo problemas, vuelve al abrir el archivo con **encoding='utf-8'**. Utiliza la función
```python
open(nombre archivo, encoding="utf-8")
```
3. Investiga en interner más sobre cómo leer archivos cvs en Python
4. Imprime la primera y tercera línea del archivo

In [None]:
# Primero abrimos el archivo sin encoding e imprimimos la primera y tercera línea. 
# En este entorno de Python no vemos problemas de codificación.
import csv
with open(path1 + 'example.csv', newline='') as myfile:
    lines = csv.reader(myfile)

    for row in list(myfile)[0:3:2]:
        print(row)

id,first_name,last_name,email,gender,ip_address,city

2,Freida,Drillingcourt,fdrillingcourt1@umich.edu,Female,97.212.102.79,Buri



In [None]:
# Para chequear alguna diferencia al incorporar el encoding, volvemos a correr el código, sin observar diferencias.
# De todas formas es recomendable utilizar el encoding 'utf-8' para no tener problemas con archivos con caracteres ñ u otros
import csv
with open(path1 + 'example.csv', encoding="utf-8", newline='') as myfile:
    lines = csv.reader(myfile)

    for row in list(myfile)[0:3:2]:
        print(row)

id,first_name,last_name,email,gender,ip_address,city

2,Freida,Drillingcourt,fdrillingcourt1@umich.edu,Female,97.212.102.79,Buri



Ten en cuenta que el primer elemento de la lista es la línea de encabezado, la cual contiene la información sobre lo que representa cada columna.

## <font color='green'>Tarea 3:</font> Qué información tiene el archivo?

Lee las tres primeras líneas e imprímelas para verificar qué tipo de información tiene el archivo.

1. Cuántos campos tiene cada registro?
2. Cuantos regitros tiene el archivo?

In [None]:
# En base a nuestra investigación, decidimos usar la clase DictReader.
# Esto nos permite manejar mejor los encabezados y las consultas de información.
import csv
with open(path1 + 'example.csv', encoding="utf-8",  newline='') as myfile2:
    reader = csv.DictReader(myfile2)
    for row in reader:
        if int(row['id']) <= 3:
            print(row)
     
        else:
            break

# Para contar los campos contamos las columnas de la fila de encabezado.

    first_row = next(reader)
    N_campos = len(first_row)
    print(f"La cantidad de campos es: {N_campos}")

# Una primera forma de saber el total de registros es usar readlines().

    totalrows = len(open(path1 + 'example.csv').readlines())
    print(f"El archivo tiene {totalrows-1} registros (versión 1)")

# Otra manera de saber el total de registros es usar un for de lectura.

with open(path1 + 'example.csv', encoding="utf-8",  newline='') as myfile3:
    reader2 = csv.DictReader(myfile3)
    rowcount = 0
    for row in reader2:
        rowcount +=1
    print(f"El archivo tiene {rowcount} registros (versión 2)")

OrderedDict([('id', '1'), ('first_name', 'Joseph'), ('last_name', 'Zaniolini'), ('email', 'jzaniolini0@simplemachines.org'), ('gender', 'Male'), ('ip_address', '163.168.68.132'), ('city', 'Pedro Leopoldo')])
OrderedDict([('id', '2'), ('first_name', 'Freida'), ('last_name', 'Drillingcourt'), ('email', 'fdrillingcourt1@umich.edu'), ('gender', 'Female'), ('ip_address', '97.212.102.79'), ('city', 'Buri')])
OrderedDict([('id', '3'), ('first_name', 'Nanni'), ('last_name', 'Herity'), ('email', 'nherity2@statcounter.com'), ('gender', 'Female'), ('ip_address', '145.151.178.98'), ('city', 'Claver')])
La cantidad de campos es: 7
El archivo tiene 1000 registros (versión 1)
El archivo tiene 1000 registros (versión 2)


## <font color='green'>Tarea 4:</font> Extrae los emails si existen?

1. Extrae los 20 primeros emails de los registros; si es que existen, por supuesto!!<br>
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprimelos desde la lista ordenada ascendente.

In [None]:
import csv
with open(path1 + 'example.csv', encoding="utf-8",  newline='') as myfile4:
    reader3 = csv.DictReader(myfile4)

 # Leemos el archivo como un diccionario, y luego tomamos la fila de emails.
 # Luego lo traspasamos a una lista, la cual ordenamos de manera ascendente.

    Lista = []

    for row in reader3:
        if int(row['id']) <= 20:
            Lista.append(row['email'])
        else:
            break
    
    print(f"La lista tiene {len(Lista)} emails")
    Lista.sort()
    print((Lista))

La lista tiene 20 emails
['abathb@umn.edu', 'ajeppe@umich.edu', 'bglanertj@timesonline.co.uk', 'cceried@yale.edu', 'chedworth8@china.com.cn', 'dhowatt6@amazon.com', 'fdrillingcourt1@umich.edu', 'ftarra@shareasale.com', 'hgasquoine9@google.ru', 'iboycotti@dailymail.co.uk', 'jmurrison4@cbslocal.com', 'jzaniolini0@simplemachines.org', 'kherion7@amazon.com', 'kroish@unicef.org', 'lchastangc@goo.gl', 'lgamet5@list-manage.com', 'nclunieg@utexas.edu', 'nherity2@statcounter.com', 'ofrayling3@economist.com', 'pcaldeirof@chronoengine.com']


## <font color='green'>Tarea 5:</font> Extrae los nombres reales completos

1. Extrae los 20 primeros nombres completos **de mujeres** de los registros.
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprimelos desde la lista ordenadamente hacia abajo.

In [None]:
import csv
with open(path1 + 'example.csv', encoding="utf-8",  newline='') as myfile5:
    reader4 = csv.DictReader(myfile5)
    
    Lista2 = []
    x = 0
    count = 0
 
# Para este caso no podemos usar el id.
# Por lo tanto debemos contar los 20 primeros nombres completos de mujeres.
# Consideramos nombre completo como la concatenación de 'first_name' y 'last_name'.

    for row in reader4:
        if row['gender'] == 'Female':
            nombre = row['first_name'] + " " + row['last_name']

            Lista2.append(nombre)
            x += 1
        if len(Lista2) >= 20:
            break

# Primero contamos el largo de la lista para comprobar la extracción.
# Luego imprimimos la lista ordenada ascendentemente hacia abajo.

    print(f"La lista tiene {len(Lista2)} nombres completos de mujeres")

    Lista2.sort()

    print("\n".join(str(i) for i in Lista2))
    

La lista tiene 20 nombres completos de mujeres
Alvera Jepp
Benedetta Glanert
Charyl Halstead
Danita Aldrin
Dyana Howatt
Elmira Goodhand
Felicdad Tarr
Freida Drillingcourt
Gillie Roantree
Hetty Lightollers
Honey Crenshaw
Isa Boycott
Jeanelle VanBrugh
Julianne Murrison
Kassey Herion
Lucy Gamet
Merralee Lampel
Nanni Herity
Nariko Clunie
Sarina Choulerton


## <font color='green'>Tarea 6:</font> Escribe en un archivo csv nuevo

Toma los nombres de la Tarea 5 y escríbelos en un archivo *cvs*. Llama al archivo *agentes_vigilar*

Tips:
1. Abre un archivo nuevo en modo escritura (*modo w*).
2. Escribe en él desde la lista de la Tarea 5, utilizando un ciclo *for* y el método **writerow** de la librería **csv**.
3. Verifica la correcta escritura: abre el archivo y lee su contenido.

In [None]:
import csv
with open(path1 + 'agentes_vigilar.csv', 'w') as f:
    writer = csv.writer(f, delimiter="\n")

    writer.writerow(Lista2)

# Para imprimir la lista en el archivo csv no es necesario usar un ciclo for.
# Solamente ingresando la Lista completa al método writerow se puede escribir.

with open(path1 + 'agentes_vigilar.csv', encoding="utf-8",  newline='') as myfile6:
    reader5 = csv.reader(myfile6)

    for row in reader5:
        print(row)

# Comprobamos que el resultado exportado es igual al archivo agentes_vigilar.csv,
# incluido en los archivos de la TareaFinal-01.

['Alvera Jepp']
['Benedetta Glanert']
['Charyl Halstead']
['Danita Aldrin']
['Dyana Howatt']
['Elmira Goodhand']
['Felicdad Tarr']
['Freida Drillingcourt']
['Gillie Roantree']
['Hetty Lightollers']
['Honey Crenshaw']
['Isa Boycott']
['Jeanelle VanBrugh']
['Julianne Murrison']
['Kassey Herion']
['Lucy Gamet']
['Merralee Lampel']
['Nanni Herity']
['Nariko Clunie']
['Sarina Choulerton']


En Python se trabaja con archivos CSV con frecuencia. Más adelante trabajarás con la poderosa [biblioteca pandas] (https://pandas.pydata.org/) y en ella es frecuente su uso.