# **Introducción a Python**
# FP28. Capstone 1
## Trabajando con archivos CSV

¡Bienvenido Agente! Analicemos cómo trabajar con archivos CSV (**Comma Separeted Values**) en Python. Un archivo con la extensión de archivo CSV es un archivo de valores separados por comas. Todos los archivos CSV son de texto sin formato, contienen caracteres alfanuméricos y estructuran los datos contenidos en ellos en forma tabular. No confunda los archivos de Excel con los archivos csv, mientras que los archivos csv tienen un formato muy similar al de los archivos de Excel, no tienen tipos de datos para sus valores, todos son cadenas sin fuente ni color. Tampoco tienen hojas de trabajo como lo hace un archivo de Excel. Python tiene varias bibliotecas para trabajar con archivos de Excel, puede consultarlas [aquí](http://www.python-excel.org/) y [aquí](https://www.xlwings.org/).

Los archivos en formato CSV se utilizan generalmente para intercambiar datos, generalmente cuando hay una gran cantidad, entre diferentes aplicaciones. Los programas de bases de datos, el software analítico y otras aplicaciones que almacenan cantidades masivas de información (como contactos y datos de clientes), generalmente admitirán el formato CSV.

Exploremos cómo podemos abrir un archivo csv con la biblioteca csv incorporada de Python.

## <font color='green'>Misión</font>

Has conseguido acceso a un archivo clasificado de agentes.
Tu misión consiste en lo siguiente:<br>
1. Abrir el archivo
2. Leer el archivo
3. Interpreta qué tipo de información tiene el archivo
4. Extrae los emails del archivo
5. Extrae los nombres reales completos
6. Escribe en un archivo csv nuevo

## <font color='green'>Actividad 1:</font> Abrir archivo CSV

Nombre del archivo: *agentes.csv*

TIP:

1. Utiliza la sentencia  `with open()`
```python
with open(nombre archivo) ...
```
2. Utiliza la librería `cvs`; investiga su uso

In [None]:
# Tu código aquí ...

import csv

with open('example.csv') as data:
    print(data)

<_io.TextIOWrapper name='example.csv' mode='r' encoding='UTF-8'>


## <font color='green'>Actividad 2:</font> Leer archivo CSV y verificar codificación

Confirma que *agentes.csv* se abrió correctamente. Lee el archivo y verifica si está bien codificado. En algunos entornos de Python, los archivos csv pueden contener caracteres que no pueden interpretarse correctamente; los símbolos `@`, o incluso caracteres con tildes pueden producir esto.

TIP:

1. Para leer utiliza la función `reader` de la libreria `csv`
2. Si la lectura tuvo problemas, vuelve al abrir el archivo con `encoding='utf-8'`. Utiliza la función
```python
with open(nombre archivo, encoding="utf-8") ...
```
3. Investiga en interner más sobre cómo leer archivos cvs en Python
4. Imprime la primera y tercera línea del archivo

In [None]:
# Tu código aquí ...

with open('example.csv', encoding="utf-8") as data:
    csv_data = csv.reader(data)
    data_lines = list(csv_data)
    print(data_lines[0], '\n')
    print(data_lines[2])

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city'] 

['2', 'Freida', 'Drillingcourt', 'fdrillingcourt1@umich.edu', 'Female', '97.212.102.79', 'Buri']


Ten en cuenta que el primer elemento de la lista es la línea de encabezado, la cual contiene la información sobre lo que representa cada columna.

## <font color='green'>Actividad 3:</font> Qué información tiene el archivo?

Lee las tres primeras líneas e imprímelas para verificar qué tipo de información tiene el archivo.

1. Cuántos campos tiene cada registro?
2. Cuantos regitros tiene el archivo?

In [None]:
# Tu código aquí...

with open('example.csv') as data:
    csv_data = csv.reader(data)
    data_lines = list(csv_data)
    for line in data_lines[:3]:
        print(line, end='\n\n')
    cant_campos = len(data_lines[0])
    print(f'Cada registro tiene {cant_campos} campos\n')
    cant_reg = len(data_lines) - 1
    print(f'El archivo tiene {cant_reg} registros')

['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']

['1', 'Joseph', 'Zaniolini', 'jzaniolini0@simplemachines.org', 'Male', '163.168.68.132', 'Pedro Leopoldo']

['2', 'Freida', 'Drillingcourt', 'fdrillingcourt1@umich.edu', 'Female', '97.212.102.79', 'Buri']

Cada registro tiene 7 campos

El archivo tiene 1000 registros


## <font color='green'>Actividad 4:</font> Extrae los emails si existen?

1. Extrae los 20 primeros emails de los registros; si es que existen, por supuesto!!<br>
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprímelos hacia abajo desde la lista .

In [None]:
# Tu código aquí ...

all_emails = []
with open('example.csv') as data:
    csv_data = csv.reader(data)
    data_lines = list(csv_data)
    for line in data_lines[1:21]:
        all_emails.append(line[3])


In [None]:
print(f'Se extaen los primeros {len(all_emails)} mails\n')
for mail in all_emails:
    print(f'{mail}')

Se extaen los primeros 20 mails

jzaniolini0@simplemachines.org
fdrillingcourt1@umich.edu
nherity2@statcounter.com
ofrayling3@economist.com
jmurrison4@cbslocal.com
lgamet5@list-manage.com
dhowatt6@amazon.com
kherion7@amazon.com
chedworth8@china.com.cn
hgasquoine9@google.ru
ftarra@shareasale.com
abathb@umn.edu
lchastangc@goo.gl
cceried@yale.edu
ajeppe@umich.edu
pcaldeirof@chronoengine.com
nclunieg@utexas.edu
kroish@unicef.org
iboycotti@dailymail.co.uk
bglanertj@timesonline.co.uk


## <font color='green'>Actividad 5:</font> Extrae los nombres reales completos

1. Extrae los 20 primeros nombres completos **de mujeres** de los registros.
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprímelos desde la lista ordenada ascendente.

In [None]:
# Tu código aquí ...

full_names = []
cont = 0
with open('example.csv') as data:
    csv_data = csv.reader(data)
    data_lines = list(csv_data)
    for line in data_lines:
        if line[4] == 'Female':
            full_names.append(f'{line[1]} {line[2]}')
            cont += 1
            if cont == 20:
                break

In [None]:
full_names.sort()

In [None]:
print(f'Se extaen los primeros {len(full_names)} nombres')
print('Orden ascendente\n')
for name in full_names:
    print(f'{name}')


Se extaen los primeros 20 nombres
Orden ascendente

Alvera Jepp
Benedetta Glanert
Charyl Halstead
Danita Aldrin
Dyana Howatt
Elmira Goodhand
Felicdad Tarr
Freida Drillingcourt
Gillie Roantree
Hetty Lightollers
Honey Crenshaw
Isa Boycott
Jeanelle VanBrugh
Julianne Murrison
Kassey Herion
Lucy Gamet
Merralee Lampel
Nanni Herity
Nariko Clunie
Sarina Choulerton


## <font color='green'>Actividad 6:</font> Escribe en un archivo csv nuevo

Toma los nombres de la Tarea 5 y escríbelos en un archivo *cvs*. Llama al archivo *agentes_vigilar*

Tips:
1. Abre un archivo nuevo en modo escritura (modo `w`).
2. Escribe en él desde la lista de la Tarea 5, utilizando un ciclo `for` y el método `writerow` de la librería `csv`.
3. Verifica la correcta escritura: abre el archivo y lee su contenido.


In [None]:
# Tu código aquí ...

out_file = 'agentes_vigilar.csv'
with open(out_file, mode='w') as csv_out:
    csv_writer = csv.writer(csv_out,  delimiter=',')
    for line in full_names:
        csv_writer.writerow([line])

In [None]:
in_file = 'agentes_vigilar.csv'
with open(in_file) as data:
    csv_reader = csv.reader(data, delimiter=',')
    dl = list(csv_reader)

    for name in dl:
        print(f'{name[0]}')

Alvera Jepp
Benedetta Glanert
Charyl Halstead
Danita Aldrin
Dyana Howatt
Elmira Goodhand
Felicdad Tarr
Freida Drillingcourt
Gillie Roantree
Hetty Lightollers
Honey Crenshaw
Isa Boycott
Jeanelle VanBrugh
Julianne Murrison
Kassey Herion
Lucy Gamet
Merralee Lampel
Nanni Herity
Nariko Clunie
Sarina Choulerton


En Python se trabaja con archivos CSV con frecuencia. Más adelante trabajarás con la poderosa biblioteca [`pandas`](https://pandas.pydata.org/) y en ella es frecuente su uso.