# **Introducción a Python**
# FP28. Capstone 1
## Trabajando con archivos CSV

¡Bienvenido Agente! Analicemos cómo trabajar con archivos CSV (**Comma Separeted Values**) en Python. Un archivo con la extensión de archivo CSV es un archivo de valores separados por comas. Todos los archivos CSV son de texto sin formato, contienen caracteres alfanuméricos y estructuran los datos contenidos en ellos en forma tabular. No confunda los archivos de Excel con los archivos csv, mientras que los archivos csv tienen un formato muy similar al de los archivos de Excel, no tienen tipos de datos para sus valores, todos son cadenas sin fuente ni color. Tampoco tienen hojas de trabajo como lo hace un archivo de Excel. Python tiene varias bibliotecas para trabajar con archivos de Excel, puede consultarlas [aquí](http://www.python-excel.org/) y [aquí](https://www.xlwings.org/).

Los archivos en formato CSV se utilizan generalmente para intercambiar datos, generalmente cuando hay una gran cantidad, entre diferentes aplicaciones. Los programas de bases de datos, el software analítico y otras aplicaciones que almacenan cantidades masivas de información (como contactos y datos de clientes), generalmente admitirán el formato CSV.

Exploremos cómo podemos abrir un archivo csv con la biblioteca csv incorporada de Python.

## <font color='green'>Misión</font>

Has conseguido acceso a un archivo clasificado de agentes.
Tu misión consiste en lo siguiente:<br>
1. Abrir el archivo
2. Leer el archivo
3. Interpreta qué tipo de información tiene el archivo
4. Extrae los emails del archivo
5. Extrae los nombres reales completos
6. Escribe en un archivo csv nuevo

## <font color='green'>Actividad 1:</font> Abrir archivo CSV

Nombre del archivo: *agentes.csv*

TIP:

1. Utiliza la sentencia  `with open()`
```python
with open(nombre archivo) ...
```
2. Utiliza la librería `cvs`; investiga su uso

In [20]:
# Tu código aquí ...
import csv
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.reader(file)     

## <font color='green'>Actividad 2:</font> Leer archivo CSV y verificar codificación

Confirma que *agentes.csv* se abrió correctamente. Lee el archivo y verifica si está bien codificado. En algunos entornos de Python, los archivos csv pueden contener caracteres que no pueden interpretarse correctamente; los símbolos `@`, o incluso caracteres con tildes pueden producir esto.

TIP:

1. Para leer utiliza la función `reader` de la libreria `csv`
2. Si la lectura tuvo problemas, vuelve al abrir el archivo con `encoding='utf-8'`. Utiliza la función
```python
with open(nombre archivo, encoding="utf-8") ...
```
3. Investiga en interner más sobre cómo leer archivos cvs en Python
4. Imprime la primera y tercera línea del archivo

In [22]:
# Tu código aquí ...
import csv
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.reader(file)
    for line_number, row in enumerate(agents, start=1):
        if line_number in {1, 3}:
            print(f"Line {line_number}: {row}")       


Line 1: ['id', 'first_name', 'last_name', 'email', 'gender', 'ip_address', 'city']
Line 3: ['2', 'Freida', 'Drillingcourt', 'fdrillingcourt1@umich.edu', 'Female', '97.212.102.79', 'Buri']


Ten en cuenta que el primer elemento de la lista es la línea de encabezado, la cual contiene la información sobre lo que representa cada columna.

## <font color='green'>Actividad 3:</font> Qué información tiene el archivo?

Lee las tres primeras líneas e imprímelas para verificar qué tipo de información tiene el archivo.

1. Cuántos campos tiene cada registro?
2. Cuantos regitros tiene el archivo?

In [24]:
# Tu código aquí...
import csv
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.reader(file)
    field_count = 0
    line_count = 0
    for row in agents:
        line_count += 1
        field_count = max(field_count, len(row))
print(f"Number of fields (columns): {field_count}")
print(f"Number of lines (rows): {line_count}")

Number of fields (columns): 7
Number of lines (rows): 1001


## <font color='green'>Actividad 4:</font> Extrae los emails si existen?

1. Extrae los 20 primeros emails de los registros; si es que existen, por supuesto!!<br>
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprímelos hacia abajo desde la lista .

In [3]:
# Tu código aquí ...
import csv
email_addresses = []
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.DictReader(file)
    for row_number, row in enumerate(agents, start=1):
        if email := row.get('email', ''):
            email_addresses.append(email)

        if len(email_addresses) >= 20:
            break
for email in email_addresses:
    print(email)

jzaniolini0@simplemachines.org
fdrillingcourt1@umich.edu
nherity2@statcounter.com
ofrayling3@economist.com
jmurrison4@cbslocal.com
lgamet5@list-manage.com
dhowatt6@amazon.com
kherion7@amazon.com
chedworth8@china.com.cn
hgasquoine9@google.ru
ftarra@shareasale.com
abathb@umn.edu
lchastangc@goo.gl
cceried@yale.edu
ajeppe@umich.edu
pcaldeirof@chronoengine.com
nclunieg@utexas.edu
kroish@unicef.org
iboycotti@dailymail.co.uk
bglanertj@timesonline.co.uk


## <font color='green'>Actividad 5:</font> Extrae los nombres reales completos

1. Extrae los 20 primeros nombres completos **de mujeres** de los registros.
2. Guárdalos en una lista y comprueba que sean 20.
3. Imprímelos desde la lista ordenada ascendente.

In [11]:
# Tu código aquí ...
import csv
fem_complete_names = []
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.DictReader(file)
    for row_number, row in enumerate(agents, start=1):
        if row.get('gender', '') == 'Female': 
            fem_complete_names.append(row.get('first_name', '') + ' ' + row.get('last_name', ''))
        if len(fem_complete_names) >= 20:
            break
for comp_names in fem_complete_names:
    print(comp_names)

Freida Drillingcourt
Nanni Herity
Julianne Murrison
Lucy Gamet
Dyana Howatt
Kassey Herion
Felicdad Tarr
Alvera Jepp
Nariko Clunie
Isa Boycott
Benedetta Glanert
Gillie Roantree
Sarina Choulerton
Danita Aldrin
Merralee Lampel
Charyl Halstead
Jeanelle VanBrugh
Hetty Lightollers
Elmira Goodhand
Honey Crenshaw


## <font color='green'>Actividad 6:</font> Escribe en un archivo csv nuevo

Toma los nombres de la Tarea 5 y escríbelos en un archivo *cvs*. Llama al archivo *agentes_vigilar*

Tips:
1. Abre un archivo nuevo en modo escritura (modo `w`).
2. Escribe en él desde la lista de la Tarea 5, utilizando un ciclo `for` y el método `writerow` de la librería `csv`.
3. Verifica la correcta escritura: abre el archivo y lee su contenido.


In [15]:
# Tu código aquí ...
import csv
fem_complete_names = []
with open("./agentes.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.DictReader(file)
    for row_number, row in enumerate(agents, start=1):
        if row.get('gender', '') == 'Female': 
            fem_complete_names.append(row.get('first_name', '') + ' ' + row.get('last_name', ''))
        if len(fem_complete_names) >= 20:
            break

with open("female_agent_names.csv", 'w', newline='', encoding='utf-8') as female_agents:
    writer = csv.writer(female_agents)

    # Write the names
    for comp_name in fem_complete_names:
        writer.writerow([comp_name])

with open("./female_agent_names.csv", 'r', newline='', encoding='utf-8') as file:
    agents = csv.reader(file)
    for line_number, row in enumerate(agents, start=1):
        print(f"Line {line_number}: {row}")       

Line 1: ['Freida Drillingcourt']
Line 2: ['Nanni Herity']
Line 3: ['Julianne Murrison']
Line 4: ['Lucy Gamet']
Line 5: ['Dyana Howatt']
Line 6: ['Kassey Herion']
Line 7: ['Felicdad Tarr']
Line 8: ['Alvera Jepp']
Line 9: ['Nariko Clunie']
Line 10: ['Isa Boycott']
Line 11: ['Benedetta Glanert']
Line 12: ['Gillie Roantree']
Line 13: ['Sarina Choulerton']
Line 14: ['Danita Aldrin']
Line 15: ['Merralee Lampel']
Line 16: ['Charyl Halstead']
Line 17: ['Jeanelle VanBrugh']
Line 18: ['Hetty Lightollers']
Line 19: ['Elmira Goodhand']
Line 20: ['Honey Crenshaw']


En Python se trabaja con archivos CSV con frecuencia. Más adelante trabajarás con la poderosa biblioteca [`pandas`](https://pandas.pydata.org/) y en ella es frecuente su uso.