# Interacción con Datos
- Manejo de distintos tipos de archivo: CSV, JSON, Excel
- Lectura y escritura de los archivos
- Manejo de diccionarios y listas

# Antes de empezar
- Revisar la configuración del ambiente de trabajo: Anaconda + VS Code
- Obtener el archivo netflix_titles.csv del Centro de Descargas
- Obtener el archivo alumnos.csv del Centro de Descargas
- Obtener el archivo example.json del Centro de Descargas
- Permisos de lectura y escritura con archivos

In [2]:
# Manejo de archivos CSV
# Importar la función completa "csv" para tratamiento de archivos
import csv
# Importar la función "os" para leer el directorio actual
import os

# Get the current working directory
cwd = os.getcwd()

# Print the current working directory
print("Directorio de trabajo: {0}".format(cwd))

# Cambiar el directorio actual con chdir
os.chdir("/users/memobarbosa/Análisis de datos/Parte 2")

Directorio de trabajo: /Users/memobarbosa/Análisis de datos/Parte 2/M14


In [3]:
# Abre el archivo de lectura
file = open(r'./netflix_titles.csv')

# Lee el archivo en el objeto csvreader
csvreader = csv.reader(file)

# Obtiene los encabezados del archivo (header)
header = []
header = next(csvreader)
header

['show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description']

In [4]:
# Extrae los datos a una lista
rows = []
for row in csvreader: rows.append(row)
    
# Imprime las 3 primeras filas
print(rows[:3])

# Tenemos toda la información de las películas en la lista rows

[['s1', 'Movie', 'Dick Johnson Is Dead', 'Kirsten Johnson', '', 'United States', 'September 25, 2021', '2020', 'PG-13', '90 min', 'Documentaries', 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.'], ['s2', 'TV Show', 'Blood & Water', '', 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng', 'South Africa', 'September 24, 2021', '2021', 'TV-MA', '2 Seasons', 'International TV Shows, TV Dramas, TV Mysteries', 'After crossing paths at a party, a Cape Town teen sets out to prove whether a private-school swimming star is her sister who was abducted at birth.'], ['s3', 'TV Show', 'Ganglands', 'Julien Leclercq', 'Sami Bouajila, Tracy Gotoas,

In [5]:
len(rows)

8807

In [6]:
# Para trabajar con filas y columnas, podemos usar numpy

# Importamos la función numpy
# https://numpy.org/doc/
import numpy as np
movies = np.array(rows)

In [7]:
# Ahora podemos usar filas y columnas
# Un array se puede usar con 2 parámetros: rango de filas y rango de columnas
# Recordar que en los array los índices empiezan en 0 y van hasta n-1 (0:10)
# Si quisiera ver todos los títulos, por ejemplo, de las primeras 10 películas
# Ej: Se pueden hacer ejercicios con otros campos
movies[0:10, 2]

array(['Dick Johnson Is Dead', 'Blood & Water', 'Ganglands',
       'Jailbirds New Orleans', 'Kota Factory', 'Midnight Mass',
       'My Little Pony: A New Generation', 'Sankofa',
       'The Great British Baking Show', 'The Starling'], dtype='<U771')

In [8]:
# Vamos a explorar más formas de uso de lectura de archivos más adelante. Por ahora a enfocarnos al manejo de archivos CSV

# Escribiendo un archivo CSV

In [9]:
# Para escribir un archivo CSV, se debe abrir primero el archivo con el flag 'w'
import csv
header_student = ['id', 'nombre', 'ciudad', 'total']
data = [
    ['01A', 'G.Vinueza', 'Cuenca', 50],
    ['02A', 'J.García', 'Ciudad de México', 75],
    ['03A', 'E.Maldonado', 'Puebla', 82],
    ['04A', 'S.Humbren', 'Monterrey', 74]
]

with open('alumnos.csv', 'w', encoding='UTF8', newline='') as f:
    writer = csv.writer(f)
    
    # write the header
    writer.writerow(header_student)
    
    # write the data
    writer.writerow(data)

In [10]:
# Luego lo podemos visualizar

# Abre el archivo de lectura
file = open(r'./alumnos.csv')
# Lee el archivo en el objeto csvreader
csvreader = csv.reader(file)

# Obtiene los encabezados del archivo (header)
header_studentt = []
header_studentt = next(csvreader)
header_studentt

['id', 'nombre', 'ciudad', 'total']

In [11]:
# Extrae los datos a una lista
rows_alumnos = []
for row in csvreader: rows_alumnos.append(row)
    
# Imprime el contenido de las filas de alumnos
rows_alumnos

[["['01A', 'G.Vinueza', 'Cuenca', 50]",
  "['02A', 'J.García', 'Ciudad de México', 75]",
  "['03A', 'E.Maldonado', 'Puebla', 82]",
  "['04A', 'S.Humbren', 'Monterrey', 74]"]]