# Interaccion con Datos
- Manejo de distintos tipos de archivos: CSV, JSON y Excel
- Lectura y escritura de los archivos
- Manejo de diccionarios y listas

# Archivo CSV

In [18]:
# Importacion de la funcion completa csv para tratamiento de archivos
import csv

# Abre el archivo CSV en modo lectura con codificacion utf-8
file = open("../../Archivos-Analisis/curso-ad/netflix_titles.csv", encoding="utf-8")

# Lectura del archivo CSV
csvreader = csv.reader(file)

# Obtiene los encabezados
header = []
header = next(csvreader)
header

['',
 'show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description',
 'duration_num',
 'duration_unit']

In [19]:
# Extraer los datos a una lista
rows = []

for row in csvreader:
    rows.append(row)

# Imprime los primeros 3
print(rows[:2])

[['0', 's1', 'Movie', 'Dick Johnson Is Dead', 'Kirsten Johnson', '', 'United States', 'September 25, 2021', '2020', 'PG-13', '90 min', 'Documentaries', 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.', '90.0', 'min'], ['1', 's2', 'TV Show', 'Blood & Water', '', 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng', 'South Africa', 'September 24, 2021', '2021', 'TV-MA', '2 Seasons', 'International TV Shows, TV Dramas, TV Mysteries', 'After crossing paths at a party, a Cape Town teen sets out to prove whether a private-school swimming star is her sister who was abducted at birth.', '2.0', 'season']]


In [20]:
# Para trabajar con filas y coolumnas, podemos utilizar numpy
import numpy as np
movies = np.array(rows)

In [26]:
# Ahora podemos utilziar numpy para trabajar con los datos
movies[0:10, 3]

array(['Dick Johnson Is Dead', 'Blood & Water', 'Ganglands',
       'Jailbirds New Orleans', 'Kota Factory', 'Midnight Mass',
       'My Little Pony: A New Generation', 'Sankofa',
       'The Great British Baking Show', 'The Starling'], dtype='<U771')

## Escribiendo un archivo CSV

In [30]:
import csv

header_students = ['id', 'nombre', 'ciudad', 'total'] # Creamos primero los encabezados
students = [
    [1, 'Bryan', 'Madrid', 1500],
    [2, 'Ana', 'Barcelona', 2000],
    [3, 'Luis', 'Valencia', 3000],
    [4, 'Mauricio', 'Bogota', 2500]
] # Llenado la lista con los datos

with open('../../Archivos-Analisis/curso-ad/students.csv', 'w', encoding='utf-8', newline='') as f: # Creacion del archvio
    writer = csv.writer(f)

    # escribe los encabezados
    writer.writerow(header_students)

    # escribe los datos
    writer.writerow(students)

In [36]:
# Visualizamos el archivo
file = open("../../Archivos-Analisis/curso-ad/students.csv", encoding="utf-8")
csvreader = csv.reader(file)

header_student = []
header_student = next(csvreader)
header_student

['id', 'nombre', 'ciudad', 'total']

In [37]:
# Estraemos los datos a una lista
rows_student = []

for row in csvreader:
    rows_student.append(row)

# Imprimimos
rows_student

[["[1, 'Bryan', 'Madrid', 1500]",
  "[2, 'Ana', 'Barcelona', 2000]",
  "[3, 'Luis', 'Valencia', 3000]",
  "[4, 'Mauricio', 'Bogota', 2500]"]]

# Archivos JSON
- JSON es u formato muy utilizado por archivos que contienen configuraciones
- Sus sigles significan JavaScript Object Notation
- Es ñiviano y sirve para transportar dara. Ademas muy faciles de entender
- Es la evolucion de XML

EJ:


In [38]:
{
  "departamento":8,
  "nombredepto":"Ventas",
  "director": "Juan Rodríguez",
  "empleados":[
    {
      "nombre":"Pedro",
      "apellido":"Fernández"
    },{
      "nombre":"Jacinto",
      "apellido":"Benavente"
    } 
  ]
}

{'departamento': 8,
 'nombredepto': 'Ventas',
 'director': 'Juan Rodríguez',
 'empleados': [{'nombre': 'Pedro', 'apellido': 'Fernández'},
  {'nombre': 'Jacinto', 'apellido': 'Benavente'}]}

In [39]:
# Para trabajar con los archivos de tipo JSON, se importa primero la libreria json
import json

# Se selecciona el archivo JSON
with open("../../Archivos-Analisis/curso-ad/example.json", "r") as json_file:
    employees_json = json.load(json_file)

# Imprimimos
print(employees_json)

{'employee': [{'id': '01', 'name': 'Rodrigo', 'department': 'Ventas'}, {'id': '04', 'name': 'Nelson', 'department': 'RRHH'}]}


In [40]:
# 
for reg in employees_json["employee"]:
    print(reg)

{'id': '01', 'name': 'Rodrigo', 'department': 'Ventas'}
{'id': '04', 'name': 'Nelson', 'department': 'RRHH'}


In [67]:
# Obtenemos el primer registro

            # Arvhico | Registro | Campo
print(employees_json["employee"][0]["name"])
print(employees_json["employee"][1]["department"])

Rodrigo
RRHH


In [49]:
# Si bien el archvio se ve como una gran lista, se podria imprimir de una mejor visual de entender
# usando indent
# Ademas de usar "sort_keys" para ordenar alfabeticamente las llaves del JSON
print(json.dumps(employees_json, sort_keys=True, indent=4)) # Orden Alfabetico
print(json.dumps(employees_json, sort_keys=False, indent=4)) # Orden Normal

{
    "employee": [
        {
            "department": "Ventas",
            "id": "01",
            "name": "Rodrigo"
        },
        {
            "department": "RRHH",
            "id": "04",
            "name": "Nelson"
        }
    ]
}
{
    "employee": [
        {
            "id": "01",
            "name": "Rodrigo",
            "department": "Ventas"
        },
        {
            "id": "04",
            "name": "Nelson",
            "department": "RRHH"
        }
    ]
}


## Excribiendo JSON

In [50]:
# Se recuerda que la variable "movies" es un array
# se le debe convertir a un diccoionario
# Se usa enumerate para hacer el cambio
movies_dict = dict(enumerate(movies.flatten(), 1))

In [51]:
# Verificacion del cambio
type(movies_dict)

dict

In [74]:
# Se usa dumps de la libreria json para pasar la salida a formato de JSON
movies_json = json.dumps(movies_dict, indent=4)
print(movies_json)

{
    "1": "0",
    "2": "s1",
    "3": "Movie",
    "4": "Dick Johnson Is Dead",
    "5": "Kirsten Johnson",
    "6": "",
    "7": "United States",
    "8": "September 25, 2021",
    "9": "2020",
    "10": "PG-13",
    "11": "90 min",
    "12": "Documentaries",
    "13": "As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.",
    "14": "90.0",
    "15": "min",
    "16": "1",
    "17": "s2",
    "18": "TV Show",
    "19": "Blood & Water",
    "20": "",
    "21": "Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng",
    "22": "South Africa",
    "23": "September 24, 2021",
    "24": "2021",
    "25": "TV-MA",
    "26": "2 Seasons",
    "27"

In [75]:
# Se puede ver que como no tenemos por el momento la informacion de campos
# El json se genera con un auto-generado numerico

In [76]:
# Como se podria tener un json correctamente formado
# Donde se tengan los identificadoes correspondientes a cada uno de los campos
# ej:
header

['',
 'show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description',
 'duration_num',
 'duration_unit']

In [77]:
# Primero se convierte header a un array
movie_header = np.array(header)
movie_header

array(['', 'show_id', 'type', 'title', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description', 'duration_num', 'duration_unit'], dtype='<U13')

In [78]:
rows[0:1]
# La lsita es una lista "nested", eso quiere decir que es una lista de listas (anidada), 
# que tiene que ser flatten, es decir una lista con un solo nivel

[['0',
  's1',
  'Movie',
  'Dick Johnson Is Dead',
  'Kirsten Johnson',
  '',
  'United States',
  'September 25, 2021',
  '2020',
  'PG-13',
  '90 min',
  'Documentaries',
  'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.',
  '90.0',
  'min']]

In [79]:
# Convierte el array de listas en un array junto
flat_movies = [item for sublist in rows for item in sublist]

In [80]:
flat_movies[0:20]

['0',
 's1',
 'Movie',
 'Dick Johnson Is Dead',
 'Kirsten Johnson',
 '',
 'United States',
 'September 25, 2021',
 '2020',
 'PG-13',
 '90 min',
 'Documentaries',
 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.',
 '90.0',
 'min',
 '1',
 's2',
 'TV Show',
 'Blood & Water',
 '']

In [81]:
# Combina los header con cada fila
len_header = len(header) # Da la longitud de los header
len_data = len(flat_movies) # Da la longitud de las peliculas flatten
num_movies = int(len_data / len_header) # Da el numero de peliculas
flat_header = header*num_movies # Python permite la multiplicacion de listas

# 


print(len_header)
print(len_data)
print(num_movies)

15
132105
8807


In [82]:
# Verifico que ambas listas tengan el mismo tamaño
print(len(flat_header))
print(len(flat_movies))

132105
132105


In [84]:
# Se puede generar una lista de diccionarios, como la que se ve a continuacion
final_list = []
header_length = len(flat_header) # Numerp de columnas
_splitted_dict_list = [{k:v} for k,v in zip(flat_header, flat_movies)]
for v in range(0, 3*len_header, 1): # Primero 3 registros
    final_list.append({nk:nv for nested_dict in _splitted_dict_list[v:v+1] for nk,nv in nested_dict.items()})

final_list

[{'': '0'},
 {'show_id': 's1'},
 {'type': 'Movie'},
 {'title': 'Dick Johnson Is Dead'},
 {'director': 'Kirsten Johnson'},
 {'cast': ''},
 {'country': 'United States'},
 {'date_added': 'September 25, 2021'},
 {'release_year': '2020'},
 {'rating': 'PG-13'},
 {'duration': '90 min'},
 {'listed_in': 'Documentaries'},
 {'description': 'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.'},
 {'duration_num': '90.0'},
 {'duration_unit': 'min'},
 {'': '1'},
 {'show_id': 's2'},
 {'type': 'TV Show'},
 {'title': 'Blood & Water'},
 {'director': ''},
 {'cast': 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng'},
 {'country': 'South Africa'},
 {'date_

In [86]:
# Ahora bien, lo que nos sirve a nosotros es generar un diccionario, para poder encontrar rapidamente una pelicula o un valor

from itertools import cycle
result = {}

for key, val in zip(cycle(header), flat_movies):
    if key not in result:
        result[key] = []
    result[key].append(val)

In [87]:
# Se obtiene un diccionario que se puede filtrar facilmente
result["show_id"][:5]

['s1', 's2', 's3', 's4', 's5']

In [None]:
result["title"][:5]

['Dick Johnson Is Dead',
 'Blood & Water',
 'Ganglands',
 'Jailbirds New Orleans',
 'Kota Factory']

In [90]:
# Guardado del archivo json creadp
with open('../../Archivos-Analisis/curso-ad/movies.json', 'w', encoding='utf-8') as json_file:
    json.dump(result, json_file)

# Archivos Excel
- Abrir archivos excel
- Guardar archivos excel

In [21]:
# Se usara el archivo netflix_movies.xlsx
# Se usara la libreria openpyxl
import openpyxl
from pathlib import Path

xlsx_file = Path('../../Archivos-Analisis/curso-ad/netflix_titles.xlsx')
wb_obj = openpyxl.load_workbook(xlsx_file)

# Lee la hoja activa
sheet = wb_obj.active

In [22]:
# Imprime el primer titulo 
print(sheet["D2"].value)

Dick Johnson Is Dead


In [23]:
# Rangos
cell_range = sheet["A1":"D51"]
print(cell_range)

((<Cell 'netflix_titles'.A1>, <Cell 'netflix_titles'.B1>, <Cell 'netflix_titles'.C1>, <Cell 'netflix_titles'.D1>), (<Cell 'netflix_titles'.A2>, <Cell 'netflix_titles'.B2>, <Cell 'netflix_titles'.C2>, <Cell 'netflix_titles'.D2>), (<Cell 'netflix_titles'.A3>, <Cell 'netflix_titles'.B3>, <Cell 'netflix_titles'.C3>, <Cell 'netflix_titles'.D3>), (<Cell 'netflix_titles'.A4>, <Cell 'netflix_titles'.B4>, <Cell 'netflix_titles'.C4>, <Cell 'netflix_titles'.D4>), (<Cell 'netflix_titles'.A5>, <Cell 'netflix_titles'.B5>, <Cell 'netflix_titles'.C5>, <Cell 'netflix_titles'.D5>), (<Cell 'netflix_titles'.A6>, <Cell 'netflix_titles'.B6>, <Cell 'netflix_titles'.C6>, <Cell 'netflix_titles'.D6>), (<Cell 'netflix_titles'.A7>, <Cell 'netflix_titles'.B7>, <Cell 'netflix_titles'.C7>, <Cell 'netflix_titles'.D7>), (<Cell 'netflix_titles'.A8>, <Cell 'netflix_titles'.B8>, <Cell 'netflix_titles'.C8>, <Cell 'netflix_titles'.D8>), (<Cell 'netflix_titles'.A9>, <Cell 'netflix_titles'.B9>, <Cell 'netflix_titles'.C9>, <C

In [9]:
# Obtencion de valores de un rango
for row in sheet.iter_rows(min_row =1, max_col=4, max_row=50, values_only=True):
    print(row)

(None, 'show_id', 'type', 'title')
(0, 's1', 'Movie', 'Dick Johnson Is Dead')
(1, 's2', 'TV Show', 'Blood & Water')
(2, 's3', 'TV Show', 'Ganglands')
(3, 's4', 'TV Show', 'Jailbirds New Orleans')
(4, 's5', 'TV Show', 'Kota Factory')
(5, 's6', 'TV Show', 'Midnight Mass')
(6, 's7', 'Movie', 'My Little Pony: A New Generation')
(7, 's8', 'Movie', 'Sankofa')
(8, 's9', 'TV Show', 'The Great British Baking Show')
(9, 's10', 'Movie', 'The Starling')
(10, 's11', 'TV Show', 'Vendetta: Truth, Lies and The Mafia')
(11, 's12', 'TV Show', 'Bangkok Breaking')
(12, 's13', 'Movie', 'Je Suis Karl')
(13, 's14', 'Movie', 'Confessions of an Invisible Girl')
(14, 's15', 'TV Show', 'Crime Stories: India Detectives')
(15, 's16', 'TV Show', 'Dear White People')
(16, 's17', 'Movie', "Europe's Most Dangerous Man: Otto Skorzeny in Spain")
(17, 's18', 'TV Show', 'Falsa identidad')
(18, 's19', 'Movie', 'Intrusion')
(19, 's20', 'TV Show', 'Jaguar')
(20, 's21', 'TV Show', 'Monsters Inside: The 24 Faces of Billy Milli

In [10]:
# Asignacion de valor
valor = sheet["D2"]

In [11]:
valor.value = 10000

In [12]:
# Generacion de hojas nuevas
ws1 = wb_obj.create_sheet("Hoja Nueva 1")

In [17]:
# Se peude generar un diccionario con las columnas
col_names = []
for column in sheet.iter_cols(1, sheet.max_column):
    col_names.append(column[0].value)

col_names

[None,
 'show_id',
 'type',
 'title',
 'director',
 'cast',
 'country',
 'date_added',
 'release_year',
 'rating',
 'duration',
 'listed_in',
 'description',
 'duration_num',
 'duration_unit']

## Escribiendo un Excel
- Apartir de un diccionario se genera un archivo

In [24]:
import openpyxl

"""  FORMA A MANUAL  """

# Crea un libro en blanco
wb = openpyxl.Workbook()

# lo activamos
sheet = wb.active

# asignamos las columnas
c1 = sheet.cell(row = 1, column=1)

# Escribimos los valores a la celda
c1.value = "Esta es una prueba"

c2 = sheet.cell(row = 1, column=1)
c2.value = "con Python y Excel"

# Guadamos
wb.save("../../Archivos-Analisis/curso-ad/prueba.xlsx")

In [26]:
# Ejemplo para escribir un diccionario a un archivo Excel
import xlsxwriter

workbook = xlsxwriter.Workbook('../../Archivos-Analisis/curso-ad/data.xlsx')
worksheet = workbook.add_worksheet()

d = result
row = 0
col = 0

for key in d.keys():
    row += 1
    worksheet.write(row, col, key)
    for item in d[key]:
        worksheet.write(row, col + 1, item)
        row += 1

workbook.close()

ModuleNotFoundError: No module named 'xlsxwriter'