# ¿Como extraer la información de un CSV para colocarla en un Diccionario?

* ¡Saludos! en este primer tutorial te enseñare a como extraer la información de un archivo csv de forma que puedas operar con los datos en python de forma 100% funcional.


# Primer Paso: Analizar el CSV (contexto)  
* En este punto debemos reconocer si existen datos faltantes, datos que necesitan limpieza o por defecto posean un formato no admitible en python según su tipo.
* Algo que nos podría ayudar mejor es invocar una primera línea de nuestro archivo "csv" para visualizarlo.

In [44]:
#Primero debemos abrir el archivo (videojuegos.csv) y asignarlo a una variable "archivo"
archivo = open("videojuegos.csv")

Procedemos con el Análisis de las líneas, (Revise el CSV)

<b>Ejecute la Celda Anterior</b> 
* ¡Por fin vemos los Datos¡ Las preguntas que deberíamos hacernos ahora son las siguientes:
    * Como están separados?
    * Están correctos los formatos? para cada supuesto tipo de dato?
    * Existen Datos Faltantes?


<b>Respondamos las Preguntas Planteadas</b> 
* Los datos se encuentran separados por el caracter ";"
* Los datos en cadena parecen tener un formato adecuado, sin embargo el Año de lanzamiento y Puntaje Usuario parece ostentar uno que nos impedirá trabajar.
    * Por ejemplo en el año, cada millar se denota con un "." lo cual python no reconocería en primera instacia, por lo que convertirlo a un entero sería imposible
    * Por su parte el Puntaje de Usuario presenta un problema con el decimal, ya que python trabaja este apartado con "." y no con ","
* Observamos que sí existe un dato faltante, en este caso tuvimos la suerte de verlo en las primeras líneas pero esto puede suceder en cualquier parte. Lo que podría decirnos que quizás no es el único.

# Segundo Paso: La Creación de nuestro Diccionario

Antes de comenzar netamente debemos tener de ante mano nuestro diccionario, el cual será rellenado con la información correspondiente. 

In [45]:
#Para esto aplicaremos un metodo muy útil el cual es el siguiente
diccionario = dict(nombre = [], plataforma = [], anio_lanza = [], p_meta = [], p_usuario = [])

Nótese que la cantidad de llaves es igual a la cantidad de variables (columnas) del tan nombrado "videojuegos.csv" 
* Un gran consejo es darle a las llaves un nombre mucho más simple que su contraparte original de modo que se respete las buenas practicas de la programación, pero claro, sin perder el sentido. 

# Tercer Paso: Trabajamos con Nuestro Archivo

In [46]:
#Dejermos el archivo_copia y manipulemos nuestro archivo principal

next(archivo) #Lo Primero es saltar una línea de nuestro archivo, esto para no extraer información de la primera linea.
for linea in archivo: #A partir de esto procedemos a iterar sobre el archivo
    linea = linea.strip() #Eliminamos los posibles caracteres que puedan sobrar a la izquierda o derecha de cada linea
    lista = linea.split(";") #Recuerdas como estaban separados nuestros datos? con ";". De esta manera tenemos una lista con cada dato individual. 
    for indice,llave in enumerate(diccionario): #Para cada indice y elemento del diccionario...
        diccionario[llave].append(lista[indice]) #Quizás la parte más complicada que entender. Así que pondré un ejemplo de la primera iteración diccionario["nombre"] = lista[0]
 

* Lo que debemos entender es que esto se llevará a cabo en cada línea, lo cual hará que nuestro diccionario se rellene correctamente

# Cuarto Paso: Verificar el Resultado

In [47]:
#Ejecutar para la Revisión.
diccionario

{'nombre': ['The Legend of Zelda: Ocarina of Time',
  "Tony Hawk's Pro Skater 2",
  'Grand Theft Auto IV',
  'SoulCalibur',
  'Grand Theft Auto IV',
  'Super Mario Galaxy',
  'Super Mario Galaxy 2'],
 'plataforma': ['Nintendo64',
  'PlayStation',
  'PlayStation3',
  'Dreamcast',
  'Xbox360',
  'Wii',
  'Wii'],
 'anio_lanza': ['1.998', '2.000', '2.008', '1.999', '2.008', '2.007', '2.010'],
 'p_meta': ['99', '98', '98', '98', '98', '97', '97'],
 'p_usuario': ['9,1', '7,4', '', '8,5', '7,9', '9,0', '9,1']}

* Como podemos percatarnos cada dato se ha guardado correctamente en el diccionario
* ATENCIÓN para visualizar gran cantidad de datos este método es insatisfactorio, se ceberá usar pandas o alguna herramienta similar. 

# Quinto Paso: "El Casteo de Datos"

* Casi terminamos, sin embargo como dijimos líneas arriba, año y puntuaje de usuario están comprometidos.
* No debemos olvidar´tambien a Puntaje de Metacritic, el cual a pesar de estar correcto es un string. Eso nos impedirá a por ejemplo obtener un promedio aritmético. 

In [48]:
#Para esto simplemente debemos analizar que apartado queremos modificar. Empezaremos con Año de lanzamiento.
for i,e in enumerate(diccionario["anio_lanza"]):
    e = int(e.replace(".","")) #Eliminamos el punto de cada elemento y lo convertimos, (casteamos) a un entero. 
    diccionario["anio_lanza"][i] = e #Aquí hacemo efectivo el cambio


* Consejo: La mejor forma de comprobar si todos elemento son enteros es someter a todo ese apartado a la funcion suma
* De esta forma si alguien elemento tiene un problema será fácil obtener respuesta tras un error. 
* Claro que también puede revisar su diccionario de tener una cantidad moderada de elementos. 

In [49]:
#Prueba 1
diccionario["anio_lanza"]

[1998, 2000, 2008, 1999, 2008, 2007, 2010]

In [50]:
#Prueba 2
sum(diccionario["anio_lanza"])

14030

* Procedemos de forma Similar a castear los elementos de p_meta


In [51]:
for i,e in enumerate(diccionario["p_meta"]):
    diccionario["p_meta"][i] = int(e)

In [52]:
#Comprobamos
diccionario["p_meta"]

[99, 98, 98, 98, 98, 97, 97]

* Procedemos ahora a manejar el caso de datos faltantes visto en p_usuario y luego a castear todo ese apartado a un float

In [53]:
for i,e in enumerate(diccionario["p_usuario"]):
    #Tenemos dos casos, cuando el elemento es "" o no, entonces:
    if(e == ""):
        e = None #Convertimos este elemento a nulo
    else:
        e = float(e.replace(",","."))#Procedemos como si fuese normal, esta vez reemplazando la coma decimal por punto decimal. Y lo hacemo flotante.

    diccionario["p_usuario"][i] = e

In [54]:
#Comprobamos
diccionario["p_usuario"]

[9.1, 7.4, None, 8.5, 7.9, 9.0, 9.1]

# Llegamos al Final de este Ejercicio. 
* Añado una comprobación Visual mucho más satisfactoria

In [55]:
import pandas as pd
df = pd.DataFrame(diccionario)
df

Unnamed: 0,nombre,plataforma,anio_lanza,p_meta,p_usuario
0,The Legend of Zelda: Ocarina of Time,Nintendo64,1998,99,9.1
1,Tony Hawk's Pro Skater 2,PlayStation,2000,98,7.4
2,Grand Theft Auto IV,PlayStation3,2008,98,
3,SoulCalibur,Dreamcast,1999,98,8.5
4,Grand Theft Auto IV,Xbox360,2008,98,7.9
5,Super Mario Galaxy,Wii,2007,97,9.0
6,Super Mario Galaxy 2,Wii,2010,97,9.1


* Comprobando que el tipo de dato es el adecuado para cada variable

In [57]:
df.dtypes

nombre         object
plataforma     object
anio_lanza      int64
p_meta          int64
p_usuario     float64
dtype: object