## Modulo csv

Este modulo nos va a permitir trabajar facilmente con archivos .csv (comma separated values), que son extremadamente comunes en el mundo de la ciencia de datos.

En esta ocasion vamos a trabajar con un archivo .csv que contiene informacion sobre casos de Covid-19 en la Argentina.

In [1]:
import csv

In [2]:
with open("covid19casos_sucio.csv") as file:
    read_file = csv.reader(file)
    lista_csv = list(read_file)

In [3]:
lista_csv

[['sexo',
  'edad',
  'provincia_residencia',
  'provincia_residencia_codigo_indec',
  'departamento_residencia',
  'departamento_residencia_codigo_indec',
  'provincia_carga',
  'provincia_carga_codigo_indec',
  'departamento_carga',
  'departamento_carga_codigo_indec',
  'fecha_fis',
  'fecha_apertura',
  'semana_epi',
  'cuidado_intensivo',
  'fecha_cuidado_intensivo',
  'fallecido',
  'fecha_fallecimiento',
  'asistencia_respiratoria_mecanica',
  'origen_financiamiento',
  'clasificacion_manual',
  'clasificacion_resumen',
  'ultima_actualizacion'],
 ['f',
  '46,8',
  'Buenos Aires',
  '6',
  '=++Perg***amino))',
  '623',
  'Buenos Aires',
  '6',
  'Pergamino',
  '623',
  '2020-01-29',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',
  'NO',
  'Publico',
  'Caso descartado',
  '(Descartado)',
  '2020-05-14'],
 ['F',
  '41,3',
  'CABA',
  '2',
  '--*COMU--*NA 12-??',
  '12',
  'CABA',
  '2',
  'COMUNA 12',
  '12',
  '2020-01-23',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',


**Ahora que ya tenemos los datos disponibles, es hora de comenzar a trabajarlos**

Veamos varios ejemplos

In [4]:
# primero veamos cuantos datos tenemos
len(lista_csv)

94748

In [5]:
# como vimos anteriormente tenemos una lista de listas, ya sabemos como recorrerlas
# en este caso tenemos muchos datos, entonces vamos a recorrer la lista por columnas especificas, y no todos los elementos
# a la vez

# veamos cuantos elementos tenemos
len(lista_csv) * len(lista_csv[0])

2084456

In [6]:
# imprimimos la primer lista que es donde se encuentran los encabezados
titulos = lista_csv[0]
titulos

['sexo',
 'edad',
 'provincia_residencia',
 'provincia_residencia_codigo_indec',
 'departamento_residencia',
 'departamento_residencia_codigo_indec',
 'provincia_carga',
 'provincia_carga_codigo_indec',
 'departamento_carga',
 'departamento_carga_codigo_indec',
 'fecha_fis',
 'fecha_apertura',
 'semana_epi',
 'cuidado_intensivo',
 'fecha_cuidado_intensivo',
 'fallecido',
 'fecha_fallecimiento',
 'asistencia_respiratoria_mecanica',
 'origen_financiamiento',
 'clasificacion_manual',
 'clasificacion_resumen',
 'ultima_actualizacion']

In [7]:
# generamos un diccionario con el nombre de la columna y su indice, para asi acceder mas rapido a la hora de elegir
# que columna queremos recorrer


dic = {}
lista_indices = list(range(len(titulos)))

for nombre,indice in zip(titulos,lista_indices):
    dic[nombre]=indice
    
dic

{'sexo': 0,
 'edad': 1,
 'provincia_residencia': 2,
 'provincia_residencia_codigo_indec': 3,
 'departamento_residencia': 4,
 'departamento_residencia_codigo_indec': 5,
 'provincia_carga': 6,
 'provincia_carga_codigo_indec': 7,
 'departamento_carga': 8,
 'departamento_carga_codigo_indec': 9,
 'fecha_fis': 10,
 'fecha_apertura': 11,
 'semana_epi': 12,
 'cuidado_intensivo': 13,
 'fecha_cuidado_intensivo': 14,
 'fallecido': 15,
 'fecha_fallecimiento': 16,
 'asistencia_respiratoria_mecanica': 17,
 'origen_financiamiento': 18,
 'clasificacion_manual': 19,
 'clasificacion_resumen': 20,
 'ultima_actualizacion': 21}

##### metodo replace

El metodo requiere dos argumentos:

1. old = el substring o subcadena que tiene que encontrar y reemplazar
2. new = el string que va a reemplazar al substring old

Nos devuelve una copia del string con todas las ocurrencias reemplazadas

In [None]:
str.replace()

In [8]:
# veamos un ejemplo

string = "color rojo"
string.replace("rojo","azul")

'color azul'

In [9]:
string

'color rojo'

#### Empecemos a explorar los datos

##### provincia_residencia

In [13]:
# analicemos la columna 'provincia_residencia'
# queremos ver cuales son los valores de esta columna

lista_csv[4][dic['provincia_residencia']]

'CABA'

In [14]:
for i in range(0,50):
    print(lista_csv[i][dic['provincia_residencia']])
# PERO ESTO NO NOS ALCANZA PARA VER TODOS LOS DATOS DE ESTA COLUMNA

provincia_residencia
Buenos Aires
CABA
Buenos Aires
CABA
CABA
Buenos Aires
Cordoba
CABA
Buenos Aires
Mendoza
Santa Cruz
Buenos Aires
Buenos Aires
CABA
CABA
Buenos Aires
CABA
Buenos Aires
CABA
CABA
Tierra del Fuego
Buenos Aires
Formosa
Buenos Aires
Cordoba
San Juan
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
Buenos Aires
Buenos Aires
Corrientes
Santa Fe
Buenos Aires
Cordoba
Buenos Aires
Salta
CABA
CABA
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
CABA


In [15]:
# creamos una lista con los valores de esta columna

lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]
lista_provincias

['Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'Mendoza',
 'Santa Cruz',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Tierra del Fuego',
 'Buenos Aires',
 'Formosa',
 'Buenos Aires',
 'Cordoba',
 'San Juan',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Corrientes',
 'Santa Fe',
 'Buenos Aires',
 'Cordoba',
 'Buenos Aires',
 'Salta',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Formosa',
 'CABA',
 'CABA',
 'CABA',

In [16]:
# obtenemos los valores unicos
set(lista_provincias)

{'Buenos Aires',
 'CABA',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [18]:
# queremos que CABA y Buenos Aires sean la misma provincia, por lo que vamos a reemplazar 'CABA' por 'Buenos Aires'

for i in range(1,len(lista_csv)):
    lista_csv[i][dic['provincia_residencia']] = lista_csv[i][dic['provincia_residencia']].replace("CABA","Buenos Aires")
  
                                                            
                                                            
lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]

set(lista_provincias)


{'Buenos Aires',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [23]:
# vamos a crear una funcion para imprimir los elementos unicos de la columna que pasemos


def elemen_unicos(col):
    global lista_csv,dic
    lista_col = [lista_csv[i][dic[col]] for i in range(1,len(lista_csv))]
    print(set(lista_col))

#### sexo

In [24]:
# usemos la funcion ahora en la columna sexo

elemen_unicos("sexo")

{'m', 'f', 'F', 'M'}


In [None]:
# arreglemos esta situacion


In [None]:
elemen_unicos("sexo")

In [None]:
# ahora queremos saber cuantos elementos hay de cada clasificacion
# para ello vamos a usar la funcion Counter del modulo collections




#### clasificacion_resumen

In [None]:
elemen_unicos("clasificacion_resumen")

In [None]:
# me molestan los parentesis



In [None]:
elemen_unicos("clasificacion_resumen")

####  departamento_residencia

In [None]:
elemen_unicos("departamento_residencia")

In [None]:
# limpiar los datos, los caracteres raros son  =-_+)?*




In [None]:
elemen_unicos("departamento_residencia")

#### edad

In [None]:
elemen_unicos("edad")

In [None]:
elemen_unicos("edad")

In [None]:
# guardamos la lista en otro archivo csv


