## Modulo csv

Este modulo nos va a permitir trabajar facilmente con archivos .csv (comma separated values), que son extremadamente comunes en el mundo de la ciencia de datos.

En esta ocasion vamos a trabajar con un archivo .csv que contiene informacion sobre casos de Covid-19 en la Argentina.

In [1]:
import csv

In [2]:
with open("covid19casos_sucio.csv") as file:
    read_file = csv.reader(file)
    lista_csv = list(read_file)

In [3]:
lista_csv

[['sexo',
  'edad',
  'provincia_residencia',
  'provincia_residencia_codigo_indec',
  'departamento_residencia',
  'departamento_residencia_codigo_indec',
  'provincia_carga',
  'provincia_carga_codigo_indec',
  'departamento_carga',
  'departamento_carga_codigo_indec',
  'fecha_fis',
  'fecha_apertura',
  'semana_epi',
  'cuidado_intensivo',
  'fecha_cuidado_intensivo',
  'fallecido',
  'fecha_fallecimiento',
  'asistencia_respiratoria_mecanica',
  'origen_financiamiento',
  'clasificacion_manual',
  'clasificacion_resumen',
  'ultima_actualizacion'],
 ['f',
  '46,8',
  'Buenos Aires',
  '6',
  '=++Perg***amino))',
  '623',
  'Buenos Aires',
  '6',
  'Pergamino',
  '623',
  '2020-01-29',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',
  'NO',
  'Publico',
  'Caso descartado',
  '(Descartado)',
  '2020-05-14'],
 ['F',
  '41,3',
  'CABA',
  '2',
  '--*COMU--*NA 12-??',
  '12',
  'CABA',
  '2',
  'COMUNA 12',
  '12',
  '2020-01-23',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',


**Ahora que ya tenemos los datos disponibles, es hora de comenzar a trabajarlos**

Veamos varios ejemplos

In [4]:
# primero veamos cuantos datos tenemos
len(lista_csv)

94748

In [5]:
# como vimos anteriormente tenemos una lista de listas, ya sabemos como recorrerlas
# en este caso tenemos muchos datos, entonces vamos a recorrer la lista por columnas especificas, y no todos los elementos
# a la vez

# veamos cuantos elementos tenemos
len(lista_csv) * len(lista_csv[0])

2084456

In [6]:
# imprimimos la primer lista que es donde se encuentran los encabezados
titulos = lista_csv[0]

In [7]:
# generamos un diccionario con el nombre de la columna y su indice, para asi acceder mas rapido a la hora de elegir
# que columna queremos recorrer

dic = {}
lista_indices = list(range(len(titulos)))

for nombre,indice in zip(titulos,lista_indices):
    dic[nombre]=indice
    
dic

{'sexo': 0,
 'edad': 1,
 'provincia_residencia': 2,
 'provincia_residencia_codigo_indec': 3,
 'departamento_residencia': 4,
 'departamento_residencia_codigo_indec': 5,
 'provincia_carga': 6,
 'provincia_carga_codigo_indec': 7,
 'departamento_carga': 8,
 'departamento_carga_codigo_indec': 9,
 'fecha_fis': 10,
 'fecha_apertura': 11,
 'semana_epi': 12,
 'cuidado_intensivo': 13,
 'fecha_cuidado_intensivo': 14,
 'fallecido': 15,
 'fecha_fallecimiento': 16,
 'asistencia_respiratoria_mecanica': 17,
 'origen_financiamiento': 18,
 'clasificacion_manual': 19,
 'clasificacion_resumen': 20,
 'ultima_actualizacion': 21}

##### metodo replace

El metodo requiere dos argumentos:

1. old = el substring o subcadena que tiene que encontrar y reemplazar
2. new = el string que va a reemplazar al substring old

Nos devuelve una copia del string con todas las ocurrencias reemplazadas

In [8]:
str.replace()

TypeError: descriptor 'replace' of 'str' object needs an argument

In [9]:
# veamos un ejemplo

string = "color rojo"
string.replace("rojo","azul")

'color azul'

In [10]:
string

'color rojo'

#### Empecemos a explorar los datos

##### lista provincias

In [11]:
# analicemos la columna 'provincia_residencia'
# queremos ver cuales son los valores de esta columna


lista_csv[0][dic['provincia_residencia']]
lista_csv[1][dic['provincia_residencia']]
lista_csv[2][dic['provincia_residencia']]

'CABA'

In [12]:
for i in range(1,50):
    print(lista_csv[i][dic['provincia_residencia']])
    
# PERO ESTO NO NOS ALCANZA PARA VER TODOS LOS DATOS DE ESTA COLUMNA

Buenos Aires
CABA
Buenos Aires
CABA
CABA
Buenos Aires
Cordoba
CABA
Buenos Aires
Mendoza
Santa Cruz
Buenos Aires
Buenos Aires
CABA
CABA
Buenos Aires
CABA
Buenos Aires
CABA
CABA
Tierra del Fuego
Buenos Aires
Formosa
Buenos Aires
Cordoba
San Juan
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
Buenos Aires
Buenos Aires
Corrientes
Santa Fe
Buenos Aires
Cordoba
Buenos Aires
Salta
CABA
CABA
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
CABA


In [13]:
# creamos una lista con los valores de esta columna

lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]
lista_provincias

['Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'Mendoza',
 'Santa Cruz',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Tierra del Fuego',
 'Buenos Aires',
 'Formosa',
 'Buenos Aires',
 'Cordoba',
 'San Juan',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Corrientes',
 'Santa Fe',
 'Buenos Aires',
 'Cordoba',
 'Buenos Aires',
 'Salta',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Formosa',
 'CABA',
 'CABA',
 'CABA',

In [14]:
set(lista_provincias)

{'Buenos Aires',
 'CABA',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [15]:
# queremos que CABA y Buenos Aires sean la misma provincia, por lo que vamos a reemplazar 'CABA' por 'Buenos Aires'

for i in range(1,len(lista_csv)):
    lista_csv[i][dic['provincia_residencia']] = lista_csv[i][dic['provincia_residencia']].replace("CABA","Buenos Aires")
    
lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]

set(lista_provincias)


{'Buenos Aires',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [16]:
# vamos a crear una funcion para imprimir los elementos unicos de la columna que pasemos

def elemen_unicos(col):
    global lista_csv,dic
    lista_col = [lista_csv[i][dic[col]] for i in range(1,len(lista_csv))]
    print(set(lista_col))
    

#### sexo

In [17]:
# usemos la funcion ahora en la columna sexo

elemen_unicos("sexo")

{'f', 'F', 'M', 'm'}


In [18]:
# arreglemos esta situacion

for i in range(1,len(lista_csv)):
    lista_csv[i][dic['sexo']] = lista_csv[i][dic['sexo']].upper()

In [19]:
elemen_unicos("sexo")

{'F', 'M'}


In [20]:
# ahora queremos saber cuantos elementos hay de cada clasificacion
# para ello vamos a usar la funcion Counter del modulo collections

from collections import Counter


In [21]:
lista_sexo = [lista_csv[i][dic["sexo"]] for i in range(1,len(lista_csv))]
Counter(lista_sexo)

Counter({'F': 47764, 'M': 46983})

#### clasificacion_resumen

In [22]:
elemen_unicos("clasificacion_resumen")

{'(Confirmado)', '(Notificado)', '(Sospechoso)', '(Descartado)'}


In [23]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['clasificacion_resumen']] = lista_csv[i][dic['clasificacion_resumen']].replace("(","")
    lista_csv[i][dic['clasificacion_resumen']] = lista_csv[i][dic['clasificacion_resumen']].replace(")","")

In [24]:
elemen_unicos("clasificacion_resumen")

{'Descartado', 'Notificado', 'Sospechoso', 'Confirmado'}


####  departamento_residencia

In [25]:
elemen_unicos("departamento_residencia")

{'_=+Figu))eroa??-', '--*Genera_=+l Roca))', '--*COMU))NA 2-??', '***El C=++armen??-', '=++Ush=++uaia??-', '--*Rio ??-Hondo=++', '-??Libertador Gen***eral San Martin))', '--*Juarez_*_ Celman))', '=++Almiran??-te Brown--*', '--*Rio C--*uarto))', '_*_Esc_*_obar_*_', '-??COMU))NA 10_*_', '_*_Tafi --*Viejo_=+', '_=+Bari=++loche***', '??-Avell=++aneda_*_', '***Malvinas =++Argentinas=++', '--*Hurli***ngham))', '_=+Exaltacion_*_ de la Cruz??-', '??-Pin_*_amar_*_', '??-Hurli_*_ngham_*_', '??-Pun=++illa))', '***Carlos --*Tejedor***', '))COMU??-NA 14??-', '))Guaym))allen--*', '_=+Huma-??huaca_*_', '_=+Ti_=+gre***', '))San ??-Justo=++', '-??Cam))pana_*_', '=++An--*ta))', '--*Dr. Manue=++l Belgrano_*_', '-??Tres de_*_ Febrero***', '_*_Riva***davia***', '***Nav-??arro_=+', '??-La_=+nus))', '--*General P))ueyrredon=++', '??-Florenci_=+o Varela))', '-??Perg))amino--*', '??-Chac))abuco_*_', '***Olav-??arria_=+', '_=+San I=++sidro_*_', '--*For_*_mosa=++', '=++Ros--*ario=++', '_*_Jose _=+C. Paz_*_', '_=

In [26]:
# limpiar los datos, los caracteres raros son  =-_+)?*

for i in range(1,len(lista_csv)):
    for carac in '=-_+)?*':
        lista_csv[i][dic['departamento_residencia']] = lista_csv[i][dic['departamento_residencia']].replace(carac,"")




In [27]:
elemen_unicos("departamento_residencia")

{'Florentino Ameghino', 'Iriondo', 'General Pueyrredon', 'Caucete', 'Alberti', 'Hurlingham', 'Santa Victoria', 'Bolivar', 'Pirane', 'San Cosme', 'COMUNA 12', 'Libertad', 'Hucal', 'Guamini', 'Empedrado', 'MalargÃ¼e', 'Conesa', 'La Plata', 'Moron', 'Tupungato', 'COMUNA 1', 'Navarro', 'Vicente Lopez', 'Sanagasta', 'Ramon Lista', 'Lujan', 'Alumine', 'Patagones', 'Curuzu Cuatia', 'Tilcara', 'Deseado', 'Constitucion', 'Carlos Casares', 'Yavi', 'Lules', 'Jachal', 'Adolfo Gonzales Chaves', 'Loncopue', 'Caseros', '9 de Julio', 'General Lamadrid', 'Monteros', 'Iruya', 'Santa Rosa', 'San Antonio de Areco', 'Pocho', 'Moreno', 'Figueroa', 'Guasayan', 'Federal', 'Rauch', 'Bragado', 'Rio Senguer', 'Castro Barros', '12 de Octubre', 'Calingasta', 'Roque Perez', 'Lago Buenos Aires', 'Toay', 'GÃ¼er Aike', 'Cerrillos', 'Tafi del Valle', 'Rio Seco', 'Santa Catalina', 'Tigre', 'Gobernador Dupuy', 'La Paz', 'Rawson', 'Daireaux', 'Zonda', 'San Nicolas', 'Sarmiento', 'Exaltacion de la Cruz', 'Susques', 'Goya',

#### edad

In [28]:
elemen_unicos("edad")

{'60,4', '85,8', '56,2', '9,3', '21,4', '88,3', '3,5', '42,3', '37,5', '89,1', '3,8', '90,8', '66,2', '92,0', '36,1', '49,0', '64,6', '38,5', '8,0', '6,9', '43,5', '32,6', '53,6', '88,8', '52,8', '28,9', '86,4', '81,2', '56,5', '81,7', '45,3', '55,5', '71,1', '81,1', '82,8', '99,0', '95,9', '60,0', '5,1', '33,7', '70,8', '7,5', '97,0', '84,0', '100,0', '103,9', '37,1', '56,6', '22,8', '61,6', '51,4', '18,7', '22,4', '89,7', '82,5', '80,7', '84,8', '52,2', '42,1', '16,3', '62,6', '49,2', '62,5', '100,2', '92,2', '96,7', '65,2', '16,5', '59,3', '29,1', '95,2', '23,3', '76,4', '98,3', '47,7', '5,9', '54,2', '57,4', '96,9', '52,3', '95,4', '41,0', '31,5', '59,0', '35,7', '29,5', '11,5', '76,6', '72,3', '78,3', '95,6', '76,8', '5,2', '96,2', '48,2', '57,2', '46,0', '58,6', '71,5', '14,3', '95,3', '48,6', '12,0', '2,4', '26,7', '91,5', '41,3', '40,8', '8,1', '67,4', '7,2', '57,5', '64,0', '56,4', '1,3', '72,5', '5,3', '4,4', '16,6', '52,7', '71,0', '83,3', '29,8', '47,6', '70,3', '48,9', '52

In [29]:
"10,6".split(",")[0]

'10'

In [30]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

ValueError: invalid literal for int() with base 10: 'nan'

In [31]:
for i in range(1,len(lista_csv)):
    if lista_csv[i][dic['edad']]!= "nan":
        lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

AttributeError: 'int' object has no attribute 'split'

In [32]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['edad']] = str(lista_csv[i][dic['edad']])

In [33]:
for i in range(1,len(lista_csv)):
    if lista_csv[i][dic['edad']]!= "nan":
        lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

In [34]:
elemen_unicos("edad")

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 105, 107, 120, 'nan'}


In [37]:
with open("covid19casos_limpio.csv",'w', newline='') as file:
    escribir = csv.writer(file)
    escribir.writerows(lista_csv)


In [None]:

# indicar cuales son las 5 provincias con mas casos y la cantidad de casos que tienen (para el tp)

# indicar porcentajes de personas mayores a 60 anos (para el tp)

# publico y privado, estandarizar y sacar proporciones (para el tp)

# ver proporciones de enfermos en cuidado intensivo (para el tp)

# PARTE PANDAS ENSUCIAR DATOS

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("covid19casos.csv")

In [None]:
# acomodar random F y M para respetar las proporciones

# poner caracteres raros en el campo departamento_residencia

# eliminar algunas columnas como edad_años_meses,numero de caso,antecedente_epidemiologico

# convertir Publico a distintas variaciones de Publico (sacarle acento) y privado a distintas de privado



In [None]:
pd.options.display.max_columns(30)

In [None]:
df

In [None]:
import random
(random.randint(1,9))/10

In [None]:
df['edad'] = df["edad"].apply(lambda x: x + (random.randint(0,9))/10 )
df['edad'] = df['edad'].astype(str)

In [None]:
df.columns

In [None]:
df['edad'] = df['edad'].str.replace(".",",")

In [None]:
df = df[df['sexo']!='NR'].copy()

In [None]:
df['sexo'] = df["sexo"].apply(lambda x: random.choice(['F','f']) if x=="F" else random.choice(['M','m']) )

In [None]:
df['sexo'].value_counts()

In [None]:
df = df.drop(['edad_años_meses','numero_de_caso','antecedente_epidemiologico'], axis=1)

In [None]:
df['clasificacion_resumen'] = df['clasificacion_resumen'].apply(lambda x: "("+x+')')

In [None]:
def tildes(x):
    for old,new in zip("áéíóú","aeiou"):
        x = x.replace(old,new)
    return x

df["departamento_residencia"] = df["departamento_residencia"].apply(tildes)

In [None]:
def modif(x):
    tam = len(x)
    lista = '_=+ *** _*_ ??- -?? =++ )) --*'.split()
    x = random.choice(lista) + x[:tam//2] + random.choice(lista) + x[tam//2:] + random.choice(lista)
    return x


df["departamento_residencia"] = df["departamento_residencia"].apply(modif)

In [None]:
df["departamento_residencia"]

In [None]:
# elementos a reemplazar =-_+)?*
''.join(set('_=+ *** _*_ ??- -?? =++ )) --*'))

In [None]:
df["origen_financiamiento"].value_counts()

In [None]:
df["origen_financiamiento"] = df["origen_financiamiento"].replace("Público","Publico")

In [None]:
lista_publico = 'publico Publico PUBLICO'.split()
lista_privado = 'Privado privado PRIVADO'.split()

df['origen_financiamiento'] = df["origen_financiamiento"].apply(lambda x: random.choice(lista_publico) if x.lower()=="publico" else random.choice(lista_privado) )

In [None]:
df['origen_financiamiento'].value_counts()

In [None]:
df['provincia_residencia'] = df['provincia_residencia'].apply(tildes)

In [None]:
df.to_csv("covid19casos_sucio.csv",index=False)