## Modulo csv

Este modulo nos va a permitir trabajar facilmente con archivos .csv (comma separated values), que son extremadamente comunes en el mundo de la ciencia de datos.

En esta ocasion vamos a trabajar con un archivo .csv que contiene informacion sobre casos de Covid-19 en la Argentina.

In [116]:
import csv

In [117]:
with open("covid19casos_sucio.csv") as file:
    read_file = csv.reader(file)
    lista_csv = list(read_file)

In [118]:
lista_csv

[['sexo',
  'edad',
  'provincia_residencia',
  'provincia_residencia_codigo_indec',
  'departamento_residencia',
  'departamento_residencia_codigo_indec',
  'provincia_carga',
  'provincia_carga_codigo_indec',
  'departamento_carga',
  'departamento_carga_codigo_indec',
  'fecha_fis',
  'fecha_apertura',
  'semana_epi',
  'cuidado_intensivo',
  'fecha_cuidado_intensivo',
  'fallecido',
  'fecha_fallecimiento',
  'asistencia_respiratoria_mecanica',
  'origen_financiamiento',
  'clasificacion_manual',
  'clasificacion_resumen',
  'ultima_actualizacion'],
 ['f',
  '46,8',
  'Buenos Aires',
  '6',
  '=++Perg***amino))',
  '623',
  'Buenos Aires',
  '6',
  'Pergamino',
  '623',
  '2020-01-29',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',
  'NO',
  'Publico',
  'Caso descartado',
  '(Descartado)',
  '2020-05-14'],
 ['F',
  '41,3',
  'CABA',
  '2',
  '--*COMU--*NA 12-??',
  '12',
  'CABA',
  '2',
  'COMUNA 12',
  '12',
  '2020-01-23',
  '2020-01-31',
  '5',
  'NO',
  '',
  'NO',
  '',


**Ahora que ya tenemos los datos disponibles, es hora de comenzar a trabajarlos**

Veamos varios ejemplos

In [119]:
# primero veamos cuantos datos tenemos
len(lista_csv)

94748

In [120]:
# como vimos anteriormente tenemos una lista de listas, ya sabemos como recorrerlas
# en este caso tenemos muchos datos, entonces vamos a recorrer la lista por columnas especificas, y no todos los elementos
# a la vez

# veamos cuantos elementos tenemos
len(lista_csv) * len(lista_csv[0])

2084456

In [121]:
# imprimimos la primer lista que es donde se encuentran los encabezados
titulos = lista_csv[0]

In [122]:
# generamos un diccionario con el nombre de la columna y su indice, para asi acceder mas rapido a la hora de elegir
# que columna queremos recorrer

dic = {}
lista_indices = list(range(len(titulos)))

for nombre,indice in zip(titulos,lista_indices):
    dic[nombre]=indice
    
dic

{'sexo': 0,
 'edad': 1,
 'provincia_residencia': 2,
 'provincia_residencia_codigo_indec': 3,
 'departamento_residencia': 4,
 'departamento_residencia_codigo_indec': 5,
 'provincia_carga': 6,
 'provincia_carga_codigo_indec': 7,
 'departamento_carga': 8,
 'departamento_carga_codigo_indec': 9,
 'fecha_fis': 10,
 'fecha_apertura': 11,
 'semana_epi': 12,
 'cuidado_intensivo': 13,
 'fecha_cuidado_intensivo': 14,
 'fallecido': 15,
 'fecha_fallecimiento': 16,
 'asistencia_respiratoria_mecanica': 17,
 'origen_financiamiento': 18,
 'clasificacion_manual': 19,
 'clasificacion_resumen': 20,
 'ultima_actualizacion': 21}

##### metodo replace

El metodo requiere dos argumentos:

1. old = el substring o subcadena que tiene que encontrar y reemplazar
2. new = el string que va a reemplazar al substring old

Nos devuelve una copia del string con todas las ocurrencias reemplazadas

In [123]:
str.replace()

TypeError: descriptor 'replace' of 'str' object needs an argument

In [124]:
# veamos un ejemplo

string = "color rojo"
string.replace("rojo","azul")

'color azul'

In [125]:
string

'color rojo'

#### Empecemos a explorar los datos

##### lista provincias

In [126]:
# analicemos la columna 'provincia_residencia'
# queremos ver cuales son los valores de esta columna


lista_csv[0][dic['provincia_residencia']]
lista_csv[1][dic['provincia_residencia']]
lista_csv[2][dic['provincia_residencia']]

'CABA'

In [127]:
for i in range(1,50):
    print(lista_csv[i][dic['provincia_residencia']])
    
# PERO ESTO NO NOS ALCANZA PARA VER TODOS LOS DATOS DE ESTA COLUMNA

Buenos Aires
CABA
Buenos Aires
CABA
CABA
Buenos Aires
Cordoba
CABA
Buenos Aires
Mendoza
Santa Cruz
Buenos Aires
Buenos Aires
CABA
CABA
Buenos Aires
CABA
Buenos Aires
CABA
CABA
Tierra del Fuego
Buenos Aires
Formosa
Buenos Aires
Cordoba
San Juan
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
Buenos Aires
Buenos Aires
Corrientes
Santa Fe
Buenos Aires
Cordoba
Buenos Aires
Salta
CABA
CABA
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
Buenos Aires
CABA
CABA


In [128]:
# creamos una lista con los valores de esta columna

lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]
lista_provincias

['Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'Mendoza',
 'Santa Cruz',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Tierra del Fuego',
 'Buenos Aires',
 'Formosa',
 'Buenos Aires',
 'Cordoba',
 'San Juan',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Corrientes',
 'Santa Fe',
 'Buenos Aires',
 'Cordoba',
 'Buenos Aires',
 'Salta',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'CABA',
 'Cordoba',
 'CABA',
 'Buenos Aires',
 'CABA',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'CABA',
 'Buenos Aires',
 'Buenos Aires',
 'CABA',
 'Formosa',
 'CABA',
 'CABA',
 'CABA',

In [129]:
set(lista_provincias)

{'Buenos Aires',
 'CABA',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [130]:
# queremos que CABA y Buenos Aires sean la misma provincia, por lo que vamos a reemplazar 'CABA' por 'Buenos Aires'

for i in range(1,len(lista_csv)):
    lista_csv[i][dic['provincia_residencia']] = lista_csv[i][dic['provincia_residencia']].replace("CABA","Buenos Aires")
    
lista_provincias = [lista_csv[i][dic['provincia_residencia']] for i in range(1,len(lista_csv))]

set(lista_provincias)


{'Buenos Aires',
 'Catamarca',
 'Chaco',
 'Chubut',
 'Cordoba',
 'Corrientes',
 'Entre Rios',
 'Formosa',
 'Jujuy',
 'La Pampa',
 'La Rioja',
 'Mendoza',
 'Misiones',
 'Neuquen',
 'Rio Negro',
 'Salta',
 'San Juan',
 'San Luis',
 'Santa Cruz',
 'Santa Fe',
 'Santiago del Estero',
 'Tierra del Fuego',
 'Tucuman'}

In [131]:
# vamos a crear una funcion para imprimir los elementos unicos de la columna que pasemos

def elemen_unicos(col):
    global lista_csv,dic
    lista_col = [lista_csv[i][dic[col]] for i in range(1,len(lista_csv))]
    print(set(lista_col))
    

#### sexo

In [132]:
# usemos la funcion ahora en la columna sexo

elemen_unicos("sexo")

{'m', 'f', 'F', 'M'}


In [133]:
# arreglemos esta situacion

for i in range(1,len(lista_csv)):
    lista_csv[i][dic['sexo']] = lista_csv[i][dic['sexo']].upper()

In [134]:
elemen_unicos("sexo")

{'F', 'M'}


In [155]:
# ahora queremos saber cuantos elementos hay de cada clasificacion
# para ello vamos a usar la funcion Counter del modulo collections

from collections import Counter


In [156]:
lista_sexo = [lista_csv[i][dic["sexo"]] for i in range(1,len(lista_csv))]
Counter(lista_sexo)

Counter({'F': 47764, 'M': 46983})

#### clasificacion_resumen

In [135]:
elemen_unicos("clasificacion_resumen")

{'(Sospechoso)', '(Notificado)', '(Confirmado)', '(Descartado)'}


In [136]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['clasificacion_resumen']] = lista_csv[i][dic['clasificacion_resumen']].replace("(","")
    lista_csv[i][dic['clasificacion_resumen']] = lista_csv[i][dic['clasificacion_resumen']].replace(")","")

In [137]:
elemen_unicos("clasificacion_resumen")

{'Confirmado', 'Descartado', 'Sospechoso', 'Notificado'}


####  departamento_residencia

In [138]:
elemen_unicos("departamento_residencia")

{'))Santa=++ Maria***', '??-COMU-??NA 13??-', '-??San Fe-??rnando))', '=++Un??-ion))', '--*Mor_*_eno--*', '***Co_=+lon--*', '-??COMU_*_NA 6??-', '***Almiran=++te Brown_*_', '_=+Ti_=+gre***', '***Esc--*obar??-', '***Calam))uchita))', '-??General ***Rodriguez-??', '_=+Beraz-??ategui***', '=++For_=+mosa-??', '***Lomas d-??e Zamora-??', '_=+COMU))NA 1??-', '-??San N***icolas))', '_=+San I-??sidro-??', '??-San I--*gnacio--*', '--*Esc??-obar-??', '--*Dr. Manue=++l Belgrano***', '_=+Santa_=+ Maria--*', '--*Bahia =++Blanca??-', '***Bra--*gado=++', '***COMU_=+NA 1_*_', '_=+Malvinas _=+Argentinas-??', '=++Florenci--*o Varela***', '--*Mor??-eno=++', '***Ituz??-aingo--*', '--*Mo-??ron--*', '--*Mar??-aco***', '-??Bari_*_loche??-', '***Empe-??drado***', '--*San _=+Justo_*_', '-??General _=+Las Heras=++', '_=+El C=++armen--*', '=++La P_=+lata_=+', '=++Esc***obar))', '??-Mo??-ron))', '=++Bari--*loche_*_', '??-Mo-??nte_=+', '--*COMU--*NA 10??-', '))Confl=++uencia_=+', '_=+COMU***NA 12_*_', '***Almiran*

In [139]:
# limpiar los datos, los caracteres raros son  =-_+)?*

for i in range(1,len(lista_csv)):
    for carac in '=-_+)?*':
        lista_csv[i][dic['departamento_residencia']] = lista_csv[i][dic['departamento_residencia']].replace(carac,"")




In [140]:
elemen_unicos("departamento_residencia")

{'San Antonio de Areco', 'Quebrachos', 'General Pinto', 'Las Flores', 'Quemu Quemu', 'Capital', 'AÃ±elo', 'Cainguas', 'Lanus', 'San Andres de Giles', 'Aguirre', 'Conhelo', 'Corpen Aike', 'Paso de los Libres', 'Molinos', 'Lujan', 'Confluencia', 'Toay', 'Loberia', 'Presidente Peron', 'Rosario de Lerma', 'Marcos Paz', 'Chapaleufu', 'Chicligasta', 'Parana', 'General Paz', 'Pichi Mahuida', 'Punta Indio', 'Tres Lomas', 'General Roca', 'Patagones', 'Huiliches', 'San Cayetano', 'Laprida', 'Rio Cuarto', 'Pehuajo', 'Pocho', 'Guarani', 'Sauce', 'Guamini', 'Matacos', 'Candelaria', 'PatiÃ±o', 'Vinchina', 'Ramon Lista', 'Loncopue', 'Copo', 'Tunuyan', 'Rancul', 'El Alto', 'Berisso', 'Rio Primero', 'Puelen', 'La ViÃ±a', 'Bariloche', 'Coronel Felipe Varela', 'Pellegrini', 'Catan Lil', 'Rosario Vera PeÃ±aloza', 'COMUNA 9', 'Sarmiento', 'Rio Senguer', 'Monteros', 'General Pedernera', 'Los Andes', 'Capayan', 'Escalante', 'Trancas', 'Vera', 'Saladas', 'Junin', 'San Ignacio', 'Cushamen', 'General Obligado',

#### edad

In [141]:
elemen_unicos("edad")

{'92,6', '101,5', '39,9', '94,6', '67,3', '88,3', '47,4', '25,5', '50,7', '67,9', '28,2', '13,8', '51,5', '34,2', '79,7', '79,1', '14,9', '87,9', '14,6', '91,2', '88,2', '68,8', '12,5', '100,1', '5,7', '24,1', '31,4', '12,8', '85,6', '21,9', '41,1', '39,8', '11,5', '32,5', '72,5', '44,4', '98,1', '7,9', '72,0', '91,8', '76,2', '24,5', '72,9', '11,7', '14,0', '91,4', '95,9', '47,7', '26,5', '5,6', '1,8', '75,1', '36,1', '54,2', '13,6', '76,7', '36,0', '28,7', '24,4', '86,2', '45,3', '49,7', '78,2', '78,5', '71,1', '22,7', '62,6', '78,1', '40,8', '12,0', '83,8', '72,2', '25,4', '88,7', '42,8', '60,8', '44,6', '0,5', '85,5', '34,9', '74,8', '22,9', '62,0', '37,3', '89,0', '99,7', '6,8', '32,6', '51,9', '77,8', '44,3', '6,3', '34,0', '51,6', '61,1', '80,4', '54,5', '12,1', '44,8', '54,0', '66,3', '64,6', '14,1', '84,1', '102,0', '63,7', '71,4', '54,1', '59,1', '120,5', '15,5', '90,6', '24,0', '17,3', '3,7', '10,7', '10,5', '86,3', '69,9', '28,5', '53,7', '85,9', '98,0', '78,9', '0,9', '26,

In [149]:
"10,6".split(",")[0]

'10'

In [150]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

ValueError: invalid literal for int() with base 10: 'nan'

In [151]:
for i in range(1,len(lista_csv)):
    if lista_csv[i][dic['edad']]!= "nan":
        lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

AttributeError: 'int' object has no attribute 'split'

In [152]:
for i in range(1,len(lista_csv)):
    lista_csv[i][dic['edad']] = str(lista_csv[i][dic['edad']])

In [153]:
for i in range(1,len(lista_csv)):
    if lista_csv[i][dic['edad']]!= "nan":
        lista_csv[i][dic['edad']] = int(lista_csv[i][dic['edad']].split(',')[0])

In [154]:
elemen_unicos("edad")

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 'nan', 76, 75, 78, 79, 77, 80, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 105, 107, 120, 81}


In [157]:
with open("covid19casos_limpio.csv",'w') as file:
    escribir = csv.writer(file)
    escribir.writerows(lista_csv)


In [None]:

# indicar cuales son las 5 provincias con mas casos y la cantidad de casos que tienen (para el tp)

# indicar porcentajes de personas mayores a 60 anos (para el tp)

# publico y privado, estandarizar y sacar proporciones (para el tp)

# ver proporciones de enfermos en cuidado intensivo (para el tp)

# PARTE PANDAS ENSUCIAR DATOS

In [92]:
import pandas as pd

In [93]:
df = pd.read_csv("covid19casos.csv")

In [94]:
# acomodar random F y M para respetar las proporciones

# poner caracteres raros en el campo departamento_residencia

# eliminar algunas columnas como edad_años_meses,numero de caso,antecedente_epidemiologico

# convertir Publico a distintas variaciones de Publico (sacarle acento) y privado a distintas de privado



In [95]:
pd.options.display.max_columns(30)

TypeError: 'int' object is not callable

In [96]:
df

Unnamed: 0,numero_de_caso,sexo,edad,edad_años_meses,provincia_residencia,provincia_residencia_codigo_indec,departamento_residencia,departamento_residencia_codigo_indec,provincia_carga,provincia_carga_codigo_indec,...,cuidado_intensivo,fecha_cuidado_intensivo,fallecido,fecha_fallecimiento,asistencia_respiratoria_mecanica,origen_financiamiento,clasificacion_manual,clasificacion_resumen,antecedente_epidemiologico,ultima_actualizacion
0,717629,F,46.0,Años,Buenos Aires,6,Pergamino,623,Buenos Aires,6,...,NO,,NO,,NO,Público,Caso descartado,Descartado,,2020-05-14
1,717926,F,41.0,Años,CABA,2,COMUNA 12,12,CABA,2,...,NO,,NO,,NO,Público,Caso invalidado por epidemiología,Descartado,,2020-05-14
2,718029,F,52.0,Años,Buenos Aires,6,La Plata,441,Buenos Aires,6,...,NO,,NO,,NO,Público,Caso invalidado por epidemiología,Descartado,,2020-05-14
3,718055,F,34.0,Años,CABA,2,COMUNA 1,1,CABA,2,...,NO,,NO,,NO,Privado,Caso descartado,Descartado,Contacto estrecho con personas con IRA dentro ...,2020-05-14
4,718058,F,31.0,Años,CABA,2,COMUNA 1,1,CABA,2,...,NO,,NO,,NO,Privado,Caso descartado,Descartado,,2020-05-14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
94973,921130,F,67.0,Años,CABA,2,COMUNA 1,1,CABA,2,...,NO,,NO,,NO,Privado,Caso sospechosos de nuevo coronavirus (2019-nCoV),Sospechoso,,2020-05-14
94974,921131,M,7.0,Años,Santa Fe,82,Rosario,84,Santa Fe,82,...,NO,,NO,,NO,Público,Caso sospechosos de nuevo coronavirus (2019-nCoV),Sospechoso,,2020-05-14
94975,921132,F,84.0,Años,Buenos Aires,6,Campana,126,Buenos Aires,6,...,NO,,NO,,NO,Público,Caso sospechosos de nuevo coronavirus (2019-nCoV),Sospechoso,,2020-05-14
94976,921133,F,65.0,Años,Santiago del Estero,86,Robles,161,Santiago del Estero,86,...,NO,,NO,,NO,Público,Caso descartado,Descartado,,2020-05-14


In [97]:
import random
(random.randint(1,9))/10

0.8

In [98]:
df['edad'] = df["edad"].apply(lambda x: x + (random.randint(0,9))/10 )
df['edad'] = df['edad'].astype(str)

In [99]:
df.columns

Index(['numero_de_caso', 'sexo', 'edad', 'edad_años_meses',
       'provincia_residencia', 'provincia_residencia_codigo_indec',
       'departamento_residencia', 'departamento_residencia_codigo_indec',
       'provincia_carga', 'provincia_carga_codigo_indec', 'departamento_carga',
       'departamento_carga_codigo_indec', 'fecha_fis', 'fecha_apertura',
       'semana_epi', 'cuidado_intensivo', 'fecha_cuidado_intensivo',
       'fallecido', 'fecha_fallecimiento', 'asistencia_respiratoria_mecanica',
       'origen_financiamiento', 'clasificacion_manual',
       'clasificacion_resumen', 'antecedente_epidemiologico',
       'ultima_actualizacion'],
      dtype='object')

In [100]:
df['edad'] = df['edad'].str.replace(".",",")

In [101]:
df = df[df['sexo']!='NR'].copy()

In [102]:
df['sexo'] = df["sexo"].apply(lambda x: random.choice(['F','f']) if x=="F" else random.choice(['M','m']) )

In [103]:
df['sexo'].value_counts()

f    24001
F    23763
M    23545
m    23438
Name: sexo, dtype: int64

In [104]:
df = df.drop(['edad_años_meses','numero_de_caso','antecedente_epidemiologico'], axis=1)

In [105]:
df['clasificacion_resumen'] = df['clasificacion_resumen'].apply(lambda x: "("+x+')')

In [106]:
def tildes(x):
    for old,new in zip("áéíóú","aeiou"):
        x = x.replace(old,new)
    return x

df["departamento_residencia"] = df["departamento_residencia"].apply(tildes)

In [107]:
def modif(x):
    tam = len(x)
    lista = '_=+ *** _*_ ??- -?? =++ )) --*'.split()
    x = random.choice(lista) + x[:tam//2] + random.choice(lista) + x[tam//2:] + random.choice(lista)
    return x


df["departamento_residencia"] = df["departamento_residencia"].apply(modif)

In [108]:
df["departamento_residencia"]

0         =++Perg***amino))
1        --*COMU--*NA 12-??
2          _=+La P??-lata))
3         --*COMU--*NA 1_=+
4         --*COMU=++NA 1??-
                ...        
94973     _*_COMU-??NA 1=++
94974       ))Ros--*ario_*_
94975      =++Cam-??pana--*
94976        _=+Rob))les-??
94977         ))Ma--*ipu_*_
Name: departamento_residencia, Length: 94747, dtype: object

In [109]:
# elementos a reemplazar =-_+)?*
''.join(set('_=+ *** _*_ ??- -?? =++ )) --*'))

'=- _+)?*'

In [110]:
df["origen_financiamiento"].value_counts()

Público    58657
Privado    36090
Name: origen_financiamiento, dtype: int64

In [111]:
df["origen_financiamiento"] = df["origen_financiamiento"].replace("Público","Publico")

In [112]:
lista_publico = 'publico Publico PUBLICO'.split()
lista_privado = 'Privado privado PRIVADO'.split()

df['origen_financiamiento'] = df["origen_financiamiento"].apply(lambda x: random.choice(lista_publico) if x.lower()=="publico" else random.choice(lista_privado) )

In [113]:
df['origen_financiamiento'].value_counts()

Publico    19671
PUBLICO    19647
publico    19339
PRIVADO    12064
privado    12032
Privado    11994
Name: origen_financiamiento, dtype: int64

In [114]:
df['provincia_residencia'] = df['provincia_residencia'].apply(tildes)

In [115]:
df.to_csv("covid19casos_sucio.csv",index=False)