# Análisis exploratorio de datos
El análisis exploratorio de datos se conoce como EDA (exploratory data analysis).


## Objetivos
1. Presentar las principales librerías de Python para análisis exploratorio de datos y recursos visuales.
2. Introducir y familiarizarse con la lectura y la exploración de datasets, permitiendo identificar límites y potencial de los datos así como su adecuación para el análisis.

## Datasets
Datos abiertos del GCBA. Ministerio de Salud. Instituto de Trasplantes de la Ciudad de Buenos Aires. Los descargamos de [aquí]('https://data.buenosaires.gob.ar/dataset/manifestaciones-a-la-donacion-para-trasplantes').

**Manifestaciones a la donación para trasplantes**
Información correspondiente a la Campaña de Promoción “Hoy también elegís ser donante de órganos” organizada por el Instituto de Trasplante de la Ciudad de Buenos Aires en el marco de la jornada electoral **PASO 2017** dando cumplimiento a la Ley 2508/07. Se realizó en 62 establecimientos autorizados por la Justicia Electoral de la Ciudad de Buenos Aires.

1. *Manifestaciones a la donación para trasplantes*: personas que decidieron sobre la donación de órganos y tejidos en la CABA durante las Elecciones PASO 2017.

2. *Establecimentos - Elecciones 2017*: ubicación de los establecimientos autorizados para las Elecciones Legislativas de Octubre 2017.

Para manejar y obtener información de los datasets, necesitaremos importar algunas librerías, que se agregan a la ya mencionada Pandas. Son: __Numpy, Scipy y Seaborn__. La referencia a las mismas podés encontrarla en el README del repositorio

In [6]:
#importamos las librerias con las que trabajaremos
import numpy as np
from scipy import stats

import pandas as pd
import seaborn as sns

### Personas que se expresaron frente a la donación de órganos


In [11]:
# este bloque es exclusivo para trabajar en COLAB!
# se habilita un botón que tenés que pulsar para seleccionar tu archivo de un directorio local

#from google.colab import files
#files.upload()

Pandas contiene un método llamado `read_csv()`, que enviando como string una dirección de un archivo csv, levanta automáticamente todos los datos de ese archivo en un Dataframe

In [12]:
# cargamos el dataset, instanciándolo para poder referenciarlo luego
data = pd.read_csv('datasets/manifestaciones-a-la-donacion-para-trasplantes.csv', sep=';')

# visualizamos que se haya cargado bien
data.head()

Unnamed: 0,NACIONALIDAD,SEXO,EDAD,CONSENTIMIENTO,CUALQUIER_ORGANO,CUALES_NO,TRASPLANTE,INVESTIGACION,COMUNA
0,ARGENTINA,F,40,SI,SI,,SI,SI,2
1,ARGENTINA,M,31,SI,SI,,SI,NO,2
2,ARGENTINA,F,41,SI,SI,,SI,SI,2
3,ARGENTINA,M,29,SI,SI,,SI,NO,2
4,ARGENTINA,F,26,SI,SI,,SI,NO,2


In [13]:
# chequamos dimensiones, estructura, contenido
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1502 entries, 0 to 1501
Data columns (total 9 columns):
NACIONALIDAD        1502 non-null object
SEXO                1502 non-null object
EDAD                1502 non-null int64
CONSENTIMIENTO      1502 non-null object
CUALQUIER_ORGANO    1502 non-null object
CUALES_NO           14 non-null object
TRASPLANTE          1502 non-null object
INVESTIGACION       1502 non-null object
COMUNA              1502 non-null int64
dtypes: int64(2), object(7)
memory usage: 64.6+ KB


Según `.info()`:
* ¿Cómo identificarías si hay datos vacíos?
* ¿Podés decir que el dataset está bien organizado? ¿Por qué?
* ¿Eliminarías alguna fila o alguna columna?
* ¿Transformarías algún dato? 
* ¿Ya podrías analizarlo?
* Observando el dataset (su estructura, el nombre de las columnas, características de las respuestas, etc.), ¿cómo lo caracterizarías? ¿qué tipo de preguntas podrías responder?

In [14]:
# qué hace .describe()? 
# qué tipos de datos lee?
data.describe()

Unnamed: 0,EDAD,COMUNA
count,1502.0,1502.0
mean,42.91478,8.032623
std,15.259494,4.407416
min,18.0,1.0
25%,30.0,4.0
50%,41.0,8.0
75%,54.0,12.0
max,99.0,15.0


In [31]:
# esta expresión genera un booleano sobre la serie/variable/columna que le pasamos
lista=data['CONSENTIMIENTO']=='SI'
lista.head(5) #visualizar registros

0    True
1    True
2    True
3    True
4    True
Name: CONSENTIMIENTO, dtype: bool

In [33]:
# empleamos la condición de arriba para seleccionar aquellos casos/registros/filas que cumplan con esa condición
# aquí hacemos la selección sobre la misma columna
# alternativamente se podría utilizar otra columna o el dataset completo, depende de lo que busquemos identificar!
data['CONSENTIMIENTO'][data['CONSENTIMIENTO']=='SI'].sample(5)

530     SI
621     SI
1068    SI
1399    SI
1424    SI
Name: CONSENTIMIENTO, dtype: object

Como vimos, las expresiones `.head()` y `.sample()` obtienen una cantidad limitada de los registros que figuran en _data_. Head retorna los primeros N elementos de data, mientras que sample retorna una cantidad de elementos de manera aleatoria

Con la función built in `.count()` retorna la cantidad de registros que tiene un Dataframe

In [35]:
data['CONSENTIMIENTO'][data['CONSENTIMIENTO']=='SI'].count()

1486

In [36]:
# aquí utilizamos esa construcción para contar respuestas afirmativas y negativas, guardando el resultado en memoria
donan = data['CONSENTIMIENTO'][data['CONSENTIMIENTO']=='SI'].count()
no_donan = data['CONSENTIMIENTO'][data['CONSENTIMIENTO']!='SI'].count()

# con ello, realizamos una operación que resuma la información
print('porcentaje de donantes: ', round(donan/len(data)*100,2))

porcentaje de donantes:  98.93


In [37]:
data['CUALQUIER_ORGANO'][data['CUALQUIER_ORGANO']!='SI'].count()

30

In [38]:
# .notnull() también opera como un booleano
# con la misma lógica que antes, podemos seleccionar aquellas filas cuya respuesta presenta alguna especificación
data['CUALES_NO'][data['CUALES_NO'].notnull()]

59             HIGADO-CORNEAS
233      RIÑON-HIGADO-CORNEAS
234              HIGADO-RIÑON
326                      OJOS
432                   CORNEAS
433       CORNEAS-PIEL-HUESOS
528                   CORNEAS
529       CORNEAS-PIEL-HUESOS
648       HIGADO-RIÑON-PULMON
883     RIÑON-CORNEAS-CORAZON
914               PIEL-HUESOS
1002                  TEJIDOS
1013                     PIEL
1434                  CORNEAS
Name: CUALES_NO, dtype: object

In [39]:
# vemos que hay 16 personas que no dieron consentimiento para donación
# también hay 16 que no aceptaron donar para trasplante
# serán los mismos? qué podés decir a partir de este output?
data['TRASPLANTE'][data['TRASPLANTE']!='SI'] == data['CONSENTIMIENTO'][data['CONSENTIMIENTO']!='SI']

82      True
83      True
96      True
119     True
120     True
121     True
122     True
132     True
133     True
167     True
556     True
1371    True
1381    True
1382    True
1383    True
1388    True
dtype: bool

In [40]:
data['INVESTIGACION'][data['INVESTIGACION']!='SI'].count()

909