# Investigación corta 1

## Primera parte: Tutorial de Pandas


### 1. Introducción

Pandas es una biblioteca de Python que permite el manejo y manipulación de la información de una manera rápida y sencilla. Pandas posee una gran cantidad de funciones las cuales permitirán a los usuarios tomar un grandes conjuntos de datos y poder ordenarlo, sintetizarlo, reducirlo, entre otros; y de esta forma obtener información más concreta a partir de este.

Gracias a la gran facilidad que otorga Pandas para manejar conjuntos muy grandes de datos, se ha hecho ideal para el preprocesado o análisis exploratorio de este tipo de conjuntos de datos. 

En este breve tutorial primero se dará una introducción a Pandas para aquellos que no conocen del todo la biblioteca, de forma que en la sección 2 podrán conocer los aspectos más básicos de cómo usar Pandas. Y finalmente, se presentarán funciones que permiten diferentes técnicas para el preprocesamiento de datos de una manera sencilla. 

### 2. Iniciando con Pandas

#### 2.1 Importando Pandas
Lo primero que se debe realizar para poder trabajar con Pandas es importarlo en Python. En este momento se pueden importar todas las librerias con las que se vaya a trabajar en el ambiente de programación, un ejemplo puede ser numpy. 

In [47]:
import pandas as pd
import numpy as np

#### 2.2 Leyendo un DataSet
El dataset es un conjunto de datos en forma de una tabla. El tipo de información que estará contenida en un dataset dependerá de la naturaleza del mismo, dicha información es recolectada con anterioridad y puede ser almacenada de diferentes formas. Por lo general, un dataset va a estar almacenado en un archivo .csv.

Lo primero que se desea hacer es leer el dataset para poder manipularlo fácilmente. Pandas permite leer archivos .csv y almacenar la información en una estructura llamada DataFrame.

Para leer un archivo .csv basta con usar la función read_csv indicando la dirección donde del archivo que queremos leer (se puede tomar como base el directorio donde se encuentra nuestro proyecto .ipynb o incluir la dirección completa). 

In [48]:
df = pd.read_csv("Datasets/Dataset_Ejemplo.csv")

#### 2.3 Atributos y funciones básicas de un DataFrame

Una vez se tiene el dataframe se puede conocer las dimensiones del mismo mediante su atributo shape.

In [49]:
df.shape

(319, 7)

Para dataframes muy grandes no siempre es posible ver toda la información a la vez, entonces se pueden usar las funciones head y tail para obtener ya sean las primeras o las últimas entradas. Además, estas funciones permiten indicar cuántas entradas se desean ver (por defecto son 5).

In [50]:
df.head()

Unnamed: 0,Zip Code,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
0,91371,1,73.5,0,1,1,1.0
1,90001,57110,26.6,28468,28642,12971,4.4
2,90002,51223,25.5,24876,26347,11731,4.36
3,90003,66266,26.3,32631,33635,15642,4.22
4,90004,62180,34.8,31302,30878,22547,2.73


In [51]:
df.tail(10)

Unnamed: 0,Zip Code,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
309,93536,70918,34.4,37804,33114,20964,3.07
310,93543,13033,32.9,6695,6338,3560,3.66
311,93544,1259,52.4,689,570,569,2.2
312,93550,74929,27.5,36414,38515,20864,3.58
313,93551,50798,37.0,25056,25742,15963,3.18
314,93552,38158,28.4,18711,19447,9690,3.93
315,93553,2138,43.3,1121,1017,816,2.62
316,93560,18910,32.4,9491,9419,6469,2.92
317,93563,388,44.5,263,125,103,2.53
318,93591,7285,30.9,3653,3632,1982,3.67


Un data frame posee un header con el nombre de las columnas y un identificador para sus entradas o filas. 

Por defecto, mientras se lee el dataset, Pandas asumirá que la primera entrada corresponderá al header. Es posible acceder al header de la siguiente manera:

In [52]:
list(df.columns)

['Zip Code',
 'Total Population',
 'Median Age',
 'Total Males',
 'Total Females',
 'Total Households',
 'Average Household Size']

En caso de que el dataset no tenga header debe indicarse al leer el dataset. 

In [53]:
df = pd.read_csv("Datasets/Dataset_Ejemplo_NoHeader.csv", header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6
0,91371,1,73.5,0,1,1,1.0
1,90001,57110,26.6,28468,28642,12971,4.4
2,90002,51223,25.5,24876,26347,11731,4.36
3,90003,66266,26.3,32631,33635,15642,4.22
4,90004,62180,34.8,31302,30878,22547,2.73


Y posteriormente se le puede agregar un header.

In [54]:
header = ["Zip Code", "Total Population", "Median Age", "Total Males", "Total Females", "Total Households", "Average Household Size"]
df.columns = header
df.head()

Unnamed: 0,Zip Code,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
0,91371,1,73.5,0,1,1,1.0
1,90001,57110,26.6,28468,28642,12971,4.4
2,90002,51223,25.5,24876,26347,11731,4.36
3,90003,66266,26.3,32631,33635,15642,4.22
4,90004,62180,34.8,31302,30878,22547,2.73


Pandas también creará un identificador numérico para cada fila, iniciando en cero. Pero hay casos donde el dataset ya posee un identificador único, como es el caso del Zip Code en nuestro dataset de ejemplo, en dicho caso se puede indicar que este es el identificador.

In [55]:
df.set_index('Zip Code', inplace=True)
df.head()

Unnamed: 0_level_0,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
Zip Code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
91371,1,73.5,0,1,1,1.0
90001,57110,26.6,28468,28642,12971,4.4
90002,51223,25.5,24876,26347,11731,4.36
90003,66266,26.3,32631,33635,15642,4.22
90004,62180,34.8,31302,30878,22547,2.73


Por otro lado, Pandas puede detectar este identificador a la hora de leer el dataset, esto sucede cuando se identifica que la primera entrada contiene un valor menos que el resto, en cuyo caso, Pandas reconocerá la primera columna como identificador único.

In [56]:
df = pd.read_csv("Datasets/Dataset_Ejemplo_IdentificadorZIP.csv")
df.head()

Unnamed: 0,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
91371,1,73.5,0,1,1,1.0
90001,57110,26.6,28468,28642,12971,4.4
90002,51223,25.5,24876,26347,11731,4.36
90003,66266,26.3,32631,33635,15642,4.22
90004,62180,34.8,31302,30878,22547,2.73


Es posible acceder a los valores de los identificadores de la siguiente manera:

In [57]:
list(df.index)[:5]

[91371, 90001, 90002, 90003, 90004]

Para acceder a los valores de una columna se puede hacer usando el nombre de la misma.

In [58]:
df[['Total Males']].head()

Unnamed: 0,Total Males
91371,0
90001,28468
90002,24876
90003,32631
90004,31302


Del mismo modo se pueden tomar varias columnas a la vez.

In [59]:
df[['Total Males', 'Total Females']].head()

Unnamed: 0,Total Males,Total Females
91371,0,1
90001,28468,28642
90002,24876,26347
90003,32631,33635
90004,31302,30878


También es posible tomar entradas que cumplan con un criterio específico.

In [60]:
df[(df['Median Age']>50) & (df['Total Population']>100)].head()

Unnamed: 0,Total Population,Median Age,Total Males,Total Females,Total Households,Average Household Size
90067,2424,65.3,1074,1350,1510,1.61
90073,539,56.9,506,33,4,1.25
90740,23729,57.5,10423,13306,12830,1.83
90822,117,63.9,109,8,2,4.5
91008,1391,54.6,614,777,562,2.39


### 3. Funciones para preprocesado de datos

#### 3.1 Valores Faltantes

Cuando se presenten valores faltantes o nulos en la tabla se puede realizar alguna de las siguientes operaciones:



In [61]:
# Para esta sección vamos a usar el dataset short_example1.csv
df = pd.read_csv("Datasets/short_example1.csv")

##### a) Eliminar filas o columnas

Si se trata de un valor faltante se usa la función dropna y mediante sus parámetros es posible decidir qué se quiere hacer. 

- *axis*: permite detallar si se desea borrar una columna (axis = 1) o una fila (axis = 0). Por defecto 'axis' es 0. 
   
      Por ejemplo:
   
      Se puede eliminar todas las columnas que posean un valor faltante
   

In [62]:
df.dropna(axis = 1)

0
1
2
3
4
5
6


      También se pueden eliminar todas las filas que posean un valor faltante

In [63]:
df.dropna(axis = 0)

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
2,250.0,77.0,0.0,Indefinido,1.0
4,0.0,0.0,0.0,Definido,1.0


- *how*: permite determinar si la fila o columna se elimina cuando tiene al menos un valor faltante (how = 'any') o todos los valores faltantes (how = 'all'). Por defecto 'how' tiene el valor de 'any'.
   
      Por ejemplo:
   
      Se pueden eliminar las columnas que tengan todos sus valores faltantes
   


In [64]:
df.dropna(axis = 1, how = "all")


Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,
2,250.0,77.0,0.0,Indefinido,1.0
3,1200.0,15.0,0.0,Definido,
4,0.0,0.0,0.0,Definido,1.0
5,,,,,
6,275.0,33.0,0.0,,4.0


      También se pueden eliminar las filas que tengan al menos un valor faltante

In [65]:
df.dropna(axis = 0, how = "any").head()

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
2,250.0,77.0,0.0,Indefinido,1.0
4,0.0,0.0,0.0,Definido,1.0


- *thresh*: permite indicar cuántos valores no faltantes debe hacer en una fila o columna como mínimo para no ser eliminada. 

      Por ejemplo:
   
      Se pueden eliminar que tengan al menos dos valores no faltantes


In [66]:
df.dropna(axis = 0, thresh = 2)

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,
2,250.0,77.0,0.0,Indefinido,1.0
3,1200.0,15.0,0.0,Definido,
4,0.0,0.0,0.0,Definido,1.0
6,275.0,33.0,0.0,,4.0


- *subset*: permite indicar en cuáles columnas se hará la búsqueda de valores faltantes. La búsqueda de valores faltantes se hará por fila, de forma que se eliminarán sólamente las filas que tenga la cantidad de valores faltantes necesarios. 

      Por ejemplo:
   
      Se borrarán las filas que tengan al menos un valor faltante en las columnas "C" y "E"

In [67]:
df.dropna(subset=["C", "E"])

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
2,250.0,77.0,0.0,Indefinido,1.0
4,0.0,0.0,0.0,Definido,1.0
6,275.0,33.0,0.0,,4.0


Cuando se trata de un valor nulo en lugar de uno falta tal como el cero (0) o "no definido" o cualquier otro cuyo valor no es significativo se puede realizar un reemplazo de dicho valor por uno nulo, para posteriormente usar la función dropna. Para eso se usa la función replace

    Por ejemplo:
    
    Se pueden reemplazar los ceros de la tabla por un valor faltante

In [68]:
df.replace(0, np.nan)

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,,Indefinido,3.0
1,260.0,41.0,,Indefinido,
2,250.0,77.0,,Indefinido,1.0
3,1200.0,15.0,,Definido,
4,,,,Definido,1.0
5,,,,,
6,275.0,33.0,,,4.0


    Del mismo modo es posible realizar el cambio de los ceros de la columna "C" por valores faltantes y los valores "Indefinido" de la columna "D" por valores faltantes.


In [69]:
df.replace({"C" : 0, "D" : "Indefinido"}, np.nan)

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,,,3.0
1,260.0,41.0,,,
2,250.0,77.0,,,1.0
3,1200.0,15.0,,Definido,
4,0.0,0.0,,Definido,1.0
5,,,,,
6,275.0,33.0,,,4.0


También es posible eliminar las filas o columnas que tengan valores nulos sin necesidad de reemplazarlos por valores faltantes.

    Por ejemplo:
    
    Se pueden eliminar todas las columnas que posean al menos un cero. 
    

In [70]:
df.iloc[:, list((df != 0).all(axis = 0))]


Unnamed: 0,D,E
0,Indefinido,3.0
1,Indefinido,
2,Indefinido,1.0
3,Definido,
4,Definido,1.0
5,,
6,,4.0


    Se pueden eliminar todas las columnas que posean únicamente ceros. 
    

In [71]:
df.iloc[:, list((df != 0).any(axis = 0))]

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,
2,250.0,77.0,0.0,Indefinido,1.0
3,1200.0,15.0,0.0,Definido,
4,0.0,0.0,0.0,Definido,1.0
5,,,,,
6,275.0,33.0,0.0,,4.0


    Se pueden eliminar las filas donde todas sus entradas sean ceros.

In [72]:
df.iloc[list((df != 0).any(axis = 1))]


Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,
2,250.0,77.0,0.0,Indefinido,1.0
3,1200.0,15.0,0.0,Definido,
4,0.0,0.0,0.0,Definido,1.0
5,,,,,
6,275.0,33.0,0.0,,4.0


#### b) Calcular media, mediana o moda

Pandas permite calcular la media, la mediana y la moda de cada columna de una manera super sencilla.

Para calcular la media basta con usar la función mean, para esta función Pandas sólo tomará en cuenta aquellas columnas que son tipo numérico e ignorará los valores faltantes.

In [73]:
df.mean()

A    372.500000
B     33.166667
C      0.000000
E      2.250000
dtype: float64

Para calcular la mediana basta con usar la función median, para esta función Pandas sólo tomará en cuenta aquellas columnas que son tipo numérico e ignorará los valores faltantes.

In [74]:
df.median()

A    255.0
B     33.0
C      0.0
E      2.0
dtype: float64

Para calcular la moda basta con usar la función mode. Para esta función Pandas tomará en cuenta todas columnas ignorando los valores faltantes. Esta función podrá retornar más de un valor por columna en caso de que dicha columna posea más de una moda.

In [75]:
df.mode()

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,1.0


Para reemplazar los valores faltantes por alguno de los valores estadísticos mencionados anteriormente se hace uso de la función fillna.

Para rellenar todos los valores con faltantes con la media de cada columna se realiza lo siguiente.


In [76]:
df.fillna(df.mean())

Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,2.25
2,250.0,77.0,0.0,Indefinido,1.0
3,1200.0,15.0,0.0,Definido,2.25
4,0.0,0.0,0.0,Definido,1.0
5,372.5,33.166667,0.0,,2.25
6,275.0,33.0,0.0,,4.0


#### 3.2 Outliers

Las técnicas más comunes para eliminar outliers son: removerlos usando desviación estándar o removerlos usando percentiles. Para el ejemplo se tomará una columna en específico a la cuál se buscará el outlier para removerlo usando estas técnicas, en este caso se tomará la columna A. Se eliminarán entonces las filas que tengan valores faltantes en esta columna.

In [77]:
# Para esta sección vamos a usar el dataset short_example1.csv
df = pd.read_csv("Datasets/short_example1.csv")

df = df.dropna(subset=["A"])

##### a) Usando desviación estándar

Primeramente se calcula la media de la columna de interés

In [78]:
colA = list(df["A"])
mean = np.mean(colA)

Posteriormente se calcula la desviación estándar

In [79]:
sd = np.std(colA)

Se obtienen cuáles son los filas de interés (ignorando outliers)

In [80]:
contFila = 0
filas = []
for x in colA: 
    if (x > mean - 2*sd) and (x < mean + 2*sd):
        filas += [contFila]
    contFila += 1

Finalmente se toman sólo las filas de interés


In [81]:
df.iloc[filas]


Unnamed: 0,A,B,C,D,E
0,250.0,33.0,0.0,Indefinido,3.0
1,260.0,41.0,0.0,Indefinido,
2,250.0,77.0,0.0,Indefinido,1.0
4,0.0,0.0,0.0,Definido,1.0
6,275.0,33.0,0.0,,4.0


#### 3.3 Datos no-balanceados

Un set de datos puede tener un atributo que divide sus entradas en varias categorías, por ejemplo, en un set de nombres de mascotas se podría tener un atributo "Especie" que clasificará las entradas en "Perro", "Gato" o "Araña". En este tipo de casos se puede dar que las entradas no estén balanceadas, ya que por ejemplo, muy pocas personas tendrán Arañas como mascotas en comparación con los que tienen perros o gatos. 

En este tipo de casos se puede realizar diferentes operaciones, la efectividad de estas dependerá de la naturaleza del set de datos. Lo más común en este tipo de casos es tomar aleatoriamente la misma cantidad entradas para cada posible clasificación, es decir, siguiente con el ejemplo anterior, se tomaría la misma cantidad de perros, gatos y arañas. 


In [84]:
# Para esta sección vamos a usar el dataset Pets_example.csv
df = pd.read_csv("Datasets/Pets_example.csv")

En un caso más concreto, primero debemos conocer cuántos animales de cada especie hay.

In [85]:
dfByEspecie = df.groupby(["Especie"]).size().reset_index(name="count")
dfByEspecie

Unnamed: 0,Especie,count
0,Araña,20
1,Chancho,1245
2,Gato,2245
3,Hamster,802
4,Perro,2454


Como se puede observar, efectivamente los datos no están balanceados. 

Se procede a tomar entonces 20 entradas aleatorias para cada especie.

In [86]:
cantidadMenor = dfByEspecie.min()[1]
newdf = pd.DataFrame()
for indx in range(len(dfByEspecie.index)):
    nameSpecie = dfByEspecie["Especie"][indx]
    totalAnimales = dfByEspecie["count"][indx]                      
    indxRandom = np.random.choice(totalAnimales,cantidadMenor,replace = False)
    sub_db = df.iloc[list((df["Especie"] == nameSpecie))].reset_index(drop = True)
    newdf = pd.concat([newdf,sub_db.iloc[indxRandom]])
newdf = newdf.reset_index(drop=True)

De esta forma se los datos quedan balanceados

In [87]:
newdf.groupby(["Especie"]).size().reset_index(name="count")

Unnamed: 0,Especie,count
0,Araña,20
1,Chancho,20
2,Gato,20
3,Hamster,20
4,Perro,20


#### 3.4 Transformación de datos

En ciertos casos, los datos necesitan transformaciones para poder obtener una mejor representación de los mismos y así obtener más información como tal. Existen varias formas de realizar estas transformaciones, la más común es haciendo uso de la función apply.

In [88]:
# Para esta sección vamos a usar el dataset short_example1.csv
df = pd.read_csv("Datasets/short_example1.csv")
df = df.dropna(subset=["A"])

Es posible aplicar una función ya definida a una columna ya existente (que reciba un único argumento) y guardarlos en una nueva columna

In [89]:
df["Sqrt_A"] =df["A"].apply(np.sqrt)
df

Unnamed: 0,A,B,C,D,E,Sqrt_A
0,250.0,33.0,0.0,Indefinido,3.0,15.811388
1,260.0,41.0,0.0,Indefinido,,16.124515
2,250.0,77.0,0.0,Indefinido,1.0,15.811388
3,1200.0,15.0,0.0,Definido,,34.641016
4,0.0,0.0,0.0,Definido,1.0,0.0
6,275.0,33.0,0.0,,4.0,16.583124


Se puede crear una función custom que realiza la transformación deseada y la reemplace por la original.



In [90]:
def func_add100(val):
    return val + 100

df["B"]=df["B"].apply(func_add100)
df

Unnamed: 0,A,B,C,D,E,Sqrt_A
0,250.0,133.0,0.0,Indefinido,3.0,15.811388
1,260.0,141.0,0.0,Indefinido,,16.124515
2,250.0,177.0,0.0,Indefinido,1.0,15.811388
3,1200.0,115.0,0.0,Definido,,34.641016
4,0.0,100.0,0.0,Definido,1.0,0.0
6,275.0,133.0,0.0,,4.0,16.583124


En caso de que la función que implementa la transformación necesite más de un parámetro basta con definírselos en la llamada de apply.

In [91]:
def func_mult(val1, val2, val3):
    return val1*val2*val3

df["F"]=df["A"].apply(func_mult, val2 = 2, val3 = 3)
df

Unnamed: 0,A,B,C,D,E,Sqrt_A,F
0,250.0,133.0,0.0,Indefinido,3.0,15.811388,1500.0
1,260.0,141.0,0.0,Indefinido,,16.124515,1560.0
2,250.0,177.0,0.0,Indefinido,1.0,15.811388,1500.0
3,1200.0,115.0,0.0,Definido,,34.641016,7200.0
4,0.0,100.0,0.0,Definido,1.0,0.0,0.0
6,275.0,133.0,0.0,,4.0,16.583124,1650.0


Igualmente, si la transformación es realmente sencilla se puede realizar usando lambda.

In [92]:
df["F"]=df["A"].apply(lambda x : x * 2 * 3)
df

Unnamed: 0,A,B,C,D,E,Sqrt_A,F
0,250.0,133.0,0.0,Indefinido,3.0,15.811388,1500.0
1,260.0,141.0,0.0,Indefinido,,16.124515,1560.0
2,250.0,177.0,0.0,Indefinido,1.0,15.811388,1500.0
3,1200.0,115.0,0.0,Definido,,34.641016,7200.0
4,0.0,100.0,0.0,Definido,1.0,0.0,0.0
6,275.0,133.0,0.0,,4.0,16.583124,1650.0


## Segunda Parte: Análisis Exploratorio de un dataset.

Para esta Segunda Parte se tomará un set de datos que contiene las estadísticas demográficas de la ciudad de Nueva York ordenadas por Zip Code y se hará un análisis exploratorio del mismo. 

In [93]:
df = pd.read_csv("Datasets/Demographic_Stats.csv")

A partir de la función Shape podemos observar que el data set posee 46 atributos diferentes y 236 entradas.

In [94]:
df.shape

(236, 46)

A partir de la función head podemos ver las primeras 10 entradas, de esta forma podemos ver el tipo de información almacenada en el dataset.

In [95]:
df.head(10)

Unnamed: 0,JURISDICTION NAME,COUNT PARTICIPANTS,COUNT FEMALE,PERCENT FEMALE,COUNT MALE,PERCENT MALE,COUNT GENDER UNKNOWN,PERCENT GENDER UNKNOWN,COUNT GENDER TOTAL,PERCENT GENDER TOTAL,...,COUNT CITIZEN STATUS TOTAL,PERCENT CITIZEN STATUS TOTAL,COUNT RECEIVES PUBLIC ASSISTANCE,PERCENT RECEIVES PUBLIC ASSISTANCE,COUNT NRECEIVES PUBLIC ASSISTANCE,PERCENT NRECEIVES PUBLIC ASSISTANCE,COUNT PUBLIC ASSISTANCE UNKNOWN,PERCENT PUBLIC ASSISTANCE UNKNOWN,COUNT PUBLIC ASSISTANCE TOTAL,PERCENT PUBLIC ASSISTANCE TOTAL
0,10001,44,22,0.5,22,0.5,0,0,44,100,...,44,100,20,0.45,24,0.55,0,0,44,100
1,10002,35,19,0.54,16,0.46,0,0,35,100,...,35,100,2,0.06,33,0.94,0,0,35,100
2,10003,1,1,1.0,0,0.0,0,0,1,100,...,1,100,0,0.0,1,1.0,0,0,1,100
3,10004,0,0,0.0,0,0.0,0,0,0,0,...,0,0,0,0.0,0,0.0,0,0,0,0
4,10005,2,2,1.0,0,0.0,0,0,2,100,...,2,100,0,0.0,2,1.0,0,0,2,100
5,10006,6,2,0.33,4,0.67,0,0,6,100,...,6,100,0,0.0,6,1.0,0,0,6,100
6,10007,1,0,0.0,1,1.0,0,0,1,100,...,1,100,1,1.0,0,0.0,0,0,1,100
7,10009,2,0,0.0,2,1.0,0,0,2,100,...,2,100,0,0.0,2,1.0,0,0,2,100
8,10010,0,0,0.0,0,0.0,0,0,0,0,...,0,0,0,0.0,0,0.0,0,0,0,0
9,10011,3,2,0.67,1,0.33,0,0,3,100,...,3,100,0,0.0,3,1.0,0,0,3,100


En primera instancia, conocemos que la información está dada por ZIP Code, el cuál es un atributo único para cada entrada, por lo que podemos establecer que este será el identificador de cada entrada.

In [96]:
df.set_index('JURISDICTION NAME', inplace=True)

Columnas como "COUNT GENDER UNKNOWN" Y "PERCENT GENDER UNKNOWN" poseen valores de 0, al menos en sus primeras entradas; podemos evaluar su esta tendencia sigue, es decir, si todos los valores de estas columnas son ceros.

In [97]:
(df == 0).all(axis=0)

COUNT PARTICIPANTS                     False
COUNT FEMALE                           False
PERCENT FEMALE                         False
COUNT MALE                             False
PERCENT MALE                           False
COUNT GENDER UNKNOWN                    True
PERCENT GENDER UNKNOWN                  True
COUNT GENDER TOTAL                     False
PERCENT GENDER TOTAL                   False
COUNT PACIFIC ISLANDER                 False
PERCENT PACIFIC ISLANDER               False
COUNT HISPANIC LATINO                  False
PERCENT HISPANIC LATINO                False
COUNT AMERICAN INDIAN                  False
PERCENT AMERICAN INDIAN                False
COUNT ASIAN NON HISPANIC               False
PERCENT ASIAN NON HISPANIC             False
COUNT WHITE NON HISPANIC               False
PERCENT WHITE NON HISPANIC             False
COUNT BLACK NON HISPANIC               False
PERCENT BLACK NON HISPANIC             False
COUNT OTHER ETHNICITY                  False
PERCENT OT

Como se puede observar, existen 6 columnas donde todas las entradas tiene valor nulo, este tipo de datos no generará ningún tipo de información relevante, así que podemos eliminar dichos atributos. 

In [98]:
df = df.iloc[:, list((df != 0).any(axis=0))]

Igualmente, cuando observamos las primeras 10 entradas se pudo detallar que hay entradas donde no se entrevistó a ninguna persona, por lo que se tienen filas donde todos sus valores son cero, este tipo de datos no generan información relevante, por lo que podemos eliminar dichos ZIP codes.

In [99]:
df = df.iloc[list((df != 0).any(axis=1))]

Estadísticamente, muestras poblacionales muy pequeñas no permiten generalizar el comportamiento de la población, es decir, la información inferida a partir de muestras pequeñas no permiten predecir el comportamiento de toda la población. Por tanto, se eliminarán también aquellas entradas donde hayan menos de 20 participantes. 

In [100]:
df = df.iloc[list(df["COUNT PARTICIPANTS"]>20)]

Mediante el atributo shape podemos observar que nuestro set de datos se ha reducido a un conjunto de 46 entradas con 39 atributos cada uno. 

In [101]:
df.shape

(46, 39)

Para este ejemplo en específico, se considera que el análisis exploratorio concluído, ya que los datos con los que se finalizó contienen todos información relevante para cualquier algoritmo de aprendizaje.

In [102]:
df

Unnamed: 0_level_0,COUNT PARTICIPANTS,COUNT FEMALE,PERCENT FEMALE,COUNT MALE,PERCENT MALE,COUNT GENDER TOTAL,PERCENT GENDER TOTAL,COUNT PACIFIC ISLANDER,PERCENT PACIFIC ISLANDER,COUNT HISPANIC LATINO,...,COUNT OTHER CITIZEN STATUS,PERCENT OTHER CITIZEN STATUS,COUNT CITIZEN STATUS TOTAL,PERCENT CITIZEN STATUS TOTAL,COUNT RECEIVES PUBLIC ASSISTANCE,PERCENT RECEIVES PUBLIC ASSISTANCE,COUNT NRECEIVES PUBLIC ASSISTANCE,PERCENT NRECEIVES PUBLIC ASSISTANCE,COUNT PUBLIC ASSISTANCE TOTAL,PERCENT PUBLIC ASSISTANCE TOTAL
JURISDICTION NAME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10001,44,22,0.5,22,0.5,44,100,0,0.0,16,...,0,0.0,44,100,20,0.45,24,0.55,44,100
10002,35,19,0.54,16,0.46,35,100,0,0.0,1,...,0,0.0,35,100,2,0.06,33,0.94,35,100
10025,27,17,0.63,10,0.37,27,100,0,0.0,15,...,0,0.0,27,100,8,0.3,19,0.7,27,100
10451,41,21,0.51,20,0.49,41,100,0,0.0,22,...,0,0.0,41,100,12,0.29,29,0.71,41,100
10455,27,17,0.63,10,0.37,27,100,0,0.0,5,...,1,0.04,27,100,7,0.26,20,0.74,27,100
10458,52,25,0.48,27,0.52,52,100,0,0.0,24,...,1,0.02,52,100,19,0.37,33,0.63,52,100
10460,27,20,0.74,7,0.26,27,100,0,0.0,9,...,0,0.0,27,100,14,0.52,13,0.48,27,100
10461,49,26,0.53,23,0.47,49,100,1,0.02,21,...,0,0.0,49,100,21,0.43,28,0.57,49,100
10463,59,33,0.56,26,0.44,59,100,0,0.0,36,...,2,0.03,59,100,20,0.34,39,0.66,59,100
10465,21,17,0.81,4,0.19,21,100,0,0.0,14,...,0,0.0,21,100,5,0.24,16,0.76,21,100
