## 1. Parte 1: Datos cualitativos de compañía de envíos

<p>Imagina que eres el nuevo analista de operaciones de una importante compañía de logística y envíos con cobertura a nivel internacional. La compañía opera fundamentalmente en la mayoría de ciudades de Estados Unidos. Estas asumiendo un cargo nuevo como tomador de decisiones, asi que la primera tarea que te propones es estudiar las instalaciones y la capacidad instalada de la compañía para ir conociendo el terreno. Para esto cuentas con un set de datos que contiene información sobre las instalaciones con las que cuenta la compañía en Estados Unidos. Como buen Analista de Supply Chain tu trabajo será hacer un análisis de datos exploratorio para conocer como se distribuyen las instalaciones, de que tipo son, y cuáles son las ciudades más importantes en términos de la cantidad de instalaciones que poseen.</p>

<p>Tópicos a abordar en este tutorial:</p>
<ul>
    <li>Atributos y variables.</li>
    <li>Tipos de variables.</li>
    <li>Distribuciones de frecuencia.</li>
</ul>

<p>Inicialmente deberemos importar las librerias necesarias para realizar nuestro análisis:</p>

In [1]:
import numpy as np
import pandas as pd
import math

<p>Luego de importar las librerías procederemos a hacer la carga de un dataset a un dataframe, el archivo a cargar se denomina <code>UPD_INSTALACIONES.csv</code>, el cual es un archivo de tipo '.csv' (Comma Separated Values, o Valores Separados por Comas). Por tanto, para importar este tipo de archivos utilizaremos la librería <code>pandas</code> como <code>pd</code>:</p>

In [2]:
df = pd.read_csv('DATASETS/UPD_INSTALACIONES.csv')
df.head()

Unnamed: 0,X,Y,FID,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
0,-75.365329,37.933822,3001,23612,H And H Pharmacy,Self-Service,6300 Maddox Blvd,,Chincoteague Island,VA,23336,37.933822,-75.365329,OK,,510019901001000,H and H Pharmacy - Self-Service location
1,-75.831766,37.517799,3002,48000,Nottingham Insurance,Self-Service,4068 Lankford Hwy,,Exmore,VA,23350,37.517799,-75.831766,OK,,511319901002043,Nottingham Insurance - Self-Service location
2,-77.852181,36.752769,3003,2002,The Lawrenceville Profess,Self-Service,411 S Hicks St,,Lawrenceville,VA,23868,36.752769,-77.852181,OK,,510259902007010,The Lawrenceville Profess - Self-Service loca...
3,-77.583137,37.443143,3004,47871,Model Realty In,Self-Service,10132 Hull St Rd,,Midlothian,VA,23112,37.443143,-77.583137,OK,,510411009192000,Model Realty In - Self-Service location
4,-76.029401,36.806975,3005,2835,Post Office(r),Self-Service,Nas Oceana Building 531,,Virginia Beach,VA,23460,36.806975,-76.029401,Match to ZIP Centroid,\nPlacement: ZIP Code centroid,518100450001006,Post Office(r) - Self-Service locatio


<p>Al inspeccionar la cabecera del dataframe nos damos cuenta que el objeto cuenta con un total de 12 atributos o columnas. Realizaremos una inspección inicial del dataframe para conocer los tipos de datos que contiene:</p>

In [3]:
print(df.dtypes)

X             float64
Y             float64
FID             int64
FEATURE_ID      int64
NAME           object
TYPE           object
ADDRESS        object
ADDRESS2       object
CITY           object
STATE          object
ZIP             int64
LATITUDE      float64
LONGITUDE     float64
MATCHSTATU     object
PLACEMENT      object
CENSUSCODE     object
NAME0          object
dtype: object


<p>El código ejecutado anteriormente (<code>.dtypes</code>) nos permite identificar los diferentes tipos de datos que se encuentran almacenados dentro de cada columna. Por lo pronto python solo ha identificado tres (3) tipos de datos dentro del dataframe:</p>

<ul>
    <li><code>float64</code>: Se refiere a números fraccionarios o decimales dentro del conjunto de los números reales,</li>
    <li><code>int64</code>: Se refiere a números enteros dentro del conjunto de los reales, y </li>
    <li><code>object:</code> Se refiere a cualquier valor alfanumérico.</li>
</ul>
<p>Luego de verificar los contenidos de las columnas, nos damos cuenta que las columnas <code>X</code> y <code>Y</code> tienen el mismo contenido que las columnas <code>LONGITUDE</code> y <code>LATITUDE</code>. Respectivamente se puede evidenciar que <code>X</code> corresponde a <code>LONGITUDE</code> y <code>Y</code> corresponde a <code>LATITUDE</code> por tal razón eliminaremos dichas columnas de nuestro dataframe <code>df</code> y el marco de datos resultante se la asignaremos a un nuevo dataframe llamado <code>df0</code>:</p>

In [4]:
df0 = df.drop(['X','Y'], axis=1)
df0.head()

Unnamed: 0,FID,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
0,3001,23612,H And H Pharmacy,Self-Service,6300 Maddox Blvd,,Chincoteague Island,VA,23336,37.933822,-75.365329,OK,,510019901001000,H and H Pharmacy - Self-Service location
1,3002,48000,Nottingham Insurance,Self-Service,4068 Lankford Hwy,,Exmore,VA,23350,37.517799,-75.831766,OK,,511319901002043,Nottingham Insurance - Self-Service location
2,3003,2002,The Lawrenceville Profess,Self-Service,411 S Hicks St,,Lawrenceville,VA,23868,36.752769,-77.852181,OK,,510259902007010,The Lawrenceville Profess - Self-Service loca...
3,3004,47871,Model Realty In,Self-Service,10132 Hull St Rd,,Midlothian,VA,23112,37.443143,-77.583137,OK,,510411009192000,Model Realty In - Self-Service location
4,3005,2835,Post Office(r),Self-Service,Nas Oceana Building 531,,Virginia Beach,VA,23460,36.806975,-76.029401,Match to ZIP Centroid,\nPlacement: ZIP Code centroid,518100450001006,Post Office(r) - Self-Service locatio


<p>Posterior a esto podemos notar en el dataframe que la columna <code>FID</code> cuenta con el id de la instalación, este id es único para cada instalación registrada en el dataframe. Sin embargo, es evidente que la tabla no se encuentra organizada por el <code>FID</code> en orden ascendente, ya que el primer registro de 'FID' es 3001, y sabemos por experiencia previa que son en total 48821 instalaciones. Procederemos a ordenar el dataframe por la columna 'FID' de forma ascendente:</p>

In [5]:
df0 = df0.sort_values(by='FID', ascending=True)
df0.head()

Unnamed: 0,FID,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
1000,1,28379,Universal Blueprint Paper,Self-Service,1803 E 2nd Ave,,Tampa,FL,33605,27.956644,-82.439072,OK,,120570039001104,Universal Blueprint Paper - Self-Service loca...
1001,2,28380,Suntrust Bank,Self-Service,601 W Platt St,,Tampa,FL,33606,27.941708,-82.465888,OK,,120570055001005,Suntrust Bank - Self-Service location
1002,3,28385,Post Office(r),Self-Service,5206 N Florida Ave,,Tampa,FL,33603,27.994389,-82.459439,OK,,120570023001006,Post Office(r) - Self-Service location
1003,4,28387,Dcm Travel & Shipping,Authorized Ship Center,8338 N Armenia Ave S,Ste A,Tampa,FL,33604,28.024894,-82.484288,OK,,120570119021000,Dcm Travel & Shipping * - FedEx Authorized Shi...
1004,5,28388,Colonial Bank,Self-Service,4144 N Armenia Ave,,Tampa,FL,33607,27.976984,-82.484789,OK,,120570027002002,Colonial Bank - Self-Service location


In [6]:
df0.tail()

Unnamed: 0,FID,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
48816,48817,25990,FedEx,Staffed,975 Skyway St,,Presque Isle,ME,4769,46.699644,-68.026354,OK,,230039520001000,FedEx - FedExStaffed
48817,48818,25991,Key Bank,Self-Service,State and Main St,,Presque Isle,ME,4769,46.681196,-68.015464,To Intersect,,230039518001027,Key Bank - Self-Service location
48818,48819,25992,Goin Postal,Authorized Ship Center,26 North St,,Presque Isle,ME,4769,46.688198,-68.010493,OK,,230039518001012,Goin Postal * - FedEx Authorized ShipCenter
48819,48820,25995,Shop N Save,Self-Service,114 High St,,Caribou,ME,4736,46.860595,-68.008336,OK,,230039513003013,Shop N Save - Self-Service location
48820,48821,26003,Paper Signs Ink,Authorized Ship Center,32 W Main St S,Ste 101,Fort Kent,ME,4743,47.250349,-68.596782,OK,,230039506001035,Paper Signs Ink * - FedEx Authorized ShipCenter


<p>Notamos como la tabla se ha reordenado por la columna <code>FID</code> en forma ascendente, y, por otro lado, se ha desordenado el índice pues ahora inicia en 1000 y no en 0. Por tal motivo procederemos a eliminar este índice que no tiene significado alguno y utilizaremos la columna <code>FID</code> como el nuevo índice de la tabla:</p>

In [7]:
df0 = df0.set_index('FID')
df0.head()

Unnamed: 0_level_0,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
FID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,28379,Universal Blueprint Paper,Self-Service,1803 E 2nd Ave,,Tampa,FL,33605,27.956644,-82.439072,OK,,120570039001104,Universal Blueprint Paper - Self-Service loca...
2,28380,Suntrust Bank,Self-Service,601 W Platt St,,Tampa,FL,33606,27.941708,-82.465888,OK,,120570055001005,Suntrust Bank - Self-Service location
3,28385,Post Office(r),Self-Service,5206 N Florida Ave,,Tampa,FL,33603,27.994389,-82.459439,OK,,120570023001006,Post Office(r) - Self-Service location
4,28387,Dcm Travel & Shipping,Authorized Ship Center,8338 N Armenia Ave S,Ste A,Tampa,FL,33604,28.024894,-82.484288,OK,,120570119021000,Dcm Travel & Shipping * - FedEx Authorized Shi...
5,28388,Colonial Bank,Self-Service,4144 N Armenia Ave,,Tampa,FL,33607,27.976984,-82.484789,OK,,120570027002002,Colonial Bank - Self-Service location


In [8]:
df0.tail()

Unnamed: 0_level_0,FEATURE_ID,NAME,TYPE,ADDRESS,ADDRESS2,CITY,STATE,ZIP,LATITUDE,LONGITUDE,MATCHSTATU,PLACEMENT,CENSUSCODE,NAME0
FID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
48817,25990,FedEx,Staffed,975 Skyway St,,Presque Isle,ME,4769,46.699644,-68.026354,OK,,230039520001000,FedEx - FedExStaffed
48818,25991,Key Bank,Self-Service,State and Main St,,Presque Isle,ME,4769,46.681196,-68.015464,To Intersect,,230039518001027,Key Bank - Self-Service location
48819,25992,Goin Postal,Authorized Ship Center,26 North St,,Presque Isle,ME,4769,46.688198,-68.010493,OK,,230039518001012,Goin Postal * - FedEx Authorized ShipCenter
48820,25995,Shop N Save,Self-Service,114 High St,,Caribou,ME,4736,46.860595,-68.008336,OK,,230039513003013,Shop N Save - Self-Service location
48821,26003,Paper Signs Ink,Authorized Ship Center,32 W Main St S,Ste 101,Fort Kent,ME,4743,47.250349,-68.596782,OK,,230039506001035,Paper Signs Ink * - FedEx Authorized ShipCenter


<p>Ya el dataframe va quedando como queremos para empezar a desarrollar el análisis. Ahora hemos decidido solamente reducir el dataframe, y solo quedarnos con las columnas que serán la entrada para el análisis. Las columnas a utilizar para el análisis serán: <code>TYPE</code>, <code>CITY</code>, <code>STATE</code>, <code>ZIP</code>, <code>LATITUDE</code>, y <code>LONGITUDE</code>.</p>

In [9]:
df0 = df0[['TYPE','CITY','STATE','ZIP','LATITUDE','LONGITUDE']]
df0.head()

Unnamed: 0_level_0,TYPE,CITY,STATE,ZIP,LATITUDE,LONGITUDE
FID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Self-Service,Tampa,FL,33605,27.956644,-82.439072
2,Self-Service,Tampa,FL,33606,27.941708,-82.465888
3,Self-Service,Tampa,FL,33603,27.994389,-82.459439
4,Authorized Ship Center,Tampa,FL,33604,28.024894,-82.484288
5,Self-Service,Tampa,FL,33607,27.976984,-82.484789


In [10]:
PATH_0 = "DATASETS/UPDI_CLEAN.csv"
df0.to_csv(PATH_0)

<p>Ahora el dataframe ha quedado listo para realizar el análisis exploratorio. Inicialmente realizaremos una tabla de frecuencias agrupada para cada variable: Tipo de instalación, ciudad, estado, código postal, latitud y longitud.</p>

## 2. Tipos de variables y tablas de frecuencia:

<p>Las tablas de frecuencias agrupadas son útiles para resumir grandes conjuntos de datos y ver cómo se distribuyen datos entre las diferentes categorías o intervalos determinados para cada variable. Inicialmente tenemos que saber que existen dos (2) grandes tipos de variables:</p>

<ul>
    <li><b>Cualitativa o categórica:</b> Este tipo de variable es tal que sus valores no se pueden asociar naturalmente a un número, y por ende no se pueden realizar operaciones algebraicas con ellos, pero si se pueden definir categorías porque representan una característica de la población estudiada. Dentro de las variables cualitativas encontramos:</li>
    <ul>
        <li><b>Variables nominales:</b> Cuyos valores no se pueden ordenar, solamente se pueden categorizar. Por ejemplo: Sexo, grupo sanguíneo, religión, o nacionalidad.</li>
        <li><b>Variables ordinales:</b>Cuyos valores se pueden ordenar según una escala definida. Por ejemplo: grado de satisfacción, intensidad del dolor, grado académico.</li>
    </ul>
<li><b>Cuantitativa o numérica</b> Como su nombre lo indica, los valores que puede tomar este tipo de variable se asocian naturalmente a un número, y por ende se pueden realizar operaciones algebraicas con ellos. Entre las variables cuantitativas están:</li>
    <ul>
        <li><b>Variables discretas:</b> Las cuales solamente toma valores enteros y por lo general expresan el conteo de un número finito de instancias o valores de una variable. Por ejemplo: número de integrantes en la familia, cantidad de cigarrillos fumados, número de cumpleaños que ha tenido una persona, etc.</li>
        <li><b>Variables continuas:</b> Estas variables existen cuando entre dos valores que toma la variable, existe un número infinito de valores intermedios que también podría tener la variable. Por ejemplo: altura, dosis de un medicamento administrado, edad, etc.</li>
</ul>
    
<p><b>Nota</b>: La edad de una persona, animal o cosa, a diferencia del número de cumpleaños, es una variable continua porque entre cualquier par de valores de edad existe un número infinito de valores posibles. Por ejemplo: Entre la edad de 18 y la edad de 19 años existen un número infinito de edades que puede tener determinada persona: 18.2, 18.23, 18.234, 18.2345, 18.6, 18.67, 18.678, etc...</p>
   
<p>En este caso de estudio examinaremos cada una de las variables representadas por los atributos del dataframe y realizaremos una tabla de frecuencias con base al tipo de variable encontrada, iniciaremos con las variables cualitativas o categóricas.</p>

### 2.1. Variable cualitativa - Tipo de instalación:

<p>El tipo de instalación es una variable categórica pues los valores que contiene no se pueden ordenar por su naturaleza ni permiten realizar operaciones algebráicas, esta variable se encuentra representada por la columna <code>TYPE</code> en el dataframe. A continuación, examinaremos cuántos tipos de instalaciones existen y la cantidad de instalaciones existentes de cada tipo. Partiremos agrupando el dataframe por el tipo de instalación (<code>TYPE</code>), así:</p>

<ol>
1. Se toman dos (2) columnas de <code>df0</code>, la primera columna será <code>TYPE</code> y la segunda columna puede ser cualquiera pues esta columna almacenará el conteo del número de casos que ocurren por cada tipo, en este caso utilizaremos la columna <code>CITY</code>. Posteriormente, en la misma línea de código se agrupa el dataframe por la columna <code>TYPE</code> con el comando <code>.groupby()</code>, luego se utiliza el método agregado <code>.count()</code> para contar las instancias en cada categoría encontrada y finalmente se le asigna dichas modificaciones del dataframe <code>df0</code> a una nueva vista del dataframe que llamamos <code>df0_gbtype</code>:
</ol>

In [11]:
df0_gbtype = df0[['TYPE','CITY']].groupby('TYPE').count()

<ol>
2. Se crea una nueva columna denominada <code>fi</code> que indica la frecuencia absoluta de cada categoría determinada, es decir, el número total de casos encontrados en cada categoría y se le asignan los valores de la columna <code>CITY</code>:
</ol>

In [12]:
df0_gbtype['fi'] = df0_gbtype['CITY']

<ol>
3. Se elimina la columna <code>CITY</code> del nuevo dataframe y el resultado es nuestra tabla de frecuencias inicial:
</ol>

In [13]:
df0_gbtype = df0_gbtype.drop(['CITY'], axis = 1)
df0_gbtype

Unnamed: 0_level_0,fi
TYPE,Unnamed: 1_level_1
Authorized Ship Center,7411
Self-Service,39426
Staffed,1984


<p>Una vez agrupados los datos y definida nuestra tabla inicial podemos decir que existen tres (3) tipos de instalaciones en la compañía:</p>

<ul>
    <li><b>Centro de Envíos Autorizado (Authorized Ship Center)</b>, de la cuál existen 7.411 locaciones.</li>
    <li><b>Autoservicio (Self-Service)</b>, 39.426 locaciones.</li>
    <li><b>Con personal (Staffed)</b>, 1.984 locaciones.</li>
</ul>

<p>Si sumamos los valores de la tabla debería dar en total 48.821, que es el número total de registros (instalaciones) que hay en el set de datos que importamos:</p>

In [14]:
gbtype_total = np.sum(df0_gbtype['fi'])
gbtype_total

48821

<p>Habiendo confirmado que el valor total coincide con el total de registros de la tabla. Lo siguiente que será necesario hacer es crear una columna nombrada <code>hi</code> que indica la frecuencia relativa de cada categoría determinada, es decir, el porcentaje de casos encontrados en cada categoría con respecto al total de casos:</p>

In [15]:
df0_gbtype['hi'] = round(df0_gbtype['fi']/gbtype_total,2)
df0_gbtype

Unnamed: 0_level_0,fi,hi
TYPE,Unnamed: 1_level_1,Unnamed: 2_level_1
Authorized Ship Center,7411,0.15
Self-Service,39426,0.81
Staffed,1984,0.04


<p>Aunque sea evidente, podemos organizar la tabla en orden descendente con el fin de visualizar los tipos de instalaciones ordenados por cantidad:</p>

In [16]:
df0_gbtype = df0_gbtype.sort_values(by=['fi'], ascending=False)
df0_gbtype

Unnamed: 0_level_0,fi,hi
TYPE,Unnamed: 1_level_1,Unnamed: 2_level_1
Self-Service,39426,0.81
Authorized Ship Center,7411,0.15
Staffed,1984,0.04


<p>También podemos calcular la frecuencia absoluta acumulada (<code>Fi</code>) y la frecuencia relativa acumulada (<code>Hi</code>) con el fin de saber que cantidad y porcentaje de instalaciones cubren los dos (2) primeros tipos con el método <code>.cumsum()</code> aplicado a las columnas <code>fi</code> y <code>hi</code> respectivamente:</p>

In [17]:
df0_gbtype['Fi'] = df0_gbtype['fi'].cumsum()
df0_gbtype['Hi'] = df0_gbtype['hi'].cumsum()
df0_gbtype

Unnamed: 0_level_0,fi,hi,Fi,Hi
TYPE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Self-Service,39426,0.81,39426,0.81
Authorized Ship Center,7411,0.15,46837,0.96
Staffed,1984,0.04,48821,1.0


<p>De lo anterior podemos concluir que el tipo de instalación más común en la compañía es el <code>Self-Service</code> donde se reportan un total de 39.426 locaciones repartidas a lo ancho y largo de Estados Unidos, representa el 81% de total de instalaciones con la que cuenta la compañía. Por otro lado, el tipo de instalación menos común es <code>Staffed</code> con 1.984 casos en total repartidos a lo largo y ancho de Estados Unidos, representa el 4% del total de instalaciones de la compañía. El restante 15%, aproximadamente 7.411 instalaciones corresponden al tipo de Centro de Envíos Autorizado. Adicionalmente, las columnas acumuladas nos permiten saber que 46.837 instalaciones (aproximadamente el 96%) son de tipo <code>Self-Service</code> y <code>Authorized Ship Center</code>.</p>

<p>Por lo anterior podemos suponer que la compañía ofrece principalmente instalaciones de Autoservicio (<code>Self-Service</code>): casilleros e infraestructura para entrega y consignación autónoma de paquetería. En segundo plano están las operaciones de los Centros de Envíos Autorizados (<code>Authorized Ship Center</code>) que son tiendas independientes de la compañía que ofrecen servicios similares, y en último lugar están las oficinas con personal (<code>Staffed</code>), que ofrecen atención directa de los empleados al usuario.</p>

### 2.2. Variable Cualitativa - Estado:

<p>De la misma forma se realiza la manipulación del dataframe para obtener la frecuencia absoluta y la frecuencia relativa del número de instalaciones existentes en cada uno de los estados listados en el dataframe, específicamente en la columna <code>STATE</code>. Iniciamos con la agrupación de la columna <code>TYPE</code> teniendo como referencia la columna <code>STATE</code> y posteriormente se calcula la frecuencia absoluta a través del método agregado <code>.count()</code> así:</p>

In [18]:
df0_gbs = df0[['TYPE','STATE']].groupby(['STATE']).count()
df0_gbs['fi'] = df0_gbs['TYPE']
df0_gbs = df0_gbs.drop(['TYPE'], axis = 1)
df0_gbs.head(10)

Unnamed: 0_level_0,fi
STATE,Unnamed: 1_level_1
AK,51
AL,661
AR,388
AZ,863
CA,6074
CO,1106
CT,709
DC,264
DE,134
FL,3943


<p>Nótese que se imprimieron en total 10 filas, esto es debido a que la función <code>.head()</code> se utilizó introduciendo como argumento el número 10 para que retornara las primeras 10 filas del dataframe <code>.head(10)</code>, dado que en realidad son 51 categorías o estados resultantes (todas las jurisdicciones de Estados Unidos) como se puede observar a continuación:</p>

In [19]:
df0_gbs.nunique()

fi    51
dtype: int64

<p>A continuación, procedemos a confirmar la frecuencia absoluta total a través de la suma de los valores de la columna <code>fi</code>:</p>

In [20]:
gbs_total = np.sum(df0_gbs['fi'])
gbs_total

48821

<p>Ahora si podemos crear la columna de frecuencia relativa (<code>hi</code>) para determinar el porcentaje de participación de cada estado en el número de instalaciones que tiene la compañía:</p>

In [21]:
df0_gbs['hi'] = round(df0_gbs['fi']/gbs_total,3)
df0_gbs.head(10)

Unnamed: 0_level_0,fi,hi
STATE,Unnamed: 1_level_1,Unnamed: 2_level_1
AK,51,0.001
AL,661,0.014
AR,388,0.008
AZ,863,0.018
CA,6074,0.124
CO,1106,0.023
CT,709,0.015
DC,264,0.005
DE,134,0.003
FL,3943,0.081


<p>Teniendo la frecuencia absoluta y la frecuencia relativa de los estados podemos organizar la tabla de tal forma que se muestren los 10 primeros estados por cantidad de instalaciones asignadas de la siguiente forma: Se utilizó el método <code>.sort_values()</code> donde se introdujeron dos (2) argumentos: la columna que definirá el orden de la tabla, es decir <code>fi</code>, y si deseamos que se ordene de mayor a menor deberemos utilizar el argumento <code>ascending</code> e igualarlo a <code>False</code>. Con esto le indicamos al programa que deberá ordenarlos de forma descendente como en el ejemplo.</p>

In [22]:
df0_gbs = df0_gbs.sort_values(by=['fi'],ascending=False)
df0_gbs.head(10)

Unnamed: 0_level_0,fi,hi
STATE,Unnamed: 1_level_1,Unnamed: 2_level_1
CA,6074,0.124
TX,4156,0.085
FL,3943,0.081
NY,2412,0.049
IL,2141,0.044
NJ,2097,0.043
PA,1945,0.04
GA,1880,0.039
NC,1594,0.033
MA,1550,0.032


<p>Dado que las instalaciones se encuentran distribuidas en todas las provincias de Estados Unidos se podría determinar qué porcentaje de las instalaciones corresponde a los primeros 10 estados calculando la frecuencia absoluta acumulada (<code>Fi</code>) y la frecuencia relativa acumulada (<code>Hi</code>) utilizando el método '.cumsum()' así:</p>

In [23]:
df0_gbs['Fi'] = df0_gbs['fi'].cumsum()
df0_gbs['Hi'] = df0_gbs['hi'].cumsum()
df0_gbs.head(10)

Unnamed: 0_level_0,fi,hi,Fi,Hi
STATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
CA,6074,0.124,6074,0.124
TX,4156,0.085,10230,0.209
FL,3943,0.081,14173,0.29
NY,2412,0.049,16585,0.339
IL,2141,0.044,18726,0.383
NJ,2097,0.043,20823,0.426
PA,1945,0.04,22768,0.466
GA,1880,0.039,24648,0.505
NC,1594,0.033,26242,0.538
MA,1550,0.032,27792,0.57


<p>Con este ejercicio ya somos capaces de decir que los primeros diez (10) estados para la compañía en términos de cantidad de instalaciones son los siguientes: <code>CA</code> - California, <code>TX</code> - Texas, <code>FL</code> - Florida, <code>NY</code> - Nueva York, <code>IL</code> - Illinois, <code>NL</code> - Nueva Jersey, <code>PA</code> - Pensilvania, <code>GA</code> - Georgia, <code>NC</code> - Carolina del Norte y <code>MA</code> - Massachusetts. Cada uno con un total de: 6.074, 4.156, 3.943, 2.412, 2.141, 2.097, 1.945, 1.880, 1.594, y 1.550 instalaciones respectivamente. Para un total acumulado de 27.792 instalaciones que están localizadas en las jurisdicciones de dichos estados, representando aproximadamente un total de 57% de las instalaciones de la compañía.</p>

<p>Si quisiéramos conocer la cantidad de instalaciones que se encuentran localizadas en una provincia específica, por ejemplo Wyoming (<code>WY</code>), solamente deberemos utilizar la propiedad <code>.loc[ ]</code> así:</p>

In [24]:
df0_gbs.loc['WY', ['fi']]

fi    126.0
Name: WY, dtype: float64

<p>Esta propiedad permite consultar un registro en específico dentro del dataframe, como no se conoce exactamente la posición del estado de Wyoming en el dataframe, procedimos a utilizar la propiedad <code>.loc[]</code> donde los argumentos introducidos fueron:</p>

<ul>
    <li>El registro o fila específica que deseamos: <code>WY</code>, y</li>
    <li>El atributo o variable determinado que queremos consultar: <code>fi</code>.</li>
</ul>

<p>Ahora ya sabemos que existen 126 instalaciones en el estado de Wyoming. Así mismo, otra propiedad útil que se podría utilizar cuando se conoce la posición del registro dentro de la tabla es <code>.iloc[]</code>, así:</p>

In [25]:
WY_idx = df0_gbs.index.get_loc('WY')
df0_gbs.iloc[WY_idx,[0]]

fi    126.0
Name: WY, dtype: float64

<p>Lo que acabamos de realizar fue conseguir la localización del índice <code>WY</code> por su nombre utilizando la función <code>.index.get_loc()</code> sobre el dataframe y dicho valor se lo asignamos a la variable <code>WY_idx</code>. Posteriormente utilizamos la propiedad '.iloc[]' introduciendo dos (2) argumentos:</p>

<ul>
    <li>La localización del índice almacenado en la variable 'WY_idx', y</li>
    <li>La localización numérica de la columna <code>fi</code>.</li>
</ul>

<p>Con esto ya somos capaces de realizar consultas para ver la cantidad de instalaciones en determinada provincia utilizando las propiedades <code>.loc[]</code> y <code>iloc[]</code>.</p>

## 3. Conclusión:

<p>Otro método para determinar las estadísticas más importantes es utilizando el método <code>.describe()</code> sobre los atributos <code>TYPE</code> y <code>CITY</code> así:</p>

<ol>
    1. Se aplica el método <code>.describe()</code> a la columna <code>TYPE</code>:
</ol>

In [26]:
df0['TYPE'].describe()

count            48821
unique               3
top       Self-Service
freq             39426
Name: TYPE, dtype: object

<p>Al aplicar el método anterior podemos determinar el número de valores (<code>count = 48821</code>), la cantidad de valores únicos o categorías (<code>unique = 3</code>), la moda (<code>top = Self-Service</code>) y la frecuencia de la moda (<code>freq = 39426</code>). Y esto resulta muy útil debido a que nos brinda rápidamente información descriptiva clave sobre la variable, por ejemplo, la frecuencia de la moda para la columna <code>TYPE</code> se determinó anteriormente a través de la tabla de frecuencias agrupadas, obteniendo como resultado <code>Self-service = 39496</code> que coincide con la moda estimada a través de <code>.describe()</code>.</p>

<p><b>Nota:</b> Cabe resaltar que el resultado obtenido con este método aplicado a una variable cuantitativa como <code>LATITUDE</code> es diferente. Bajo dichas condiciones, el método permite visualizar (aparte de <code>count</code>) la media (<code>mean</code>), la desviación estándar (<code>std</code>), el valor mínimo (<code>min</code>), el valor máximo (<code>max</code>), y otras medidas de locación (cuartiles).</p>

<ol>
    2. Se aplica el método <code>.describe()</code> a la columna <code>STATE</code>:
</ol>

In [27]:
df0["STATE"].describe()

count     48821
unique       51
top          CA
freq       6074
Name: STATE, dtype: object

<p>Lo mismo ocurre con la variable <code>STATE</code> al aplicar el método. La moda calculada con el método de la tabla de frecuencia agrupada (<code>CA = 6074</code>) es igual a la obtenida a través de <code>.describe()</code>, lo que le brinda confiabilidad y validez a este método de resumen de datos.</p>

<p>Finalmente, se guardan las tablas agrupadas con el fin de crear visualizaciones más adelante:</p>

In [28]:
PATH_1 = "DATASETS/DF_GB_TYPE.csv"
PATH_2 = "DATASETS/DF_GB_STATE.csv"
df0_gbtype.to_csv(PATH_1)
df0_gbs.to_csv(PATH_2)