# Goat Business

Una empresa desea iniciar un negocio en la ciudad de Chicago. Su idea perfecta es iniciar utilizando cabras para cortar el césped para otros negocios.  

Se nos ha encargado la tarea de encontrar un área con mucho espacio disponible, pocas empresas y una población relativamente baja para evitar problemas con quejas sobre el olor de las cabras.

Deberemos fusionar tres tablas para ayudarle a elegir su ubicación.  

La tabla **land_use** tiene información sobre el porcentaje de terrenos baldíos por distrito de la ciudad.  

La tabla **census** muestra la población por distrito.  

Y la tabla **licenses** enumera las empresas por distrito.

In [1]:
import pandas as pd

In [2]:
# Upload data
land_use = pd.read_csv('data/land_use.csv')
census = pd.read_csv('data/census.csv')
licenses = pd.read_csv('data/licenses.csv')

In [3]:
print(land_use.head())
print(land_use.shape)

   ward  residential  commercial  industrial  vacant  other
0     1           41           9           2       2     46
1     2           31          11           6       2     50
2     3           20           5           3      13     59
3     4           22          13           0       7     58
4     5           25           3           1       3     68
(50, 6)


In [4]:
print(census.head())
print(census.shape)

   ward  pop_2000  pop_2010 change                                  address  \
0     1     52951     56149     6%              2765 WEST SAINT MARY STREET   
1     2     54361     55805     3%                 WM WASTE MANAGEMENT 1500   
2     3     40385     53039    31%                      17 EAST 38TH STREET   
3     4     51953     54589     5%  31ST ST HARBOR BUILDING LAKEFRONT TRAIL   
4     5     55302     51455    -7%  JACKSON PARK LAGOON SOUTH CORNELL DRIVE   

     zip  
0  60647  
1  60622  
2  60653  
3  60653  
4  60637  
(50, 6)


In [5]:
print(licenses.head())
print(licenses.shape)

   account  ward  aid                   business               address  \
0   307071     3  743       REGGIE'S BAR & GRILL       2105 S STATE ST   
1       10    10  829                 HONEYBEERS   13200 S HOUSTON AVE   
2    10002    14  775                CELINA DELI     5089 S ARCHER AVE   
3    10005    12  NaN  KRAFT FOODS NORTH AMERICA        2005 W 43RD ST   
4    10044    44  638  NEYBOUR'S TAVERN & GRILLE  3651 N SOUTHPORT AVE   

       zip  
0  60616.0  
1  60633.0  
2  60632.0  
3  60609.0  
4  60613.0  
(10000, 6)


In [6]:
# Merge land_use and census and merge result with licenses including suffixes
land_cen_lic = land_use.merge(census, on='ward') \
                    .merge(licenses, on='ward', suffixes=('_cen','_lic'))

In [7]:
print(land_cen_lic.head())
print(land_cen_lic.shape)

   ward  residential  commercial  industrial  vacant  other  pop_2000  \
0     1           41           9           2       2     46     52951   
1     1           41           9           2       2     46     52951   
2     1           41           9           2       2     46     52951   
3     1           41           9           2       2     46     52951   
4     1           41           9           2       2     46     52951   

   pop_2010 change                  address_cen  zip_cen  account  aid  \
0     56149     6%  2765 WEST SAINT MARY STREET    60647    12024  NaN   
1     56149     6%  2765 WEST SAINT MARY STREET    60647    14446  743   
2     56149     6%  2765 WEST SAINT MARY STREET    60647    14624  775   
3     56149     6%  2765 WEST SAINT MARY STREET    60647    14987  NaN   
4     56149     6%  2765 WEST SAINT MARY STREET    60647    15642  814   

               business              address_lic  zip_lic  
0   DIGILOG ELECTRONICS       1038 N ASHLAND AVE  60622.

Realizamos una operación de agregación para contar el número de cuentas.

In [8]:
# Group by ward, pop_2010, and vacant, then count the # of accounts
pop_vac_lic = land_cen_lic.groupby(['ward', 'pop_2010', 'vacant'],
                                   as_index=False).agg({'account':'count'})

Ordenamos por la columna 'account' en orden descendente (mayor a menor).

In [11]:
# Sort pop_vac_lic and print the results
sorted_pop_vac_lic = pop_vac_lic.sort_values(by=['vacant', 'account', 'pop_2010'], 
                                             ascending=[False, True, True])

# Print the top few rows of sorted_pop_vac_lic
print(sorted_pop_vac_lic.head())

    ward  pop_2010  vacant  account
6      7     51581      19       80
19    20     52372      15      123
9     10     51535      14      130
23    24     54909      13       98
15    16     51954      13      156


**Conclusión**, el lugar ideal para la granja de ovejas en Chicago sería una ubicación con un alto porcentaje de tierra vacante, un bajo número de cuentas de negocios y una población baja, de acuerdo con los criterios. Las primeras filas de sorted_pop_vac_lic nos muestran las áreas que mejor se ajustan a estos requisitos.