# Portal de Datos de la Ciudad de Chicago

Usaremos datos del portal de datos de la ciudad de Chicago.  

La ciudad de Chicago está dividida en cincuenta barrios locales llamados distritos. Tenemos una tabla con datos sobre las oficinas del gobierno local en cada barrio. 

![Chicago City](images/chicago_city.png)

In [2]:

import pandas as pd

In [8]:
# Upload Datasets
wards = pd.read_csv('data/wards.csv')
census = pd.read_csv('data/census.csv')
licenses = pd.read_csv('data/licenses.csv')
zip_demo = pd.read_csv('data/zip_demo.csv')


En este ejemplo, queremos fusionar los datos del gobierno local con los datos del censo sobre la población de cada distrito.

![Distritos - Censo](images/chicago_census.png)

**Wards**

In [7]:
print(wards.head())
print(wards.shape)

   ward            alderman                          address    zip
0     1  Proco "Joe" Moreno        2058 NORTH WESTERN AVENUE  60647
1     2       Brian Hopkins       1400 NORTH  ASHLAND AVENUE  60622
2     3          Pat Dowell          5046 SOUTH STATE STREET  60609
3     4    William D. Burns  435 EAST 35TH STREET, 1ST FLOOR  60616
4     5  Leslie A. Hairston            2325 EAST 71ST STREET  60649
(50, 4)


Si miramos la tabla de distritos, tenemos información sobre el gobierno local de cada distrito, como la dirección de la oficina gubernamental. Esta tabla tiene 50 filas y 4 columnas, o una fila para cada barrio.

**Census**

In [9]:
print(census.head())
print(census.shape)

   ward  pop_2000  pop_2010 change                                  address  \
0     1     52951     56149     6%              2765 WEST SAINT MARY STREET   
1     2     54361     55805     3%                 WM WASTE MANAGEMENT 1500   
2     3     40385     53039    31%                      17 EAST 38TH STREET   
3     4     51953     54589     5%  31ST ST HARBOR BUILDING LAKEFRONT TRAIL   
4     5     55302     51455    -7%  JACKSON PARK LAGOON SOUTH CORNELL DRIVE   

     zip  
0  60647  
1  60622  
2  60653  
3  60653  
4  60637  
(50, 6)


La tabla del censo contiene la población de cada distrito en 2000 y 2010, y ese cambio como porcentaje. Además, incluye la dirección del centro de cada barrio. Esta tabla tiene 50 filas y 6 columnas.

**Merging tables**

Las dos tablas están relacionadas por la columna de su barrio. Podemos fusionarlos, haciendo coincidir el número de distrito de cada fila de la tabla de distritos con los números de distrito de la tabla del censo. Por ejemplo, el segundo distrito en la tabla de distritos con el concejal Brian Hopkins coincidiría con la fila 2 de la tabla del censo donde la población en 2000 era 54.361.

In [10]:
wards_census = wards.merge(census, on='ward', suffixes=('_ward', '_cen'))
print(wards_census.head())
print(wards_census.shape)

   ward            alderman                     address_ward  zip_ward  \
0     1  Proco "Joe" Moreno        2058 NORTH WESTERN AVENUE     60647   
1     2       Brian Hopkins       1400 NORTH  ASHLAND AVENUE     60622   
2     3          Pat Dowell          5046 SOUTH STATE STREET     60609   
3     4    William D. Burns  435 EAST 35TH STREET, 1ST FLOOR     60616   
4     5  Leslie A. Hairston            2325 EAST 71ST STREET     60649   

   pop_2000  pop_2010 change                              address_cen  zip_cen  
0     52951     56149     6%              2765 WEST SAINT MARY STREET    60647  
1     54361     55805     3%                 WM WASTE MANAGEMENT 1500    60622  
2     40385     53039    31%                      17 EAST 38TH STREET    60653  
3     51953     54589     5%  31ST ST HARBOR BUILDING LAKEFRONT TRAIL    60653  
4     55302     51455    -7%  JACKSON PARK LAGOON SOUTH CORNELL DRIVE    60637  
(50, 9)


**Licenses**

Dentro de cada barrio, hay muchas empresas. Fusionaremos la tabla de distritos con una tabla de empresas autorizadas en cada distrito.  

Los datos de la licencia comercial se almacenan en otra tabla llamada licenses. Contiene información como la dirección comercial y el barrio en el que se encuentra la empresa.

In [11]:
print(licenses.head())
print(licenses.shape)

   account  ward  aid                   business               address  \
0   307071     3  743       REGGIE'S BAR & GRILL       2105 S STATE ST   
1       10    10  829                 HONEYBEERS   13200 S HOUSTON AVE   
2    10002    14  775                CELINA DELI     5089 S ARCHER AVE   
3    10005    12  NaN  KRAFT FOODS NORTH AMERICA        2005 W 43RD ST   
4    10044    44  638  NEYBOUR'S TAVERN & GRILLE  3651 N SOUTHPORT AVE   

       zip  
0  60616.0  
1  60633.0  
2  60632.0  
3  60609.0  
4  60613.0  
(10000, 6)


In [12]:
ward_licenses = wards.merge(licenses, on='ward', suffixes=('_ward', '_lic'))
print(ward_licenses.head())
print(ward_licenses.shape)

   ward            alderman               address_ward  zip_ward  account  \
0     1  Proco "Joe" Moreno  2058 NORTH WESTERN AVENUE     60647    12024   
1     1  Proco "Joe" Moreno  2058 NORTH WESTERN AVENUE     60647    14446   
2     1  Proco "Joe" Moreno  2058 NORTH WESTERN AVENUE     60647    14624   
3     1  Proco "Joe" Moreno  2058 NORTH WESTERN AVENUE     60647    14987   
4     1  Proco "Joe" Moreno  2058 NORTH WESTERN AVENUE     60647    15642   

   aid              business              address_lic  zip_lic  
0  NaN   DIGILOG ELECTRONICS       1038 N ASHLAND AVE  60622.0  
1  743      EMPTY BOTTLE INC   1035 N WESTERN AVE 1ST  60622.0  
2  775  LITTLE MEL'S HOT DOG    2205 N CALIFORNIA AVE  60647.0  
3  NaN    MR. BROWN'S LOUNGE   2301 W CHICAGO AVE 1ST  60622.0  
4  814          Beat Kitchen  2000-2100 W DIVISION ST  60622.0  
(10000, 9)
