# <span style='color:black'> <center>Unión de datos con Pandas</center> </span>
## 1. Data mergin
<p><img src="https://cdn.prgloo.com/media/13f61baf042143dca612098e751cfa07.png?width=1024&height=960" width="750"</p>

## Joins
<p>Chicago proporciona una lista de propietarios de taxis y vehículos con licencia para operar dentro de la ciudad, esto por por seguridad pública. Tu objetivo es unir dos tablas. Una tabla se llama <code>taxi_owners.p</code>, con información sobre los propietarios de la empresa de taxis, y otra se llama <code>taxi_vehicle.p</code>, con información sobre cada vehículo de taxi. No olvides cargar las tablas antes de comenzar

Elija la columna que usaría para fusionar las dos tablas sobre el uso del método <code>.merge()</code> y complete los ejercicios </p>

In [70]:
# Importa pandas

import pandas as pd


# Importa datasets

taxi_owners = pd.read_pickle('Data/taxi_owners.p')
taxi_vehicles = pd.read_pickle('Data/taxi_vehicles.p')

In [71]:
# Visualiza las primeras 5 entradas de cada dataset

display(taxi_owners.head(5))

display(taxi_vehicles.head(5))

Unnamed: 0,rid,vid,owner,address,zip
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618


Unnamed: 0,vid,make,model,year,fuel_type,owner
0,2767,TOYOTA,CAMRY,2013,HYBRID,SEYED M. BADRI
1,1411,TOYOTA,RAV4,2017,HYBRID,DESZY CORP.
2,6500,NISSAN,SENTRA,2019,GASOLINE,AGAPH CAB CORP
3,2746,TOYOTA,CAMRY,2013,HYBRID,"MIDWEST CAB CO, INC"
4,5922,TOYOTA,CAMRY,2013,HYBRID,SUMETTI CAB CO


In [72]:
# Une las dos tablas

taxi_own_veh = taxi_owners.merge(taxi_vehicles, on='vid')
taxi_own_veh.head(5)

# Nota: python pone [owner_x] y [owner_y], por default
# porque este campo esta en ambas tables

Unnamed: 0,rid,vid,owner_x,address,zip,make,model,year,fuel_type,owner_y
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630,NISSAN,ALTIMA,2011,HYBRID,AGEAN TAXI LLC
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659,HONDA,CRV,2014,GASOLINE,MANGIB CORP.
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,"FUNRIDE, INC."
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645,TOYOTA,CAMRY,2014,HYBRID,ALQUSH CORP.
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,EUNIFFORD INC.


In [73]:
# Imprime el tamaño de cada una de las tablas

display(taxi_owners.shape)

display(taxi_vehicles.shape)

display(taxi_own_veh.shape)

(3519, 5)

(3519, 6)

(3519, 10)

In [74]:
# Une las dos tablas usando los sufijos '_own', '_veh' en lugar de 'x' y 'y'

taxi_own_veh = taxi_owners.merge(taxi_vehicles, on='vid', suffixes=('_owner', '_vehicle'))

taxi_own_veh

Unnamed: 0,rid,vid,owner_owner,address,zip,make,model,year,fuel_type,owner_vehicle
0,T6285,6285,AGEAN TAXI LLC,4536 N. ELSTON AVE.,60630,NISSAN,ALTIMA,2011,HYBRID,AGEAN TAXI LLC
1,T4862,4862,MANGIB CORP.,5717 N. WASHTENAW AVE.,60659,HONDA,CRV,2014,GASOLINE,MANGIB CORP.
2,T1495,1495,"FUNRIDE, INC.",3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,"FUNRIDE, INC."
3,T4231,4231,ALQUSH CORP.,6611 N. CAMPBELL AVE.,60645,TOYOTA,CAMRY,2014,HYBRID,ALQUSH CORP.
4,T5971,5971,EUNIFFORD INC.,3351 W. ADDISON ST.,60618,TOYOTA,SIENNA,2015,GASOLINE,EUNIFFORD INC.
...,...,...,...,...,...,...,...,...,...,...
3514,T4453,4453,IMAGIN CAB CORP,3351 W. ADDISON ST.,60618,FORD,ESCAPE,2010,HYBRID,IMAGIN CAB CORP
3515,T121,121,TRIBECA CAB CORP,4536 N. ELSTON AVE.,60630,FORD,C-MAX,2014,HYBRID,TRIBECA CAB CORP
3516,T3465,3465,AMIR EXPRESS INC,3351 W. ADDISON ST.,60618,TOYOTA,CAMRY,2014,HYBRID,AMIR EXPRESS INC
3517,T1962,1962,KARY CAB COMPANY,4707 N. KENTON AVE.,60630,TOYOTA,CAMRY,2014,HYBRID,KARY CAB COMPANY


In [75]:
# Encuentra el tipo de combustible más popular que usa cada taxi 
#(Hint: Puedes usar la propiedad .value_counts())

taxi_own_veh.value_counts('fuel_type')


fuel_type
HYBRID                    2792
GASOLINE                   611
FLEX FUEL                   89
COMPRESSED NATURAL GAS      27
Name: count, dtype: int64

In [76]:
# Otra forma de hacer lo de arriba, mismo resultado
taxi_own_veh['fuel_type'].value_counts()

fuel_type
HYBRID                    2792
GASOLINE                   611
FLEX FUEL                   89
COMPRESSED NATURAL GAS      27
Name: count, dtype: int64

In [77]:
taxi_own_veh['fuel_type'].value_counts(normalize=True) * 100

fuel_type
HYBRID                    79.340722
GASOLINE                  17.362887
FLEX FUEL                  2.529128
COMPRESSED NATURAL GAS     0.767263
Name: proportion, dtype: float64

In [78]:
# Encuentra la empresa con más autos disponibles con conductor registrado

taxi_own_veh.groupby('owner_owner')['vid'].agg('count').sort_values(ascending=False)


owner_owner
CHICAGO SEVEN INC                    21
AQUARIUS CAB INC.                    12
CHICAGO MEDALLION ONE LLC.           10
CHICAGO MEDALLION THREE LLC.         10
CAPRICORN CAB INC                     9
                                     ..
GILMART ENTERPRISES INC.              1
GIGI 123 INC                          1
GHEDAM TRANS INC                      1
GHANATTA ENTERPRISE COMPANY, INC.     1
ZYLON EXPRESS INC                     1
Name: vid, Length: 2375, dtype: int64

## ¿Que es un inner join?
<p>Un <b>inner join</b> devuelve todas las filas cuando hay valores que coinciden en ambas tablas. Explorarás esto más a fondo al revisar la union entre la tabla de <code>ward</code> y la tabla de <code>census</code>. </p> 

El dataset <code>ward</code> contiene información sobre ciertas divisiones administrativas dentro de una ciudad junto con sus concejales, por otra parte el dataset <code>census</code> contiene información sobre el censo de dichas divisiones.

In [79]:
# Importa datasets

ward = pd.read_pickle('Data/ward.p')

census = pd.read_pickle('Data/census.p')

In [80]:
# imprime los primeros 5 registros

display(ward.head(5))

display(census.head(5))

Unnamed: 0,ward,alderman,address,zip
0,1,"Proco ""Joe"" Moreno",2058 NORTH WESTERN AVENUE,60647
1,2,Brian Hopkins,1400 NORTH ASHLAND AVENUE,60622
2,3,Pat Dowell,5046 SOUTH STATE STREET,60609
3,4,William D. Burns,"435 EAST 35TH STREET, 1ST FLOOR",60616
4,5,Leslie A. Hairston,2325 EAST 71ST STREET,60649


Unnamed: 0,ward,pop_2000,pop_2010,change,address,zip
0,1,52951,56149,6%,2765 WEST SAINT MARY STREET,60647
1,2,54361,55805,3%,WM WASTE MANAGEMENT 1500,60622
2,3,40385,53039,31%,17 EAST 38TH STREET,60653
3,4,51953,54589,5%,31ST ST HARBOR BUILDING LAKEFRONT TRAIL,60653
4,5,55302,51455,-7%,JACKSON PARK LAGOON SOUTH CORNELL DRIVE,60637


In [81]:
# Une las dos tablas

ward_census = ward.merge(census, how = 'inner', on='ward', suffixes=('_ward', '_census'))

ward_census.head()

Unnamed: 0,ward,alderman,address_ward,zip_ward,pop_2000,pop_2010,change,address_census,zip_census
0,1,"Proco ""Joe"" Moreno",2058 NORTH WESTERN AVENUE,60647,52951,56149,6%,2765 WEST SAINT MARY STREET,60647
1,2,Brian Hopkins,1400 NORTH ASHLAND AVENUE,60622,54361,55805,3%,WM WASTE MANAGEMENT 1500,60622
2,3,Pat Dowell,5046 SOUTH STATE STREET,60609,40385,53039,31%,17 EAST 38TH STREET,60653
3,4,William D. Burns,"435 EAST 35TH STREET, 1ST FLOOR",60616,51953,54589,5%,31ST ST HARBOR BUILDING LAKEFRONT TRAIL,60653
4,5,Leslie A. Hairston,2325 EAST 71ST STREET,60649,55302,51455,-7%,JACKSON PARK LAGOON SOUTH CORNELL DRIVE,60637


In [82]:
# Imprime el tamaño de cada una de las tablas

print(ward.shape)
print(census.shape)
print(ward_census.shape)

(50, 4)
(50, 6)
(50, 9)


## Union uno a varios (One-to-many)
<p>Una empresa tiene multiples titulos o cargos. En este ejercicio podrás apreciar una union <b>One-to-many</b>. Para ello tendrás que unir la tabla de propietarios de empresas, llamada <code>business_owners</code>, con la tabla de <code>licenses</code>. En una relación de uno a varios, una fila en la tabla de la izquierda puede repetirse si está relacionada con varias filas en la tabla de la derecha. En el ejercicio vas a descubrir cuál es el título de propietario de negocio más común. (es decir, secretario, director ejecutivo o vicepresidente)</p>

In [83]:
# Importar datasets

licenses = pd.read_pickle('Data/licenses.p')
business_owners = pd.read_pickle('Data/business_owners.p')


In [84]:
# imprime los primeros 5 registros

display(licenses.head())
display(business_owners.head())

Unnamed: 0,account,ward,aid,business,address,zip
0,307071,3,743.0,REGGIE'S BAR & GRILL,2105 S STATE ST,60616
1,10,10,829.0,HONEYBEERS,13200 S HOUSTON AVE,60633
2,10002,14,775.0,CELINA DELI,5089 S ARCHER AVE,60632
3,10005,12,,KRAFT FOODS NORTH AMERICA,2005 W 43RD ST,60609
4,10044,44,638.0,NEYBOUR'S TAVERN & GRILLE,3651 N SOUTHPORT AVE,60613


Unnamed: 0,account,first_name,last_name,title
0,10,PEARL,SHERMAN,PRESIDENT
1,10,PEARL,SHERMAN,SECRETARY
2,10002,WALTER,MROZEK,PARTNER
3,10002,CELINA,BYRDAK,PARTNER
4,10005,IRENE,ROSENFELD,PRESIDENT


In [85]:
# Unir los dos datasets por el campo 'account'

licenses_owners = licenses.merge(business_owners, on='account')

licenses_owners.head(10)

Unnamed: 0,account,ward,aid,business,address,zip,first_name,last_name,title
0,307071,3,743.0,REGGIE'S BAR & GRILL,2105 S STATE ST,60616,ROBERT,GLICK,MEMBER
1,10,10,829.0,HONEYBEERS,13200 S HOUSTON AVE,60633,PEARL,SHERMAN,PRESIDENT
2,10,10,829.0,HONEYBEERS,13200 S HOUSTON AVE,60633,PEARL,SHERMAN,SECRETARY
3,10002,14,775.0,CELINA DELI,5089 S ARCHER AVE,60632,WALTER,MROZEK,PARTNER
4,10002,14,775.0,CELINA DELI,5089 S ARCHER AVE,60632,CELINA,BYRDAK,PARTNER
5,10005,12,,KRAFT FOODS NORTH AMERICA,2005 W 43RD ST,60609,IRENE,ROSENFELD,PRESIDENT
6,10005,12,,KRAFT FOODS NORTH AMERICA,2005 W 43RD ST,60609,CAROL,WARD,SECRETARY
7,10044,44,638.0,NEYBOUR'S TAVERN & GRILLE,3651 N SOUTHPORT AVE,60613,JESSICA,DEVOS,SECRETARY
8,10044,44,638.0,NEYBOUR'S TAVERN & GRILLE,3651 N SOUTHPORT AVE,60613,CURTIS,JENNETTE,PRESIDENT
9,10044,44,638.0,NEYBOUR'S TAVERN & GRILLE,3651 N SOUTHPORT AVE,60613,BRIAN,HAINES,VICE PRESIDENT


In [86]:
# Imprime el tamaño de cada una de las tablas
print(licenses.shape)
print(business_owners.shape)
print(licenses_owners.shape)

# no agrega todos los de [business_owners] porque igual y hay empresas que no esten registradas (que no tengan licencia)
# 10000 empresas registradas con licencia
# 21352 personas registradas en alguna empresa con o sin licencia




(10000, 6)
(21352, 4)
(19497, 9)


In [87]:
#¿Cuáles son las 5 posiciones laborales más demandadas?

licenses_owners['title'].value_counts().head(5)

title
PRESIDENT          6259
SECRETARY          5205
SOLE PROPRIETOR    1658
OTHER              1200
VICE PRESIDENT      970
Name: count, dtype: int64

In [88]:
#Derivar el mismo resultado a partir de agrupar

# Agrupar por la columna 'title' y dar un conteo por 'account'

agrupado = licenses_owners.groupby('title')['account'].agg('count')

# Ordenar de manera descendente

agrupado = agrupado.sort_values(ascending=False)

# Imprimir el resultado

agrupado.head(5)

title
PRESIDENT          6259
SECRETARY          5205
SOLE PROPRIETOR    1658
OTHER              1200
VICE PRESIDENT      970
Name: account, dtype: int64

## Uniendo multiples DataFrames
<p>Tu objetivo es encontrar el número total de viajes proporcionados a los pasajeros que pasan por la estación Wilson <code>station_name == 'Wilson'</code> cuando viajan en el sistema de transporte público de Chicago los días de semana <code>day_type == 'Weekday'</code> en julio <code>mes == 7</code> . Afortunadamente, Chicago proporciona estos datos detallados, pero están en tres tablas diferentes. Trabajarás en fusionar estas tablas para responder la pregunta, toda la información que necesitas para responder la pregunta se encuentra en las tablas <code>cta_calendar</code>, <code>cta_ridership</code> y <code>stations</code></p>
<p>
<img src="https://assets.datacamp.com/production/repositories/5486/datasets/56b5ecb2edcdc896c69effdf05ef65e5454ff996/cta_L_diagram.png" width="550">
</p>

In [89]:
# Importa datasets

cta_calendar = pd.read_pickle('Data/cta_calendar.p')
cta_ridership = pd.read_pickle('Data/cta_ridership.p')
stations = pd.read_pickle('Data/stations.p')


In [90]:
# imprime los primeros 5 registros

display(cta_calendar.head())
display(cta_ridership.head())
display(stations.head())

Unnamed: 0,year,month,day,day_type
0,2019,1,1,Sunday/Holiday
1,2019,1,2,Weekday
2,2019,1,3,Weekday
3,2019,1,4,Weekday
4,2019,1,5,Saturday


Unnamed: 0,station_id,year,month,day,rides
0,40010,2019,1,1,576
1,40010,2019,1,2,1457
2,40010,2019,1,3,1543
3,40010,2019,1,4,1621
4,40010,2019,1,5,719


Unnamed: 0,station_id,station_name,location
0,40010,Austin-Forest Park,"(41.870851, -87.776812)"
1,40020,Harlem-Lake,"(41.886848, -87.803176)"
2,40030,Pulaski-Lake,"(41.885412, -87.725404)"
3,40040,Quincy/Wells,"(41.878723, -87.63374)"
4,40050,Davis,"(42.04771, -87.683543)"


In [None]:
# Une las tres tablas (Inner Join)
union = cta_calendar.merge(cta_ridership, on=['year', 'month', 'day'])
union = union.merge(stations, on='station_id')

# Tambien se pueden unir las tres al mismo tiempo:
# -> union = cta_calendar.merge(cta_ridership, on=['year', 'month', 'day']).merge(stations, on='station_id')

# Crea el filtro para la estacion Wilson, todos los días entre semana de julio (Como se menciona arriba)

#mask = filtro
mask = (union['station_name'] == 'Wilson') & (union['day_type'] == 'Weekday') & (union['month'] == 7)

# filtrar los viajes y suma para obtener el total

union = union[mask]

display(union.head())
suma = union['rides'].sum()
print(f'Suma de viajes:{suma:,}')

Unnamed: 0,year,month,day,day_type,station_id,rides,station_name,location
1633,2019,7,1,Weekday,40540,6464,Wilson,"(41.964273, -87.657588)"
1642,2019,7,2,Weekday,40540,6491,Wilson,"(41.964273, -87.657588)"
1651,2019,7,3,Weekday,40540,6639,Wilson,"(41.964273, -87.657588)"
1669,2019,7,5,Weekday,40540,4794,Wilson,"(41.964273, -87.657588)"
1696,2019,7,8,Weekday,40540,6351,Wilson,"(41.964273, -87.657588)"


Suma de viajes:140,005
