## Este es el paso a paso para principiantes

Comenzamos importando la libreria de pandas

In [1]:
import pandas as pd
pd.set_option('display.max_colwidth', None) #Esto es para poder ver todo el texto en una columna

Cargamos el dataset que utilizaremos durante la investigacion

In [2]:
crime_scene_report     = pd.read_csv("./datasets/Crime Scene report.csv")
drivers_license        = pd.read_csv("./datasets/Drivers license.csv")
facebook_event_checkin = pd.read_csv("./datasets/facebook_event_checkin.csv")
getfitnow_checkin      = pd.read_csv("./datasets/GetFitNow check in.csv")
getfitnow_members      = pd.read_csv("./datasets/GetFitNow members.csv")
income                 = pd.read_csv("./datasets/income.csv")
interview              = pd.read_csv("./datasets/Interviews.csv")
person                 = pd.read_csv("./datasets/Person.csv")

Veamos un poco como estan conformados estos dataframes

In [3]:
# Usamos .info() para ver una descripcion general del dataset, como sus tipos de datos en cada columna y si presenta nulos
crime_scene_report.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1228 entries, 0 to 1227
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Date         1228 non-null   object
 1   Type         1228 non-null   object
 2   Description  939 non-null    object
 3   City         1228 non-null   object
dtypes: object(4)
memory usage: 38.5+ KB


Con la funcion *.head*(n:int default=5) podemos visualizar las primeras n filas 

In [4]:
crime_scene_report.head(3)

Unnamed: 0,Date,Type,Description,City
0,2017-01-07,smuggling,,Savannah
1,2017-01-11,murder,,Springdale
2,2017-01-12,smuggling,,Melbourne


Algunas funciones **utiles** que podrian ayudarte en el proceso:
1. **_`.sort_values()`_**: Esta función se utiliza para ordenar un DataFrame o una Serie según los valores de una o más columnas. Se puede especificar el orden ascendente o descendente. Es útil para organizar los datos de manera coherente y facilitar la búsqueda o el análisis de patrones.

2. **_`.str.contains()`_**: Esta función se utiliza para buscar patrones de texto en una Serie. Permite verificar si una cadena de caracteres contiene un patrón específico. Es útil para realizar filtrados basados en patrones de texto, como buscar palabras clave en un conjunto de datos.

3. **_`.groupby()`_**: Esta función se utiliza para agrupar los datos según una o más columnas en un DataFrame. Se puede combinar con otras funciones de agregación, como _`.sum()`_, _`.mean()`_, _`.count()`_, etc., para realizar cálculos en los grupos resultantes. Es útil para realizar análisis estadísticos o resúmenes de datos basados en categorías.

4. **_`.merge()`_**: Esta función se utiliza para combinar dos DataFrames en función de una o más columnas comunes. Puede realizar una unión interna (inner join), una unión externa (outer join), una unión izquierda (left join) o una unión derecha (right join), según los datos que se deseen mantener. Es útil para combinar conjuntos de datos relacionados en un solo DataFrame para su análisis

5. **_`.isin()`_**: Esta función se utiliza para verificar si los valores de una columna o Serie están presentes en una lista de valores específica.

## `Comenzamos la investigacion`

### Un crimen ha ocurrido y el detective necesita tu ayuda. 


#### Pero antes, veamos un diagrama de esquema para ver como estan conectados todos los dataframes

<img src="./_src/schemeboard.png">


### Te entregaron el informe del lugar del crimen, pero de alguna manera lo perdiste. Recordas vagamente que el crimen fue un ​asesinato​ que ocurrió en algún momento el ​15 de enero de 2018​ y que tuvo lugar en ​Pandas City​. **Te recomiendo comenzar por recuperar el informe correspondiente de su respectivo dataframe**

Vamos a empezar viendo los asesinatos (_murder_) que ocurrieron en la fecha 2018-01-15 (_15 de enero de 2018_) en el dataset `crime_scene_report`

In [5]:
# Hay varias maneras de seleccionar una fila en especifico. Una de ellas es la siguiente:

informe= crime_scene_report[(crime_scene_report['Date'] == "2018-01-15") &
                            (crime_scene_report['Type'] == "murder")]
informe

Unnamed: 0,Date,Type,Description,City
674,2018-01-15,murder,Life? Dont talk to me about life.,Albany
675,2018-01-15,murder,"Mama, I killed a man, put a gun against his head...",Reno
781,2018-01-15,murder,"Security footage shows that there were 2 witnesses. The first witness lives at the last house on ""Northwestern Dr"". The second witness, named Annabel, lives somewhere on ""Franklin Ave"".",Pandas City


Podemos ver que ocurrieron 3 asesinatos en la misma fecha pero en distintas ciudades, ¿se te ocurre alguna manera de modificar el codigo tal que aparezca solamente la que nos interesa para el caso?

In [6]:
#Solo la seleccion de la ciudad Pandas City

informe= crime_scene_report[(crime_scene_report["Date"] == "2018-01-15") &
                            (crime_scene_report["Type"] == "murder") &
                            (crime_scene_report["City"] == "Pandas City")]
informe

Unnamed: 0,Date,Type,Description,City
781,2018-01-15,murder,"Security footage shows that there were 2 witnesses. The first witness lives at the last house on ""Northwestern Dr"". The second witness, named Annabel, lives somewhere on ""Franklin Ave"".",Pandas City


Una vez que tenemos el informe, leemos que dice la descripcion y vemos que hay 2 testigos. Es tu turno de hacer un codigo de tal manera que puedas encontrar a uno o ambos de ellos

_Ayudita:_ usar el dataset `person` y la funcion _df`.str.contains() `_

In [7]:
print(crime_scene_report.columns)

Index(['Date', 'Type', 'Description', 'City'], dtype='object')


In [8]:
crime_scene_report["Description"][781]

'Security footage shows that there were 2 witnesses. The first witness lives at the last house on "Northwestern Dr". The second witness, named Annabel, lives somewhere on "Franklin Ave".'

In [9]:
print(person.columns)

Index(['Id', 'Name', 'License_Id', 'Address_Number', 'Address_Street_Name',
       'Ssn'],
      dtype='object')


In [10]:

person[person['Address_Street_Name'].str.contains('Northwestern')].tail()

# busco mostrar la ultima direccion
person.sort_values(by='Address_Number', ascending=False)




Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
499,14887,Morty Schapiro,118009,4919,Northwestern Dr,111564949
4593,51110,Dwain Mysliwiec,777112,3999,Sandymount Blvd,628337764
9967,99573,Alfonzo Maino,880682,3999,Liberty Island Blvd,657448129
746,17157,Daren Ioele,997703,3999,Hamstead Rd,333959263
4538,50677,Maureen Uribe,479130,3998,Brabyns Dr,339163521
...,...,...,...,...,...,...
2068,29124,Penelope Akers,244187,2,Vanderbilt St,576692298
2939,36967,Zetta Bison,205438,1,Enford Blvd,540355153
3264,39895,Williams Shoulder,957070,1,Wydown Ave,547619948
9975,99645,Gus Pleasure,658780,1,Paddy Blvd,868045664


In [11]:
# Imprimir el nombre del 1er testigo 

person.loc[person['Address_Number']== 4919]


Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
499,14887,Morty Schapiro,118009,4919,Northwestern Dr,111564949


In [12]:
person[person['Address_Street_Name'].str.contains('Franklin Ave') & person['Name'].str.contains('Annabel')]


Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
665,16371,Annabel Miller,490173,103,Franklin Ave,318771143


Una vez que encontraste a los testigos en la base de datos de personas, te recomiendo que busques sus entrevistas en el dataset `interviews`

A partir de aca, te dejo el resto de la investigacion a vos. ***¡Muchos exitos detective!***

In [13]:
# Entrevista del 1er testigo
interview[interview['Person_Id']== 14887 ]['Transcript']

4988    I heard a gunshot and then saw a man run out. He had a "Get Fit Now Gym" bag. The membership number on the bag started with "48Z". Only gold members have those bags. The man got into a car with a plate that included "H42W".
Name: Transcript, dtype: object

In [14]:
# Entrevista del 2do testigo
interview[interview['Person_Id']== 16371 ]['Transcript']

4989    I saw the murder happen, and I recognized the killer from my gym when I was working out last week on January the 9th.
Name: Transcript, dtype: object

In [15]:
# Filtrando por la fecha del dia 09 de Enero como dijo Annabel (2do testigo)
check_fecha= getfitnow_checkin[getfitnow_checkin['Check_In_Date'] == '2018-01-09' ]
check_fecha

Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time
113,X0643,2018-01-09,957,1164
889,UK1F2,2018-01-09,344,518
1329,XTE42,2018-01-09,486,1124
1446,1AE2H,2018-01-09,461,944
1703,6LSTG,2018-01-09,399,515
2137,7MWHJ,2018-01-09,273,885
2435,GE5Q8,2018-01-09,367,959
2700,48Z7A,2018-01-09,1600,1730
2701,48Z55,2018-01-09,1530,1700
2702,90081,2018-01-09,1600,1700


In [16]:
#Filtrando por el estatus de Gold que dijo Morty (1er testigo)
check_estatus=getfitnow_members[getfitnow_members['Membership_Status'] == 'Gold']
check_estatus

Unnamed: 0,Id,Person_Id,Name,Membership_Start_Date,Membership_Status
0,NL318,65076,Everette Koepke,2017-09-26,Gold
1,0YJ24,80651,Waneta Wellard,2017-12-06,Gold
2,5Y28Y,15218,Millicent Yessios,2018-02-05,Gold
3,A5N3S,24541,Mary Cameron,2017-05-01,Gold
4,R4J4S,13703,Lien Yasin,2017-04-14,Gold
...,...,...,...,...,...
63,0T622,98782,Sarina Overpeck,2017-11-09,Gold
64,BL3KC,24033,Collene Gulde,2017-09-13,Gold
65,48Z7A,28819,Joe Germuska,2016-03-05,Gold
66,48Z55,67318,Jeremy Bowers,2016-01-01,Gold


In [17]:
# Union de las dos tables en la fecha 9 de enero y status Gold

check_gym= pd.merge(check_fecha, check_estatus, left_on='Membership_Id', right_on='Id')

check_gym


Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time,Id,Person_Id,Name,Membership_Start_Date,Membership_Status
0,XTE42,2018-01-09,486,1124,XTE42,55662,Sarita Bartosh,2017-05-24,Gold
1,6LSTG,2018-01-09,399,515,6LSTG,83186,Burton Grippe,2017-02-14,Gold
2,GE5Q8,2018-01-09,367,959,GE5Q8,92736,Carmen Dimick,2017-06-18,Gold
3,48Z7A,2018-01-09,1600,1730,48Z7A,28819,Joe Germuska,2016-03-05,Gold
4,48Z55,2018-01-09,1530,1700,48Z55,67318,Jeremy Bowers,2016-01-01,Gold
5,90081,2018-01-09,1600,1700,90081,16371,Annabel Miller,2016-02-08,Gold


In [18]:
#relacion con la tabla person
check_person= pd.merge(check_gym, person, left_on='Person_Id', right_on='Id')
check_person

Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time,Id_x,Person_Id,Name_x,Membership_Start_Date,Membership_Status,Id_y,Name_y,License_Id,Address_Number,Address_Street_Name,Ssn
0,XTE42,2018-01-09,486,1124,XTE42,55662,Sarita Bartosh,2017-05-24,Gold,55662,Sarita Bartosh,556026,1031,Legacy Pointe Blvd,564780417
1,6LSTG,2018-01-09,399,515,6LSTG,83186,Burton Grippe,2017-02-14,Gold,83186,Burton Grippe,915564,484,Lemcrow Way,426280783
2,GE5Q8,2018-01-09,367,959,GE5Q8,92736,Carmen Dimick,2017-06-18,Gold,92736,Carmen Dimick,890722,2965,Kilmaine Circle,622279052
3,48Z7A,2018-01-09,1600,1730,48Z7A,28819,Joe Germuska,2016-03-05,Gold,28819,Joe Germuska,173289,111,Fisk Rd,138909730
4,48Z55,2018-01-09,1530,1700,48Z55,67318,Jeremy Bowers,2016-01-01,Gold,67318,Jeremy Bowers,423327,530,"Washington Pl, Apt 3A",871539279
5,90081,2018-01-09,1600,1700,90081,16371,Annabel Miller,2016-02-08,Gold,16371,Annabel Miller,490173,103,Franklin Ave,318771143


In [19]:
# La placa del auto que especifico el 1er testigo
check_placa= drivers_license[drivers_license['Plate_Number'].str.contains('H42W')]
check_placa


Unnamed: 0,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model
204,423327,30,70,brown,Brown,Male,0H42W2,Chevrolet,Spark LS
2195,183779,21,65,blue,Blonde,Female,H42W0X,Toyota,Prius
5693,664760,21,71,black,Black,Male,4H42WR,Nissan,Altima


In [20]:
#Union de ambas tablas para mostrar el asesino
asesino= pd.merge(check_person, check_placa, left_on='License_Id', right_on='Id')
asesino


Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time,Id_x,Person_Id,Name_x,Membership_Start_Date,Membership_Status,Id_y,...,Ssn,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model
0,48Z55,2018-01-09,1530,1700,48Z55,67318,Jeremy Bowers,2016-01-01,Gold,67318,...,871539279,423327,30,70,brown,Brown,Male,0H42W2,Chevrolet,Spark LS


### Si crees que encontraste al asesino, ejecutá el siguiente codigo con el posible sospechoso
Por favor, tene en cuenta que es recomendable no acceder al archivo "asesino.py" para evitar revelar detalles importantes de la caso. Si deseas disfrutar plenamente de la experiencia sin spoilers, te sugiero que evites examinar dicho archivo."

In [47]:
from asesino import solucion
solucion("Jeremy Bowers")


¡Felicidades, encontraste al asesino! Pero espera, hay más...
 Si crees que estas preparado para un desafío, segui investigando 
 la transcripcion del asesino para encontrar al verdadero villano detrás de este crimen


In [22]:
#descripcion del asesino acerca del villano
interview[interview['Person_Id']== 67318 ]['Transcript']

4990    I was hired by a woman with a lot of money. I don't know her name but I know she's around 5'5" (65") or 5'7" (67"). She has red hair and she drives a Tesla Model S. I know that she attended the SQL Symphony Concert 3 times in December 2017.
Name: Transcript, dtype: object

In [88]:
# Filtrar de la tabla drivers_license con las pistas dadas

filtro_licencia = drivers_license[
    (drivers_license['Gender'] == 'Female') &
    (drivers_license['Hair_Color'] == 'Red') &
    (drivers_license['Car_Make'] == 'Tesla') &
    (drivers_license['Car_Model'] == 'Model S') &
    (drivers_license['Height'].isin([65, 67]))
]

filtro_licencia


Unnamed: 0,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model
4898,918773,48,65,black,Red,Female,917UU3,Tesla,Model S


In [89]:
#union de la tabla drivers_license  con person
sospechosa= pd.merge(filtro_licencia, person, left_on='Id', right_on='License_Id')
sospechosa


Unnamed: 0,Id_x,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model,Id_y,Name,License_Id,Address_Number,Address_Street_Name,Ssn
0,918773,48,65,black,Red,Female,917UU3,Tesla,Model S,78881,Red Korb,918773,107,Camerata Dr,961388910


In [63]:
#Filtrado por la ultima pista en la tabla facebook_event_checkin
facebook_event_checkin['date'] = facebook_event_checkin['date'].astype(str)

event= facebook_event_checkin[
    (facebook_event_checkin ['event_name'] == 'SQL Symphony Concert') &
    (facebook_event_checkin ['date'].str.startswith('201712'))
]
event

Unnamed: 0,person_id,event_id,event_name,date
4087,62596,1143,SQL Symphony Concert,20171225
4392,19260,1143,SQL Symphony Concert,20171214
6552,58898,1143,SQL Symphony Concert,20171220
6620,69699,1143,SQL Symphony Concert,20171214
6717,19292,1143,SQL Symphony Concert,20171213
7266,43366,1143,SQL Symphony Concert,20171207
8395,92343,1143,SQL Symphony Concert,20171212
10909,28582,1143,SQL Symphony Concert,20171220
10910,28582,1143,SQL Symphony Concert,20171215
13719,81526,1143,SQL Symphony Concert,20171202


In [67]:
# Contar la cantidad de veces que cada persona asistió al evento
event_counts = event['person_id'].value_counts()
event_counts

person_id
24556    3
99716    3
28582    2
62596    1
19260    1
58898    1
69699    1
19292    1
43366    1
92343    1
81526    1
24397    1
11173    1
79312    1
69325    1
67318    1
Name: count, dtype: int64

In [69]:

# Filtrar personas que asistieron exactamente 3 veces
frecuencia = event_counts[event_counts == 3].index
frecuencia


Index([24556, 99716], dtype='int64', name='person_id')

In [82]:
#Union de la tabla person con facebook_event_checkin
sospechosa2= pd.merge(person, facebook_event_checkin, left_on='Id', right_on='person_id')
sospechosa2

Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn,person_id,event_id,event_name,date
0,10000,Christoper Peteuil,993845,624,Bankhall Ave,747714076,10000,241,Steinbach's Guideline for Systems Programming\n,20170306
1,10000,Christoper Peteuil,993845,624,Bankhall Ave,747714076,10000,1137,The Universe is laughing behind your back\n,20171130
2,10007,Kourtney Calderwood,861794,2791,Gustavus Blvd,477972044,10007,6447,Green light in A.M. for new projects. Red light in P.M. for traffic\n,20170925
3,10007,Kourtney Calderwood,861794,2791,Gustavus Blvd,477972044,10007,4273,Modern man is the missing link between apes and human beings.\n,20171017
4,10010,Muoi Cary,385336,741,Northwestern Dr,828638512,10010,3581,upon to act in accordance with the dictates of reason.\n,20180319
...,...,...,...,...,...,...,...,...,...,...
20006,99965,Cherie Zeimantz,287627,3661,The Water Ave,362877324,99965,8433,"""That must be wonderful! I don't understand it at all.""\n",20171202
20007,99965,Cherie Zeimantz,287627,3661,The Water Ave,362877324,99965,9110,pedestrians.\n,20170705
20008,99982,Allen Cruse,251350,3126,N Jean Dr,348734531,99982,4507,Don't cook tonight -- starve a rat today!\n,20170609
20009,99982,Allen Cruse,251350,3126,N Jean Dr,348734531,99982,3901,Do not drink coffee in early A.M. It will keep you awake until noon.\n,20180404


In [92]:
#Se hace el filtrado por el id, son dos id
opcion1= sospechosa2[(sospechosa2 ['person_id'] == 24556) ]
opcion1



Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn,person_id,event_id,event_name,date
3171,24556,Bryan Pardo,101191,703,Machine Ln,816663882,24556,1143,SQL Symphony Concert,20171207
3172,24556,Bryan Pardo,101191,703,Machine Ln,816663882,24556,1143,SQL Symphony Concert,20171221
3173,24556,Bryan Pardo,101191,703,Machine Ln,816663882,24556,1143,SQL Symphony Concert,20171224


In [93]:
# El anterior queda descartado ya que es hombre por lo tanto con el id 99716 la villana es:
villana= sospechosa2[(sospechosa2 ['person_id'] ==  99716) ]
villana

Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn,person_id,event_id,event_name,date
19958,99716,Miranda Priestly,202298,1883,Golden Ave,987756388,99716,1143,SQL Symphony Concert,20171206
19959,99716,Miranda Priestly,202298,1883,Golden Ave,987756388,99716,1143,SQL Symphony Concert,20171212
19960,99716,Miranda Priestly,202298,1883,Golden Ave,987756388,99716,1143,SQL Symphony Concert,20171229


In [90]:
from asesino import solucion
solucion("Miranda Priestly")

¡Muy bien hecho! Encontraste a la mente detras del asesinato
 Todos en Pandas City te aclaman como el mejor detective de PANDAS de todos los tiempos. ¡Ya es hora de sacar el champagne!
