## Este es el paso a paso para principiantes

Comenzamos importando la libreria de pandas

In [255]:
import pandas as pd
pd.set_option('display.max_colwidth', None) #Esto es para poder ver todo el texto en una columna

Cargamos el dataset que utilizaremos durante la investigacion

In [256]:
crime_scene_report     = pd.read_csv("./datasets/Crime Scene report.csv")
drivers_license        = pd.read_csv("./datasets/Drivers license.csv")
facebook_event_checkin = pd.read_csv("./datasets/facebook_event_checkin.csv")
getfitnow_checkin      = pd.read_csv("./datasets/GetFitNow check in.csv")
getfitnow_members      = pd.read_csv("./datasets/GetFitNow members.csv")
income                 = pd.read_csv("./datasets/income.csv")
interview              = pd.read_csv("./datasets/Interviews.csv")
person                 = pd.read_csv("./datasets/Person.csv")

Veamos un poco como estan conformados estos dataframes

In [257]:
# Usamos .info() para ver una descripcion general del dataset, como sus tipos de datos en cada columna y si presenta nulos
crime_scene_report.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1228 entries, 0 to 1227
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Date         1228 non-null   object
 1   Type         1228 non-null   object
 2   Description  939 non-null    object
 3   City         1228 non-null   object
dtypes: object(4)
memory usage: 38.5+ KB


Con la funcion *.head*(n:int default=5) podemos visualizar las primeras n filas 

In [258]:
crime_scene_report.head(3)

Unnamed: 0,Date,Type,Description,City
0,2017-01-07,smuggling,,Savannah
1,2017-01-11,murder,,Springdale
2,2017-01-12,smuggling,,Melbourne


Algunas funciones **utiles** que podrian ayudarte en el proceso:
1. **_`.sort_values()`_**: Esta función se utiliza para ordenar un DataFrame o una Serie según los valores de una o más columnas. Se puede especificar el orden ascendente o descendente. Es útil para organizar los datos de manera coherente y facilitar la búsqueda o el análisis de patrones.

2. **_`.str.contains()`_**: Esta función se utiliza para buscar patrones de texto en una Serie. Permite verificar si una cadena de caracteres contiene un patrón específico. Es útil para realizar filtrados basados en patrones de texto, como buscar palabras clave en un conjunto de datos.

3. **_`.groupby()`_**: Esta función se utiliza para agrupar los datos según una o más columnas en un DataFrame. Se puede combinar con otras funciones de agregación, como _`.sum()`_, _`.mean()`_, _`.count()`_, etc., para realizar cálculos en los grupos resultantes. Es útil para realizar análisis estadísticos o resúmenes de datos basados en categorías.

4. **_`.merge()`_**: Esta función se utiliza para combinar dos DataFrames en función de una o más columnas comunes. Puede realizar una unión interna (inner join), una unión externa (outer join), una unión izquierda (left join) o una unión derecha (right join), según los datos que se deseen mantener. Es útil para combinar conjuntos de datos relacionados en un solo DataFrame para su análisis

5. **_`.isin()`_**: Esta función se utiliza para verificar si los valores de una columna o Serie están presentes en una lista de valores específica.

## `Comenzamos la investigacion`

### Un crimen ha ocurrido y el detective necesita tu ayuda. 


#### Pero antes, veamos un diagrama de esquema para ver como estan conectados todos los dataframes

<img src="./_src/schemeboard.png">


### Te entregaron el informe del lugar del crimen, pero de alguna manera lo perdiste. Recordas vagamente que el crimen fue un ​asesinato​ que ocurrió en algún momento el ​15 de enero de 2018​ y que tuvo lugar en ​Pandas City​. **Te recomiendo comenzar por recuperar el informe correspondiente de su respectivo dataframe**

Vamos a empezar viendo los asesinatos (_murder_) que ocurrieron en la fecha 2018-01-15 (_15 de enero de 2018_) en el dataset `crime_scene_report`

In [259]:
# Hay varias maneras de seleccionar una fila en especifico. Una de ellas es la siguiente:
informe = crime_scene_report[(crime_scene_report["Date"] == "2018-01-15") & 
                            (crime_scene_report["Type"] == "murder")]
informe

Unnamed: 0,Date,Type,Description,City
674,2018-01-15,murder,Life? Dont talk to me about life.,Albany
675,2018-01-15,murder,"Mama, I killed a man, put a gun against his head...",Reno
781,2018-01-15,murder,"Security footage shows that there were 2 witnesses. The first witness lives at the last house on ""Northwestern Dr"". The second witness, named Annabel, lives somewhere on ""Franklin Ave"".",Pandas City


Podemos ver que ocurrieron 3 asesinatos en la misma fecha pero en distintas ciudades, ¿se te ocurre alguna manera de modificar el codigo tal que aparezca solamente la que nos interesa para el caso?

In [260]:
#agregando (crime_scene_report["City"] == "Pandas City")
informe = crime_scene_report[(crime_scene_report["Date"] == "2018-01-15") & 
                            (crime_scene_report["Type"] == "murder") & (crime_scene_report["City"] == "Pandas City")]
informe

Unnamed: 0,Date,Type,Description,City
781,2018-01-15,murder,"Security footage shows that there were 2 witnesses. The first witness lives at the last house on ""Northwestern Dr"". The second witness, named Annabel, lives somewhere on ""Franklin Ave"".",Pandas City


Una vez que tenemos el informe, leemos que dice la descripcion y vemos que hay 2 testigos. Es tu turno de hacer un codigo de tal manera que puedas encontrar a uno o ambos de ellos

_Ayudita:_ usar el dataset `person` y la funcion _df`.str.contains() `_

In [261]:
#imprimir la data frame 'person'
person

Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
0,10000,Christoper Peteuil,993845,624,Bankhall Ave,747714076
1,10007,Kourtney Calderwood,861794,2791,Gustavus Blvd,477972044
2,10010,Muoi Cary,385336,741,Northwestern Dr,828638512
3,10016,Era Moselle,431897,1987,Wood Glade St,614621061
4,10025,Trena Hornby,550890,276,Daws Hill Way,223877684
...,...,...,...,...,...,...
10006,99936,Luba Benser,274427,680,Carnage Blvd,685095054
10007,99941,Roxana Mckimley,975942,1613,Gate St,512136801
10008,99965,Cherie Zeimantz,287627,3661,The Water Ave,362877324
10009,99982,Allen Cruse,251350,3126,N Jean Dr,348734531


In [263]:
# testigo1
# Filtrar las filas que contienen "Northwestern Dr"
northwestern_dr = person[person['Address_Street_Name'].str.contains("Northwestern Dr")]

# Encontrar la fila con el valor más alto en 'Address_Number' dentro del filtro anterior
max_northwestern_dr = northwestern_dr.loc[northwestern_dr['Address_Number'].idxmax()]

testigo1 = max_northwestern_dr

testigo1



Id                               14887
Name                    Morty Schapiro
License_Id                      118009
Address_Number                    4919
Address_Street_Name    Northwestern Dr
Ssn                          111564949
Name: 499, dtype: object

In [264]:
person[person['Name'].str.contains("Annabel") & person['Address_Street_Name'].str.contains("Franklin Ave")]


Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
665,16371,Annabel Miller,490173,103,Franklin Ave,318771143


In [265]:
testigo2 = person.loc[665]
testigo2    

Id                              16371
Name                   Annabel Miller
License_Id                     490173
Address_Number                    103
Address_Street_Name      Franklin Ave
Ssn                         318771143
Name: 665, dtype: object

Una vez que encontraste a los testigos en la base de datos de personas, te recomiendo que busques sus entrevistas en el dataset `interviews`

A partir de aca, te dejo el resto de la investigacion a vos. ***¡Muchos exitos detective!***

In [266]:
interview

Unnamed: 0,Person_Id,Transcript
0,63713,
1,33856,
2,82799,
3,54206,
4,34615,
...,...,...
4986,37357,"Alice did not wish to offend the Dormouse again, so she began very"
4987,10206,"time,’ she said, ‘than waste it in asking riddles that have no answers.’"
4988,14887,"I heard a gunshot and then saw a man run out. He had a ""Get Fit Now Gym"" bag. The membership number on the bag started with ""48Z"". Only gold members have those bags. The man got into a car with a plate that included ""H42W""."
4989,16371,"I saw the murder happen, and I recognized the killer from my gym when I was working out last week on January the 9th."


In [267]:
testigo1

Id                               14887
Name                    Morty Schapiro
License_Id                      118009
Address_Number                    4919
Address_Street_Name    Northwestern Dr
Ssn                          111564949
Name: 499, dtype: object

In [268]:
# testigo1 interview
testigo1_id = 14887
entrevista_testigo1 = interview.loc[interview['Person_Id'] == testigo1_id]
entrevista_testigo1

Unnamed: 0,Person_Id,Transcript
4988,14887,"I heard a gunshot and then saw a man run out. He had a ""Get Fit Now Gym"" bag. The membership number on the bag started with ""48Z"". Only gold members have those bags. The man got into a car with a plate that included ""H42W""."


In [269]:
testigo2

Id                              16371
Name                   Annabel Miller
License_Id                     490173
Address_Number                    103
Address_Street_Name      Franklin Ave
Ssn                         318771143
Name: 665, dtype: object

In [270]:
# testigo2 interview
testigo2_id = 16371
entrevista_testigo2 = interview.loc[interview['Person_Id'] == testigo2_id]
entrevista_testigo2

Unnamed: 0,Person_Id,Transcript
4989,16371,"I saw the murder happen, and I recognized the killer from my gym when I was working out last week on January the 9th."


In [271]:
getfitnow_checkin

Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time
0,NL318,2018-02-12,329,365
1,NL318,2017-08-11,469,920
2,NL318,2018-04-29,506,554
3,NL318,2018-01-28,124,759
4,NL318,2017-10-27,418,1019
...,...,...,...,...
2698,4KB72,2017-04-22,1016,1114
2699,4KB72,2017-06-30,408,885
2700,48Z7A,2018-01-09,1600,1730
2701,48Z55,2018-01-09,1530,1700


In [272]:
# Supongamos que 'getfitnow_checkin' es tu DataFrame y 'Check_In_Date' es la columna con las fechas

# Buscar la fecha específica
fecha_a_buscar = '2017-01-09'
resultado = getfitnow_checkin.loc[getfitnow_checkin['Check_In_Date'] == fecha_a_buscar]

# Mostrar el resultado
print(resultado)

     Membership_Id Check_In_Date  Check_In_Time  Check_Out_Time
384          4D5R1    2017-01-09              5             451
1657         5VE7U    2017-01-09            898             915
1851         MZQ3U    2017-01-09            964            1191
2685         4KB72    2017-01-09            642             767


In [273]:
# Buscar la fecha específica
fecha_a_buscar = '2018-01-09'
resultado = getfitnow_checkin.loc[getfitnow_checkin['Check_In_Date'] == fecha_a_buscar]

# Mostrar el resultado
resultado

Unnamed: 0,Membership_Id,Check_In_Date,Check_In_Time,Check_Out_Time
113,X0643,2018-01-09,957,1164
889,UK1F2,2018-01-09,344,518
1329,XTE42,2018-01-09,486,1124
1446,1AE2H,2018-01-09,461,944
1703,6LSTG,2018-01-09,399,515
2137,7MWHJ,2018-01-09,273,885
2435,GE5Q8,2018-01-09,367,959
2700,48Z7A,2018-01-09,1600,1730
2701,48Z55,2018-01-09,1530,1700
2702,90081,2018-01-09,1600,1700


In [274]:
getfitnow_members  

# Buscar el id específico
id_a_buscar = '48Z55'
resultado_asesino1 = getfitnow_members.loc[getfitnow_members['Id'] == id_a_buscar]

# Mostrar el resultado
resultado_asesino1

Unnamed: 0,Id,Person_Id,Name,Membership_Start_Date,Membership_Status
66,48Z55,67318,Jeremy Bowers,2016-01-01,Gold


In [275]:
getfitnow_members  

# Buscar el id específico
id_a_buscar = '48Z7A'
resultado_asesino2 = getfitnow_members.loc[getfitnow_members['Id'] == id_a_buscar]

# Mostrar el resultado
resultado_asesino2

Unnamed: 0,Id,Person_Id,Name,Membership_Start_Date,Membership_Status
65,48Z7A,28819,Joe Germuska,2016-03-05,Gold


In [276]:

nombre_a_buscar = 'Jeremy Bowers'

# Buscar el nombre específico en el DataFrame
resultado = person.loc[person['Name'] == nombre_a_buscar]

# Mostrar el resultado
resultado


Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
6327,67318,Jeremy Bowers,423327,530,"Washington Pl, Apt 3A",871539279


In [277]:
nombre_a_buscar = 'Joe Germuska'

# Buscar el nombre específico en el DataFrame
resultado = person.loc[person['Name'] == nombre_a_buscar]

# Mostrar el resultado
resultado

Unnamed: 0,Id,Name,License_Id,Address_Number,Address_Street_Name,Ssn
2037,28819,Joe Germuska,173289,111,Fisk Rd,138909730


In [278]:
drivers_license

Unnamed: 0,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model
0,103138,37,65,brown,Blonde,Male,T6TV0T,Ford,Focus
1,103260,22,59,brown,Blonde,Female,G67F83,Ford,E250
2,108374,18,63,brown,Red,Male,X2KE6N,Ford,Escape
3,109238,35,76,brown,Brown,Female,O771Z2,Ford,F150
4,109596,30,75,brown,Red,Female,861GR4,Ford,Thunderbird
...,...,...,...,...,...,...,...,...,...
10002,959383,39,55,amber,Blue,Female,HJM7AH,Ford,Taurus
10003,960969,66,50,amber,White,Female,FN3TQ3,Ford,F-Series
10004,967386,21,59,amber,White,Female,0NBT4P,Ford,Windstar
10005,985357,84,80,amber,Green,Female,0T15Z5,Ford,Explorer Sport Trac


In [279]:
import pandas as pd

# Supongamos que ya has cargado tu DataFrame en una variable llamada drivers_license

# ID a buscar
id_a_buscar = 423327

# Buscar el ID específico en el DataFrame
resultado = drivers_license.loc[drivers_license['Id'] == id_a_buscar]

# Mostrar el resultado
resultado


Unnamed: 0,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model
204,423327,30,70,brown,Brown,Male,0H42W2,Chevrolet,Spark LS


In [280]:


# ID a buscar
id_a_buscar = 173289

# Buscar el ID específico en el DataFrame
resultado = drivers_license.loc[drivers_license['Id'] == id_a_buscar]

# Mostrar el resultado
resultado


Unnamed: 0,Id,Age,Height,Eye_Color,Hair_Color,Gender,Plate_Number,Car_Make,Car_Model


]### Si crees que encontraste al asesino, ejecutá el siguiente codigo con el posible sospechoso
Por favor, tene en cuenta que es recomendable no acceder al archivo "asesino.py" para evitar revelar detalles importantes de la caso. Si deseas disfrutar plenamente de la experiencia sin spoilers, te sugiero que evites examinar dicho archivo."

In [282]:
from asesino import solucion
solucion("Jeremy Bowers")

¡Felicidades, encontraste al asesino! Pero espera, hay más...
 Si crees que estas preparado para un desafío, segui investigando 
 la transcripcion del asesino para encontrar al verdadero villano detrás de este crimen
