IMPORTANDO A SQL

La relación entre las tablas sería de tipo "one-to-many", ya que cada fila en la tabla "resultado2" y "tres" correspondería a un distrito específico, y habría varias filas en la tabla "nypd" correspondientes a cada distrito.

En resumen, la relación entre las tablas sería la siguiente:

La tabla "resultado2" y la tabla "tres" tienen una columna común "district".
La tabla "nypd" tiene una columna "Borough" que corresponde a los mismos cinco distritos.
Podemos relacionar las tres tablas a través de la columna "Borough" de la tabla "nypd" y la columna "district" de las tablas "resultado2" y "tres".
La relación entre las tablas sería de tipo "one-to-many".

Para crear el EER diagram, puedes seguir los siguientes pasos:

Abre MySQL Workbench y crea un nuevo modelo de datos.
Crea una tabla para cada una de las tres tablas que quieres incluir en la base de datos (nypd, resultado2, y tres).
Define las columnas de cada tabla, asegurándote de que las columnas relacionadas tengan el mismo tipo de datos. Por ejemplo, la columna "Borough" en la tabla "nypd" y la columna "district" en las tablas "resultado2" y "tres" deberían tener el mismo tipo de datos.
Agrega las relaciones entre las tablas. Para hacerlo, selecciona la herramienta de "Foreign Key" y dibuja una línea entre las columnas que quieras relacionar. Por ejemplo, para relacionar la tabla "nypd" con las tablas "resultado2" y "tres", deberás dibujar una línea desde la columna "Borough" en la tabla "nypd" a la columna "district" en las otras dos tablas. Recuerda que la relación será "one-to-many".
Asegúrate de definir correctamente la cardinalidad de las relaciones en el diagrama EER. En este caso, la cardinalidad de la relación entre la tabla "nypd" y las tablas "resultado2" y "tres" es "one-to-many".
Una vez que hayas creado el EER diagram, puedes generar el script SQL para crear las tablas y las relaciones en la base de datos. Para hacerlo, selecciona la opción "Forward Engineer" en la pestaña "Database" en MySQL Workbench. Esto generará un script SQL que podrás ejecutar en la base de datos para crear las tablas y las relaciones.

In [79]:
import pandas as pd
import pymysql
import mysql.connector as conn

In [80]:
nypd = pd.read_csv('../clean_data/historic_crime.csv')
ny_real = pd.read_csv('../clean_data/ny_real.csv')
popu_ny = pd.read_csv('../clean_data/population_ny.csv')

Compruebo que se han importado bien

In [81]:
nypd = nypd.drop([3])


In [82]:
nypd.head()

Unnamed: 0,ComplaintID,Borough,Date,Offence_Level,New Georeferenced Column,Year,Month
0,261548672,Bronx,01/07/2023,FELONY,POINT (-73.84835 40.815726),2023,January
1,265065361,Brooklyn,06/12/2022,FELONY,POINT (-73.89760855 40.65345427),2022,June
2,262612530,Queens,09/09/2022,VIOLATION,POINT (-73.8740035373971 40.7434812638841),2022,September
4,264778583,Manhattan,06/29/2021,MISDEMEANOR,POINT (-73.949722 40.828637),2021,June
5,261496066,Queens,01/05/2022,MISDEMEANOR,POINT (-73.79464101 40.70123765),2022,January


In [83]:
nypd.rename(columns={
        'ComplaintID':'complaint', 
        'Borough':'borough',
        'Date':'date',
        'Offence_Level':'offence_level',
        'New Georeferenced Column':'georeference',
        'Year':'year',
        'Month':'month',
      

        }, inplace=True)

In [84]:
nypd.head()

Unnamed: 0,complaint,borough,date,offence_level,georeference,year,month
0,261548672,Bronx,01/07/2023,FELONY,POINT (-73.84835 40.815726),2023,January
1,265065361,Brooklyn,06/12/2022,FELONY,POINT (-73.89760855 40.65345427),2022,June
2,262612530,Queens,09/09/2022,VIOLATION,POINT (-73.8740035373971 40.7434812638841),2022,September
4,264778583,Manhattan,06/29/2021,MISDEMEANOR,POINT (-73.949722 40.828637),2021,June
5,261496066,Queens,01/05/2022,MISDEMEANOR,POINT (-73.79464101 40.70123765),2022,January


In [85]:
nypd = nypd.reset_index()

In [86]:
nypd = nypd.drop(['complaint'], axis=1)



In [87]:
nypd = nypd.rename(columns={ 'index': 'complaint' })

In [88]:
nypd.borough.unique()

array(['Bronx', 'Brooklyn', 'Queens', 'Manhattan', 'Staten Island',
       '(Null)'], dtype=object)

In [89]:
nypd.drop(nypd[nypd['borough'] == '(Null)'].index, inplace=True)


In [90]:
ny_real.rename(columns={
        
        'Borough':'borough',
        'Median Asking Rent':'median_asking_rent',
        'Median Recorded Sales Price':'median_recorded_sales_price',
      
      

        }, inplace=True)

In [91]:
ny_real

Unnamed: 0,borough,median_asking_rent,median_recorded_sales_price
0,Brooklyn,2716.45,1158306.83
1,Manhattan,4044.71,1475735.51
2,Queens,2182.22,648610.0
3,Staten Island,1950.0,584500.0
4,Bronx,1900.0,559500.0


In [92]:
popu_ny.rename(columns={
        
        'Borough':'borough',
        'Population':'population',

        }, inplace=True)

In [93]:
popu_ny

Unnamed: 0,borough,population
0,Bronx,1427056
1,Brooklyn,2576770
2,Manhattan,1629155
3,Queens,2271305
4,Staten Island,475595


Creo una nueva tabla que es la conexión entre las tres

In [94]:
boroughs = ['Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island']
boro = pd.DataFrame(boroughs, columns=['borough'])

In [95]:
boro

Unnamed: 0,borough
0,Bronx
1,Brooklyn
2,Manhattan
3,Queens
4,Staten Island


Preparo cada DataFrame para que pueda ser insertado correctamente a SQL

In [96]:
with open("../data/pass.txt", "r") as f:
    password = f.read().strip()

SQL ALCHEMY

In [101]:
from sqlalchemy import create_engine
str_conn = f'mysql+pymysql://root:{password}@localhost:3306/nypd_crime'
cursor = create_engine(str_conn)

In [102]:
nypd.to_sql('ny_crimes',con=cursor, if_exists='append', index=False)


129984

In [103]:
ny_real.to_sql('ny_housing',con=cursor, if_exists='append', index=False)
popu_ny.to_sql('ny_demographics',con=cursor, if_exists='append', index=False)
boro.to_sql('borough',con=cursor, if_exists='append', index=False)

5