In [None]:
import pandas as pd
import matplotlib.pyplot as plt


### Cargar los datos a estudiar

In [None]:
import pandas as pd

df = pd.read_csv('permisos_construccion.csv')

### Hacer un resumen con la explicación de las variables del juego de datos

En el juego de datos se describen los permisos de construcción de distintas edificaciones. El juego tiene 43 columnas, que se dividen en las siguientes categorías:
+ **Identificación del permiso**: `Permit Number`, `Permit Type`, `Permit Type Definition`, `Permit Creation Date`
+ **Ubicación de la construcción**: `Block`, `Lot`, `Street Number`, `Street Name`, `Street Suffix`, `Unit`, `Unit Suffix`
+ **Descripción de la obra**: `Description`
+ **Estado y fecha del permiso**: `Current Status`, `Current Status Date`, `Filed Date`, `Issued Date`, `Completed Date`, `First Construction Document Date`, `Permit Expiration Date`
+ **Información de la construcción**: `Number of Existing Stories`, `Number of Proposed Stories`, `Estimated Cost`, `Revised Cost`, `Existing Use`, `Existing Units`, `Proposed Use`, `Proposed Units`, `Plansets`, `Existing Construction Type`, `Existing Construction Type Description`, `Proposed Construction Type`, `Proposed Construction Type Description`, `Supervisor District`, `Neighborhoods - Analysis Boundaries`, `Zipcode`, `Location`, `Record ID`
+ **Datos del permiso**: `Voluntary Soft-Story Retrofit`, `Fire Only Permit`, `Structural Notification`, `TIDF Compliance`, `Site Permit`

### Realizar un análisis exploratorio de los datos

In [None]:
# a. Calcular cantidad de filas y columnas

rows, columns = df.shape
print(f'Cantidad de filas: {rows}')
print(f'Cantidad de columnas: {columns}')

In [None]:
# b. Observar y mostrar las primeras 5 filas

df.head()

In [None]:
# c. Evaluar la existencia de datos faltantes y duplicados. Cuantificarlos y calcular el porcentaje sobre el total de filas

df.duplicated() #calcular la cantidad de datos duplicados
contduplicados = df.duplicated().sum() #calcular la cantidad de datos duplicados
print(f'Cantidad de datos duplicados: {contduplicados}')
total_filas = df.shape[0]
print(f'Total de filas: {total_filas}')
porcentaje_duplicados = contduplicados / total_filas * 100
print(f'Porcentaje de datos duplicados: {porcentaje_duplicados}%')

In [None]:
df_faltantes = pd.DataFrame(df.isnull().sum(), columns=['Cantidad de datos faltantes'])
df_faltantes['Porcentaje de datos faltantes'] = df.isnull().sum() / total_filas * 100
df_faltantes

# Columnas con datos faltantes entre el 50 y 100%
df_faltantes[(df_faltantes['Porcentaje de datos faltantes'] < 100) & (df_faltantes['Porcentaje de datos faltantes'] > 50)]

#Street Number Suffix puede ser nulo porque no todas las direcciones tienen un sufijo
#Zipcode puede ser nulo porque el area no tiene codigo postal() o porque no se ha ingresado
#Unit puede ser nulo porque no todas las direcciones tienen un número de unidad o porque no se ha ingresado

In [None]:
# Muestra los distintos valores de la columna Street Number Suffix
print("Los valores que toma la columna Street Number Suffix son:" , df['Street Number Suffix'].unique())

# Muestra los distintos valores de la columna Street Suffix
print("Los valores que toma la columna Street Suffix son:" , df['Street Suffix'].unique())

# Muestra los distintos valores de la columna Unit Suffix
# print("Los valores que toma la columna Unit Suffix son:" , df['Unit Suffix'].unique())

In [None]:
# Obtener las columnas que tienen a lo sumo 20 valores únicos
discrete_columns = [column for column in df.columns if len(df[column].unique()) <= 20]
# Filtrar las columnas que tienen datos booleanos
boolean_columns = [column for column in df.columns if len(df[column].unique()) == 2]
# Obtener las columnas que tienen exactamente 3 valores únicos
columns_with_3_unique_values = [column for column in df.columns if len(df[column].unique()) == 3]

print("Columnas con a lo sumo 20 valores únicos: ", discrete_columns)
print("Columnas con datos booleanos: ", boolean_columns)
print("Columnas con exactamente 3 valores únicos: ", columns_with_3_unique_values)

# Muestra los distintos valores de la columna TIDF Compliance
print("Los valores que toma la columna TIDF Compliance son:" , df['TIDF Compliance'].unique())
df['TIDF Compliance'].value_counts()

In [None]:
# Creación de histogramas de las columnas discretas
for column in discrete_columns:
    df[column].value_counts().sort_index().plot(kind='bar')
    plt.title(column)
    plt.show()
    

In [None]:
# Para los datos faltantes, evaluar posibles motivos de esto en cada caso.


Para los datos faltantes, evaluar posibles motivos de esto en cada caso.

La columna TIDF solo tiene dos valores distintos de 0.

In [None]:
# Para variables discretas, evaluar los posibles valores de cada variable

discrete_columns = [
    'Street Suffix',
    'Current Status',
    'Number of Existing Stories',
    'Number of Proposed Stories',
    'Voluntary Soft-Story Retrofit', 
    'Fire Only Permit', 
    'Permit Expiration Date', 
    'Existing Use',
    'Existing Units',
    'Proposed Use',
    'Proposed Units', 
    'Plansets', 'TIDF Compliance', 'Existing Construction Type', 'Proposed Construction Type', 'Site Permit', 'Supervisor District', 'Zipcode']

discrete_df = df[discrete_columns]
discrete_df

In [None]:
# Hay una columna que dice permiso de incendio, que tiene casi todos los valores null, y un par de Y. Entonces lo que se asume es que es una variable booleana, que indica si el permiso es necesaria o no.
# Puede haber columnas en desuso. Fijarse para decir, esta columna no se usa por esto.
# Las variables discretas que nos interesan son las de categorías, como tipos de permiso, no las de cantidad de pisos por ejemplo, ni las que son un montón, como nombre de calle o código postal.