# Data Wrangling

* Limpiar y convertir datos a un formato estándar te permite realizar análisis de conjuntos de datos cruzados.

* La organización de datos prepara los datos eliminando elementos defectuosos y faltantes, preparándolos para la minería de datos y capacitando a las empresas para tomar decisiones concretas basadas en datos.

**La importancia de manejar datos**

## Librerias

In [1]:
import pandas as pd
pd.options.display.max_columns = None
pd.options.display.max_colwidth = None

## Importacion de los Datos

In [76]:
df = pd.read_excel("Multas_Administrativas_2019.xlsx")
df

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION,LUGAR DE INFRACCION,IMPORTE,ESTADO
0,1,10069,150122,PE,Subgerencia de Fiscalización y Control,BUGOSEN CHALUJA JEAN JOSEPH,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con",CALLE INDEPENDENCIA 635,4200.0,ORDINARIA
1,2,10069,150122,PE,Subgerencia de Fiscalización y Control,SUSHIPOP LA MOLINA S.A.C.,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones.",CALLE MANUEL BONILLA 112,4200.0,ORDINARIA
2,3,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ZARATE TORRELIO TOMAS JUVENAL,07-101,Por carecer de Licencia de Funcionamiento.,AV. ROSSEVELT 6122,8400.0,ORDINARIA
3,4,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,GRUPO PERUTIME GASTRONOMICO S.A.C.,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de",AV. ALFREDO BENAVIDES 871 INT 104,4200.0,ORDINARIA
4,5,10069,150122,PE,Subgerencia de Fiscalización y Control,CUSI OCHOA JULIAN,01-102,"Por mantener en los predios, construcciones que no cuenten con autorización municip",CALLE PIURA 530 SEGUNDO PISO,8400.0,ORDINARIA
...,...,...,...,...,...,...,...,...,...,...,...
1178,1179,10069,150122,PE,subgerencia de fiscalización y control,ESCUELA DE TABLA PURO SURF S.A.C.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA
1179,1180,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ESCUELA DE TABLA WILLY SURF E.I.R.L,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA
1180,1181,10069,150122,PE,Subgerencia de Fiscalización y Control,GARCIA HOZBOR RICARDO ADOLFO,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,COACTIVA
1181,1182,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,RAMOS MARTINEZ JUAN MANUEL.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA


# Caso 1: Textos con Mayuscula, Minuscula y Letra Capital

In [3]:
# Analizamos la variable Unidad Operativa
df['NOMBRE DE LA UO'].value_counts()

NOMBRE DE LA UO
subgerencia de fiscalización y control    1167
Subgerencia de Fiscalización y Control      11
SUBGERENCIA DE FISCALIZACIÓN Y CONTROL       5
Name: count, dtype: int64

In [4]:
# Estandarizamos la data con las funciones upper, lower y capitalize
df['NOMBRE DE LA UO'] = df['NOMBRE DE LA UO'].str.upper()
df['NOMBRE DE LA UO'].value_counts()

NOMBRE DE LA UO
SUBGERENCIA DE FISCALIZACIÓN Y CONTROL    1183
Name: count, dtype: int64

In [5]:
df['NOMBRE DE LA UO'] = df['NOMBRE DE LA UO'].str.lower()
df['NOMBRE DE LA UO'].value_counts()

NOMBRE DE LA UO
subgerencia de fiscalización y control    1183
Name: count, dtype: int64

# Caso 2: Textos con diversos formatos que significan los mismo

In [30]:
# Analizamos la variable Unidad Operativa
df['ESTADO'].value_counts()

ESTADO
ORDINARIA          763
ORDINARIA          173
COACTIVA           125
ORD                 25
COACTIVA            21
ordinaria           15
QUEBRADA            15
ordi                12
Coactiva            11
Ordinaria            8
QUEBRADA             5
ordin                5
Quebrada             3
COAC                 1
Quebradita           1
Name: count, dtype: int64

In [7]:
# Viendo los valores Unicos
df['ESTADO'].unique()

array(['ORDINARIA', 'ORD', 'Ordinaria', 'COACTIVA', 'QUEBRADA',
       'Coactiva', 'ordinaria', 'COAC', 'COACTIVA       ',
       'ORDINARIA      ', 'Quebrada', 'Quebradita', 'ordin', 'ordi',
       'QUEBRADA       '], dtype=object)

In [13]:
# Forma 1: Usando loc
filtro = ( df['ESTADO'] == 'ORD' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

filtro = ( df['ESTADO'] == 'ordi' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

filtro = ( df['ESTADO'] == 'ORDINARIA      ' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

filtro = ( df['ESTADO'] == 'ordinaria' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

filtro = ( df['ESTADO'] == 'Ordinaria' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

filtro = ( df['ESTADO'] == 'ordin' )
df.loc[filtro, 'ESTADO'] = 'ORDINARIA'

df['ESTADO'].value_counts()

ESTADO
ORDINARIA          1001
COACTIVA            125
COACTIVA             21
QUEBRADA             15
Coactiva             11
QUEBRADA              5
Quebrada              3
COAC                  1
Quebradita            1
Name: count, dtype: int64

In [26]:
# Forma 2: Usando map
filtro = ( df['ESTADO'].isin(['Quebradita', 'Quebrada', 'QUEBRADA       ']) )
dicReemplazar = {'Quebradita':'QUEBRADA', 'Quebrada':'QUEBRADA', 
                'QUEBRADA       ': 'QUEBRADA'}
df['ESTADO'] = df['ESTADO'].map(dicReemplazar).fillna(df['ESTADO'])

df['ESTADO'].value_counts()

ESTADO
ORDINARIA          1001
COACTIVA            125
QUEBRADA             24
COACTIVA             21
Coactiva             11
COAC                  1
Name: count, dtype: int64

In [28]:
# Forma 3: Usando replace
dicReemplazar = {'Coactiva':'COACTIVA', 'COAC':'COACTIVA', 
                'COACTIVA       ': 'COACTIVA'}
df['ESTADO'] = df['ESTADO'].replace(dicReemplazar)

df['ESTADO'].value_counts()

ESTADO
ORDINARIA    1001
COACTIVA      158
QUEBRADA       24
Name: count, dtype: int64

In [35]:
# Dato Adicional: Usando la funcion strip
dicReemplazar = {'ORD':'ORDINARIA', 'ORDI':'ORDINARIA'}
df['ESTADO'].str.upper().str.strip().replace(dicReemplazar)\
    .value_counts()

ESTADO
ORDINARIA     996
COACTIVA      157
QUEBRADA       23
ORDIN           5
COAC            1
QUEBRADITA      1
Name: count, dtype: int64

## Caso 3: Generando Catalgos

In [36]:
# Revisando la columna Infraccion
listCol = ['CODIGO', 'INFRACCION']
df[listCol]

Unnamed: 0,CODIGO,INFRACCION
0,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con"
1,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
2,07-101,Por carecer de Licencia de Funcionamiento.
3,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de"
4,01-102,"Por mantener en los predios, construcciones que no cuenten con autorización municip"
...,...,...
1178,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1179,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1180,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1181,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.


In [37]:
# Revisando Codigos
codigo = '21-116'
filtro = ( df['CODIGO'] == codigo )
df.loc[filtro, listCol]

Unnamed: 0,CODIGO,INFRACCION
1,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
5,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
15,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
893,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
894,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
...,...,...
1020,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
1021,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
1022,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"
1023,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi"


In [38]:
# Usando el Metodo drop_duplicates
listCol = ['CODIGO', 'INFRACCION']
df[listCol].drop_duplicates()

Unnamed: 0,CODIGO,INFRACCION
0,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con"
1,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
2,07-101,Por carecer de Licencia de Funcionamiento.
3,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de"
4,01-102,"Por mantener en los predios, construcciones que no cuenten con autorización municip"
...,...,...
1158,23-114,Por obstaculizar la ciclovía con unidades motorizadas no autorizados.
1164,23-119,Por ocasionar daños a la propiedad de terceros por causa de la acción directa/indirecta o manipulaci
1169,23-120,Por retrasar u obstruir la actividad inspectora o de control que realizan los funcionarios competent
1170,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.


In [41]:
# Exportando el catalogo
filtro = ( df['INFRACCION'].fillna('') != '' )
df.loc[filtro, listCol].drop_duplicates()\
    .to_excel('catalogo_infracciones.xlsx', index = False)

In [51]:
filtro = ( df['INFRACCION'].fillna('') != '' )
dfCatalogoInfraccion = df.loc[filtro, listCol].drop_duplicates()
dfCatalogoInfraccion

Unnamed: 0,CODIGO,INFRACCION
0,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con"
1,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
2,07-101,Por carecer de Licencia de Funcionamiento.
3,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de"
4,01-102,"Por mantener en los predios, construcciones que no cuenten con autorización municip"
...,...,...
1158,23-114,Por obstaculizar la ciclovía con unidades motorizadas no autorizados.
1164,23-119,Por ocasionar daños a la propiedad de terceros por causa de la acción directa/indirecta o manipulaci
1169,23-120,Por retrasar u obstruir la actividad inspectora o de control que realizan los funcionarios competent
1170,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.


## Caso 4: Nulos en la descripcion

In [42]:
# Forma 1: Identificando Nulos 
print(df.shape)
df.info()

(1183, 11)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1183 entries, 0 to 1182
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID                    1183 non-null   int64  
 1   CODIGO DE LA ENTIDAD  1183 non-null   int64  
 2   CODIGO UBIGEO INEI    1183 non-null   int64  
 3   CODIGO PAIS           1183 non-null   object 
 4   NOMBRE DE LA UO       1183 non-null   object 
 5   RAZON SOCIAL          1183 non-null   object 
 6   CODIGO                1183 non-null   object 
 7   INFRACCION            1174 non-null   object 
 8   LUGAR DE INFRACCION   1183 non-null   object 
 9   IMPORTE               1183 non-null   float64
 10  ESTADO                1183 non-null   object 
dtypes: float64(1), int64(3), object(7)
memory usage: 101.8+ KB


In [46]:
# Forma 2: Identificando Nulos 
df.isnull().sum()#.sort_values(ascending=False)

ID                      0
CODIGO DE LA ENTIDAD    0
CODIGO UBIGEO INEI      0
CODIGO PAIS             0
NOMBRE DE LA UO         0
RAZON SOCIAL            0
CODIGO                  0
INFRACCION              9
LUGAR DE INFRACCION     0
IMPORTE                 0
ESTADO                  0
dtype: int64

In [49]:
# Forma 1: Con Merge
filtro = ( df['INFRACCION'].isnull() )
df.loc[filtro]

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION,LUGAR DE INFRACCION,IMPORTE,ESTADO
52,53,10069,150122,PE,subgerencia de fiscalización y control,IBAÑEZ SILVA CLAUDIA,01-101,,PQ. GUILLERMO CORREA ELIAS 196 402,4200.0,ORD
98,99,10069,150122,PE,subgerencia de fiscalización y control,SACIO VALDEZ BRENDA,01-101,,CALL SAN FERNANDO 157,4200.0,ORD
209,210,10069,150122,PE,subgerencia de fiscalización y control,VIVIENDAS DEL PERU S.A.C.,01-112,,PS DE LA REPUBLICA 6198 REF,8400.0,ORD
231,232,10069,150122,PE,subgerencia de fiscalización y control,GARCIA DE FEURGARD CASTRO SILVIA TERESA MARIA SOLEDAD,01-112,,AV. COMANDANTE ESPINAR 631,8400.0,ORD
276,277,10069,150122,PE,subgerencia de fiscalización y control,PINTO LAURA CARMEN ROSA,01-112,,AV. JOSE MANUEL RAMIREZ GASTON JURADO 297,8400.0,ORDINARIA
323,324,10069,150122,PE,subgerencia de fiscalización y control,INVERSIONES MIRAFLORES 1 S.A.C.,01-115,,CALL ALCANFORES 659 0 REF,4200.0,ORDINARIA
371,372,10069,150122,PE,subgerencia de fiscalización y control,A Y A EDIFICACIONES S.A.C.,01-117,,CALL BELLAVISTA 500 REF,2100.0,ordi
415,416,10069,150122,PE,subgerencia de fiscalización y control,ALARDI CONTRATISTAS GENERALES SAC.,03-103,,AV. ERNESTO DIEZ CANSECO 100,4200.0,ordi
436,437,10069,150122,PE,subgerencia de fiscalización y control,02 CONTRATISTAS EJECUTORES S.A.C.,03-116,,AV. TEJADA 200,4200.0,ordi


In [55]:
dfUni = df.merge(dfCatalogoInfraccion, how = 'left', on = 'CODIGO')
dfUni['INFRACCION'] = dfUni['INFRACCION_x'].fillna(dfUni['INFRACCION_y'])
dfUni

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION_x,LUGAR DE INFRACCION,IMPORTE,ESTADO,INFRACCION_y,INFRACCION
0,1,10069,150122,PE,Subgerencia de Fiscalización y Control,BUGOSEN CHALUJA JEAN JOSEPH,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con",CALLE INDEPENDENCIA 635,4200.0,ORDINARIA,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con","Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con"
1,2,10069,150122,PE,Subgerencia de Fiscalización y Control,SUSHIPOP LA MOLINA S.A.C.,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones.",CALLE MANUEL BONILLA 112,4200.0,ORDINARIA,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones.","Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
2,2,10069,150122,PE,Subgerencia de Fiscalización y Control,SUSHIPOP LA MOLINA S.A.C.,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones.",CALLE MANUEL BONILLA 112,4200.0,ORDINARIA,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi","Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones."
3,3,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ZARATE TORRELIO TOMAS JUVENAL,07-101,Por carecer de Licencia de Funcionamiento.,AV. ROSSEVELT 6122,8400.0,ORDINARIA,Por carecer de Licencia de Funcionamiento.,Por carecer de Licencia de Funcionamiento.
4,4,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,GRUPO PERUTIME GASTRONOMICO S.A.C.,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de",AV. ALFREDO BENAVIDES 871 INT 104,4200.0,ORDINARIA,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de","Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1315,1179,10069,150122,PE,subgerencia de fiscalización y control,ESCUELA DE TABLA PURO SURF S.A.C.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,Por practicar el deporte de aventura sin contar con la autorización respectiva.,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1316,1180,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ESCUELA DE TABLA WILLY SURF E.I.R.L,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,Por practicar el deporte de aventura sin contar con la autorización respectiva.,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1317,1181,10069,150122,PE,Subgerencia de Fiscalización y Control,GARCIA HOZBOR RICARDO ADOLFO,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,COACTIVA,Por practicar el deporte de aventura sin contar con la autorización respectiva.,Por practicar el deporte de aventura sin contar con la autorización respectiva.
1318,1182,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,RAMOS MARTINEZ JUAN MANUEL.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,Por practicar el deporte de aventura sin contar con la autorización respectiva.,Por practicar el deporte de aventura sin contar con la autorización respectiva.


In [56]:
filtro = ( dfUni['INFRACCION'].isnull() )
dfUni.loc[filtro]

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION_x,LUGAR DE INFRACCION,IMPORTE,ESTADO,INFRACCION_y,INFRACCION


In [62]:
dictInfraccion = dfCatalogoInfraccion.set_index('CODIGO')['INFRACCION'].to_dict()
dictInfraccion

{'01-101': 'Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con',
 '21-116': 'Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edi',
 '07-101': 'Por carecer de Licencia de Funcionamiento.                                                          ',
 '15-101': 'Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de ',
 '01-102': 'Por mantener en los predios, construcciones que no cuenten con autorización municip',
 '07-102': 'Por desarrollar actividades comerciales fuera del horario  permitido para su funcionamiento.        ',
 '23-101': 'Por incumplimiento de compromisos asumidos ante la Municipalidad.                                   ',
 '01-111': 'Por efectuar obras de edificación y/o instalar elementos en áreas comunes de inmuebles sujetos al ré',
 '11-102': 'Por instalar elementos de publicidad exterior sin autorización municipal.            

In [57]:
# Forma 2: Con Map
filtro = ( df['INFRACCION'].isnull() )
df.loc[filtro]

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION,LUGAR DE INFRACCION,IMPORTE,ESTADO
52,53,10069,150122,PE,subgerencia de fiscalización y control,IBAÑEZ SILVA CLAUDIA,01-101,,PQ. GUILLERMO CORREA ELIAS 196 402,4200.0,ORD
98,99,10069,150122,PE,subgerencia de fiscalización y control,SACIO VALDEZ BRENDA,01-101,,CALL SAN FERNANDO 157,4200.0,ORD
209,210,10069,150122,PE,subgerencia de fiscalización y control,VIVIENDAS DEL PERU S.A.C.,01-112,,PS DE LA REPUBLICA 6198 REF,8400.0,ORD
231,232,10069,150122,PE,subgerencia de fiscalización y control,GARCIA DE FEURGARD CASTRO SILVIA TERESA MARIA SOLEDAD,01-112,,AV. COMANDANTE ESPINAR 631,8400.0,ORD
276,277,10069,150122,PE,subgerencia de fiscalización y control,PINTO LAURA CARMEN ROSA,01-112,,AV. JOSE MANUEL RAMIREZ GASTON JURADO 297,8400.0,ORDINARIA
323,324,10069,150122,PE,subgerencia de fiscalización y control,INVERSIONES MIRAFLORES 1 S.A.C.,01-115,,CALL ALCANFORES 659 0 REF,4200.0,ORDINARIA
371,372,10069,150122,PE,subgerencia de fiscalización y control,A Y A EDIFICACIONES S.A.C.,01-117,,CALL BELLAVISTA 500 REF,2100.0,ordi
415,416,10069,150122,PE,subgerencia de fiscalización y control,ALARDI CONTRATISTAS GENERALES SAC.,03-103,,AV. ERNESTO DIEZ CANSECO 100,4200.0,ordi
436,437,10069,150122,PE,subgerencia de fiscalización y control,02 CONTRATISTAS EJECUTORES S.A.C.,03-116,,AV. TEJADA 200,4200.0,ordi


In [65]:
df['INFRACCION'] = df['CODIGO'].map(dictInfraccion)
# Forma 2: Con Map
filtro = ( df['INFRACCION'].isnull() )
df.loc[filtro]

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION,LUGAR DE INFRACCION,IMPORTE,ESTADO


## Caso 5: Generar variable dentro de otra variable


In [23]:
# La variable Lugar de Infraccion
listCol = ['LUGAR DE INFRACCION']
df[listCol]

Unnamed: 0,LUGAR DE INFRACCION
0,CALLE INDEPENDENCIA 635
1,CALLE MANUEL BONILLA 112
2,AV. ROSSEVELT 6122
3,AV. ALFREDO BENAVIDES 871 INT 104
4,CALLE PIURA 530 SEGUNDO PISO
...,...
1178,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF
1179,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF
1180,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF
1181,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF


In [67]:
df['LUGAR DE INFRACCION'].str[:5]

0       CALLE
1       CALLE
2       AV. R
3       AV. A
4       CALLE
        ...  
1178    AV. C
1179    AV. C
1180    AV. C
1181    AV. C
1182    CALL 
Name: LUGAR DE INFRACCION, Length: 1183, dtype: object

In [71]:
# Usamos el metodo split
df['TIPO_DIRECCION'] = df['LUGAR DE INFRACCION'].str.split().str[0]
df['TIPO_DIRECCION'].value_counts()

TIPO_DIRECCION
CALL       591
AV.        473
MLCN        52
PS          27
PSJE        18
CALLE       11
PQ.          7
PJE          1
MALECON      1
PARQUE       1
OVLO         1
Name: count, dtype: int64

## Caso 6: Dos Variables en una Variable

In [72]:
# Revisamos la variable codigo de infraccion
listCol = ['CODIGO']
df[listCol]

Unnamed: 0,CODIGO
0,01-101
1,21-116
2,07-101
3,15-101
4,01-102
...,...
1178,25-102
1179,25-102
1180,25-102
1181,25-102


In [74]:
# Forma 1: Con Slicing
df['SUB_CODIGO'] = df['CODIGO'].str[-3:]
df['SUB_CODIGO']
df['CODIGO'] = df['CODIGO'].str[:2]
df[['CODIGO', 'SUB_CODIGO']]

Unnamed: 0,CODIGO,SUB_CODIGO
0,01,101
1,21,116
2,07,101
3,15,101
4,01,102
...,...,...
1178,25,102
1179,25,102
1180,25,102
1181,25,102


In [84]:
# Forma 2: con split
df[['CODIGO_NEW', 'SUBCODIGO']] = df['CODIGO'].str.split('-', expand=True)
df

Unnamed: 0,ID,CODIGO DE LA ENTIDAD,CODIGO UBIGEO INEI,CODIGO PAIS,NOMBRE DE LA UO,RAZON SOCIAL,CODIGO,INFRACCION,LUGAR DE INFRACCION,IMPORTE,ESTADO,CODIGO_NEW,SUBCODIGO
0,1,10069,150122,PE,Subgerencia de Fiscalización y Control,BUGOSEN CHALUJA JEAN JOSEPH,01-101,"Por ejecutar obras de edificación en general (ampliación, remodelación, cercado, demolición) sin con",CALLE INDEPENDENCIA 635,4200.0,ORDINARIA,01,101
1,2,10069,150122,PE,Subgerencia de Fiscalización y Control,SUSHIPOP LA MOLINA S.A.C.,21-116,"Por no contar los establecimientos comerciales y/o de servicios, con Certificado de Seguridad en Edificaciones.",CALLE MANUEL BONILLA 112,4200.0,ORDINARIA,21,116
2,3,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ZARATE TORRELIO TOMAS JUVENAL,07-101,Por carecer de Licencia de Funcionamiento.,AV. ROSSEVELT 6122,8400.0,ORDINARIA,07,101
3,4,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,GRUPO PERUTIME GASTRONOMICO S.A.C.,15-101,"Por no encontrarse los locales comerciales, industriales y/o de servicios en óptimas condiciones de",AV. ALFREDO BENAVIDES 871 INT 104,4200.0,ORDINARIA,15,101
4,5,10069,150122,PE,Subgerencia de Fiscalización y Control,CUSI OCHOA JULIAN,01-102,"Por mantener en los predios, construcciones que no cuenten con autorización municip",CALLE PIURA 530 SEGUNDO PISO,8400.0,ORDINARIA,01,102
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1178,1179,10069,150122,PE,subgerencia de fiscalización y control,ESCUELA DE TABLA PURO SURF S.A.C.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,25,102
1179,1180,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,ESCUELA DE TABLA WILLY SURF E.I.R.L,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,25,102
1180,1181,10069,150122,PE,Subgerencia de Fiscalización y Control,GARCIA HOZBOR RICARDO ADOLFO,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,COACTIVA,25,102
1181,1182,10069,150122,PE,SUBGERENCIA DE FISCALIZACIÓN Y CONTROL,RAMOS MARTINEZ JUAN MANUEL.,25-102,Por practicar el deporte de aventura sin contar con la autorización respectiva.,AV. CIRCUITO-PLAYAS COSTA VERDE 400 REF,420.0,ORDINARIA,25,102


## Analisis


# Ejercicio 2 ptos: Generar una variable que sea la direccion, obviando el numero, calle, avenida y demas

In [None]:
df['LUGAR DE INFRACCION']