# Contexto de la base de datos.

La base de datos fue obtenida de Kaggle y contiene datos de diversas fuentes como:

1. U.S. Census Bureau: El U.S. Census Bureau es la fuente primaria y oficial de información demográfica
y económica en los Estados Unidos. Esta institución realiza el Censo Decenal, en
el cual se recopilan datos sobre población, ingresos, vivienda, educación y
composición étnica.

2. CensusReporter.org: Census Reporter es una plataforma independiente que traduce la información del
Censo a un formato más accesible para periodistas, investigadores y público
general.

3. Longitudinal Tract Data Base (LTDB) – Logan et al: La Longitudinal Tract Data Base (LTDB), desarrollada por John R. Logan y
colaboradores en la Universidad de Brown, tiene como propósito armonizar los
cambios en las fronteras de los tractos censales que ocurren cada década.

Los datos censales constituyen una herramienta esencial para el
diagnóstico y la comprensión de las dinámicas sociales, económicas y territoriales
de un país. Su importancia radica en que permiten desagregar la realidad nacional
a un nivel local, mostrando contrastes que los promedios nacionales no reflejan.
Los tractos censales son divisiones geográficas establecidas por la Oficina del
Censo de los Estados Unidos (U.S. Census Bureau) con el propósito de ofrecer
información estadística detallada sobre comunidades relativamente pequeñas,
generalmente de entre 2,500 y 8,000 habitantes.
A través del análisis de variables como el ingreso medio, el nivel educativo, el
valor promedio de las viviendas y la composición étnica, se pueden identificar
patrones de desigualdad estructural, segmentación urbana y movilidad social.
Estas variables reflejan no solo condiciones materiales, sino también procesos
históricos de exclusión, concentración de riqueza y oportunidades desiguales entre
grupos sociales y regiones.
El análisis de estos datos resulta particularmente relevante en un contexto global
donde las desigualdades socioeconómicas se han acentuado en las últimas
décadas. La información obtenida a nivel de tracto censal ofrece una ventana
privilegiada para estudiar cómo las políticas públicas, la estructura económica y
las transformaciones demográficas impactan la vida cotidiana de millones de
personas.




# Descripción general del contenido.

El conjunto de datos analizado contiene 8,281 registros y 17 variables, cada uno
correspondiente a un tracto censal de Estados Unidos. El dataset contiene
información socioeconómica, educativa y demográfica de los tractos censales
de 5 áreas metropolitanas de interés en Estados Unidos (Atlanta, Baltimore,
Nueva York, Oakland y Washington DC), estas son unidades estadísticas definidas por la
Oficina del Censo (U.S. Census Bureau).
Cada registro corresponde a un tracto censal, una subdivisión geográfica dentro de condados y áreas metropolitanas que agrupa, por lo general, entre 2,500 y
8,000 habitantes.
Este tipo de datasets se utiliza ampliamente en investigaciones sobre
desigualdad económica, desarrollo urbano, movilidad social, educación y
planificación pública, ya que permite observar las condiciones de vida con un
alto nivel de detalle territorial.


## Características técnicas generales:

• Número de registros: 8,281 tractos censales.
• Número de columnas (variables): 17.
• Tipo de datos: cuantitativos (numéricos continuos) y categóricos
(textuales).
• Cobertura geográfica: Estados Unidos (múltiples ciudades y áreas
metropolitanas).
• Valores nulos: Ninguno; el dataset está completo y limpio.
• Formato de archivo: CSV (valores separados por comas).




# Significado de cada columna.

| Campo                             | Tipo                      | Descripción                                                                                      |
|----------------------------------|---------------------------|--------------------------------------------------------------------------------------------------|
| `geoid`                          | Numérico entero           | Identificador único asignado por la Oficina del Censo a cada tracto.                            |
| `name`                           | Texto (cadena)            | Nombre completo del tracto censal, incluyendo número y ubicación.                               |
| `total_population`              | Numérico entero           | Población total del tracto censal (todas las edades).                                           |
| `total_population_25_over`      | Numérico entero o decimal | Población de 25 años o más, usada para estimar nivel educativo.                                 |
| `median_income`                 | Numérico decimal     | Ingreso mediano del hogar en dólares anuales.                                                   |
| `median_home_value`            | Numérico decimal     | Valor mediano de las viviendas ocupadas.                                                        |
| `educational_attainment`       | Numérico entero           | Personas con estudios superiores (licenciatura o posgrado).                                     |
| `white_alone`                  | Numérico entero           | Personas que se identifican como blancas exclusivamente.                                        |
| `black_alone`                  | Numérico entero           | Personas que se identifican exclusivamente como afroamericanas o negras.                        |
| `native_alone`                 | Numérico entero           | Personas que se identifican como indígenas nativos de América.                                  |
| `asian_alone`                  | Numérico entero           | Personas que se identifican exclusivamente como asiáticas.                                      |
| `native_hawaiian_pacific_islander` | Numérico entero       | Personas nativas de Hawái o de otras islas del Pacífico.                                       |
| `some_other_race_alone`        | Numérico entero           | Personas que se identifican con otra raza distinta a las anteriores.                            |
| `two_or_more`                  | Numérico entero           | Personas que se identifican con dos o más razas.                                                |
| `hispanic_or_latino`           | Numérico entero           | Personas que se identifican como hispanas o latinas, sin importar su raza.                      |
| `city`                          | Texto (cadena)            | Ciudad donde se ubica el tracto censal.                                                         |
| `metro_area`                    | Texto (cadena)            | Área metropolitana a la que pertenece el tracto censal.                                         |


# Primer paso.
Primero debemos importar la libreria pandas e importar la base de datos.

In [1]:
#Se importa la libreria pandas y el archivo csv que contiene la base de datos
import pandas as pd
df = pd.read_csv("c:/Users/velj0/Downloads/census_sucio.csv")
df.head()

Unnamed: 0,geoid,name,total_population,total_population_25_over,median_income,median_home_value,educational_attainment,white_alone,black_alone,native_alone,asian_alone,native_hawaiian_pacific_islander,some_other_race_alone,two_or_more,hispanic_or_latino,city,metro_area
0,11001010000.0,"Census Tract 75.03, District of Columbia, Dist...",2454.0,1425.0,26250.0,,308.0,122.0,2278.0,0.0,0.0,0.0,0.0,17.0,37.0,Washington,Washington-Arlington-Alexandria
1,,"Census Tract 76.01, District of Columbia, Dist...",4855.0,3463.0,34840.0,255000.0,727.0,311.0,4292.0,0.0,0.0,13.0,0.0,41.0,198.0,Washington,Washington-Arlington-Alexandria
2,11001010000.0,"Census Tract 77.09, District of Columbia, Dist...",2524.0,1817.0,33750.0,250000.0,344.0,20.0,2280.0,0.0,0.0,0.0,0.0,130.0,94.0,Washington,Washington-Arlington-Alexandria
3,11001010000.0,"Census Tract 95.08, District of Columbia, Dist...",3691.0,2838.0,56404.0,356600.0,1008.0,211.0,2688.0,68.0,71.0,0.0,0.0,66.0,587.0,Washington,Washington-Arlington-Alexandria
4,11001010000.0,"Census Tract 99.04, District of Columbia, Dist...",2979.0,1526.0,30728.0,298600.0,252.0,52.0,2375.0,,0.0,15.0,0.0,46.0,491.0,Washington,Washington-Arlington-Alexandria


### Se proce a identificar la datos iniciales de la base de datos.

Identificamos todas las columnas del dataframe.

In [2]:
df.columns

Index(['geoid', 'name', 'total_population', 'total_population_25_over',
       'median_income', 'median_home_value', 'educational_attainment',
       'white_alone', 'black_alone', 'native_alone', 'asian_alone',
       'native_hawaiian_pacific_islander', 'some_other_race_alone',
       'two_or_more', 'hispanic_or_latino', 'city', 'metro_area'],
      dtype='object')

### Identificar tipos de datos

In [3]:
df.shape

(10589, 17)

↑ Aqui podemos observar la base de datos cuenta con un total de 10589 registros (filas) y 17 variables (columnas).

↑ Aqui podemos observar la categoria de datos a la que pertenece cada variable (columna).

### Identificar las características de los datos.

Se identifica: el tipo de datos, los valores nulos por fila y las columnas duplicadas.

In [4]:
# Primer chequeo
df.info() #Caracteristicas de los datos del dtataframe
print(f"\n---Datos nulos: \n{df.isnull().sum()}") #Identificar total de datos nulos
print(f"\n---Datos duplicados: {df.duplicated().sum()}") #Identificar el total de columnas duplicadas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10589 entries, 0 to 10588
Data columns (total 17 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   geoid                             10272 non-null  float64
 1   name                              10272 non-null  object 
 2   total_population                  10272 non-null  float64
 3   total_population_25_over          10272 non-null  float64
 4   median_income                     10272 non-null  object 
 5   median_home_value                 10272 non-null  object 
 6   educational_attainment            10272 non-null  object 
 7   white_alone                       10272 non-null  object 
 8   black_alone                       10272 non-null  float64
 9   native_alone                      10272 non-null  float64
 10  asian_alone                       10272 non-null  float64
 11  native_hawaiian_pacific_islander  10272 non-null  object 
 12  some

## Copia de seguridad.
Crear un segundo dataframe para evitar dañar el dataframe original.

In [5]:
df2=df.copy()

## Proceso de limpieza por columna.

Se procede a identificar las características de cada columna, sus valores nulos, valores únicos y número de duplicados.

Empezamos con la columna "geoid" la cual contiene el identificador del tracto censal.

In [6]:
#Identificación de los datos
df2["geoid"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["geoid"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["geoid"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["geoid"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
RangeIndex: 10589 entries, 0 to 10588
Series name: geoid
Non-Null Count  Dtype  
--------------  -----  
10272 non-null  float64
dtypes: float64(1)
memory usage: 82.9 KB

---Valores nulos: 317

---Valores unicos: [1.10010075e+10            nan 1.10010077e+10 ... 6.07501570e+09
 3.40130049e+10 2.40338015e+10]

---Duplicados: 2481


# Siguientes pasos.

Una vez identificadas las características de los datos que contiene esta columna se procede a ejecutar los procesos necesarios: llenar los NaN con la media de los datos en la columna y tranformar los datos de número decimal (float) a número entero (int).

## Contar duplicados en columna clave (id_geografico).

Se procede a la identificación y eliminación de duplicados en la columna clave.

In [7]:
duplicados = df2.duplicated(subset='geoid', keep=False)
print(f"Duplicados totales encontrados: {duplicados.sum()}")

Duplicados totales encontrados: 4375


Código de eliminación de duplicados.

In [8]:
#Eliminar duplicados y concervar unicamente la primer aparición de cada columna
df2 = df2.drop_duplicates(subset='geoid', keep='first')

In [9]:
#Verificar la correcta eliminacion
duplicados = df2.duplicated(subset='geoid', keep=False)
print(f"Duplicados encontrados: {duplicados.sum()}")

Duplicados encontrados: 0


In [10]:
print(f"\n---Valores nulos: {df2["geoid"].isnull().sum()}")


---Valores nulos: 1


In [11]:
# Rellenado de NaN y transformación de float a int
df2["geoid"] = df2["geoid"].fillna(df["geoid"].mean()) #Rellenar NaN con la media
df2 ["geoid"]=df2 ["geoid"].astype(int) # Transformación de datos

### Comprobación.

Una vez hecho lo anterior, se ejecuta una comprobación para verificar que se han ejecutado los procesos correctamente.

In [12]:
# Comprobación del proceso
df2["geoid"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["geoid"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["geoid"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["geoid"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: geoid
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [11001007503 27727369410 11001007709 ...  6075015700 34013004900
 24033801500]

---Duplicados: 0


### Limpieza.

Este proceso se realizará de manera iterativa para las siguientes 16 columnas hasta terminar con todas y cada una de ellas.

In [13]:
# Identificación de los datos
df2["name"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["name"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["name"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["name"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: name
Non-Null Count  Dtype 
--------------  ----- 
7863 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 245

---Valores unicos: ['Census Tract 75.03, District of Columbia, District of Columbia'
 'Census Tract 76.01, District of Columbia, District of Columbia'
 'Census Tract 77.09, District of Columbia, District of Columbia' ...
 'Census Tract 157, San Francisco County, California'
 'Census Tract 49, Essex County, New Jersey'
 "Census Tract 8015, Prince George's County, Maryland"]

---Duplicados: 244


### Columnas string.

Para las columnas string en lugar de sustituir los NaN por la media, se sustituyen por el dato que se encuentren en la fila inferior.

In [14]:
# Limpieza
df2["name"] = df2["name"].bfill()  # rellenar NaN con los datos de la fila inferior

In [15]:
# IComprobación de la limpieza
df2["name"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["name"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["name"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["name"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: name
Non-Null Count  Dtype 
--------------  ----- 
8108 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 0

---Valores unicos: ['Census Tract 75.03, District of Columbia, District of Columbia'
 'Census Tract 76.01, District of Columbia, District of Columbia'
 'Census Tract 77.09, District of Columbia, District of Columbia' ...
 'Census Tract 157, San Francisco County, California'
 'Census Tract 49, Essex County, New Jersey'
 "Census Tract 8015, Prince George's County, Maryland"]

---Duplicados: 245


In [16]:
# Identificación de los datos
df2["total_population"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["total_population"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["total_population"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["total_population"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: total_population
Non-Null Count  Dtype  
--------------  -----  
7862 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 246

---Valores unicos: [2454. 4855. 2524. ... 3035. 7910. 9377.]

---Duplicados: 3350


In [17]:
# Limpieza
df2["total_population"] = df2["total_population"].fillna(df["total_population"].mean()) #Rellenar NaN con la media
df2 ["total_population"]=df2 ["total_population"].astype(int) #Convertir a entero

In [18]:
# Comprobación de la limpieza
df2["total_population"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["total_population"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["total_population"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["total_population"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: total_population
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [2454 4855 2524 ... 3035 7910 9377]

---Duplicados: 3351


In [19]:
# Identificación de los datos
df2["total_population_25_over"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["total_population_25_over"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["total_population_25_over"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["total_population_25_over"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: total_population_25_over
Non-Null Count  Dtype  
--------------  -----  
7863 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 245

---Valores unicos: [1425. 3463. 1817. ... 1049. 3377. 5588.]

---Duplicados: 4112


In [20]:
# Limpieza
df2["total_population_25_over"] = df2["total_population_25_over"].fillna(df["total_population_25_over"].mean()) # Rellenar NaN con la media
df2 ["total_population_25_over"]=df2 ["total_population_25_over"].astype(int) # convertir a entero

In [21]:
# Verificación de la limpieza
df2["total_population_25_over"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["total_population_25_over"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["total_population_25_over"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["total_population_25_over"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: total_population_25_over
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [1425 3463 1817 ... 1049 3377 5588]

---Duplicados: 4112


## Columnas string a númericas.

Para estas columnas es necesario identificar y eliminar cualquier caracter que no se numérico pues estos no son relevantes y nos complican la transformación de los datos.

In [22]:
# Identificación de los datos
df2["median_income"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["median_income"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["median_income"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["median_income"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["median_income"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: median_income
Non-Null Count  Dtype 
--------------  ----- 
7870 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 238

---Valores unicos: ['26250.0' '34840.0' '33750.0' ... '111181.0' '33170.0' '77667.0']

---Duplicados: 1256

---Caracteres extraños: 0        True
1        True
2        True
3        True
4        True
         ... 
10344    True
10408    True
10457    True
10480    True
10571    True
Name: median_income, Length: 8108, dtype: object


### Datos no numéricos.
Para esta columna, "median_income", la identificacion de los datos no numéricos se reliza con el comando: f"\n---Caracteres extraños: "{df2["median_income"].str.contains(r'\D', regex=True)}" y la sustitución de estos será con el comando: "df2["median_income"] = df2["median_income"].str.replace(r'\D', '0', regex=True)" en los cuales el caracter "\D" nos es útil para identificar todos los caracteres no numéricos.

In [23]:
# Limpieza
df2["median_income"] = pd.to_numeric(df2["median_income"], errors="coerce") # Transformar a númerico decimal
df2["median_income"] = df2["median_income"].fillna(df2["median_income"].mean()) # Rellenar NaN con la media
df2 ["median_income"]=df2 ["median_income"].astype(int) # Transformar a númerico entero

In [24]:
# Verificación de la limpieza
df2["median_income"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["median_income"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["median_income"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["median_income"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: median_income
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [ 26250  34840  33750 ... 111181  33170  77667]

---Duplicados: 1257


In [25]:
# Identificación de los datos
df2["median_home_value"].info() #características de los datos
print(f"\n---Valores nulos: {df2["median_home_value"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["median_home_value"].unique()}") #valores únicos
print(f"\n---Duplicados: {df2.duplicated(subset=["median_home_value"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["median_home_value"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: median_home_value
Non-Null Count  Dtype 
--------------  ----- 
7873 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 235

---Valores unicos: [nan '255000.0' '250000.0' ... '306000.0' '1098300.0' '202300.0']

---Duplicados: 3307

---Caracteres extraños: 0         NaN
1        True
2        True
3        True
4        True
         ... 
10344    True
10408    True
10457    True
10480    True
10571    True
Name: median_home_value, Length: 8108, dtype: object


In [26]:
# Limpieza
df2["median_home_value"] = pd.to_numeric(df2["median_home_value"], errors="coerce") # Transformar a numérico decimal
df2["median_home_value"] = df2["median_home_value"].fillna(df2["median_home_value"].mean())  # Rellenar NaN con la media
df2["median_home_value"] = df2["median_home_value"].astype(int)  # Transformar a numérico entero

In [27]:
# Verificación de la limpieza
df2["median_home_value"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["median_home_value"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["median_home_value"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["median_home_value"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: median_home_value
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [-28061551    255000    250000 ...    306000   1098300    202300]

---Duplicados: 3308


In [28]:
# Identificación de los datos
df2["educational_attainment"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["educational_attainment"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["educational_attainment"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["educational_attainment"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["educational_attainment"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: educational_attainment
Non-Null Count  Dtype 
--------------  ----- 
7858 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 250

---Valores unicos: ['308.0' '727.0' '344.0' ... '2711.0' '289.0' '3046.0']

---Duplicados: 5242

---Caracteres extraños: 0        True
1        True
2        True
3        True
4        True
         ... 
10344    True
10408    True
10457    True
10480    True
10571    True
Name: educational_attainment, Length: 8108, dtype: object


In [29]:
# Limpieza

df2["educational_attainment"] = pd.to_numeric(df2["educational_attainment"], errors="coerce") # Transformar a númerico decimal
df2["educational_attainment"] = df2["educational_attainment"].fillna(df2["educational_attainment"].mean()) # Rellenar NaN con la media
df2 ["educational_attainment"]=df2 ["educational_attainment"].astype(int) # Transformar a númerico entero

In [30]:
# Verificación de la limpieza
df2["educational_attainment"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["educational_attainment"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["educational_attainment"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["educational_attainment"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: educational_attainment
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [ 308  727  344 ... 2711  289 3046]

---Duplicados: 5244


In [31]:
# Identificación de los datos
df2["white_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["white_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["white_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["white_alone"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["white_alone"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: white_alone
Non-Null Count  Dtype 
--------------  ----- 
7860 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 248

---Valores unicos: ['122.0' '311.0' '20.0' ... '4479.0' '2303.0' '4706.0']

---Duplicados: 4164

---Caracteres extraños: 0        True
1        True
2        True
3        True
4        True
         ... 
10344    True
10408    True
10457    True
10480    True
10571    True
Name: white_alone, Length: 8108, dtype: object


In [32]:
# Limpieza

df2["white_alone"] = pd.to_numeric(df2["white_alone"], errors="coerce") # Transformar a númerico decimal
df2["white_alone"] = df2["white_alone"].fillna(df2["white_alone"].mean()) # Rellenar NaN con la media
df2 ["white_alone"]=df2 ["white_alone"].astype(int) # Transformar a númerico entero

In [33]:
# Verificación de la limpieza
df2["white_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["white_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["white_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["white_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: white_alone
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [ 122  311   20 ... 4479 2303 4706]

---Duplicados: 4166


In [34]:
# Identificación de datos
df2["black_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["black_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["black_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["black_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: black_alone
Non-Null Count  Dtype  
--------------  -----  
7866 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 242

---Valores unicos: [2278. 4292. 2280. ... 4387. 4915. 2377.]

---Duplicados: 5535


In [35]:
# Limpieza
df2 ["black_alone"]=df2 ["black_alone"].astype(float) # Transformar a númerico decimal
df2["black_alone"] = df2["black_alone"].fillna(df2["black_alone"].mean()) # Rellenar NaN con la media
df2 ["black_alone"]=df2 ["black_alone"].astype(int) # Transformar a númerico entero

In [36]:
# Verificación de la limpieza
df2["black_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["black_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["black_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["black_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: black_alone
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [2278 4292 2280 ... 4387 4915 2377]

---Duplicados: 5535


In [37]:
# Identificación de los datos
df2["native_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["native_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["native_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["native_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: native_alone
Non-Null Count  Dtype  
--------------  -----  
7861 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 247

---Valores unicos: [  0.  68.  nan  27.   7.   9.  28.  16.   4.  13.   6.  20.  17.  83.
   5.  10.  53.  77.  32.  14.  19.  40.  15.  64.  11.   1.  23.  31.
  60.   3.  24. 304.  82.  26.  39.  30.  29.  34.  52.  37.  22.   8.
 144.  18.  21.  49.  61.  45.  43.  44. 104.  67.   2.  25.  73.  59.
 101.  36.  48.  54.  63. 115.  46.  89. 197.  41.  33.  78.  62.  57.
  81.  38.  70. 158.  56.  12. 177. 228. 126.  58.  66. 114.  42.  50.
  65.  51. 108.  80.  94.  35.  79.  87. 276. 130. 162. 221. 107. 156.
  47. 146.  99.  96. 100. 134. 111.  76.  85.  71.  75. 233. 195.  84.
  93. 123. 153. 433. 282.  74. 189.  69. 127. 330. 529. 128. 139. 193.
 176. 207. 252. 106. 764. 213.  86. 256. 345. 125. 480. 227. 105. 159.
  98. 165. 124. 102.  97.  95. 109. 110

In [38]:
# Limpieza
df2 ["native_alone"]=df2 ["native_alone"].astype(float) # Transformar a númerico decimal
df2["native_alone"] = df2["native_alone"].fillna(df2["black_alone"].mean()) # Rellenar NaN con la media
df2 ["native_alone"]=df2 ["native_alone"].astype(int) # Transformar a númerico entero

In [39]:
# Verificación de la limpieza
df2["native_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["native_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["native_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["native_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: native_alone
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [  0  68 906  27   7   9  28  16   4  13   6  20  17  83   5  10  53  77
  32  14  19  40  15  64  11   1  23  31  60   3  24 304  82  26  39  30
  29  34  52  37  22   8 144  18  21  49  61  45  43  44 104  67   2  25
  73  59 101  36  48  54  63 115  46  89 197  41  33  78  62  57  81  38
  70 158  56  12 177 228 126  58  66 114  42  50  65  51 108  80  94  35
  79  87 276 130 162 221 107 156  47 146  99  96 100 134 111  76  85  71
  75 233 195  84  93 123 153 433 282  74 189  69 127 330 529 128 139 193
 176 207 252 106 764 213  86 256 345 125 480 227 105 159  98 165 124 102
  97  95 109 110 208  88  72 122 342 168  55 167 185 112  91 271  90 129
 155 142 224 118 239 152 150 399 119 192 131 103 151 204 148 226 179 120
 218 170 262 231 137 121 287 

In [40]:
# Identificación de los datos
df2["asian_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["asian_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["asian_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["asian_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: asian_alone
Non-Null Count  Dtype  
--------------  -----  
7873 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 235

---Valores unicos: [   0.   71.   90. ... 1538. 2007. 1514.]

---Duplicados: 6289


In [41]:
# Limpieza
df2 ["asian_alone"]=df2 ["asian_alone"].astype(float) # Transformar a númerico decimal
df2["asian_alone"] = df2["asian_alone"].fillna(df2["asian_alone"].mean()) # Rellenar NaN con la media
df2 ["asian_alone"]=df2 ["asian_alone"].astype(int) # Transformar a númerico entero

In [42]:
# Verificación de la limpieza
df2["asian_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["asian_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["asian_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["asian_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: asian_alone
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [   0   71   90 ... 1538 2007 1514]

---Duplicados: 6290


In [43]:
# Identificación de los datos
df2["native_hawaiian_pacific_islander"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["native_hawaiian_pacific_islander"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["native_hawaiian_pacific_islander"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["native_hawaiian_pacific_islander"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["native_hawaiian_pacific_islander"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: native_hawaiian_pacific_islander
Non-Null Count  Dtype 
--------------  ----- 
7857 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 251

---Valores unicos: ['0.0' '13.0' '15.0' '42.0' '16.0' nan 'Auto%#' '18.0' '7.0' '27.0' '14.0'
 '8.0' '34.0' '131.0' '6.0' '21.0' '5.0' '12.0' '89.0' '9.0' '10.0' '33.0'
 '4.0' '1.0' '3.0' '11.0' '132.0' '19.0' '25.0' '41.0' '17.0' '26.0'
 '24.0' '23.0' '38.0' '22.0' '32.0' '44.0' '29.0' '130.0' '48.0' '39.0'
 '74.0' '36.0' '68.0' '53.0' '2.0' '30.0' '50.0' '20.0' '62.0' '51.0'
 '180.0' '28.0' '66.0' '124.0' '52.0' '220.0' '45.0' '160.0' '227.0'
 '82.0' '70.0' '83.0' '46.0' '31.0' '134.0' '104.0' '86.0' '313.0' '84.0'
 '113.0' '35.0' '128.0' '95.0' '156.0' '125.0' '292.0' '56.0' '85.0'
 '142.0' '43.0' '183.0' '78.0' '49.0' '79.0' '55.0' '129.0' '40.0' '204.0'
 '222.0' '105.0' '126.0' '219.0' '159.0' '57.0' '157.0' '273.0' '298.0'
 '122.0' '11

In [44]:
# Limpieza
df2["native_hawaiian_pacific_islander"] = pd.to_numeric(df2["native_hawaiian_pacific_islander"], errors="coerce") # Transformar a númerico decimal
df2["native_hawaiian_pacific_islander"] = df2["native_hawaiian_pacific_islander"].fillna(df2["native_hawaiian_pacific_islander"].mean()) # Rellenar NaN con la media
df2 ["native_hawaiian_pacific_islander"]=df2 ["native_hawaiian_pacific_islander"].astype(int) # Transformar a númerico entero

In [45]:
# Verificación de la limpieza
df2["native_hawaiian_pacific_islander"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["native_hawaiian_pacific_islander"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["native_hawaiian_pacific_islander"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["native_hawaiian_pacific_islander"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: native_hawaiian_pacific_islander
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [  0  13  15  42  16   5  18   7  27  14   8  34 131   6  21  12  89   9
  10  33   4   1   3  11 132  19  25  41  17  26  24  23  38  22  32  44
  29 130  48  39  74  36  68  53   2  30  50  20  62  51 180  28  66 124
  52 220  45 160 227  82  70  83  46  31 134 104  86 313  84 113  35 128
  95 156 125 292  56  85 142  43 183  78  49  79  55 129  40 204 222 105
 126 219 159  57 157 273 298 122 115  47  77 153 141 137 107  76 164  60
  99  92 155 133  72 179 244 274  65 254 135 190 251 120  71 140 281 100
 235 464 144  37 186 143 119 118 201 324  61  75 111 266 465 371 460 213
 293 203 669 892  54 500 286 668  58 812 195 533 342 191  88 127 117 171
 173  91  96 108  73]

---Duplicados: 7941


In [46]:
# Identificación de los datos
df2["some_other_race_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["some_other_race_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["some_other_race_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["some_other_race_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: some_other_race_alone
Non-Null Count  Dtype  
--------------  -----  
7859 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 249

---Valores unicos: [0.000e+00 7.000e+00       nan 1.100e+01 9.000e+00 8.000e+00 4.600e+01
 1.500e+01 1.660e+02 1.000e+01 2.200e+01 3.200e+01 3.100e+01 8.700e+01
 1.200e+01 2.000e+01 1.800e+01 1.700e+01 1.010e+02 2.100e+01 4.000e+00
 1.400e+01 1.730e+02 2.600e+01 2.400e+01 2.300e+01 3.500e+01 1.300e+01
 8.800e+01 1.900e+01 6.700e+01 3.000e+01 3.400e+01 1.600e+01 1.460e+02
 3.000e+00 5.000e+00 6.000e+00 5.200e+01 6.400e+01 4.400e+01 4.300e+01
 4.100e+01 1.420e+02 2.000e+00 2.700e+01 7.200e+01 3.800e+01 5.100e+01
 4.500e+01 3.300e+01 4.700e+01 3.700e+01 2.500e+01 3.820e+02 6.500e+01
 7.700e+01 2.900e+01 5.600e+01 3.600e+01 8.200e+01 5.500e+01 1.350e+02
 6.600e+01 1.090e+02 6.200e+01 5.400e+01 2.220e+02 2.000e+02 5.900e+01
 6.900e+01 1.140e+02 2.920e+02

In [47]:
# Limpieza
df2 ["some_other_race_alone"]=df2 ["some_other_race_alone"].astype(float) # Transformar a númerico decimal
df2["some_other_race_alone"] = df2["some_other_race_alone"].fillna(df2["some_other_race_alone"].mean()) # Rellenar NaN con la media
df2 ["some_other_race_alone"]=df2 ["some_other_race_alone"].astype(int) # Transformar a númerico entero

In [48]:
# Verificación de la limpieza
df2["some_other_race_alone"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["some_other_race_alone"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["some_other_race_alone"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["some_other_race_alone"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: some_other_race_alone
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [   0    7   22   11    9    8   46   15  166   10   32   31   87   12
   20   18   17  101   21    4   14  173   26   24   23   35   13   88
   19   67   30   34   16  146    3    5    6   52   64   44   43   41
  142    2   27   72   38   51   45   33   47   37   25  382   65   77
   29   56   36   82   55  135   66  109   62   54  222  200   59   69
  114  292   39   42   57  260   40   58   98   84  205   73  100   50
  129  182   49  125   80   61   85  164  143   28  111  136  163   68
  112  149   60  158  103  170   70  104   48  130   79    1   63  108
   92  278  162  141   83  117  159   96  119  102  128   91  124  231
  414   81   89  252  106  131   86  139  186   53  140   95  157  243
  213  148  286  122   71  110  274  257

In [49]:
# Identificación de los datos
df2["two_or_more"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["two_or_more"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["two_or_more"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["two_or_more"]).sum()}") #Contar duplicados
print(f"\n---Caracteres extraños: {df2["two_or_more"].str.contains(r'\D', regex=True)}") #Detectar caracteres extraños

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: two_or_more
Non-Null Count  Dtype 
--------------  ----- 
7855 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 253

---Valores unicos: ['17.0' '41.0' '130.0' '66.0' '46.0' nan '59.0' '21.0' '103.0' '244.0'
 '102.0' '447.0' '79.0' '159.0' '215.0' '72.0' '122.0' '82.0' '83.0'
 '89.0' 'Auto%#' '228.0' '94.0' '129.0' '74.0' '40.0' '179.0' '241.0'
 '0.0' '127.0' '47.0' '48.0' '107.0' '86.0' '171.0' '16.0' '38.0' '85.0'
 '87.0' '10.0' '33.0' '181.0' '6.0' '11.0' '88.0' '42.0' '147.0' '201.0'
 '99.0' '165.0' '226.0' '84.0' '206.0' '145.0' '29.0' '70.0' '19.0' '14.0'
 '95.0' '100.0' '51.0' '23.0' '68.0' '52.0' '63.0' '5.0' '78.0' '67.0'
 '26.0' '12.0' '8.0' '164.0' '153.0' '64.0' '191.0' '22.0' '50.0' '60.0'
 '117.0' '58.0' '32.0' '44.0' '24.0' '69.0' '43.0' '253.0' '53.0' '110.0'
 '137.0' '212.0' '120.0' '49.0' '112.0' '104.0' '61.0' '134.0' '77.0'
 '123.0' '121.0' '9.0' '39.0' '34.

### String a númerico

Como hemos visto es un proceso mas largo la identificacin y eliminacion de los elementos no necesarios, sin embargo este se llevo a cabo en las columnas: "median_income",   "median_home_value",  "educational_attainment" , "native_hawaiian_pacific_islander", "two_or_more"

In [50]:
# Limpieza
df2["two_or_more"] = pd.to_numeric(df2["two_or_more"], errors="coerce")# Transformar a númerico decimal
df2["two_or_more"] = df2["two_or_more"].fillna(df2["two_or_more"].mean()) # Rellenar NaN con la media
df2 ["two_or_more"]=df2 ["two_or_more"].astype(int) # Transformar a númerico entero

In [51]:
# Verificación de la limpieza
df2["two_or_more"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["two_or_more"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["two_or_more"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["two_or_more"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: two_or_more
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [  17   41  130   66   46  101   59   21  103  244  102  447   79  159
  215   72  122   82   83   89  228   94  129   74   40  179  241    0
  127   47   48  107   86  171   16   38   85   87   10   33  181    6
   11   88   42  147  201   99  165  226   84  206  145   29   70   19
   14   95  100   51   23   68   52   63    5   78   67   26   12    8
  164  153   64  191   22   50   60  117   58   32   44   24   69   43
  253   53  110  137  212  120   49  112  104   61  134   77  123  121
    9   39   34  124  268  118  126  149  235  328  152   97  292  170
  583  139  392  132  184   55  541  411  144  263  236  196  173  204
  288  176  415  587  407  239  586  331  141  282  280  187  163  229
  316  387   62  285  135   90  151  211  319  294

In [52]:
# Identificación de los datos
df2["hispanic_or_latino"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["hispanic_or_latino"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["hispanic_or_latino"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["hispanic_or_latino"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: hispanic_or_latino
Non-Null Count  Dtype  
--------------  -----  
7862 non-null   float64
dtypes: float64(1)
memory usage: 126.7 KB

---Valores nulos: 246

---Valores unicos: [  37.  198.   94. ... 3094. 1377. 3795.]

---Duplicados: 5649


In [53]:
# Limpieza
df2 ["hispanic_or_latino"]=df2 ["hispanic_or_latino"].astype(float) # Transformar a númerico decimal
df2["hispanic_or_latino"] = df2["hispanic_or_latino"].fillna(df2["hispanic_or_latino"].mean()) # Rellenar NaN con la media
df2 ["hispanic_or_latino"]=df2 ["hispanic_or_latino"].astype(int) # Transformar a númerico entero

In [54]:
# Verificación de la limpieza
df2["hispanic_or_latino"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["hispanic_or_latino"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["hispanic_or_latino"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["hispanic_or_latino"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: hispanic_or_latino
Non-Null Count  Dtype
--------------  -----
8108 non-null   int64
dtypes: int64(1)
memory usage: 126.7 KB

---Valores nulos: 0

---Valores unicos: [  37  198   94 ... 3094 1377 3795]

---Duplicados: 5650


In [55]:
# Identificación de los datos
df2["city"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["city"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["city"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["city"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: city
Non-Null Count  Dtype 
--------------  ----- 
7866 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 242

---Valores unicos: ['Washington' nan 'Auto%#' 'Baltimore' 'Atlanta' 'Oakland' 'New York City']

---Duplicados: 8101


In [56]:
# Limpieza
df2["city"] = df2["city"].bfill()  # rellenar nan con los datos de la fila inferior
df2["city"] = df2["city"].where(df2["city"] != 'Auto%#').bfill() #reemplazar Auto%# con los datos de la fila inferior

In [57]:
# Verificación de la limpieza
df2["city"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["city"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["city"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["city"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: city
Non-Null Count  Dtype 
--------------  ----- 
8108 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 0

---Valores unicos: ['Washington' 'Baltimore' 'Atlanta' 'Oakland' 'New York City']

---Duplicados: 8103


In [58]:
# Identificación de los datos
df2["metro_area"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["metro_area"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["metro_area"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["metro_area"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: metro_area
Non-Null Count  Dtype 
--------------  ----- 
7867 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 241

---Valores unicos: ['Washington-Arlington-Alexandria' nan 'Auto%#'
 'Baltimore-Columbia-Towson' 'Atlanta-Sandy Springs-Alpharetta'
 'San Francisco-Oakland-Berkeley' 'New York-Newark-Jersey City']

---Duplicados: 8101


In [59]:
# Limpieza
df2["metro_area"] = df2["metro_area"].bfill()  # rellenar nan con los datos de la fila inferior
df2["metro_area"] = df2["metro_area"].where(df2["metro_area"] != 'Auto%#').bfill() #reemplazar Auto%# con los datos de la fila inferior

In [60]:
# Verificación de la limpieza
df2["metro_area"].info() #caracteristicas de los datos
print(f"\n---Valores nulos: {df2["metro_area"].isnull().sum()}") #datos nulos
print(f"\n---Valores unicos: {df2["metro_area"].unique()}") #valores unicos
print(f"\n---Duplicados: {df2.duplicated(subset=["metro_area"]).sum()}") #Contar duplicados

<class 'pandas.core.series.Series'>
Index: 8108 entries, 0 to 10571
Series name: metro_area
Non-Null Count  Dtype 
--------------  ----- 
8108 non-null   object
dtypes: object(1)
memory usage: 126.7+ KB

---Valores nulos: 0

---Valores unicos: ['Washington-Arlington-Alexandria' 'Baltimore-Columbia-Towson'
 'Atlanta-Sandy Springs-Alpharetta' 'San Francisco-Oakland-Berkeley'
 'New York-Newark-Jersey City']

---Duplicados: 8103


## Diccionarios de traducción.

Ahora se procede a la traducción del inglés al español para lograr una mejor interpretación de la base de datos.

In [61]:
# Traduccion de columnas
traduccion_columnas = {
    "geoid": "id_geografico",
    "name": "nombre",
    "city": "ciudad",
    "metro_area": "area_metropolitana",
    "total_population": "poblacion_total",
    "total_population_25_over": "poblacion_mayor_de_25",
    "median_income": "ingreso_medio",
    "median_home_value": "valor_medio_de_vivienda",
    "white_alone": "poblacion_blanca",
    "black_alone": "poblacion_afroamericana",
    "asian_alone": "poblacion_asiatica",
    "native_alone": "poblacion_nativa",
    "hispanic_or_latino": "poblacion_hispana_o_latina",
    "educational_attainment": "educacion",
    "native_hawaiian_pacific_islander": "nativo_hawaiano", 
    "some_other_race_alone": "alguna_otra_etnia",
    "two_or_more": "dos_o_mas_etnias",
}
df2 = df2.rename(columns=traduccion_columnas)

In [62]:
# Traducir ciudades
traduccion_ciudades = {
    'Washington': "Washington", 
    'Baltimore': 'Baltimore', 
    'Atlanta': 'Atlanta', 
    'Oakland': 'Oakland', 
    'New York City': "Nueva York"
}

df2['ciudad'] = df2['ciudad'].replace(traduccion_ciudades)

In [63]:
# Comprobación de traducción
df2['ciudad'].unique()

array(['Washington', 'Baltimore', 'Atlanta', 'Oakland', 'Nueva York'],
      dtype=object)

In [64]:
traduccion_area_met = {
    "Washington-Arlington-Alexandria": "Washington-Arlington-Alejandría",
    "Baltimore-Columbia-Towson": "Baltimore-Columbia-Towson",
    "Atlanta-Sandy Springs-Alpharetta": "Atlanta-Sandy Springs-Alpharetta",
    "San Francisco-Oakland-Berkeley": "San Francisco-Oakland-Berkeley",
    "New York-Newark-Jersey City": "Nueva York-Newark-Ciudad de Jersey"
}
df2['area_metropolitana'] = df2['area_metropolitana'].replace(traduccion_area_met)

In [65]:
#Comprobación de traducción
df2['area_metropolitana'].unique()

array(['Washington-Arlington-Alejandría', 'Baltimore-Columbia-Towson',
       'Atlanta-Sandy Springs-Alpharetta',
       'San Francisco-Oakland-Berkeley',
       'Nueva York-Newark-Ciudad de Jersey'], dtype=object)

In [66]:
#Traducir "Census Tract" → "Tracto Censal"
df2["nombre"] = df2["nombre"].str.replace(r'^Census Tract', "nombre", regex=True)

#Reordenar para que sea: Tracto Censal <número>, Condado de <nombre>, <estado>
df2["nombre"] = df2["nombre"].str.replace(
    r'^Tracto Censal\s+([\d\.]+),\s*([\w\s\-]+?) County,\s*(.+)$',
    r'Tracto Censal \1, Condado de \2, \3',
    regex=True
)

#Traducir nombres de estados comunes
traduccion_estados = {
    'Washington': 'Washington',
    'District of Columbia': 'Distrito de Columbia',
    "Maryland": "Maryland",
    'Virginia': 'Virginia',
    'West Virginia': 'Virginia Occidental',
    "Georgia": 'Georgia',
    'California': 'California',
    'New York': 'Nueva York',
    'New Jersey': 'Nueva Jersey',
    'Connecticut': 'Connecticut',
    
}

for en, es in traduccion_estados.items():
    df2['nombre'] = df2['nombre'].str.replace(en, es, regex=False)


Se verifica si existe alguna inconsistencia con los nombres de las ciudades y de ser así se corrige.

In [67]:
import tqdm
# Detectar ciudades con múltiples áreas metropolitanas
ciudad_to_metros = df2.groupby('ciudad')['area_metropolitana'].nunique().reset_index(name='n_metros')
conflict_cities = ciudad_to_metros[ciudad_to_metros['n_metros'] > 1]['ciudad'].tolist()

print(f"\nSe encontraron {len(conflict_cities)} ciudades con inconsistencias")

if len(conflict_cities) > 0:
    print("Ciudades problemáticas:", conflict_cities[:10])
    
    # Crear mapa de moda (valor más frecuente) para cada ciudad
    mode_map = df2.groupby('ciudad')['area_metropolitana'].agg(
        lambda x: x.mode().iloc[0] if not x.mode().empty else x.iloc[0]
    ).to_dict()
    
    # Aplicar corrección directamente en df2
    print("Aplicando correcciones en df2...")
    
    from tqdm import tqdm
    for ciudad in tqdm(conflict_cities, desc="Corrigiendo ciudades"):
        mask = df2['ciudad'] == ciudad
        df2.loc[mask, 'area_metropolitana'] = mode_map[ciudad]
    
    # Verificar corrección
    ciudad_to_metros_after = df2.groupby('ciudad')['area_metropolitana'].nunique().reset_index(name='n_metros')
    remaining_conflicts = ciudad_to_metros_after[ciudad_to_metros_after['n_metros'] > 1]['ciudad'].tolist()
    
    print(f"Inconsistencias corregidas: {len(conflict_cities) - len(remaining_conflicts)}")
    print(f"Inconsistencias restantes: {len(remaining_conflicts)}")
    
else:
    print("No se encontraron inconsistencias entre ciudades y áreas metropolitanas")

print(f"\nProceso completado. df2 listo para usar con shape: {df2.shape}")



Se encontraron 4 ciudades con inconsistencias
Ciudades problemáticas: ['Atlanta', 'Baltimore', 'Oakland', 'Washington']
Aplicando correcciones en df2...


Corrigiendo ciudades: 100%|██████████| 4/4 [00:00<00:00, 1205.00it/s]

Inconsistencias corregidas: 4
Inconsistencias restantes: 0

Proceso completado. df2 listo para usar con shape: (8108, 17)





## Identificar outliers (datos atípicos).

Identificar los datos atípicos para futuros análisis.

In [68]:
#identificar columnas numericas
df2.describe()

Unnamed: 0,id_geografico,poblacion_total,poblacion_mayor_de_25,ingreso_medio,valor_medio_de_vivienda,educacion,poblacion_blanca,poblacion_afroamericana,poblacion_nativa,poblacion_asiatica,nativo_hawaiano,alguna_otra_etnia,dos_o_mas_etnias,poblacion_hispana_o_latina
count,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0,8108.0
mean,27700410000.0,4540.991367,3116.549581,-10030570.0,-28061550.0,1270.73076,2127.028737,906.948939,42.026517,496.718426,5.165269,22.510237,101.065244,871.855821
std,11792570000.0,2157.606876,1475.511641,79488880.0,131689300.0,972.696508,1751.040181,1311.060928,157.364883,741.377194,30.010073,64.551413,104.279538,1066.966848
min,6001400000.0,0.0,0.0,-666666700.0,-666666700.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,13247060000.0,3101.0,2134.0,47740.75,228800.0,561.0,657.75,82.0,0.0,64.0,0.0,0.0,28.0,214.0
50%,34025810000.0,4345.5,2996.5,72649.0,368100.0,1094.0,1960.0,367.0,0.0,231.0,0.0,0.0,75.0,493.0
75%,36059520000.0,5680.0,3894.25,102586.8,564925.0,1697.25,3155.25,1210.5,17.0,581.25,0.0,22.0,137.0,1041.0
max,54037970000.0,28937.0,21613.0,250001.0,2000001.0,10542.0,15657.0,16655.0,906.0,7822.0,892.0,1325.0,1246.0,12424.0


Se pueden identificar valores anomalos en "ingreso_medio" y "valor_medio_de_vivienda" que son conceptualmente imposibles y representan errores de medición o codificación. Distorsionan completamente las estadísticas (medias negativas) e invalidan cualquier análisis futuro. Su eliminación es necesaria en esta etapa para preservar la integridad de los datos.

In [69]:
# Verificación de datos que se eliminaran.
registros_erroneos = df2[(df2['ingreso_medio'] <= 0) | (df2['valor_medio_de_vivienda'] <= 0)]
print(f"Registros a eliminar: {len(registros_erroneos)} de {len(df2)}")

Registros a eliminar: 1092 de 8108


Analisis y verificación para ambas columnas usando boxplot.

In [70]:
import plotly.express as px
fig = px.box(df2, y='valor_medio_de_vivienda', title='Detección de datos atípicos')
fig.update_layout(width=300,height=500) 
fig.show()

In [71]:
fig = px.box(df2, y='ingreso_medio', title='Detección de datos atípicos')
fig.update_layout(width=300,height=500) 
fig.show()

Una vez que se ha comprobado que estas anomalias son distorcionan demasiado los datos, procedemos a eliminarlos y se comprobara que se ha hecho correctamente.

In [72]:
# Calcular IQR
q1 = df2['valor_medio_de_vivienda'].quantile(0.25)
q3 = df2['valor_medio_de_vivienda'].quantile(0.75)
iqr = q3 - q1
# Filtros IQR
filtro_inferior = df2['valor_medio_de_vivienda'] > q1 - (iqr * 1.5)
#filtro_superior = df['valor_medio_de_vivienda'] < q3 + (iqr * 1.5)
# Filtro adicional: valores menores o iguales a 2,000,001
# Aplicar filtros
df_filtrado1 = df2[filtro_inferior]
# Graficar
fig = px.box(df_filtrado1, y='valor_medio_de_vivienda', 
             title='Datos atípicos eliminados')
fig.update_layout(width=300, height=500)
fig.show()

In [73]:
#Se define el cuartil 75 y se le resta el cuartil 25
iqr = df_filtrado1['ingreso_medio'].quantile(0.75) - df_filtrado1['ingreso_medio'].quantile(0.25)
#Desarrollamos filtros superior o inferior por lo general es el iqr por 1.5 pero se puede manejar el número
filtro_inferior = df_filtrado1['ingreso_medio'] > df_filtrado1['ingreso_medio'].quantile(0.25) - (iqr * 1.5)

df_filtrado2 = df_filtrado1[filtro_inferior]

#Graficando el boxplot
fig = px.box(df_filtrado2, y='ingreso_medio', title='Datos atípicos inferiores eliminados')
fig.update_layout(width=300,height=500) 
fig.show() 

## Tratamiento de outliers.

La eliminación de outliers se realizo en este momento, pues como hemos visto, generan una gran asimetria de los datos dentro de las dos variables "ingreso_medio" y "valor_medio_de_vivienda".

Ahora se crea un dataset filtrado que contiene datos limpios y sin los outliers.

## Corrección de valores en columnas poblacionales.

Aquí se comprobará si las columnas poblacionales son correctas

In [74]:
# Detección y correción de valores incorrectos en columnas poblacionales

columnas_etnicas = [
    "poblacion_blanca",
    "poblacion_afroamericana", 
    "poblacion_nativa",
    "poblacion_asiatica",
    "nativo_hawaiano",
    "alguna_otra_etnia",
    "dos_o_mas_etnias",
    "poblacion_hispana_o_latina"]

def comparar_con_total(df_filtrado2, columnas, col_total="poblacion_total"):
    for col in columnas:
        if col == col_total:
            continue  # evitamos comparar la columna consigo misma
        problema = df_filtrado2[df_filtrado2[col] > df_filtrado2[col_total]]
        print(f"Registros con {col} > {col_total}: {len(problema)}")

comparar_con_total(df_filtrado2, columnas_etnicas)

condicion = df_filtrado2["educacion"] > df_filtrado2["poblacion_mayor_de_25"]

# Contar cuántos casos hay
conteo = condicion.sum()
print(f"\n Registros con educacion > poblacion_mayor_de_25: {conteo}")

Registros con poblacion_blanca > poblacion_total: 52
Registros con poblacion_afroamericana > poblacion_total: 6
Registros con poblacion_nativa > poblacion_total: 2
Registros con poblacion_asiatica > poblacion_total: 1
Registros con nativo_hawaiano > poblacion_total: 0
Registros con alguna_otra_etnia > poblacion_total: 0
Registros con dos_o_mas_etnias > poblacion_total: 0
Registros con poblacion_hispana_o_latina > poblacion_total: 2

 Registros con educacion > poblacion_mayor_de_25: 35


Ya que se ha detectado un grave error, pues las poblaciones no pueden superar el 100% de la población total ni los registros de educación pueden superar el número de personas mayores de 25 años, por lo tanto, se debe corregir este error.

Dada la existencia de este problema se recurrir a la detección y tratamiento de los outliers. Esto para variables demográficas.

In [75]:
#Corrige las poblaciones manteniendo las proporciones relativas

def corregir_poblaciones(df_filtrado2, columnas_etnicas, col_total='poblacion_total'): 
    df_corregido = df_filtrado2.copy()
    
    for idx, row in df_filtrado2.iterrows():
        suma_etnias = row[columnas_etnicas].sum()
        poblacion_total = row[col_total]
        
        # Si la suma excede el total, escalar proporcionalmente
        if suma_etnias > poblacion_total:
            factor_escala = poblacion_total / suma_etnias
            for col in columnas_etnicas:
                df_corregido.at[idx, col] = round(row[col] * factor_escala)
    
    return df_corregido

df_corregido = corregir_poblaciones(df_filtrado2, columnas_etnicas)

def corregir_edu(df_corregido, col_educacion, col_mayores_25):
    df_all_corr = df_corregido.copy()
    
    # Crear variable corregida
    df_all_corr['educacion'] = df_all_corr[col_educacion]
    
    # Aplicar corrección
    mask = df_all_corr[col_educacion] > df_all_corr[col_mayores_25]
    df_all_corr.loc[mask, 'educacion'] = df_all_corr.loc[mask, col_mayores_25]

    return df_all_corr

df_all_corr = corregir_edu(df_corregido, 'educacion', 'poblacion_mayor_de_25')

Cabe señalar que se aplicó corrección proporcional para mantener la estructura relativa de los datos étnicos, eliminando inconsistencias donde la suma de subpoblaciones excedía el total reportado, garantizando coherencia metodológica en los porcentajes demográficos sin introducir sesgos externos.

In [76]:
# Verificar el estado del datast de outliers

df_all_corr.describe()

Unnamed: 0,id_geografico,poblacion_total,poblacion_mayor_de_25,ingreso_medio,valor_medio_de_vivienda,educacion,poblacion_blanca,poblacion_afroamericana,poblacion_nativa,poblacion_asiatica,nativo_hawaiano,alguna_otra_etnia,dos_o_mas_etnias,poblacion_hispana_o_latina
count,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0,7016.0
mean,27581510000.0,4612.054732,3170.48817,83345.561288,468153.4,1303.725342,2150.310291,877.571266,34.977195,495.96394,5.159635,22.227623,100.905217,835.909778
std,11818690000.0,2109.165448,1433.768641,39927.650818,304143.7,960.323267,1734.699467,1282.381976,125.342737,738.438762,30.536746,61.235714,103.145257,1019.14748
min,6001400000.0,37.0,37.0,9053.0,10500.0,8.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,13226070000.0,3166.5,2187.75,53829.5,266875.0,599.0,753.75,82.0,0.0,67.75,0.0,0.0,28.0,213.75
50%,34023010000.0,4387.0,3031.0,77071.0,394450.0,1130.0,1889.0,352.0,0.0,237.0,0.0,0.0,75.0,482.0
75%,36059520000.0,5713.25,3922.25,105060.0,594325.0,1729.5,3160.0,1156.0,17.0,581.25,0.0,22.0,137.0,995.0
max,54037970000.0,28937.0,21613.0,250001.0,2000001.0,10542.0,15345.0,16196.0,906.0,7579.0,888.0,1325.0,990.0,12400.0


In [77]:
print(comparar_con_total(df_all_corr, columnas_etnicas))

condicion = df_all_corr["educacion"] > df_all_corr["poblacion_mayor_de_25"]
conteo = condicion.sum()
print(f"\nRegistros con educacion > poblacion_mayor_de_25: {conteo}")

Registros con poblacion_blanca > poblacion_total: 0
Registros con poblacion_afroamericana > poblacion_total: 0
Registros con poblacion_nativa > poblacion_total: 0
Registros con poblacion_asiatica > poblacion_total: 0
Registros con nativo_hawaiano > poblacion_total: 0
Registros con alguna_otra_etnia > poblacion_total: 0
Registros con dos_o_mas_etnias > poblacion_total: 0
Registros con poblacion_hispana_o_latina > poblacion_total: 0
None

Registros con educacion > poblacion_mayor_de_25: 0


La eliminación ha sido exitosa.

# Verificar la limpieza de la base de datos.

Ya que se han realizado los pasos anteriores, verificar datos nulos, conversión de datos (de string a float y de float a entero), identificación y corrección de datos no coherentes, traducción de textos, cambios de nombres a columnas, detectar y corregir duplicados y finalmente identificar y estandarizar outliers, se procede a verificar que todo se ha llevado a cabao correctamente y que la base esta realmente limpia.

In [78]:
# Verificar columnas totales restantes
df_all_corr.info()

#Verificar el total de valores nulos
print(f"\n---Datos nulos restantes: \n{df_all_corr.isnull().sum()}") 

#Verificar el total de duplicados
print(f"\n---Duplicados restantes: \n{df_all_corr.duplicated().sum()}") 

<class 'pandas.core.frame.DataFrame'>
Index: 7016 entries, 1 to 10571
Data columns (total 17 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   id_geografico               7016 non-null   int64 
 1   nombre                      7016 non-null   object
 2   poblacion_total             7016 non-null   int64 
 3   poblacion_mayor_de_25       7016 non-null   int64 
 4   ingreso_medio               7016 non-null   int64 
 5   valor_medio_de_vivienda     7016 non-null   int64 
 6   educacion                   7016 non-null   int64 
 7   poblacion_blanca            7016 non-null   int64 
 8   poblacion_afroamericana     7016 non-null   int64 
 9   poblacion_nativa            7016 non-null   int64 
 10  poblacion_asiatica          7016 non-null   int64 
 11  nativo_hawaiano             7016 non-null   int64 
 12  alguna_otra_etnia           7016 non-null   int64 
 13  dos_o_mas_etnias            7016 non-null   int64 
 

## Se ha logrado la limpieza exitosa de la base de datos.

Por lo tanto se procede a la creación de un nuevo archivo csv con la base limpia.

In [79]:
#Guardar los resultados en un csv
df_all_corr.to_csv("Census_limpios_final.csv", index=False)