### 🐍 Carga y revisión de datos con pandas en Google Colab

In [27]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Cargamos el archivo desde nuestro equipo a Google Colab
from google.colab import files
uploaded = files.upload()

Saving base_pib_estatal.csv to base_pib_estatal (2).csv


In [29]:
# Leemos el archivo CSV cargado (asegúrate de que se llama igual)
df = pd.read_csv('base_pib_estatal.csv', encoding='latin1')

### 👀 Primer vistazo a los datos




In [33]:
# Mostramos las primeras filas del DataFrame
df.head()

Unnamed: 0,Entidad,PIB,Anio
0,Aguascalientes,307375.128,2018
1,Baja California,824068.035,2018
2,Baja California Sur,175398.34,2018
3,Campeche,555407.927,2018
4,Chiapas,340219.119,2018


### 📌 Revisión de nombres de columnas


In [34]:
# Mostramos los nombres de las columnas
df.columns

Index(['Entidad', 'PIB ', 'Anio'], dtype='object')

###🗒️ Nota importante :

Los nombres de columnas a veces tienen **espacios al inicio o al final**, lo que puede causar errores al intentar llamarlos. Por ejemplo:


In [35]:
# Esta línea generará un error si hay un espacio al final
#  Puede fallar si la columna se llama 'PIB ' (con espacio)
df['PIB']

KeyError: 'PIB'

In [36]:
# La forma correcta sería:
 # ✅ Ojo con el espacio final
df['PIB ']

Unnamed: 0,PIB
0,307375.128
1,824068.035
2,175398.340
3,555407.927
4,340219.119
...,...
169,
170,
171,
172,


Unnamed: 0,PIB
0,307375.128
1,824068.035
2,175398.340
3,555407.927
4,340219.119
...,...
169,
170,
171,
172,


### 🛠 Alternativas para evitar problemas con espacios


In [37]:
# 1. Eliminar espacios en los nombres de las columnas
df.columns = df.columns.str.strip()

In [38]:
df.columns

Index(['Entidad', 'PIB', 'Anio'], dtype='object')

. 2 **Reemplazar espacios por guiones bajos**

```python
df.columns = df.columns.str.replace(' ', '_')
```

3. **Convertir todos los nombres a minúsculas**

```python
df.columns = df.columns.str.lower()
```

> Puedes combinar todas en una sola línea si lo deseas:

```python
df.columns = df.columns.str.strip().str.replace(' ', '_').str.lower()
```

### 🔍 Revisión de los nombres de los estados


In [39]:
# Revisamos los valores únicos de la columna Entidad
df['Entidad'].unique()

array([' Aguascalientes ', ' Baja California ', ' Baja California Sur ',
       ' Campeche ', ' Chiapas ', ' Chihuahua ', ' Ciudad de México ',
       ' Coahuila de Zaragoza ', ' Colima ', ' Durango ', ' Guanajuato ',
       ' Guerrero ', ' Hidalgo ', ' Jalisco ', ' México ',
       ' Michoacán de Ocampo ', ' Morelos ', ' Nayarit ', ' Nuevo León ',
       ' Oaxaca ', ' Puebla ', ' Querétaro ', ' Quintana Roo ',
       ' San Luis Potosí ', ' Sinaloa ', ' Sonora ', ' Tabasco ',
       ' Tamaulipas ', ' Tlaxcala ', ' Total nacional ',
       ' Veracruz de Ignacio de la Llave ', ' Yucatán ', ' Zacatecas '],
      dtype=object)


**🎯 Nota:**

> También los valores de las columnas pueden traer **espacios al inicio o al final**. Por ejemplo, `'Aguascalientes '` no es lo mismo que `'Aguascalientes'`.

Para corregir esto:

In [40]:
# Eliminamos espacios en los nombres de los estados
df['Entidad'] = df['Entidad'].str.strip()

In [41]:
df.Entidad.unique()

array(['Aguascalientes', 'Baja California', 'Baja California Sur',
       'Campeche', 'Chiapas', 'Chihuahua', 'Ciudad de México',
       'Coahuila de Zaragoza', 'Colima', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo',
       'Morelos', 'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla',
       'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa',
       'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala', 'Total nacional',
       'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas'],
      dtype=object)

### 📊 Información del DataFrame

Para ver el número de valores faltantes y el tipo de datos por columna:


In [23]:
# Muestra tipos de datos y número de valores no nulos por columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 174 entries, 0 to 173
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Entidad  174 non-null    object 
 1   PIB      165 non-null    float64
 2   Anio     174 non-null    int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 4.2+ KB


In [24]:
# Muestra el número de valores faltantes (NaN) por columna
df.isna().sum()

Unnamed: 0,0
Entidad,0
PIB,9
Anio,0


In [25]:
# Estadísticas básicas para columnas numéricas
df.describe()

Unnamed: 0,PIB,Anio
count,165.0,174.0
mean,1353641.0,2020.155172
std,3779989.0,1.533462
min,126825.1,2018.0
25%,297644.6,2019.0
50%,505706.3,2020.0
75%,840815.4,2021.0
max,22935860.0,2023.0


### ✅ Resumen final

1. Siempre revisa si los nombres de columnas o valores traen **espacios ocultos**.
2. Usa `.columns` para ver los nombres y `.str.strip()` para limpiar.
3. Usa `.info()` y `.isna().sum()` para revisar los datos antes de trabajar con ellos.


In [26]:
df1 = df[df['Entidad'] != 'Total Nacional']
df1.Entidad.unique()

array(['Aguascalientes', 'Baja California', 'Baja California Sur',
       'Campeche', 'Chiapas', 'Chihuahua', 'Ciudad de México',
       'Coahuila de Zaragoza', 'Colima', 'Durango', 'Guanajuato',
       'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo',
       'Morelos', 'Nayarit', 'Nuevo León', 'Oaxaca', 'Puebla',
       'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa',
       'Sonora', 'Tabasco', 'Tamaulipas', 'Tlaxcala', 'Total nacional',
       'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas'],
      dtype=object)