<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/An%C3%A1lisis_de_Datos_con_Pandas_y_JSON_(Opcional).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análisis de Datos con Pandas y JSON (Opcional)

## Objetivo

El objetivo de este desafío es evaluar tus habilidades en el manejo de datos utilizando Pandas. Trabajarás con un dataset en formato JSON extraído de una API y aplicarás técnicas de carga, exploración, filtrado y slicing de datos.



## Dataset

Utilizaremos datos de clima de una API pública. El dataset incluye información sobre la temperatura, humedad, condiciones meteorológicas y otros detalles relacionados con el clima en diferentes ciudades. Puedes obtener datos de clima de la API OpenWeatherMap.



**Nota:** Para realizar este desafío, necesitarás tu propia clave de API de OpenWeatherMap. Puedes registrarte gratuitamente en su sitio web y obtener tu API key, la cual debes reemplazar en el código donde se indica api_key = 'tu_api_key'.

## Instrucciones

## 1. Preparación del Entorno

Asegúrate de tener instalado Pandas en tu entorno de trabajo.

Instala la biblioteca requests para realizar solicitudes HTTP.

In [7]:
# Instala la biblioteca requests para realizar solicitudes HTTP.
# !pip install requests
import pandas as pd
import requests


## 2. Obtener los Datos

Realiza una solicitud HTTP a la API de OpenWeatherMap para obtener datos de clima en formato JSON.

Recuerda reemplazar 'tu_api_key' por tu propia clave de API.

Carga los datos en un DataFrame de Pandas.

Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

In [51]:
import requests
import json  # Importar el módulo json para formatear los datos
import pandas as pd  # Importar pandas para manejar DataFrames

# Configura tu clave de API y la ciudad
api_key = '3198a52f3cd8332153bc6594a604b310'  # Reemplaza con tu propia clave
city = 'Bogota'
url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"

# Realiza la solicitud HTTP a la API
response = requests.get(url)

# Verifica si la solicitud fue exitosa
if response.status_code == 200:
    # Obtén los datos JSON
    data = response.json()

    # Muestra los datos JSON de forma ordenada con sangrías
    print("Datos JSON ordenados:")
    print(json.dumps(data, indent=4))  # Utiliza json.dumps para formatear los datos

    # Normaliza el JSON en un DataFrame
    print("\nDatos JSON procesados en DataFrame:")
    df = pd.json_normalize(data)
    df_head_10 =  df.head(10)
    print(df_head_10.to_string(index=False))  # Imprime la tabla completa en la consola, sin índices

else:
    # Muestra el error si la solicitud no fue exitosa
    print(f"Error en la solicitud. Código de estado: {response.status_code}")
    print(f"Mensaje de error: {response.text}")



Datos JSON ordenados:
{
    "coord": {
        "lon": -74.0817,
        "lat": 4.6097
    },
    "weather": [
        {
            "id": 802,
            "main": "Clouds",
            "description": "scattered clouds",
            "icon": "03d"
        }
    ],
    "base": "stations",
    "main": {
        "temp": 17.41,
        "feels_like": 16.98,
        "temp_min": 16.92,
        "temp_max": 19.26,
        "pressure": 1010,
        "humidity": 68,
        "sea_level": 1010,
        "grnd_level": 734
    },
    "visibility": 8000,
    "wind": {
        "speed": 5.66,
        "deg": 280
    },
    "clouds": {
        "all": 40
    },
    "dt": 1733430408,
    "sys": {
        "type": 1,
        "id": 8582,
        "country": "CO",
        "sunrise": 1733395882,
        "sunset": 1733438599
    },
    "timezone": -18000,
    "id": 3688689,
    "name": "Bogota",
    "cod": 200
}

Datos JSON procesados en DataFrame:
                                                                      

In [58]:
import requests
import json  # Importar el módulo json para formatear los datos
import pandas as pd  # Importar pandas para manejar DataFrames

# Configura tu clave de API y la ciudad
api_key = '3198a52f3cd8332153bc6594a604b310'  # Reemplaza con tu propia clave
city = 'Bogota'
url = f"http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}&units=metric"

# Realiza la solicitud HTTP a la API
response = requests.get(url)

data = response.json()

# Crear un DataFrame a partir de los datos JSON
df = pd.json_normalize(data)
print("Primeras 10 filas del DataFrame:")
print(df.head(10))



Primeras 10 filas del DataFrame:
                                             weather      base  visibility  \
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1733431153    -18000  3688689  Bogota  200   -74.0817     4.6097  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1011              735        5.66       280          40   

   sys.type  sys.id  sys.country  sys.sunrise  sys.sunset  
0         1    8582           CO   1733395882  1733438599  

[1 rows x 26 columns]
nÚltimas 5 filas del DataFrame:
                                             weather      base  visibility  \
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1733431153    -18000  3688689  Bogota  200   -74.0817     4.6097  ...   

   main.sea_level  main.grn

## Exploración Inicial de los Datos

Muestra las últimas 5 filas del DataFrame.

Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.

Genera estadísticas descriptivas del DataFrame utilizando el método describe().

In [66]:
# Paso 3: Exploración Inicial de los Datos
print("\nUltimas 5 filas del DataFrame:")
print(df.tail(5))


print("\nInformación del DataFrame:")
print(df.info())

print("\nEstadísticas descriptivas del DataFrame:")
print(df.describe())



Ultimas 5 filas del DataFrame:
                                             weather      base  visibility  \
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1733431153    -18000  3688689  Bogota  200   -74.0817     4.6097  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1011              735        5.66       280          40   

   sys.type  sys.id  sys.country  sys.sunrise  sys.sunset  
0         1    8582           CO   1733395882  1733438599  

[1 rows x 26 columns]

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   weather          1 non-null      object 
 1   base             1 non-null      object 
 2   visibility       1 non-null      int64  
 3   dt    

## 4. Inspección de los Datos

Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.

Cuenta los valores únicos en la columna weather utilizando el método value_counts().

Muestra todos los valores únicos en la columna city utilizando el método unique().

In [68]:
# Inspecciona los tipos de datos de cada columna utilizando el atributo dtypes.

print("\nTipos de datos de cada columna:")
df.dtypes


Tipos de datos de cada columna:


Unnamed: 0,0
weather,object
base,object
visibility,int64
dt,int64
timezone,int64
id,int64
name,object
cod,int64
coord.lon,float64
coord.lat,float64


In [70]:
# Cuenta los valores únicos en la columna weather utilizando el método value_counts().

print("\nValores únicos en la columna weather:")
df['weather'].value_counts()


Valores únicos en la columna weather:


Unnamed: 0_level_0,count
weather,Unnamed: 1_level_1
"[{'id': 802, 'main': 'Clouds', 'description': 'scattered clouds', 'icon': '03d'}]",1


In [75]:
# Muestra todos los valores únicos en la columna city utilizando el método unique().

print("\nValores únicos en la columna city:")
df['name'].unique()


Valores únicos en la columna city:


array(['Bogota'], dtype=object)

## 5. Filtrado de Datos

Filtra el DataFrame para mostrar solo las filas donde la temperatura (temp) sea mayor a 20 grados Celsius.

Filtra el DataFrame para mostrar solo las filas donde la humedad (humidity) sea menor a 50%.

Utilizando el método query(), filtra el DataFrame para mostrar las filas donde la ciudad sea London y la temperatura sea menor a 15 grados Celsius.

In [79]:
# Filtra el DataFrame para mostrar solo las filas donde la temperatura (temp) sea mayor a 20 grados Celsius.

df_temp_20 = df[df['main.temp'] > 10]
print("\nFilas con temperatura mayor a 20 grados Celsius:")
print(df_temp_20)



Filas con temperatura mayor a 20 grados Celsius:
                                             weather      base  visibility  \
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1733431153    -18000  3688689  Bogota  200   -74.0817     4.6097  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1011              735        5.66       280          40   

   sys.type  sys.id  sys.country  sys.sunrise  sys.sunset  
0         1    8582           CO   1733395882  1733438599  

[1 rows x 26 columns]


In [85]:
# Filtra el DataFrame para mostrar solo las filas donde la humedad (humidity) sea menor a 50%.

df_humidity_50 = df[df['main.humidity'] < 50]
print("\nFilas con humedad menor a 50%:")
print(df_humidity_50)
#


Filas con humedad menor a 50%:
Empty DataFrame
Columns: [weather, base, visibility, dt, timezone, id, name, cod, coord.lon, coord.lat, main.temp, main.feels_like, main.temp_min, main.temp_max, main.pressure, main.humidity, main.sea_level, main.grnd_level, wind.speed, wind.deg, clouds.all, sys.type, sys.id, sys.country, sys.sunrise, sys.sunset]
Index: []

[0 rows x 26 columns]


In [90]:
# Utilizando el método query(), filtra el DataFrame para mostrar las filas donde la ciudad sea London y la temperatura sea menor a 15 grados Celsius.

# Renombra las columnas para facilitar la consulta
df = df.rename(columns={'main.temp': 'main_temp', 'name': 'city'})

# Filtra los datos con query()
filtered_df = df.query("city == 'Bogota' and main_temp > 15")

# Muestra el resultado
print(filtered_df)

                                             weather      base  visibility  \
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000   

           dt  timezone       id    city  cod  coord.lon  coord.lat  ...  \
0  1733431153    -18000  3688689  Bogota  200   -74.0817     4.6097  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1011              735        5.66       280          40   

   sys.type  sys.id  sys.country  sys.sunrise  sys.sunset  
0         1    8582           CO   1733395882  1733438599  

[1 rows x 26 columns]


## 6 Slicing de Datos

Selecciona y muestra solo las columnas city y temp del DataFrame.

Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas city y weather.

Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

In [92]:
# Selecciona y muestra solo las columnas city y temp del DataFrame.

print("\nColumnas city y temp:")
print(df[['city', 'main_temp']])


Columnas city y temp:
     city  main_temp
0  Bogota      17.73


In [93]:
# Utilizando loc[], selecciona y muestra las filas de la 5 a la 10 (inclusive) y las columnas city y weather.

print("\nFilas de la 5 a la 10 (inclusive) y columnas city y weather:")
print(df.loc[5:10, ['city', 'weather']])


Filas de la 5 a la 10 (inclusive) y columnas city y weather:
Empty DataFrame
Columns: [city, weather]
Index: []


In [94]:
# Utilizando iloc[], selecciona y muestra las primeras 5 filas y las primeras 3 columnas del DataFrame.

df_iloc = df.iloc[:5, :3]
print("\nFilas y columnas seleccionadas con iloc:")
print(df_iloc)


Filas y columnas seleccionadas con iloc:
                                             weather      base  visibility
0  [{'id': 802, 'main': 'Clouds', 'description': ...  stations        8000
