## Análisis de Datos con Pandas y JSON (Opcional)
* Objetivo

  * El objetivo de este desafío es evaluar tus habilidades en el manejo de datos utilizando Pandas. Trabajarás con un dataset en formato JSON extraído de una API y aplicarás técnicas de carga, exploración, filtrado y slicing de datos.

In [2]:
import pandas as pd
import requests



In [14]:
api_key = '5f824abaf133ababd0f8ae51cf0a5101'
url = f'http://api.openweathermap.org/data/2.5/weather?q=London&appid={api_key}&units=metric'
response = requests.get(url)
data = response.json()

In [15]:
# Crea un DataFrame a partir de los datos JSON
df = pd.json_normalize(data)

In [16]:
print("Prirmeras 10 filas del DataFrame :")
print(df.head(10))

Prirmeras 10 filas del DataFrame :
                                             weather      base  visibility  \
0  [{'id': 803, 'main': 'Clouds', 'description': ...  stations       10000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1749562836      3600  2643743  London  200    -0.1257    51.5085  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1017             1013        5.66       280          75   

   sys.type   sys.id  sys.country  sys.sunrise  sys.sunset  
0         2  2075535           GB   1749527035  1749586574  

[1 rows x 26 columns]


In [18]:
# Paso 3: Exploración Inicial de los Datos
print("Últimas 5 filas del DataFrame:")
print(df.tail(5))

Últimas 5 filas del DataFrame:
                                             weather      base  visibility  \
0  [{'id': 803, 'main': 'Clouds', 'description': ...  stations       10000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1749562836      3600  2643743  London  200    -0.1257    51.5085  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1017             1013        5.66       280          75   

   sys.type   sys.id  sys.country  sys.sunrise  sys.sunset  
0         2  2075535           GB   1749527035  1749586574  

[1 rows x 26 columns]


In [19]:
print("Información del DataFrame:")
print(df.info())

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 26 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   weather          1 non-null      object 
 1   base             1 non-null      object 
 2   visibility       1 non-null      int64  
 3   dt               1 non-null      int64  
 4   timezone         1 non-null      int64  
 5   id               1 non-null      int64  
 6   name             1 non-null      object 
 7   cod              1 non-null      int64  
 8   coord.lon        1 non-null      float64
 9   coord.lat        1 non-null      float64
 10  main.temp        1 non-null      float64
 11  main.feels_like  1 non-null      float64
 12  main.temp_min    1 non-null      float64
 13  main.temp_max    1 non-null      float64
 14  main.pressure    1 non-null      int64  
 15  main.humidity    1 non-null      int64  
 16  main.sea_level   1 non-null      int64 

In [20]:
print("Estadísticas descriptivas del DataFrame:")
print(df.describe())

Estadísticas descriptivas del DataFrame:
       visibility            dt  timezone         id    cod  coord.lon  \
count         1.0  1.000000e+00       1.0        1.0    1.0     1.0000   
mean      10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   
std           NaN           NaN       NaN        NaN    NaN        NaN   
min       10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   
25%       10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   
50%       10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   
75%       10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   
max       10000.0  1.749563e+09    3600.0  2643743.0  200.0    -0.1257   

       coord.lat  main.temp  main.feels_like  main.temp_min  ...  \
count     1.0000       1.00             1.00           1.00  ...   
mean     51.5085      21.29            21.09          20.06  ...   
std          NaN        NaN              NaN            NaN  ...   
min      51.5085    

In [22]:
# Paso 4: Inspección de los Datos
print("Tipos de datos de las columnas:")
print(df.dtypes)

Tipos de datos de las columnas:
weather             object
base                object
visibility           int64
dt                   int64
timezone             int64
id                   int64
name                object
cod                  int64
coord.lon          float64
coord.lat          float64
main.temp          float64
main.feels_like    float64
main.temp_min      float64
main.temp_max      float64
main.pressure        int64
main.humidity        int64
main.sea_level       int64
main.grnd_level      int64
wind.speed         float64
wind.deg             int64
clouds.all           int64
sys.type             int64
sys.id               int64
sys.country         object
sys.sunrise          int64
sys.sunset           int64
dtype: object


In [23]:
print("Conteo de valores únicos en la columna 'weather.main':")
print(df['weather'][0][0]['main'])

Conteo de valores únicos en la columna 'weather.main':
Clouds


In [24]:
print("Valores únicos en la columna 'name':")
print(df['name'].unique())

Valores únicos en la columna 'name':
['London']


### Paso 5: Filtrado de Datos

In [25]:
# Paso 5: Filtrado de Datos
df['main.temp'] = df['main.temp'].astype(float)
df['main.humidity'] = df['main.humidity'].astype(float)

In [27]:
temp_mayor_20 = df[df['main.temp'] > 20]
print("Filas donde la temperatura es mayor a 20 grados Celsius:")
print(temp_mayor_20)

Filas donde la temperatura es mayor a 20 grados Celsius:
                                             weather      base  visibility  \
0  [{'id': 803, 'main': 'Clouds', 'description': ...  stations       10000   

           dt  timezone       id    name  cod  coord.lon  coord.lat  ...  \
0  1749562836      3600  2643743  London  200    -0.1257    51.5085  ...   

   main.sea_level  main.grnd_level  wind.speed  wind.deg  clouds.all  \
0            1017             1013        5.66       280          75   

   sys.type   sys.id  sys.country  sys.sunrise  sys.sunset  
0         2  2075535           GB   1749527035  1749586574  

[1 rows x 26 columns]


In [28]:
humedad_menor_50 = df[df['main.humidity'] < 50]
print("Filas donde la humedad es menor a 50%:")
print(humedad_menor_50)

Filas donde la humedad es menor a 50%:
Empty DataFrame
Columns: [weather, base, visibility, dt, timezone, id, name, cod, coord.lon, coord.lat, main.temp, main.feels_like, main.temp_min, main.temp_max, main.pressure, main.humidity, main.sea_level, main.grnd_level, wind.speed, wind.deg, clouds.all, sys.type, sys.id, sys.country, sys.sunrise, sys.sunset]
Index: []

[0 rows x 26 columns]


In [32]:
query_result = df.query('name == "London" & main.temp < 15')
print("Filas donde la ciudad es 'London' y la temperatura es menor a 15 grados Celsius:")
print(query_result)

TypeError: '<' not supported between instances of 'str' and 'int'

la columna main.temp muestra error en la sentencia querry, por que la interpreta como objeto y atributo por tener un punto en medio.

In [34]:
# Paso 6: Slicing de Datos
city_temp = df[['name', 'main.temp']]
print("Columnas 'city' y 'temp':")
print(city_temp)


Columnas 'city' y 'temp':
     name  main.temp
0  London      21.29


In [36]:
loc_result = df.loc[5:10, ['name', 'weather']]
print("Filas 5 a 10 y columnas 'name' y 'weather' usando loc:")
print(loc_result)

Filas 5 a 10 y columnas 'name' y 'weather' usando loc:
Empty DataFrame
Columns: [name, weather]
Index: []


In [38]:
iloc_result = df.iloc[0:5, 0:3]
print("Primeras 5 filas y primeras 3 columnas usando iloc:")
print(iloc_result)

Primeras 5 filas y primeras 3 columnas usando iloc:
                                             weather      base  visibility
0  [{'id': 803, 'main': 'Clouds', 'description': ...  stations       10000
