In [18]:
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt

### Carga de datos

#### ¿Cuántas filas y columnas tiene el dataset?

In [19]:
weather = pd.read_csv('./dataset/weatherAUS.csv')
rows, columns = weather.shape
print(f"Rows: {rows}, Columns: {columns}")

Rows: 145460, Columns: 23


#### ¿Qué atributos presenta el dataset y qué describen? ¿Qué tipos de datos tiene cada atributo?

In [20]:
attributes = weather.dtypes
attributes

Date              object
Location          object
MinTemp          float64
MaxTemp          float64
Rainfall         float64
Evaporation      float64
Sunshine         float64
WindGustDir       object
WindGustSpeed    float64
WindDir9am        object
WindDir3pm        object
WindSpeed9am     float64
WindSpeed3pm     float64
Humidity9am      float64
Humidity3pm      float64
Pressure9am      float64
Pressure3pm      float64
Cloud9am         float64
Cloud3pm         float64
Temp9am          float64
Temp3pm          float64
RainToday         object
RainTomorrow      object
dtype: object


1. **Date**: `object` - La fecha de la observación.
2. **Location**: `object` - La ubicación donde se realizó la observación.
3. **MinTemp**: `float64` - La temperatura mínima del día en grados Celsius.
4. **MaxTemp**: `float64` - La temperatura máxima del día en grados Celsius.
5. **Rainfall**: `float64` - La cantidad de lluvia registrada en milímetros.
6. **Evaporation**: `float64` - La cantidad de evaporación en milímetros.
7. **Sunshine**: `float64` - La cantidad de horas de sol.
8. **WindGustDir**: `object` - La dirección del viento más fuerte registrado.
9. **WindGustSpeed**: `float64` - La velocidad del viento más fuerte registrado en km/h.
10. **WindDir9am**: `object` - La dirección del viento a las 9 AM.
11. **WindDir3pm**: `object` - La dirección del viento a las 3 PM.
12. **WindSpeed9am**: `float64` - La velocidad del viento a las 9 AM en km/h.
13. **WindSpeed3pm**: `float64` - La velocidad del viento a las 3 PM en km/h.
14. **Humidity9am**: `float64` - La humedad relativa a las 9 AM en porcentaje.
15. **Humidity3pm**: `float64` - La humedad relativa a las 3 PM en porcentaje.
16. **Pressure9am**: `float64` - La presión atmosférica a las 9 AM en hPa.
17. **Pressure3pm**: `float64` - La presión atmosférica a las 3 PM en hPa.
18. **Cloud9am**: `float64` - La cantidad de nubosidad a las 9 AM (medida en octavos).
19. **Cloud3pm**: `float64` - La cantidad de nubosidad a las 3 PM (medida en octavos).
20. **Temp9am**: `float64` - La temperatura a las 9 AM en grados Celsius.
21. **Temp3pm**: `float64` - La temperatura a las 3 PM en grados Celsius.
22. **RainToday**: `object` - Indicador de si llovió o no hoy (Yes/No).
23. **RainTomorrow**: `object` - Indicador de si lloverá o no mañana (Yes/No).

#### Verifica la consistencia de los tipos de datos y realizar conversiones si es necesario.

##### Algunos tipos de datos no son consistentes con lo que describen. A continuacion se cambiaran para que lo sean:

In [21]:
weather['Date'] = pd.to_datetime(weather['Date'], errors='coerce')
weather['Location'] = weather['Location'].astype(str)
weather['WindGustDir'] = weather['WindGustDir'].astype(str)
weather['WindDir9am'] = weather['WindDir9am'].astype(str)
weather['WindDir3pm'] = weather['WindDir3pm'].astype(str)
weather['RainToday'] = weather['RainToday'].map({'Yes': True, 'No': False})
weather['RainTomorrow'] = weather['RainTomorrow'].map({'Yes': True, 'No': False})
weather.dtypes

Date             datetime64[ns]
Location                 object
MinTemp                 float64
MaxTemp                 float64
Rainfall                float64
Evaporation             float64
Sunshine                float64
WindGustDir              object
WindGustSpeed           float64
WindDir9am               object
WindDir3pm               object
WindSpeed9am            float64
WindSpeed3pm            float64
Humidity9am             float64
Humidity3pm             float64
Pressure9am             float64
Pressure3pm             float64
Cloud9am                float64
Cloud3pm                float64
Temp9am                 float64
Temp3pm                 float64
RainToday                object
RainTomorrow             object
dtype: object

#### ¿Existen valores faltantes en algunos atributos? ¿Cuáles son las tres columnas con más valores faltantes y cuál es el porcentaje de valores faltantes en cada una?

In [22]:
# Calculculo de porcentaje de valores faltantes en cada columna
missing_values = weather.isna().sum()
total_rows = len(weather)

# Calcular porcentaje de valores faltantes
missing_percentage = (missing_values / total_rows) * 100

# Encontrar las 3 columnas con mas valores faltantes
top_missing = missing_percentage.nlargest(3)
top_missing

Sunshine       48.009762
Evaporation    43.166506
Cloud3pm       40.807095
dtype: float64

#### Para las columnas numéricas, obtener métricas de estadística descriptiva (media, mediana y cuartiles)

In [25]:
# Obtener columnas numericas
df_columnas_numericas = weather.select_dtypes(include=['number'])

#obtengo metricas estadisticas
df_columnas_numericas.describe()


Unnamed: 0,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustSpeed,WindSpeed9am,WindSpeed3pm,Humidity9am,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm
count,143975.0,144199.0,142199.0,82670.0,75625.0,135197.0,143693.0,142398.0,142806.0,140953.0,130395.0,130432.0,89572.0,86102.0,143693.0,141851.0
mean,12.194034,23.221348,2.360918,5.468232,7.611178,40.03523,14.043426,18.662657,68.880831,51.539116,1017.64994,1015.255889,4.447461,4.50993,16.990631,21.68339
std,6.398495,7.119049,8.47806,4.193704,3.785483,13.607062,8.915375,8.8098,19.029164,20.795902,7.10653,7.037414,2.887159,2.720357,6.488753,6.93665
min,-8.5,-4.8,0.0,0.0,0.0,6.0,0.0,0.0,0.0,0.0,980.5,977.1,0.0,0.0,-7.2,-5.4
25%,7.6,17.9,0.0,2.6,4.8,31.0,7.0,13.0,57.0,37.0,1012.9,1010.4,1.0,2.0,12.3,16.6
50%,12.0,22.6,0.0,4.8,8.4,39.0,13.0,19.0,70.0,52.0,1017.6,1015.2,5.0,5.0,16.7,21.1
75%,16.9,28.2,0.8,7.4,10.6,48.0,19.0,24.0,83.0,66.0,1022.4,1020.0,7.0,7.0,21.6,26.4
max,33.9,48.1,371.0,145.0,14.5,135.0,130.0,87.0,100.0,100.0,1041.0,1039.6,9.0,9.0,40.2,46.7
