# Clase 3 - Introducción a Pandas 🐼
Pandas funciona partiendo de las funcionalidades que trae la librería _numpy_.
## Pero antes... ¿Qué es Numpy?
Cuando queremos hacer trabajos analíticos relacionados al procesamiento de información, lo más probable es que nos encontremos trabajando con información estructurada como tablas. Ahora, ¿cómo está compuesta una tabla?
__Para ver una guía mas completa con ejemplos pueden entrar en la página oficial:__ [Numpy quickstart](https://numpy.org/doc/stable/user/quickstart.html)
### Las tablas son matrices con índices:
Debemos pensar a las tablas como una forma de organizar datos, pueden haber otras formas (ya les hable de anidar un diccionario adentro de otro y así sucesivamente). Pero en el caso de las tablas (piensen en el excel); matemáticamente, no son otra cosa que matrices de dos dimensiones a las que se le agrega la propiedad de tener un índice para las filas y un índice para las columnas.
¿A qué me refiero con índices?
Bueno, en realidad ya estamos familiarizados con eso; al índice de las columnas es al que llamamos encabezado de la tabla y el índice de las filas simplemente es el número de fila. Como ven, esto no está lejos de nuestra experiencia con planillas de cálculo excel.
### Las matrices se componen de vectores:
Para la gente que sabe R, ya estamos llegando a un terreno conocido. Los vectores son una nueva forma de estrucutrar un conjunto de datos ordenados en serie que, si bien son parecidos a una lista, internamente funcionan muy diferente y nos van a permitir hacer un monton de operaciones mucho más potentes cuando estemos trabajando con muchísimos más datos. De hecho, hacer un _for loop_ sobre una lista es una operación sensiblemente más lenta que iterar y operar sobre un vector.
Entonces una matriz de numpy (y una tabla de pandas también), simplemente esta compuesta de muchos vectores, uno al lado del otro. Simplemente imaginen las columnas de una tabla: cada una sun muchos datos en serie, si las ponemos todas juntas tenemos una matriz. Pasa lo mismo si quieren pensarlas en términos de filas, las ponen todas juntas, unas arriba de las otras y listo, tienen una matriz.

¡Igual tranquilos! No vamos a estar trabajando directamente sobre la idea de matrices y con __numpy__, vamos a usar __pandas__ y practicar con las viejas y conocidas tablas. Pero es bueno que sepan un poquito qué es lo que sucede detrás, porque quizás nos encontremos que una función o método de __numpy__ sea útil para algún proceso.


### Les dejo los diferencias más importantes entre las dos librerias

1. __Tipos de Datos:__

    En un array de NumPy, todos los elementos deben ser del mismo tipo de datos.
    En un DataFrame de Pandas, cada columna puede tener un tipo de datos diferente. Esto es una ventaja significativa al tratar con datos heterogéneos.

2. __Índices y Columnas:__

    En un array de NumPy, se accede a los elementos utilizando índices basados en enteros solamente.
    En un DataFrame de Pandas, tienes tanto índices de filas como nombres de columnas. Esto permite una indexación más flexible y descriptiva.

3. __Etiquetas y Metadatos:__

    En un DataFrame de Pandas, puedes asignar etiquetas (nombres de columnas, nombres de índices) a los datos.
    Los arrays de NumPy no tienen soporte incorporado para etiquetas; se basan en indexación basada en enteros.
4. __Funcionalidad:__

    Los DataFrames de Pandas proporcionan una amplia gama de herramientas para la manipulación y análisis de datos, facilitando el trabajo con información tabulada.
    Los arrayes de NumPy estan más enfocados en operaciones numericas y carecen de las funcionalidades específicas para tablas integrada en pandas.

## Veamos algunas propiedades de los vectores distintas a las listas
__NOTA:__ vamos a usar vectores y arrays (arreglos) como sinónimos. Si un lic. en ciencias de la computación ve esto, me pega.

In [1]:
import numpy as np

arr = np.array([1,2,3,4]) # Así de define un array de numpy
print(type(arr))

<class 'numpy.ndarray'>


### ¿Cómo operamos sobre un arreglo?
A diferencia de las listas podemos hacer una operación entre un array y un escalar (escalar, en criollo, es un numero solo en vez de otro vector). El resultado de hacer esto es otro array que reprodujo la operación para cada miembro. ¡Sin for loops! Y mucho más rapido

In [2]:

print(arr + 1)

[2 3 4 5]


¿Y que pasa si hacemos una operación entre arrays del mismo tamaño?

In [3]:
arr * np.array([2,2,3,3])

array([ 2,  4,  9, 12])

Mientras tengan la misma foma todas las operaciones que usamos antes van a funcionar operando entre elementos que ocupen la misma posición en sus arrays.
Si no tienen la misma cantidad de elementos tendremos un error, o tendremos que hacer operaciones de álgebra lineal que exceden al curso.

Para los curiosos, una matriz de dos dimensiones se definiría de la siguiente forma (esto es lo que va a funcionar siempre por detrás de nuestras tablas):

In [4]:
matriz2d = np.array([[1,2], [3,4]])
matriz2d

array([[1, 2],
       [3, 4]])

De la misma manera que nuestras tablas, las matrices tienen una propiedad que permite conocer su forma, es la propiedad __.shape__. Esta matriz que definimos es una matriz que tiene 2 elementos de alto y dos de ancho.

In [5]:
matriz2d.shape

(2, 2)

## Pandas
Ahora sí, ya explicada toda esta parte teórica aburrida, vamos a aprender pandas con ejemplos prácticos. Además pueden ver esta guía para iniciar en la página oficial de pandas: [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)

### Dataframe
Es la estructura que tienen nuestros datos en pandas, nuestras tablas.

Podemos definir un dataframe nuevo de la siguiente forma:

In [6]:
import pandas as pd

df = pd.DataFrame({"columna1":[1,2,3,4], "columna2":['a','b','c','d']})

df

Unnamed: 0,columna1,columna2
0,1,a
1,2,b
2,3,c
3,4,d


Vamos a ver que la mayoría de las operaciónes que hagamos con los dataframe las haremos usando los __métodos__ que el propio dataframe de pandas posee. ¿Qué es un __método__? Un __método__ es una función interna que tienen algunos tipos de datos complejos como un _dataframe_. Básicamente un dataframe viene con un montón de funciones muy optimizadas para hacer operaciones con él. Vamos a ver muchos ejemplos.

### Métodos de exploración
Cuando son muchos datos tenemos que tener algunos medios para entender el esquema de esta tabla o algunos indicadores estadísticos sin leer la tabla entera. Les muestro algunas formas:

Conocer el esquema:

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   columna1  4 non-null      int64 
 1   columna2  4 non-null      object
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes


Tener un resumen estadístico (para las columnas numéricas):

In [8]:
df.describe()

Unnamed: 0,columna1
count,4.0
mean,2.5
std,1.290994
min,1.0
25%,1.75
50%,2.5
75%,3.25
max,4.0


Conocer solo la forma (recuerden lo que vimos de numpy):

In [9]:
# Esto no es un método sino un atributo: simplemente información extra que ya tienen todos los dataframes
df.shape

(4, 2)

### Con pandas podemos leer varias fuentes de datos como dataframes

In [10]:
indices_expo = pd.read_excel("https://www.indec.gob.ar/ftp/ica_digital/ica_d_11_23EB819483A2/data/cuadros/indices_expo.xlsx")

indices_expo.head() # Este método devuelve solo las primeras n filas de la tabla. Por defecto son 5

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones,índice de precios de los productos primarios,índice de cantidades de los productos primarios,índice de precios de las manufacturas de origen agropecuario,índice de cantidades de las manufacturas de origen agropecuario,índice de precios de las manufacturas de origen industrial,índice de cantidades de las manufacturas de origen industrial,índice de precios de combustibles y energía,índice de cantidades de combustibles y energía
0,2004,1,97.863194,82.338631,104.339287,72.854995,105.859154,81.592177,91.881963,79.862665,87.374956,98.333094
1,2004,2,98.637791,84.271048,105.216406,69.067081,107.362138,88.14549,93.064163,84.353979,85.2388,93.719511
2,2004,3,98.699014,93.490321,103.044307,86.977924,107.778709,82.562333,93.753874,99.783356,88.986244,112.147395
3,2004,4,101.221201,104.331206,102.252704,153.12865,109.399487,93.501914,96.019831,87.491765,92.162363,96.546075
4,2004,5,104.373216,113.006773,105.934017,154.726093,111.595279,108.263039,97.300169,97.681463,97.525,99.416113


In [11]:
aeropuertos = pd.read_csv(
    "https://datos.transporte.gob.ar/dataset/62b3fe5f-ffe6-4d8f-9d59-bfabe75d1ee8/resource/eb54e49e-9a5a-4614-91f4-526c650d0105/download/aeropuertos_detalle.csv"
    , sep=";")
aeropuertos.head()

Unnamed: 0,local,oaci,iata,tipo,denominacion,coordenadas,latitud,longitud,elev,uom_elev,...,condicion,control,region,fir,uso,trafico,sna,concesionado,provincia,inhab
0,ACB,,,Aeródromo,CORONEL BOGADO/AGROSERVICIOS,"33°16'20""S 60°34'14""W",-60.57066,-33.27226,44.0,Metros,...,PRIVADO,NOCONTROL,RACE,SAEF,AEROAPP,Nacional,NO,NO,SANTA FÉ,NO
1,ACH,,,Aeródromo,GENERAL ACHA,"37°24' 6""S 64°36'49""W",-64.61351,-37.40164,277.0,Metros,...,PUBLICO,NOCONTROL,RACE,SAEF,CIVIL,Nacional,NO,NO,LA PAMPA,NO
2,ACM,,,Aeródromo,ARRECIFES/LA CURA MALAL,"34° 4'33""S 60° 8'30""W",-60.1417,-34.07574,37.0,Metros,...,PRIVADO,NOCONTROL,RACE,SAEF,CIVIL,Nacional,NO,NO,BUENOS AIRES,NO
3,ADO,SAWD,PUD,Aeródromo,PUERTO DESEADO,"47°44' 6""S 65°54'15""W",-65.9041,-47.73511,82.0,Metros,...,PUBLICO,AERADIO,RASU,SAVF,CIVIL,Nacional,NO,NO,SANTA CRUZ,NO
4,ADT,,,Aeródromo,BANDERA/AGROSERVICIOS DOÑA TERESA,"28°51'19""S 62°15'53""W",-62.26462,-28.85541,75.0,Metros,...,PRIVADO,NOCONTROL,RANO,SACF,AEROAPP,Nacional,NO,NO,SANTIAGO DEL ESTERO,NO


Si quiero saber cuantas columnas y de que tipo de datos tiene la tabla "aeropuetos", podemos usar el método info. Reparen en que pandas infirió cuales son los tipos de datos que tiene cada columna, eso puede ser práctico como realmente molesto.

In [12]:
aeropuertos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 693 entries, 0 to 692
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   local          693 non-null    object 
 1   oaci           124 non-null    object 
 2   iata           90 non-null     object 
 3   tipo           693 non-null    object 
 4   denominacion   693 non-null    object 
 5   coordenadas    693 non-null    object 
 6   latitud        693 non-null    float64
 7   longitud       693 non-null    float64
 8   elev           693 non-null    float64
 9   uom_elev       693 non-null    object 
 10  ref            683 non-null    object 
 11  distancia_ref  688 non-null    float64
 12  direccion_ref  679 non-null    object 
 13  condicion      693 non-null    object 
 14  control        693 non-null    object 
 15  region         693 non-null    object 
 16  fir            693 non-null    object 
 17  uso            470 non-null    object 
 18  trafico   

Puedo acceder al encabezado de la tabla

In [13]:
aeropuertos.columns

Index(['local', 'oaci', 'iata', 'tipo', 'denominacion', 'coordenadas',
       'latitud', 'longitud', 'elev', 'uom_elev', 'ref', 'distancia_ref',
       'direccion_ref', 'condicion', 'control', 'region', 'fir', 'uso',
       'trafico', 'sna', 'concesionado', 'provincia', 'inhab'],
      dtype='object')

Como a su índice:

In [14]:
aeropuertos.index

RangeIndex(start=0, stop=693, step=1)

### ¿Cómo seleccionar datos?
A veces queremos quedarnos con algunas columnas, a veces queremos ver algunas filas en específico.
#### Leer por índice
Los nombres de las columnas son un índice al igual que los números de fila, podemos usarlos para leer datos específicos:

In [15]:
aeropuertos["local"]

0      ACB
1      ACH
2      ACM
3      ADO
4      ADT
      ... 
688    YOS
689    YPY
690    ZAP
691    ZLM
692    ZUL
Name: local, Length: 693, dtype: object

Reparen como devuelve los datos de la columna local y además devuelve el índice de filas de la tabla. Esto es una __serie__ de pandas, los dataframe están compuestos de ellas.

Nos quedamos con una fila, para eso usamos el método iloc. Fíjense que leer una fila del dataframe da como resultado una serie, que tiene las columnas como índice:

#### La propiedad .loc
Nos permite extraer datos los índices del dataframe. El orden es siempre [filas, columnas]

In [16]:
aeropuertos.loc[:,"provincia"]

0                 SANTA FÉ
1                 LA PAMPA
2             BUENOS AIRES
3               SANTA CRUZ
4      SANTIAGO DEL ESTERO
              ...         
688           BUENOS AIRES
689             CORRIENTES
690                NEUQUÉN
691                CÓRDOBA
692           BUENOS AIRES
Name: provincia, Length: 693, dtype: object

#### La propiedad .iloc
Es similar a .loc pero fuerza a llamar a las columnas y a las filas por su índice numerico por más que tengan un índice de texto o de fecha

In [17]:
aeropuertos.iloc[5] # este método funciona proporcionandole el índice de la fila

local                               ADU
oaci                                NaN
iata                                NaN
tipo                          Aeródromo
denominacion              BANDERA/DUTTO
coordenadas      28°52' 1"S  62°14'17"W
latitud                       -62.23812
longitud                      -28.86691
elev                               87.0
uom_elev                         Metros
ref                             Bandera
distancia_ref                       3.0
direccion_ref                        NE
condicion                       PRIVADO
control                       NOCONTROL
region                             RANO
fir                                SACF
uso                             AEROAPP
trafico                        Nacional
sna                                  NO
concesionado                         NO
provincia           SANTIAGO DEL ESTERO
inhab                                NO
Name: 5, dtype: object

Lógicamente con la coordenada de una celda también podemos recuperar su valor, usando iloc:

In [18]:
aeropuertos.iloc[0,21]

'SANTA FÉ'

Con estos métodos podemos elegir que columnas usar del dataframe

In [19]:
indices_expo.columns

Index(['Año', 'Mes', 'índice de precios de las exportaciones',
       'índice de cantidades de las exportaciones',
       'índice de precios de los productos primarios',
       'índice de cantidades de los productos primarios',
       'índice de precios de las manufacturas de origen agropecuario',
       'índice de cantidades de las manufacturas de origen agropecuario',
       'índice de precios de las manufacturas de origen industrial',
       'índice de cantidades de las manufacturas de origen industrial',
       'índice de precios de combustibles y energía',
       'índice de cantidades de combustibles y energía'],
      dtype='object')

In [20]:
indices_expo[['Año', 'Mes','índice de precios de las exportaciones', 'índice de cantidades de las exportaciones']]

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones
0,2004,1,97.863194,82.338631
1,2004,2,98.637791,84.271048
2,2004,3,98.699014,93.490321
3,2004,4,101.221201,104.331206
4,2004,5,104.373216,113.006773
...,...,...,...,...
233,2023,6,194.953569,96.357135
234,2023,7,189.442813,110.830245
235,2023,8,187.634697,109.046317
236,2023,9,185.265495,107.423438


In [21]:
indices_expo_filtrada = indices_expo[['Año', 'Mes','índice de precios de las exportaciones', 'índice de cantidades de las exportaciones', 'índice de cantidades de combustibles y energía']]
indices_expo_filtrada.head()

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones,índice de cantidades de combustibles y energía
0,2004,1,97.863194,82.338631,98.333094
1,2004,2,98.637791,84.271048,93.719511
2,2004,3,98.699014,93.490321,112.147395
3,2004,4,101.221201,104.331206,96.546075
4,2004,5,104.373216,113.006773,99.416113


Tambien puedo eliminar filas o columnas

In [22]:
indices_expo_filtrada = indices_expo_filtrada.drop('índice de cantidades de combustibles y energía', axis=1) # axis 1 quiere decir que quiero eliminar columnas, de otra forma podría eliminar filas tambien
indices_expo_filtrada.head()

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones
0,2004,1,97.863194,82.338631
1,2004,2,98.637791,84.271048
2,2004,3,98.699014,93.490321
3,2004,4,101.221201,104.331206
4,2004,5,104.373216,113.006773


Puedo filtrarla por las mismas condiciones lógicas que ya vimos:

In [23]:
indices_expo_filtrada.Año > 2010 # al usar un operádor lógico en la serie de pandas, pandas nos devuleve una serie de booleanos.

0      False
1      False
2      False
3      False
4      False
       ...  
233     True
234     True
235     True
236     True
237     True
Name: Año, Length: 238, dtype: bool

Ese array de booleanos es el que permite filtrar las tablas con condiciones que le impongamos

In [24]:
indices_expo_filtrada[indices_expo_filtrada.Año > 2010]

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones
84,2011,1,180.058997,99.960269
85,2011,2,184.026354,101.901966
86,2011,3,190.789107,111.037765
87,2011,4,187.680033,130.277500
88,2011,5,190.600870,144.443923
...,...,...,...,...
233,2023,6,194.953569,96.357135
234,2023,7,189.442813,110.830245
235,2023,8,187.634697,109.046317
236,2023,9,185.265495,107.423438


Miren como ahora la tabla tiene menos observaciones. Tambien podemos hacer esto con otro método:

In [25]:
indices_expo_filtrada = indices_expo_filtrada.query('Año > 2010')
indices_expo_filtrada.head()

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones
84,2011,1,180.058997,99.960269
85,2011,2,184.026354,101.901966
86,2011,3,190.789107,111.037765
87,2011,4,187.680033,130.2775
88,2011,5,190.60087,144.443923


Además podemos agregar columnas:

In [26]:
indices_expo_filtrada["suma"] = indices_expo_filtrada["índice de cantidades de las exportaciones"] + indices_expo_filtrada["índice de precios de las exportaciones"]
indices_expo_filtrada

Unnamed: 0,Año,Mes,índice de precios de las exportaciones,índice de cantidades de las exportaciones,suma
84,2011,1,180.058997,99.960269,280.019266
85,2011,2,184.026354,101.901966,285.928320
86,2011,3,190.789107,111.037765,301.826871
87,2011,4,187.680033,130.277500,317.957532
88,2011,5,190.600870,144.443923,335.044793
...,...,...,...,...,...
233,2023,6,194.953569,96.357135,291.310704
234,2023,7,189.442813,110.830245,300.273058
235,2023,8,187.634697,109.046317,296.681014
236,2023,9,185.265495,107.423438,292.688933


Tambien podemos ordenar y agrupar la tabla por distintas variables

In [27]:
indices_expo_agrupada_ordenada = (
    indices_expo_filtrada
    .drop("Mes", axis=1) #elimino la columna mes
    .groupby("Año").sum() #agrupo por año sumando los valores de cada mes del mismo año
    .sort_values("suma", ascending=False) #ordenamos descentemente por los valores de la colmna "suma"
)

indices_expo_agrupada_ordenada

Unnamed: 0_level_0,índice de precios de las exportaciones,índice de cantidades de las exportaciones,suma
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2022,2564.296148,1434.0,3998.296148
2011,2261.829831,1525.8,3787.629831
2012,2317.09661,1436.4,3753.49661
2021,2203.350486,1467.671991,3671.022476
2013,2284.280725,1383.6,3667.880725
2014,2227.90317,1276.2,3504.10317
2019,1812.682336,1495.8,3308.482336
2018,1930.430239,1335.0,3265.430239
2017,1825.365888,1338.6,3163.965888
2015,1888.938146,1255.2,3144.138146


Al usar "group by", el nuevo índice de las filas es la variable por la que agrupamos. Siempre podemos volver al índice numérico que vimos antres

In [28]:
indices_expo_agrupada_ordenada.reset_index()

Unnamed: 0,Año,índice de precios de las exportaciones,índice de cantidades de las exportaciones,suma
0,2022,2564.296148,1434.0,3998.296148
1,2011,2261.829831,1525.8,3787.629831
2,2012,2317.09661,1436.4,3753.49661
3,2021,2203.350486,1467.671991,3671.022476
4,2013,2284.280725,1383.6,3667.880725
5,2014,2227.90317,1276.2,3504.10317
6,2019,1812.682336,1495.8,3308.482336
7,2018,1930.430239,1335.0,3265.430239
8,2017,1825.365888,1338.6,3163.965888
9,2015,1888.938146,1255.2,3144.138146


# ¡Tengan un machete a mano! 🤫🤓

1. [Cheatsheet oficial de pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
2. [Cheatsheet en español (no es tan clara)](https://www.paradigmadigital.com/assets/cms/cheat_sheet_pandas_55e2051410.pdf)

Recuerden googlear por más información, hay muchos documentos como este en internet, muchos son más completos que este incluso. Por suerte también hay varios articulos muy buenos en español tambien. Google, google y chatGPT 🤖.

## Ejercicio en clase
Leemos la tabla de índices de valor, precio y cantidad, de las exportaciones por grandes rubros de comercio exterior y calculamos el promedio ponderado para un rubro cualquiera.
![image.png](attachment:image.png)


In [29]:
df_vpq_grubros = pd.read_excel("https://www.indec.gob.ar/ftp/cuadros/economia/serie_mensual_indices_expo.xls", skiprows=3, skipfooter=5)
df_vpq_grubros = (
    df_vpq_grubros.dropna(how="all")
    .dropna(how="all",axis=1))

df_vpq_grubros.columns = [
    "año", "mes",
    "nivel_general_v","nivel_general_p","nivel_general_q",
    "pp_v","pp_p","pp_q",
    "moa_v","moa_p","moa_q",
    "moi_v","moi_p","moi_q",
    "cye_v","cye_p","cye_q"]

df_vpq_grubros.año = df_vpq_grubros.año.ffill().str.slice(0,4)


df_vpq_grubros

Unnamed: 0,año,mes,nivel_general_v,nivel_general_p,nivel_general_q,pp_v,pp_p,pp_q,moa_v,moa_p,moa_q,moi_v,moi_p,moi_q,cye_v,cye_p,cye_q
1,2004,Enero,80.603953,97.863194,82.338631,76.123614,104.339287,72.854995,86.380968,105.859154,81.592177,73.327082,91.881963,79.862665,85.744250,87.374956,98.333094
2,2004,Febrero,83.123100,98.637791,84.271048,72.702140,105.216406,69.067081,94.632818,107.362138,88.145490,78.440031,93.064163,84.353979,79.751869,85.238800,93.719511
3,2004,Marzo,92.234875,98.699014,93.490321,89.558461,103.044307,86.977924,88.934241,107.778709,82.562333,93.456245,93.753874,99.783356,99.670501,88.986244,112.147395
4,2004,Abril,105.498772,101.221201,104.331206,156.440215,102.252704,153.128650,102.194786,109.399487,93.501914,83.921482,96.019831,87.491765,88.971806,92.162363,96.546075
5,2004,Mayo,117.807332,104.373216,113.006773,163.674736,105.934017,154.726093,120.702251,111.595279,108.263039,94.934964,97.300169,97.681463,96.958675,97.525000,99.416113
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
234,2023,Junio,187.932320,194.953569,96.357135,223.099790,203.825746,109.152802,220.416743,204.294681,107.822932,180.216415,169.141244,106.567241,98.270366,227.957365,43.225433
235,2023,Julio,210.332815,189.442813,110.830245,248.626891,189.738936,130.564084,216.811726,202.650379,106.782106,234.267129,169.938767,137.409772,118.145320,226.316698,52.187652
236,2023,Agosto,205.124199,187.634697,109.046317,256.413659,178.606070,142.982170,205.935271,197.131707,104.172009,212.487738,171.676269,122.961426,135.246981,248.074757,54.407745
237,2023,Septiembre,199.596631,185.265495,107.423438,250.466241,178.300695,139.853746,181.814207,198.137504,91.445885,243.488711,160.967301,150.328802,109.233849,252.355535,43.104604


## Ejercicio 8

In [44]:
def agrega_columnas_año_mes(df: pd.DataFrame)->pd.DataFrame:
    df.datetime = pd.to_datetime(df.datetime ,'coerce', format="%m/%d/%Y %H:%M")
    df = df.dropna(subset="datetime",axis=0,how="any")
    df.insert(0, "año", df.datetime.dt.year.astype(str))
    df.insert(1, "mes", df.datetime.dt.month.astype(str))
    return df
    
ovni: pd.DataFrame = (
    pd.read_csv("scrubbed.csv")
    .pipe(agrega_columnas_año_mes)
    .drop("datetime", axis=1)
    .dropna()
    .astype({"latitude":"float","longitude ":"float","duration (seconds)":"float"})
)

ovni.to_csv("ovni.csv", index=False)

  pd.read_csv("scrubbed.csv")


In [33]:
ovni.head()

Unnamed: 0,año,mes,city,state,country,shape,duration (seconds),duration (hours/min),comments,date posted,latitude,longitude
0,1949,10,san marcos,tx,us,cylinder,2700.0,45 minutes,This event took place in early fall around 194...,4/27/2004,29.883056,-97.941111
3,1956,10,edna,tx,us,circle,20.0,1/2 hour,My older brother and twin sister were leaving ...,1/17/2004,28.978333,-96.645833
4,1960,10,kaneohe,hi,us,light,900.0,15 minutes,AS a Marine 1st Lt. flying an FJ4B fighter/att...,1/22/2004,21.418056,-157.803611
5,1961,10,bristol,tn,us,sphere,300.0,5 minutes,My father is now 89 my brother 52 the girl wit...,4/27/2007,36.595,-82.188889
7,1965,10,norwalk,ct,us,disk,1200.0,20 minutes,A bright orange color changing to reddish colo...,10/2/1999,41.1175,-73.408333


In [32]:

f"Los avistamientos de este dataset son de los siguientes paises: {ovni.country.unique()}"

"Los avistamientos de este dataset son de los siguientes paises: ['us' 'ca' 'au' 'gb']"

Casos por país

In [50]:
ovni.groupby("country").count()["año"]

country
au       10
ca     2921
gb       10
us    63099
Name: año, dtype: int64

Casos por pais como una nueva columna

In [49]:
ovni2 = ovni
ovni2["casos_pais"] = ovni.groupby("country")['country'].transform('count')
ovni2[ovni2.country == "ca"].head()

Unnamed: 0,año,mes,city,state,country,shape,duration (seconds),duration (hours/min),comments,date posted,latitude,longitude,casos_pais
61,1994,10,toronto (greater toronto area) (canada),on,ca,sphere,3600.0,~1 hour,Large rusty sphere,7/3/2013,43.666667,-79.416667,2921
80,1998,10,st. john&#39s (canada),nf,ca,egg,7200.0,2 hours,Started off as 3 points of intense yellow ligh...,12/2/2000,47.55,-52.666667,2921
95,2000,10,victoria (canada),bc,ca,cylinder,30.0,30seconds,Smooth Shiny Cylinder,12/2/2000,46.216667,-63.483333,2921
104,2001,10,vancouver (canada),bc,ca,other,300.0,+5 minutes,I observed an green object significantly above...,5/12/2011,49.25,-123.133333,2921
114,2002,10,victoria (canada),bc,ca,unknown,120.0,2 minutes approx,bright white light with black outline around i...,10/15/2002,46.216667,-63.483333,2921


In [58]:
ovni.año = ovni.año.astype(int)
ovni3 = ovni.query("año >1999 & año < 2011")
f"El tiempo de avistamiento promedio en la primer década del 2000 es {ovni3['duration (seconds)'].mean()/3600} horas"

'El tiempo de avistamiento promedio en la primer década del 2000 es 1.7057511888447847 horas'