# **INTRODUCCION A PANDAS**

1. Instalación de Pandas

2. Creación de dataframe

3. Creación de series 

4. Lectura de datasets y exploración dataframe

5. Escritura de dataframe en csv

<img src="../imgs/foto-dia-01.jpg" width="450px" height="300px">

### **1. Instalación de Pandas**

In [1]:
%pip install pandas

Collecting pandas
  Downloading pandas-2.2.3-cp39-cp39-macosx_11_0_arm64.whl (11.3 MB)
[K     |████████████████████████████████| 11.3 MB 3.4 MB/s eta 0:00:01
[?25hCollecting numpy>=1.22.4
  Downloading numpy-2.0.2-cp39-cp39-macosx_14_0_arm64.whl (5.3 MB)
[K     |████████████████████████████████| 5.3 MB 3.5 MB/s eta 0:00:01
[?25hCollecting pytz>=2020.1
  Downloading pytz-2025.1-py2.py3-none-any.whl (507 kB)
[K     |████████████████████████████████| 507 kB 14.9 MB/s eta 0:00:01
[?25hCollecting tzdata>=2022.7
  Downloading tzdata-2025.1-py2.py3-none-any.whl (346 kB)
[K     |████████████████████████████████| 346 kB 94.4 MB/s eta 0:00:01
Installing collected packages: tzdata, pytz, numpy, pandas
Successfully installed numpy-2.0.2 pandas-2.2.3 pytz-2025.1 tzdata-2025.1
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


### **2. Creación de dataframe**

Hay dos objetos principales en pandas: los **DataFrame** y las **series**.

Un DataFrame es una tabla. Contiene una matriz de entradas individuales, cada una de las cuales tiene un valor específico. Cada entrada corresponde a una fila (o registro) y una columna.

In [None]:
import pandas as pd

df = pd.DataFrame({"Yes": [50, 21], "No": [131,2], "Pregunta": ['¿Eres terraplanista?', '¿Te gusta el futbol?']})
df

Unnamed: 0,Yes,No,Pregunta:
0,50,131,¿Eres terraplanista?
1,21,2,¿Te gusta el futbol?


En este ejemplo, la entrada "0, No" tiene el valor de 131. La entrada "0, Yes" tiene un valor de 50, y así sucesivamente.

Las entradas de un DataFrame no están limitadas a enteros. Por ejemplo, aquí hay un DataFrame cuyos valores son cadenas de texto:

In [27]:
pd.DataFrame({'Bob': ['Me gusta', 'Horroroso'], 'Sue': ['Muy bien', 'Un poco soso']})


Unnamed: 0,Bob,Sue
0,Me gusta,Muy bien
1,Horroroso,Un poco soso


Estamos utilizando el constructor pd.DataFrame() para generar estos objetos DataFrame. La sintaxis para declarar uno nuevo es un diccionario cuyas claves son los nombres de las columnas (Bob y Sue en este ejemplo), y cuyos valores son una lista de entradas. Esta es la forma estándar de construir un nuevo DataFrame, y es la que es más probable que encuentres.

El constructor de diccionario-lista asigna valores a las etiquetas de las columnas, pero solo utiliza un conteo ascendente desde 0 (0, 1, 2, 3, ...) para las etiquetas de las filas. A veces esto está bien, pero muchas veces querremos asignar estas etiquetas nosotros mismos.

La lista de etiquetas de fila utilizada en un DataFrame se conoce como un Índice. Podemos asignar valores a este utilizando un parámetro de índice en nuestro constructor:

In [18]:
pd.DataFrame({'Bob': ['Me gusta', 'Horroroso'], 'Sue': ['Muy bien', 'Un poco soso']}, index=['Producto A', 'Producto B'])


Unnamed: 0,Bob,Sue
Producto A,Me gusta,Muy bien
Producto B,Horroroso,Un poco soso


### **3. Series**

Por otro lado, una Serie es una secuencia de valores de datos. Si un DataFrame es una tabla, una Serie es una lista. De hecho, puedes crear una Serie con nada más que una lista:

In [12]:
pd.Series([1,2,3,4,5])

0    1
1    2
2    3
3    4
4    5
dtype: int64

Una Serie es, en esencia, una única columna de un DataFrame. Por lo tanto, puedes asignar etiquetas de fila a la Serie de la misma manera que antes, utilizando un parámetro de índice. Sin embargo, una Serie no tiene un nombre de columna, solo tiene un nombre general:

In [16]:
pd.Series([10,30,80], index=['Bajo', 'Medio', 'Alto'],name='Ventas')

Bajo     10
Medio    30
Alto     80
Name: Ventas, dtype: int64

La Serie y el DataFrame están íntimamente relacionados. Es útil pensar en un DataFrame como simplemente un conjunto de Series. Veremos más de esto en el curso.

### **4. Lectura de datasets**

Poder crear un DataFrame o una Serie manualmente es útil. Pero, la mayoría de las veces, en realidad no estaremos creando nuestros propios datos manualmente. En cambio, estaremos trabajando con datos que ya existen.

Los datos pueden almacenarse en cualquiera de una serie de formas y formatos diferentes. Por mucho, el más básico de estos es el humilde archivo CSV. Cuando abres un archivo CSV, obtienes algo que se ve así:

Producto A,Producto B,Producto C,
- 30,21,9,
- 35,34,1,
- 41,11,11


Entonces, un archivo CSV es una tabla de valores separados por comas. De ahí el nombre: "Comma-Separated Values", o CSV.

Ahora, dejemos de lado nuestros conjuntos de datos de juguete y veamos cómo se ve un conjunto de datos real cuando lo leemos en un DataFrame. Usaremos la función **pd.read_csv()** para leer los datos en un DataFrame. Esto se hace de la siguiente manera:

In [28]:
ryanair_reviews = pd.read_csv('datasets/ryanair_reviews.csv')

Podemos usar el atributo shape para verificar cuán grande es el DataFrame resultante:

In [29]:
ryanair_reviews.shape

(2249, 21)

Entonces, nuestro nuevo DataFrame tiene 2249 registros divididos en 21 columnas diferentes.

Podemos examinar el contenido del DataFrame resultante usando el comando head(), que toma las primeras cinco filas:

In [30]:
ryanair_reviews.head()

Unnamed: 0.1,Unnamed: 0,Date Published,Overall Rating,Passenger Country,Trip_verified,Comment title,Comment,Aircraft,Type Of Traveller,Seat Type,...,Destination,Date Flown,Seat Comfort,Cabin Staff Service,Food & Beverages,Ground Service,Value For Money,Recommended,Inflight Entertainment,Wifi & Connectivity
0,0,2024-02-03,10.0,United Kingdom,Not Verified,"""bang on time and smooth flights""",Flew back from Faro to London Luton Friday 2nd...,Boeing 737 900,Family Leisure,Economy Class,...,Luton,February 2024,4.0,5.0,3.0,4.0,4.0,yes,,
1,1,2024-01-26,10.0,United Kingdom,Trip Verified,"""Another good affordable flight""",Another good affordable flight with Ryanair. O...,,Couple Leisure,Economy Class,...,Alicante,January 2024,3.0,5.0,3.0,5.0,5.0,yes,,
2,2,2024-01-20,10.0,United Kingdom,Trip Verified,“Really impressed!”,"Really impressed! You get what you pay for, th...",Boeing 737-800,Couple Leisure,Economy Class,...,Paris Beauvais,October 2023,5.0,5.0,4.0,5.0,5.0,yes,,
3,3,2024-01-07,6.0,United Kingdom,Trip Verified,“a decent offering from Ryanair”,I should like to review my flight from Faro to...,Boeing 737,Solo Leisure,Economy Class,...,Liverpool,January 2024,3.0,2.0,1.0,3.0,3.0,yes,,
4,4,2024-01-06,10.0,Israel,Trip Verified,“cabin crew were welcoming and friendly”,"Flight left the gate ahead of schedule, fare w...",Boeing 737-800,Solo Leisure,Economy Class,...,Manchester,January 2024,4.0,5.0,,4.0,5.0,yes,,


La función pd.read_csv() es muy amplia, con más de 30 parámetros opcionales que puedes especificar. Por ejemplo, puedes ver en este conjunto de datos que el archivo CSV tiene un índice incorporado, que pandas no recogió automáticamente. Para hacer que pandas use esa columna como índice (en lugar de crear uno nuevo desde cero), podemos especificar un index_col para que tome el index desde una columna, en este caso va a tomar el index de cada fila de la primera columna del dataset y esta no lo va a mostrar.

In [32]:
ryanair_reviews = pd.read_csv('datasets/ryanair_reviews.csv', index_col=0)
ryanair_reviews.head()

Unnamed: 0,Date Published,Overall Rating,Passenger Country,Trip_verified,Comment title,Comment,Aircraft,Type Of Traveller,Seat Type,Origin,Destination,Date Flown,Seat Comfort,Cabin Staff Service,Food & Beverages,Ground Service,Value For Money,Recommended,Inflight Entertainment,Wifi & Connectivity
0,2024-02-03,10.0,United Kingdom,Not Verified,"""bang on time and smooth flights""",Flew back from Faro to London Luton Friday 2nd...,Boeing 737 900,Family Leisure,Economy Class,Faro,Luton,February 2024,4.0,5.0,3.0,4.0,4.0,yes,,
1,2024-01-26,10.0,United Kingdom,Trip Verified,"""Another good affordable flight""",Another good affordable flight with Ryanair. O...,,Couple Leisure,Economy Class,Belfast,Alicante,January 2024,3.0,5.0,3.0,5.0,5.0,yes,,
2,2024-01-20,10.0,United Kingdom,Trip Verified,“Really impressed!”,"Really impressed! You get what you pay for, th...",Boeing 737-800,Couple Leisure,Economy Class,Edinburgh,Paris Beauvais,October 2023,5.0,5.0,4.0,5.0,5.0,yes,,
3,2024-01-07,6.0,United Kingdom,Trip Verified,“a decent offering from Ryanair”,I should like to review my flight from Faro to...,Boeing 737,Solo Leisure,Economy Class,Faro,Liverpool,January 2024,3.0,2.0,1.0,3.0,3.0,yes,,
4,2024-01-06,10.0,Israel,Trip Verified,“cabin crew were welcoming and friendly”,"Flight left the gate ahead of schedule, fare w...",Boeing 737-800,Solo Leisure,Economy Class,Dublin,Manchester,January 2024,4.0,5.0,,4.0,5.0,yes,,


### **5. Escritura de dataframe en csv**

Una vez que leemos un dataframe y aplicamos transformaciones en los datos sobre él, es interesante volver a escribirlo con dichas modificaciones para guardarlo y usarlo en un futuro o poder compartir nuestro trabajo, para eso existe el método **to_csv()**

In [33]:
ryanair_reviews.to_csv('datasets/ryanair_reviews_modified_piero.csv')