Profesor: Alvaro Javier Cangrejo

# Pandas
- Librería (de facto estándar) para estructurar datos tabulares
- Multivariable (string, int, float, bool...)
- Dos clases:
  - Series (1 dimensión)
  - DataFrames (2+ dimensiones)

In [None]:
# librería externa
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

## Lectura independiente estudiantes :: Diferencias entre Pandas Series y diccionario.


# DataFrame
- Datos tabulares (filas x columnas)
- Columnas: Series con índices compartidos

In [None]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = {"Nombre": ["Marisa", "Laura", "Manuel"], "Edad": [34, 29, 12]}

# las claves identifican columnas
frame = pd.DataFrame(diccionario)
display(frame)

Unnamed: 0,Nombre,Edad
0,Marisa,34
1,Laura,29
2,Manuel,12


In [None]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a to c
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 180.0+ bytes


In [None]:
# crear un DataFrame a partir de un diccionario de elementos de la misma longitud
diccionario = {"Nombre": ["Marisa", "Laura", "Manuel"], "Edad": [34, 29, 12]}

# las claves identifican columnas
frame = pd.DataFrame(diccionario, index=["a", "b", "c"])
display(frame)

Unnamed: 0,Nombre,Edad
a,Marisa,34
b,Laura,29
c,Manuel,12


In [None]:
# además de 'index', el parámetro 'columns' especifica el número y orden de las columnas
frame = pd.DataFrame(
    diccionario, columns=["Nacionalidad", "Nombre", "Edad", "Profesion"]
)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


In [None]:
# acceso a columnas
nombres = frame["Nombre"]
display(nombres)
type(nombres)

Unnamed: 0,Nombre
0,Marisa
1,Laura
2,Manuel


### Formas de crear un DataFrame
* Con una Serie de pandas
* Lista de diccionarios
* Dicionario de Series de Pandas
* Con un array de Numpy de dos dimensiones
* Con array estructurado de Numpy

## Modificar DataFrames

In [None]:
# añadir columnas
diccionario = {"Nombre": ["Marisa", "Laura", "Manuel"], "Edad": [34, 29, 12]}

frame = pd.DataFrame(
    diccionario, columns=["Nacionalidad", "Nombre", "Edad", "Profesion"]
)
frame["Direccion"] = np.where(frame["Edad"] < 18, 0, 1)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,1
1,,Laura,29,,1
2,,Manuel,12,,0


In [None]:
lista_direcciones = [
    "Rue 13 del Percebe, 13",
    "Evergreen Terrace, 3",
    "Av de los Rombos, 12",
]

In [None]:
frame["Direccion"] = lista_direcciones

display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"


In [None]:
# añadir fila (requiere todos los valores)
user_2 = ["Alemania", "Klaus", 20, "medico", "Desconocida"]
frame.loc[3] = user_2
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion,Direccion
0,,Marisa,34,,"Rue 13 del Percebe, 13"
1,,Laura,29,,"Evergreen Terrace, 3"
2,,Manuel,12,,"Av de los Rombos, 12"
3,Alemania,Klaus,20,medico,Desconocida


In [None]:
# eliminar columna
frame = pd.DataFrame(
    diccionario, columns=["Nacionalidad", "Nombre", "Edad", "Profesion"]
)

# frame = frame.drop(2) # por qué necesitamos reasignar el frame?
display(frame)

frame.drop("Nombre", "Edad", "Profesion", axis=1, inplace=True)
display(frame)

Unnamed: 0,Nacionalidad,Nombre,Edad,Profesion
0,,Marisa,34,
1,,Laura,29,
2,,Manuel,12,


TypeError: DataFrame.drop() takes from 1 to 2 positional arguments but 4 positional arguments (and 2 keyword-only arguments) were given

## Indexación y slicing con DataFrames

In [None]:
d1 = {"ciudad": "Valencia", "temperatura": 10, "o2": 1}
d2 = {"ciudad": "Barcelona", "temperatura": 8}
d3 = {"ciudad": "Valencia", "temperatura": 9}
d4 = {"ciudad": "Madrid", "temperatura": 10, "humedad": 80}
d5 = {"ciudad": "Sevilla", "temperatura": 15, "humedad": 50, "co2": 6}
d6 = {"ciudad": "Valencia", "temperatura": 10, "humedad": 90, "co2": 10}

ls_data = [d1, d2, d3, d4, d5, d6]  # lista de diccionarios
df_data = pd.DataFrame(ls_data, index=list("abcdef"))
display(df_data)

In [None]:
# Acceso a un valor concreto por indice posicional [row, col]
print(df_data.iloc[1, 1])

# Acceso a todos los valores hasta un índice por enteros
display(df_data.iloc[:3, :4])

# Acceso a datos de manera explícita, indice semantico (se incluyen)
display(df_data.loc["a", "temperatura"])
display(df_data.loc[:"c", :"o2"])
display(df_data.loc[:"c", "temperatura":"o2"])

display(df_data.loc[:, ["ciudad", "o2"]])

# Cargar y guardar datos en pandas

In [None]:
# Guardar a csv
df.to_csv("ruta", index=True)  # sep por defecto: ','

In [None]:
loaded = pd.read_csv("/content/walmart_sales.csv", sep=",", decimal=".")
loaded.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.5,2.625,211.350143,8.106


In [None]:
# Información general del DataFrame
print(loaded.info())

# Estadísticas descriptivas de las columnas numéricas
print(loaded.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6435 entries, 0 to 6434
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Store         6435 non-null   int64  
 1   Date          6435 non-null   object 
 2   Weekly_Sales  6435 non-null   float64
 3   Holiday_Flag  6435 non-null   int64  
 4   Temperature   6435 non-null   float64
 5   Fuel_Price    6435 non-null   float64
 6   CPI           6435 non-null   float64
 7   Unemployment  6435 non-null   float64
dtypes: float64(5), int64(2), object(1)
memory usage: 402.3+ KB
None
             Store  Weekly_Sales  Holiday_Flag  Temperature   Fuel_Price  \
count  6435.000000  6.435000e+03   6435.000000  6435.000000  6435.000000   
mean     23.000000  1.046965e+06      0.069930    60.663782     3.358607   
std      12.988182  5.643666e+05      0.255049    18.444933     0.459020   
min       1.000000  2.099862e+05      0.000000    -2.060000     2.472000   
25%      12.000

# Ejercicio practico

 * Actividad: Análisis de Datos de Empresas

-------------------------------------

Eres el encargado de analizar los datos financieros de un conjunto de empresas. Debes crear un DataFrame que incluya información como las ventas, ganancias, activos, valor de mercado y el país de origen de cada empresa. Luego, realizarás operaciones sobre estos datos para filtrar y analizar la información.

1. Crea las listas proporcionadas: ventas, ganancias, activos, valor, y pais.

* ventas = (151.4, 134.2, 222.9, 102.5, 97.6, 115.7, 92.2, 113.1, 217.5, 249.9)
* ganancias = (42, 35, 24.1, 24.2, 21.9, 27.8, 16.6, 24.9, 45.2, 17.1)
* activos = (3473.2, 3016.6, 620.9, 2513, 1943.4, 2816, 2196.8, 2611.5, 331.1, 412.5)
* valor = (229.8, 200.5, 409.9, 306.6, 274.4, 149.2, 231.9, 141.3, 752, 171.9)
* pais = (China, China, US, US, US, China, US, China, US, Japan)

2. Combina las listas en un diccionario y úsalo para crear un DataFrame.

3. Guarda el DataFrame en un archivo CSV.

4.  Imprima el nombre del país y las ganancias de cada empresa con ganancias mayores a 25.

5. Encontrar la primera empresa con un valor de mercado mayor a 300.

6. crear una nueva columna llamada Rentabilidad que indique "Alta" si las ganancias son mayores a 25 y "Baja" en caso contrario.

7. Filtra el DataFrame para crear una submatriz que contenga solo a las empresas de China con rentabilidad "Alta".

8. Guarda la submatriz en un nuevo archivo CSV.