import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objs as go
import country_converter as coco
import seaborn as sns
from  matplotlib.ticker import PercentFormatter
import requests

df = pd.read_csv("data/Shared_data_responses_demographics.csv")
df


df_renamed = df.rename(columns={"survey.gender":"Gender",
          "survey.education": "Education"});
df_renamed.groupby(["Continent","Gender"]).size().unstack()


df_renamed.groupby(["Gender","Education"]).size().unstack()


sorted_religiuos = df.sort_values(by='survey.religious')
sorted_religiuos["believer"] = "0" # non credente
sorted_religiuos.loc[(df["survey.religious"] > 0) & (sorted_religiuos["survey.religious"] < 0.4) , "believer"] = "(0; 0.4)" #poco credente
sorted_religiuos.loc[(df["survey.religious"] >= 0.4) & (sorted_religiuos["survey.religious"] < 0.7), "believer"] = "[0.4; 0.7)" #credente
sorted_religiuos.loc[df["survey.religious"] >= 0.7, "believer"] = "[0.7; 1)" # molto credente
px.histogram(sorted_religiuos, x="believer",
            labels={"believer": "Believer"})


sorted_political = df.sort_values(by='survey.political') 
sorted_political["Political Activity"] = "0" # non attivo
sorted_political.loc[(df["survey.political"] > 0) & (sorted_political["survey.political"] < 0.4) , "Political Activity"] = "(0; 0.4)" #poco attivo
sorted_political.loc[(df["survey.political"] >= 0.4) & (sorted_political["survey.political"] < 0.7), "Political Activity"] = "[0.4; 0.7)" #attivo
sorted_political.loc[df["survey.political"] >= 0.7, "Political Activity"] = "[0.7; 1)" #molto attivo
px.histogram(sorted_political, x="Political Activity")


df["outcome_str"] = df["Outcome"].map({0 : "Omission", 1: "Commission"})
df["outcome_str"]
df.loc[df["survey.religious"] == 0.0, "religion"] = 'Religious'
df.loc[df["survey.religious"] != 0.0, "religion"] = 'Not religious'

fig = px.histogram(df, 
                   orientation="v", 
                   x="religion", 
                   barmode="group",
                   barnorm='percent',
                   color="outcome_str",
                   facet_col="Scenario",
                   title="Outcome by religiosity",
                   labels={"outcome_str": "Outcome"},
                   category_orders={"outcome_str": ["Commission","Omission"],
                                   "religion": ["Religious","Not religious"]},
                   color_discrete_sequence=['indianred', '#1f77b4'])

fig.update_yaxes(title_text='')
fig.update_xaxes(title_text='')
fig.update_yaxes(ticksuffix='%')
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))

fig


df.loc[df["survey.political"] > 0.9, "activity"] = 'Active'
df.loc[df["survey.political"] < 0.1, "activity"] = 'Not Active'

fig = px.histogram(df, 
                   orientation="v", 
                   x="activity", 
                   barmode="group",
                   barnorm='percent',
                   color="outcome_str",
                   facet_col="Scenario",
                   title="Outcome by political activity",
                   labels={"outcome_str": "Outcome"},
                   category_orders={"outcome_str": ["Commission","Omission"],
                                   "political": ["Active","Not Active"]},
                   color_discrete_sequence=['indianred', '#1f77b4'])

fig.update_yaxes(title_text='')
fig.update_xaxes(title_text='')
fig.update_yaxes(ticksuffix='%')
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig


fig = px.histogram(df, 
                   orientation="v", 
                   x="survey.gender", 
                   barmode="group",
                   barnorm='percent',
                   color="outcome_str",
                   facet_col="Scenario",
                   title="Outcome by gender",
                   labels={"outcome_str": "Outcome"},
                   category_orders={"outcome_str": ["Commission","Omission"]},
                   color_discrete_sequence=['indianred', '#1f77b4'])

fig.update_yaxes(title_text='')
fig.update_xaxes(title_text='')
fig.update_yaxes(ticksuffix='%')
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig.update_yaxes()
fig


fig = px.histogram(df, 
                   orientation="v", 
                   x="survey.education", 
                   barmode="group",
                   barnorm='percent',
                   color="outcome_str",
                   facet_col="Scenario",
                   title="Outcome by education",
                   labels={"outcome_str": "Outcome"},
                   category_orders={"outcome_str": ["Commission","Omission"]},
                   color_discrete_sequence=['indianred', '#1f77b4'])

fig.update_yaxes(title_text='')
fig.update_xaxes(title_text='')
fig.update_yaxes(ticksuffix='%')
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig.update_yaxes()

fig


fig = px.histogram(df, 
                   orientation="v", 
                   x="survey.age", 
                   color="outcome_str", 
                   barmode="stack", 
                   barnorm='fraction',
                   facet_row="Scenario", 
                   title="Outcome by age",
                   nbins=20, 
                   labels={"outcome_str": "Outcome",
                          "survey.age": "Age"},
                  category_orders={"outcome_str": ["Commission","Omission"]},
                   color_discrete_sequence=['indianred', '#1f77b4'])

fig.update_yaxes(tickformat='%')
fig.update_yaxes(title_text='')
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig


total_list = df.groupby("country_code")["Outcome"].mean().tolist()
count_list = df.groupby("country_code")["Outcome"].count().tolist()

country_list = df["country_code"].tolist()
country_set = set(country_list)
country_list = list(country_set)
country_list.sort()
country_list = coco.convert(names=country_list, to='name_short')

new_df = pd.DataFrame(list(zip(country_list, total_list, count_list)), 
               columns =['Country', 'percent', 'count'])


fig = go.Figure(data=go.Choropleth(
    locationmode = "country names",
    locations = new_df['Country'],
    z = new_df['percent'],
    autocolorscale=False,
    reversescale=False,
    colorbar_title = 'Percantage commision',
))

fig.update_layout(
    title_text='Percentage commision by country',
)
fig.update_traces(colorbar_tickformat='%')
fig.show()


ax = sns.pointplot(x = 'Outcome',
                   y = 'Scenario',
                   hue="Continent",
                   ci =10,
                   data = df, 
                   join = False)

ax.set_title('Outcome by continent')
ax.set(xlabel='Percentage commission')
ax.xaxis.set_major_formatter(PercentFormatter(1))

ax.plot()

[]


url = 'https://www.numbeo.com/quality-of-life/rankings_by_country.jsp'
crypto_url = requests.get(url)
crypto_data = pd.read_html(crypto_url.text)
quality=crypto_data[1]

result = pd.merge(new_df, quality, on='Country', how='left')
resultClean = result.drop(columns="Rank").dropna()

fig = px.scatter(resultClean, x="percent", y="Quality of Life Index", size="count", hover_name="Country", 
                 title="Relation between commission and quality of life index",
                labels={"percent": "Percentage commission"},
                range_y=(80,200),
                 range_x=(0.4,0.8))

fig.update_xaxes(tickformat='%')
fig.show()
print('Indice di correlazione lineare fra tutte le nazioni: {value:.2f}'
      .format(value=np.corrcoef(
          resultClean["Quality of Life Index"], 
          resultClean["percent"])[0,1]))
print('Indice di correlazione lineare fra le nazioni con più di 200 osservazioni: {value:.2f}'
      .format(value=np.corrcoef(
          resultClean.loc[resultClean["count"] > 200, "Quality of Life Index"], 
          resultClean.loc[resultClean["count"] > 200, "percent"])[0,1]))

Indice di correlazione lineare fra tutte le nazioni: 0.25
Indice di correlazione lineare fra le nazioni con più di 200 osservazioni: 0.28


url = 'https://en.wikipedia.org/wiki/World_Index_of_Moral_Freedom'
freedreq = requests.get(url)
freed = pd.read_html(freedreq.text)
freed=freed[4]
resultfreed = pd.merge(new_df, freed, on='Country', how='left')
resultfreed = resultfreed.dropna()
fig = px.scatter(resultfreed, x="percent", y="2020 score", size="count", hover_name="Country",
                title="Relation between Commission and World Index of Moral Freedom",
                labels={"percent": "Percentage commission",
                       "2020 score": "World Index of Moral Freedom"},
                range_y=(30,100),
                 range_x=(0.4,0.8)
                )
fig.update_xaxes(tickformat='%')
fig.show()

print('Indice di correlazione lineare fra tutte le nazioni: {value:.2f}'.format(value=np.corrcoef(resultfreed["2020 score"], resultfreed["percent"])[0,1]))
print('Indice di correlazione lineare fra le nazioni con più di 200 osservazioni: {value:.2f}'.format(value=np.corrcoef(resultfreed.loc[resultfreed["count"] > 200, "2020 score"], 
                  resultfreed.loc[resultfreed["count"] > 200, "percent"])[0,1]))

Indice di correlazione lineare fra tutte le nazioni: 0.24
Indice di correlazione lineare fra le nazioni con più di 200 osservazioni: 0.65

	UserIP_Anonymized	Scenario	survey.age	survey.gender	survey.education	survey.political	survey.religious	country_code	Outcome	Continent
0	0002ae2d	Footbridge	19	Women	College	0.56	0.00	GB	0	Europe
1	0002ae2d	Loop	19	Women	College	0.56	0.00	GB	1	Europe
2	0002ae2d	Switch	19	Women	College	0.56	0.00	GB	1	Europe
3	00065336	Footbridge	19	Men	College	0.00	0.68	FR	1	Europe
4	00065336	Loop	19	Men	College	0.00	0.68	FR	0	Europe
...	...	...	...	...	...	...	...	...	...	...
59154	ffef6123	Footbridge	27	Men	College	0.34	0.53	SG	0	Asia
59155	ffef6123	Loop	23	Men	College	1.00	0.00	SG	1	Asia
59156	ffef6123	Loop	27	Men	College	0.34	0.53	SG	1	Asia
59157	ffef6123	Switch	23	Men	College	1.00	0.00	SG	1	Asia
59158	ffef6123	Switch	27	Men	College	0.34	0.53	SG	1	Asia

Gender	Men	Women
Continent
Americas	12348	4892
Asia	5160	1559
Europe	25641	8163
Oc.	1017	379

Education	College	No College
Gender
Men	32345	11821
Women	10747	4246

Trolley problem - Data Science project¶

Samuel Martins e Andrea Chinetti¶

Modifiche rispetto alla presentazione¶

Trolley problem¶

Il dataset¶

Tabelle di contingenza¶

Religiosità e attività politica¶

Come sono stati calcolati questi valori?¶

Religiosità¶

Categorizzazione religiosità¶

La religiosità influenza la scelta?¶

Attività politica¶

Categorizzazione attivita politica¶

La influenza la scelta?¶

Il sesso influenza la scelta?¶

L'educazione influenza la scelta?¶

L'età influenza la scelta?¶

Selta in base alla nazione¶

Scelta per continente¶

Correlazione tra qualita della vita e scelta¶

Correlazione tra World Index of Moral Freedom e scelta¶